# 环境测试

In [1]:
print('hi')

hi


# 第三章-统计

## Pandas 数据结构
### Series

In [2]:
# 头文件
import pandas as pd
import numpy as np

#### Series
- `Series` 中的`index`对象可以省略
- `Series` 中的`data` 可以是`Numpy`对象

In [3]:
# Series 对象是一维的
height  = pd.Series(
    [187,190,185,178,185],
    index=['13','14','7','2','9'] #index 是字符串
)
height

13    187
14    190
7     185
2     178
9     185
dtype: int64

- `Series`对象可以用字典创建

In [4]:
height1 = pd.Series(
    {
        '13':187,
        '14':190,
        '7':185,
        '2':178,
        '9':185
    }
)
height1

13    187
14    190
7     185
2     178
9     185
dtype: int64

#### Series 对象的访问

In [5]:
# 通过键值'key'来访问
height['13']

187

In [6]:
#通过'key'的列表查询
height[['13','2','7']]

13    187
2     178
7     185
dtype: int64

In [7]:
# 通过切片器查询
height[1:3]

14    190
7     185
dtype: int64

- 通过`.values`函数可以确定`Series`中的值

In [8]:
#通过布尔值条件查询
height[height.values>=186]

13    187
14    190
dtype: int64

#### 信息修改

In [9]:
height['13']=186
height

13    186
14    190
7     185
2     178
9     185
dtype: int64

In [10]:
# 切片修改
height[1:3]=160
height

13    186
14    160
7     160
2     178
9     185
dtype: int64

#### 增加元素
书本上的`append`在`pandas 2.0`已经被弃用,现在给出两种方式

In [11]:
a = pd.Series([190,187],index=['23','5'])
copy_height = height
copy_height = copy_height._append(a) #注意这里是_append 不是 append!
copy_height

13    186
14    160
7     160
2     178
9     185
23    190
5     187
dtype: int64

In [12]:
# 目前官方推荐的是用 concat
newheight = pd.concat([height,a],ignore_index=False) #合并的东西用列表括起来
newheight

13    186
14    160
7     160
2     178
9     185
23    190
5     187
dtype: int64

#### 删除离队的队员
- `Series` 的 `drop` 不会影响到原来的`Series`

In [13]:
newheight = height.drop(['13','9']) #通过key删除
newheight

14    160
7     160
2     178
dtype: int64

#### 修改索引`index`

In [14]:
height.index = [1,2,3,4,5]
height

1    186
2    160
3    160
4    178
5    185
dtype: int64

- 如果`Series`对象本身的索引是数字,基于位置序号的访问需要用到`.iloc`实现

In [15]:
height = pd.Series(
    [187,190,185,178,185],
    index=[13,14,7,2,9]
)
height

13    187
14    190
7     185
2     178
9     185
dtype: int64

In [16]:
# 通过键值对形式访问
height[[13]]

13    187
dtype: int64

In [17]:
#通过位置访问
height[0] # 这样就会报错

KeyError: 0

In [18]:
height.iloc[0]

187

### DataFrame 对象

```python
import pandas as pd
pd.DataFrame(data,index=[],columns=[])
```

In [19]:
data = [[19,170,68],[20,165,65],[18,175,65]]
students = pd.DataFrame(data,index=[1,2,3],columns=['age','height','weight'])
students

Unnamed: 0,age,height,weight
1,19,170,68
2,20,165,65
3,18,175,65


#### DataFrame 访问

In [20]:
students.loc[1,'age'] #1号学生的年龄,其中1是index中的key

19

In [21]:
# 用key的列表查询
students.loc[[1,3],['height','weight']]

Unnamed: 0,height,weight
1,170,68
3,175,65


In [22]:
#iloc 是通过位序查询的,先是行标,再是列标
students.iloc[[0,2],[0,1]]

Unnamed: 0,age,height
1,19,170
3,18,175


In [23]:
#使用冒号:选中所有的行
students.loc[:,['height','weight']]

Unnamed: 0,height,weight
1,170,68
2,165,65
3,175,65


In [24]:
#查询所有学生的升高和体重
students[['height','weight']]

Unnamed: 0,height,weight
1,170,68
2,165,65
3,175,65


In [25]:
# 位序切片
students.iloc[1:,0:2]

Unnamed: 0,age,height
2,20,165
3,18,175


In [26]:
students[1:3]

Unnamed: 0,age,height,weight
2,20,165,65
3,18,175,65


In [27]:
# 使用筛选条件筛选
students.loc[students['height']>=168,['height','weight']]

Unnamed: 0,height,weight
1,170,68
3,175,65


#### 增加信息

In [28]:
students['expense'] = [1500,1600,1200]
students

Unnamed: 0,age,height,weight,expense
1,19,170,68,1500
2,20,165,65,1600
3,18,175,65,1200


#### 修改信息

In [29]:
# 标量赋值
students['expense'] = 1000
students

Unnamed: 0,age,height,weight,expense
1,19,170,68,1000
2,20,165,65,1000
3,18,175,65,1000


In [30]:
# 使用列表赋值
students.loc[1,:] = [21,180,70,20]
students

Unnamed: 0,age,height,weight,expense
1,21,180,70,20
2,20,165,65,1000
3,18,175,65,1000


In [31]:
students.loc[students['expense']<500,'expense']=1200
students

Unnamed: 0,age,height,weight,expense
1,21,180,70,1200
2,20,165,65,1000
3,18,175,65,1000


#### 删除学生信息

In [32]:
# 删除整行
students.drop(1,axis=0) #不会修改原始表格

Unnamed: 0,age,height,weight,expense
2,20,165,65,1000
3,18,175,65,1000


In [33]:
students.drop('expense',axis=1) # 删除expense 列,其中axis=1表示列

Unnamed: 0,age,height,weight
1,21,180,70
2,20,165,65
3,18,175,65


In [34]:
students.drop([1,2],axis=0) #删除多行

Unnamed: 0,age,height,weight,expense
3,18,175,65,1000


In [35]:
#要直接删除原始对象,可以修改implace参数
students.drop(['age','weight'],axis=1,inplace=True)
students

Unnamed: 0,height,expense
1,180,1200
2,165,1000
3,175,1000


## 数据文件的读写
### 读取CSV/TXT文件
- 读取`csv`
`pandas.read_csv()` 函数是 Pandas 库中用于读取 CSV 文件的函数。它可以将 CSV 文件加载到一个 Pandas 的 DataFrame 对象中，便于进行数据分析和处理。
以下是 `pandas.read_csv()` 函数的一些常用参数的解释：

- `filepath_or_buffer`：CSV 文件的路径或 URL。可以是本地文件路径或远程文件的 URL 地址。
- `sep`：字段分隔符。默认为逗号（','）。可以使用其他字符作为字段的分隔符，如制表符('\t')或分号(';')等。
- `delimiter`：与 `sep` 参数功能相同，用于指定字段分隔符。如果同时指定了 `sep` 和 `delimiter`，则 `delimiter` 参数将被忽略。
- `header`：指定行号或行号列表，作为列名。默认为 `0`，表示第一行作为列名。如果没有列名，可以设置为 `None`。
- `index_col`：用作行索引的列编号或列名。可以是单个列名/编号，或者是由多个列名/编号组成的列表。
- `names`：用于给列指定名称的列表。如果文件中没有列名行，可以使用该参数为列指定名称。
- `skiprows`：跳过指定的行数。可以是单个整数或整数列表，表示要跳过的行的编号。
- `skipfooter`：跳过文件末尾的指定行数。常用于跳过页脚或汇总行。
- `nrows`：要读取的行数。如果只想读取文件的前几行，可以指定该参数。
- `na_values`：用于将特定值识别为空值的列表。可以是单个值、字符串、列表或字典。
- `parse_dates`：将指定的列解析为日期。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `dtype`：指定列的数据类型。可以是字典，将列名映射到数据类型，或者一个数据类型，将该类型应用于所有列。
- `encoding`：指定文件的字符编码方式。常用的编码方式包括 'utf-8'、'latin1'、'gbk' 等。
- `header`：指定要读取的行作为列名的行号。默认为 `0`，即第一行。
- `usecols`：指定要读取的列的列名或列号的列表。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `squeeze`：如果数据只包含一列，并且想要返回一个 Series 而不是 DataFrame，则可以将该参数设置为 `True`。
- `thousands`：指定千位分隔符的字符。常见的千位分隔符包括逗号(','), 句点('.')等。

这些只是 `pandas.read_csv()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。

In [39]:
# 读入文件
student = pd.read_csv('./data/student1.csv',encoding='utf-8') #其中./ 表示当前工作目录
student

Unnamed: 0,序号,性别,年龄,身高,体重,省份,成绩
0,1,male,20,170,70,LiaoNing,71
1,2,male,22,180,71,GuangXi,77
2,3,male,22,180,62,FuJian,57
3,4,male,20,177,72,LiaoNing,79
4,5,male,20,172,74,ShanDong,91


In [40]:
student[-3:] #最后的3条数据

Unnamed: 0,序号,性别,年龄,身高,体重,省份,成绩
2,3,male,22,180,62,FuJian,57
3,4,male,20,177,72,LiaoNing,79
4,5,male,20,172,74,ShanDong,91


In [41]:
# 将序号表示为索引列
student  = pd.read_csv('./data/student1.csv',encoding='utf-8',index_col=0)
student

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77
3,male,22,180,62,FuJian,57
4,male,20,177,72,LiaoNing,79
5,male,20,172,74,ShanDong,91


In [42]:
# 读取txt文件
colNames = ['性别','年龄','身高','体重','省份','成绩']
student = pd.read_csv('./data/student2.txt',sep='\t',index_col=0,header=None,names = colNames)
student

Unnamed: 0,性别,年龄,身高,体重,省份,成绩
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77
3,male,22,180,62,FuJian,57
4,male,20,177,72,LiaoNing,79
5,male,20,172,74,ShanDong,91


In [43]:
student[:2]

Unnamed: 0,性别,年龄,身高,体重,省份,成绩
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77


### 保存csv文件
`pd.to_csv()` 是 Pandas 库中用于将数据保存为 CSV 文件的函数。它可以将一个 Pandas 的 DataFrame 对象保存为 CSV 格式的文件。

以下是 `pd.to_csv()` 函数的一些常用参数的解释：

- `path_or_buf`：CSV 文件的保存路径或文件对象。可以是字符串形式的文件路径，也可以是文件对象，如文件句柄或 StringIO 对象。
- `sep`：字段分隔符。默认为逗号（','）。可以使用其他字符作为字段的分隔符，如制表符('\t')或分号(';')等。
- `na_rep`：用于表示缺失值（NaN）的字符串。默认为空字符串。
- `columns`：指定要保存的列的列表。可以是 DataFrame 的列名列表，或者是要保留的列的索引列表。
- `header`：指定是否包含列名（标题）行。默认为 `True`，即包含列名行。可以设置为 `False`，表示不包含列名行。
- `index`：指定是否包含行索引。默认为 `True`，即包含行索引。可以设置为 `False`，表示不包含行索引。
- `mode`：文件写入模式。默认为 `'w'`，表示覆盖模式（如果文件存在，则覆盖它）。可以设置为 `'a'`，表示追加模式（如果文件存在，则追加到文件末尾）。
- `encoding`：指定文件的字符编码方式。常用的编码方式包括 'utf-8'、'latin1'、'gbk' 等。
- `line_terminator`：指定行终止符的字符串。默认为 `'\n'`。可以设置为其他字符串，如 `'\r\n'`。
- `date_format`：日期类型的格式字符串。用于将日期类型的数据以指定格式保存到 CSV 文件中。
- `decimal`：浮点数的小数点分隔符。默认为 `'.'`。
- `quotechar`：字段引号字符。默认为 `'"'`。
- `quoting`：字段引号的控制方式。默认为 `csv.QUOTE_MINIMAL`，表示仅在有特殊字符时才使用引号。可以设置为其他 `csv` 模块中定义的引号控制常量。
- `compression`：压缩文件的方式。可以是 `'infer'`（根据文件扩展名自动推断压缩类型），或者是支持的压缩类型，如 `'gzip'`、`'zip'` 等。

这些只是 `pd.to_csv()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。

In [45]:
data  = [[19,68,170],[20,65,165],[18,65,175]]
student = pd.DataFrame(data=data,index= [1,2,3],columns=['age','weight','height'])
student.to_csv('./data/out/out.csv',mode='w',header=True,index=False)

### 读取Excel文件
`pd.read_excel()` 函数是 Pandas 库中用于读取 Excel 文件的函数。它可以将 Excel 文件加载到一个 Pandas 的 DataFrame 对象中，方便进行数据分析和处理。

以下是 `pd.read_excel()` 函数的一些常用参数的解释：

- `io`：Excel 文件的路径，可以是本地文件路径或远程文件的 URL 地址。也可以是文件对象，如文件句柄或 BytesIO 对象。
- `sheet_name`：要读取的工作表的名称或索引。默认为 `0`，表示读取第一个工作表。可以是单个工作表名称的字符串，也可以是多个工作表名称的列表。
- `header`：指定行号或行号列表，作为列名。默认为 `0`，表示第一行作为列名。如果没有列名，可以设置为 `None`。
- `index_col`：用作行索引的列编号或列名。可以是单个列名/编号，或者是由多个列名/编号组成的列表。
- `names`：用于给列指定名称的列表。如果文件中没有列名行，可以使用该参数为列指定名称。
- `skiprows`：跳过指定的行数。可以是单个整数或整数列表，表示要跳过的行的编号。
- `skipfooter`：跳过文件末尾的指定行数。常用于跳过页脚或汇总行。
- `nrows`：要读取的行数。如果只想读取文件的前几行，可以指定该参数。
- `na_values`：用于将特定值识别为空值的列表。可以是单个值、字符串、列表或字典。
- `parse_dates`：将指定的列解析为日期。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `date_parser`：用于解析日期列的函数。默认为 `None`，表示使用 Pandas 默认的日期解析器。
- `header`：指定要读取的行作为列名的行号。默认为 `0`，即第一行。
- `usecols`：指定要读取的列的列名或列号的列表。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `converters`：列转换器的字典。可以指定特定列的转换函数，将读取的值转换为指定的格式。
- `dtype`：指定列的数据类型。可以是字典，将列名映射到数据类型，或者一个数据类型，将该类型应用于所有列。
- `engine`：指定要使用的解析引擎。默认为 `None`，表示自动选择引擎。可以是 `'xlrd'`、`'openpyxl'` 等。

这些只是 `pd.read_excel()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。