# 环境测试

In [1]:
print('hi')

hi


# 第三章-统计

## Pandas 数据结构
### Series

In [2]:
# 头文件
import pandas as pd
import numpy as np

#### Series
- `Series` 中的`index`对象可以省略
- `Series` 中的`data` 可以是`Numpy`对象

In [3]:
# Series 对象是一维的
height  = pd.Series(
    [187,190,185,178,185],
    index=['13','14','7','2','9'] #index 是字符串
)
height

13    187
14    190
7     185
2     178
9     185
dtype: int64

- `Series`对象可以用字典创建

In [4]:
height1 = pd.Series(
    {
        '13':187,
        '14':190,
        '7':185,
        '2':178,
        '9':185
    }
)
height1

13    187
14    190
7     185
2     178
9     185
dtype: int64

#### Series 对象的访问

In [5]:
# 通过键值'key'来访问
height['13']

187

In [6]:
#通过'key'的列表查询
height[['13','2','7']]

13    187
2     178
7     185
dtype: int64

In [7]:
# 通过切片器查询
height[1:3]

14    190
7     185
dtype: int64

- 通过`.values`函数可以确定`Series`中的值

In [8]:
#通过布尔值条件查询
height[height.values>=186]

13    187
14    190
dtype: int64

#### 信息修改

In [9]:
height['13']=186
height

13    186
14    190
7     185
2     178
9     185
dtype: int64

In [10]:
# 切片修改
height[1:3]=160
height

13    186
14    160
7     160
2     178
9     185
dtype: int64

#### 增加元素
书本上的`append`在`pandas 2.0`已经被弃用,现在给出两种方式

In [11]:
a = pd.Series([190,187],index=['23','5'])
copy_height = height
copy_height = copy_height._append(a) #注意这里是_append 不是 append!
copy_height

13    186
14    160
7     160
2     178
9     185
23    190
5     187
dtype: int64

In [12]:
# 目前官方推荐的是用 concat
newheight = pd.concat([height,a],ignore_index=False) #合并的东西用列表括起来
newheight

13    186
14    160
7     160
2     178
9     185
23    190
5     187
dtype: int64

#### 删除离队的队员
- `Series` 的 `drop` 不会影响到原来的`Series`

In [13]:
newheight = height.drop(['13','9']) #通过key删除
newheight

14    160
7     160
2     178
dtype: int64

#### 修改索引`index`

In [14]:
height.index = [1,2,3,4,5]
height

1    186
2    160
3    160
4    178
5    185
dtype: int64

- 如果`Series`对象本身的索引是数字,基于位置序号的访问需要用到`.iloc`实现

In [15]:
height = pd.Series(
    [187,190,185,178,185],
    index=[13,14,7,2,9]
)
height

13    187
14    190
7     185
2     178
9     185
dtype: int64

In [16]:
# 通过键值对形式访问
height[[13]]

13    187
dtype: int64

In [17]:
#通过位置访问
# height[0] # 这样就会报错

In [18]:
height.iloc[0]

187

### DataFrame 对象

```python
import pandas as pd
pd.DataFrame(data,index=[],columns=[])
```

In [19]:
data = [[19,170,68],[20,165,65],[18,175,65]]
students = pd.DataFrame(data,index=[1,2,3],columns=['age','height','weight'])
students

Unnamed: 0,age,height,weight
1,19,170,68
2,20,165,65
3,18,175,65


#### DataFrame 访问

In [20]:
students.loc[1,'age'] #1号学生的年龄,其中1是index中的key

19

In [21]:
# 用key的列表查询
students.loc[[1,3],['height','weight']]

Unnamed: 0,height,weight
1,170,68
3,175,65


In [22]:
#iloc 是通过位序查询的,先是行标,再是列标
students.iloc[[0,2],[0,1]]

Unnamed: 0,age,height
1,19,170
3,18,175


In [23]:
#使用冒号:选中所有的行
students.loc[:,['height','weight']]

Unnamed: 0,height,weight
1,170,68
2,165,65
3,175,65


In [24]:
#查询所有学生的升高和体重
students[['height','weight']]

Unnamed: 0,height,weight
1,170,68
2,165,65
3,175,65


In [25]:
# 位序切片
students.iloc[1:,0:2]

Unnamed: 0,age,height
2,20,165
3,18,175


In [26]:
students[1:3]

Unnamed: 0,age,height,weight
2,20,165,65
3,18,175,65


In [27]:
# 使用筛选条件筛选
students.loc[students['height']>=168,['height','weight']]

Unnamed: 0,height,weight
1,170,68
3,175,65


#### 增加信息

In [28]:
students['expense'] = [1500,1600,1200]
students

Unnamed: 0,age,height,weight,expense
1,19,170,68,1500
2,20,165,65,1600
3,18,175,65,1200


#### 修改信息

In [29]:
# 标量赋值
students['expense'] = 1000
students

Unnamed: 0,age,height,weight,expense
1,19,170,68,1000
2,20,165,65,1000
3,18,175,65,1000


In [30]:
# 使用列表赋值
students.loc[1,:] = [21,180,70,20]
students

Unnamed: 0,age,height,weight,expense
1,21,180,70,20
2,20,165,65,1000
3,18,175,65,1000


In [31]:
students.loc[students['expense']<500,'expense']=1200
students

Unnamed: 0,age,height,weight,expense
1,21,180,70,1200
2,20,165,65,1000
3,18,175,65,1000


#### 删除学生信息

In [32]:
# 删除整行
students.drop(1,axis=0) #不会修改原始表格

Unnamed: 0,age,height,weight,expense
2,20,165,65,1000
3,18,175,65,1000


In [33]:
students.drop('expense',axis=1) # 删除expense 列,其中axis=1表示列

Unnamed: 0,age,height,weight
1,21,180,70
2,20,165,65
3,18,175,65


In [34]:
students.drop([1,2],axis=0) #删除多行

Unnamed: 0,age,height,weight,expense
3,18,175,65,1000


In [35]:
#要直接删除原始对象,可以修改implace参数
students.drop(['age','weight'],axis=1,inplace=True)
students

Unnamed: 0,height,expense
1,180,1200
2,165,1000
3,175,1000


## 数据文件的读写
### 读取CSV/TXT文件
- 读取`csv`
`pandas.read_csv()` 函数是 Pandas 库中用于读取 CSV 文件的函数。它可以将 CSV 文件加载到一个 Pandas 的 DataFrame 对象中，便于进行数据分析和处理。
以下是 `pandas.read_csv()` 函数的一些常用参数的解释：

- `filepath_or_buffer`：CSV 文件的路径或 URL。可以是本地文件路径或远程文件的 URL 地址。
- `sep`：字段分隔符。默认为逗号（','）。可以使用其他字符作为字段的分隔符，如制表符('\t')或分号(';')等。
- `delimiter`：与 `sep` 参数功能相同，用于指定字段分隔符。如果同时指定了 `sep` 和 `delimiter`，则 `delimiter` 参数将被忽略。
- `header`：指定行号或行号列表，作为列名。默认为 `0`，表示第一行作为列名。如果没有列名，可以设置为 `None`。
- `index_col`：用作行索引的列编号或列名。可以是单个列名/编号，或者是由多个列名/编号组成的列表。
- `names`：用于给列指定名称的列表。如果文件中没有列名行，可以使用该参数为列指定名称。
- `skiprows`：跳过指定的行数。可以是单个整数或整数列表，表示要跳过的行的编号。
- `skipfooter`：跳过文件末尾的指定行数。常用于跳过页脚或汇总行。
- `nrows`：要读取的行数。如果只想读取文件的前几行，可以指定该参数。
- `na_values`：用于将特定值识别为空值的列表。可以是单个值、字符串、列表或字典。
- `parse_dates`：将指定的列解析为日期。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `dtype`：指定列的数据类型。可以是字典，将列名映射到数据类型，或者一个数据类型，将该类型应用于所有列。
- `encoding`：指定文件的字符编码方式。常用的编码方式包括 'utf-8'、'latin1'、'gbk' 等。
- `header`：指定要读取的行作为列名的行号。默认为 `0`，即第一行。
- `usecols`：指定要读取的列的列名或列号的列表。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `squeeze`：如果数据只包含一列，并且想要返回一个 Series 而不是 DataFrame，则可以将该参数设置为 `True`。
- `thousands`：指定千位分隔符的字符。常见的千位分隔符包括逗号(','), 句点('.')等。

这些只是 `pandas.read_csv()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。

In [36]:
# 读入文件
student = pd.read_csv('./data/student1.csv',encoding='utf-8') #其中./ 表示当前工作目录
student

Unnamed: 0,序号,性别,年龄,身高,体重,省份,成绩
0,1,male,20,170,70,LiaoNing,71
1,2,male,22,180,71,GuangXi,77
2,3,male,22,180,62,FuJian,57
3,4,male,20,177,72,LiaoNing,79
4,5,male,20,172,74,ShanDong,91


In [37]:
student[-3:] #最后的3条数据

Unnamed: 0,序号,性别,年龄,身高,体重,省份,成绩
2,3,male,22,180,62,FuJian,57
3,4,male,20,177,72,LiaoNing,79
4,5,male,20,172,74,ShanDong,91


In [38]:
# 将序号表示为索引列
student  = pd.read_csv('./data/student1.csv',encoding='utf-8',index_col=0)
student

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77
3,male,22,180,62,FuJian,57
4,male,20,177,72,LiaoNing,79
5,male,20,172,74,ShanDong,91


In [39]:
# 读取txt文件
colNames = ['性别','年龄','身高','体重','省份','成绩']
student = pd.read_csv('./data/student2.txt',sep='\t',index_col=0,header=None,names = colNames)
student

Unnamed: 0,性别,年龄,身高,体重,省份,成绩
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77
3,male,22,180,62,FuJian,57
4,male,20,177,72,LiaoNing,79
5,male,20,172,74,ShanDong,91


In [40]:
student[:2]

Unnamed: 0,性别,年龄,身高,体重,省份,成绩
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77


### 保存csv文件
`pd.to_csv()` 是 Pandas 库中用于将数据保存为 CSV 文件的函数。它可以将一个 Pandas 的 DataFrame 对象保存为 CSV 格式的文件。

以下是 `pd.to_csv()` 函数的一些常用参数的解释：

- `path_or_buf`：CSV 文件的保存路径或文件对象。可以是字符串形式的文件路径，也可以是文件对象，如文件句柄或 StringIO 对象。
- `sep`：字段分隔符。默认为逗号（','）。可以使用其他字符作为字段的分隔符，如制表符('\t')或分号(';')等。
- `na_rep`：用于表示缺失值（NaN）的字符串。默认为空字符串。
- `columns`：指定要保存的列的列表。可以是 DataFrame 的列名列表，或者是要保留的列的索引列表。
- `header`：指定是否包含列名（标题）行。默认为 `True`，即包含列名行。可以设置为 `False`，表示不包含列名行。
- `index`：指定是否包含行索引。默认为 `True`，即包含行索引。可以设置为 `False`，表示不包含行索引。
- `mode`：文件写入模式。默认为 `'w'`，表示覆盖模式（如果文件存在，则覆盖它）。可以设置为 `'a'`，表示追加模式（如果文件存在，则追加到文件末尾）。
- `encoding`：指定文件的字符编码方式。常用的编码方式包括 'utf-8'、'latin1'、'gbk' 等。
- `line_terminator`：指定行终止符的字符串。默认为 `'\n'`。可以设置为其他字符串，如 `'\r\n'`。
- `date_format`：日期类型的格式字符串。用于将日期类型的数据以指定格式保存到 CSV 文件中。
- `decimal`：浮点数的小数点分隔符。默认为 `'.'`。
- `quotechar`：字段引号字符。默认为 `'"'`。
- `quoting`：字段引号的控制方式。默认为 `csv.QUOTE_MINIMAL`，表示仅在有特殊字符时才使用引号。可以设置为其他 `csv` 模块中定义的引号控制常量。
- `compression`：压缩文件的方式。可以是 `'infer'`（根据文件扩展名自动推断压缩类型），或者是支持的压缩类型，如 `'gzip'`、`'zip'` 等。

这些只是 `pd.to_csv()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。

In [41]:
data  = [[19,68,170],[20,65,165],[18,65,175]]
student = pd.DataFrame(data=data,index= [1,2,3],columns=['age','weight','height'])
student.to_csv('./out/out.csv',mode='w',header=True,index=False)

### 读取Excel文件
`pd.read_excel()` 函数是 Pandas 库中用于读取 Excel 文件的函数。它可以将 Excel 文件加载到一个 Pandas 的 DataFrame 对象中，方便进行数据分析和处理。

以下是 `pd.read_excel()` 函数的一些常用参数的解释：

- `io`：Excel 文件的路径，可以是本地文件路径或远程文件的 URL 地址。也可以是文件对象，如文件句柄或 BytesIO 对象。
- `sheet_name`：要读取的工作表的名称或索引。默认为 `0`，表示读取第一个工作表。可以是单个工作表名称的字符串，也可以是多个工作表名称的列表。
- `header`：指定行号或行号列表，作为列名。默认为 `0`，表示第一行作为列名。如果没有列名，可以设置为 `None`。
- `index_col`：用作行索引的列编号或列名。可以是单个列名/编号，或者是由多个列名/编号组成的列表。
- `names`：用于给列指定名称的列表。如果文件中没有列名行，可以使用该参数为列指定名称。
- `skiprows`：跳过指定的行数。可以是单个整数或整数列表，表示要跳过的行的编号。
- `skipfooter`：跳过文件末尾的指定行数。常用于跳过页脚或汇总行。
- `nrows`：要读取的行数。如果只想读取文件的前几行，可以指定该参数。
- `na_values`：用于将特定值识别为空值的列表。可以是单个值、字符串、列表或字典。
- `parse_dates`：将指定的列解析为日期。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `date_parser`：用于解析日期列的函数。默认为 `None`，表示使用 Pandas 默认的日期解析器。
- `header`：指定要读取的行作为列名的行号。默认为 `0`，即第一行。
- `usecols`：指定要读取的列的列名或列号的列表。可以是单个列名/编号，或者由多个列名/编号组成的列表。
- `converters`：列转换器的字典。可以指定特定列的转换函数，将读取的值转换为指定的格式。
- `dtype`：指定列的数据类型。可以是字典，将列名映射到数据类型，或者一个数据类型，将该类型应用于所有列。
- `engine`：指定要使用的解析引擎。默认为 `None`，表示自动选择引擎。可以是 `'xlrd'`、`'openpyxl'` 等。

这些只是 `pd.read_excel()` 函数的一部分参数，还有其他可用的参数，可以根据需要进行查阅和使用。

In [42]:
# 读入文件,跳过前3行
student = pd.read_excel('./data/student3.xlsx',sheet_name='Group1',index_col=0,skiprows=3)
student

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,male,20,170,70,LiaoNing,71
2,male,22,180,71,GuangXi,77
3,male,22,180,62,FuJian,57
4,male,20,177,72,LiaoNing,79
5,male,20,172,74,ShanDong,91


## 数据清洗
### 缺失数据处理
#### 数据滤除
>`pandas.dropna()`是一个用于删除数据框或系列对象中缺失值的函数。下面是`dropna()`函数的常用参数说明：

- **axis**: 指定删除行（轴0）或列（轴1）的方向。默认值为0，表示删除包含缺失值的行。
- **how**: 指定删除行或列的条件。可选值包括：
  - 'any': 如果存在任何缺失值，则删除行或列。这是默认值。
  - 'all': 只有当整行或整列都是缺失值时，才删除行或列。
- **thresh**: 指定在删除行或列之前需要具有的非缺失值的最小数量。如果一行或一列的非缺失值数量低于此阈值，则会被删除。
- **subset**: 指定要考虑的特定列或行的标签。可以传递列或索引标签的列表。
- **inplace**: 指定是否在原始数据上进行就地修改。默认值为False，表示返回一个新的删除缺失值后的数据副本。
- **axis_name**: 指定轴的名称，用于错误消息和警告。默认值为None。


In [43]:
#读入数据
stu = pd.read_excel('./data/studentsInfo.xlsx','Group1',index_col=0)
stu

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
5,male,20.0,172,,ShanDong,91.0,,5,5
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
9,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


In [44]:
# 1. 缺失数据滤除
stu.dropna()

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
9,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


In [45]:
# 保留有效数据大于8的行
stu.dropna(thresh=8)

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
9,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


#### 数据填充
>fillna() 是 pandas 库中的一个函数，用于填充数据框（DataFrame）或数据系列（Series）中的缺失值。该函数的各个参数如下：

1. **value**: 这是填充缺失值的值。它可以是一个常数、字典、数据系列（Series）或数据框（DataFrame）。默认值为 None。当设置为 None 时，fillna() 会根据其他参数的设置来填充缺失值。

2. **method**: 这是用于填充缺失值的方法。它可以取以下几个值：

   - "pad" 或 "ffill": 使用前一个非缺失值进行向前填充。
   - "backfill" 或 "bfill": 使用后一个非缺失值进行向后填充。

3. **axis**: 这是指定填充方向的轴。它可以取以下两个值：

   - 0 或 "index": 沿着索引方向填充。
   - 1 或 "columns": 沿着列方向填充。

4. **inplace**: 这是一个布尔值，用于指定是否在原始数据上进行就地修改。如果设置为 True，则原始数据将被修改；如果设置为 False，则将返回一个填充后的副本。默认值为 False。

5. **limit**: 这是指定连续缺失值填充的最大数量。例如，如果设置为 2，则最多填充连续的两个缺失值。默认值为 None，表示填充所有连续的缺失值。

6. **downcast**: 这是一个可选参数，用于指定填充后的数据类型。它可以取以下几个值：

   - "infer": 自动推断填充后的数据类型。
   - "integer": 将填充后的数据类型设置为整数类型。
   - "signed": 将填充后的数据类型设置为有符号类型。
   - "unsigned": 将填充后的数据类型设置为无符号类型。
   - 其他数据类型，如 "float", "boolean", "datetime" 等。


In [46]:
# 使用字典对象填充
stu.fillna(
    {
        '年龄':20, #标量填充
        '体重':stu['体重'].mean() #平均数
    }
)

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,20.0,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
5,male,20.0,172,63.666667,ShanDong,91.0,,5,5
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
9,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


In [47]:
# 使用method 方法快速填充
stu.fillna(method='ffill')

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,22.0,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
5,male,20.0,172,72.0,ShanDong,91.0,900.0,5,5
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
9,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


### 去除重复数据

In [48]:
stu.drop_duplicates()

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
5,male,20.0,172,,ShanDong,91.0,,5,5
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5


## 数据规整化
### 数据合并
#### 行数据追加
>`pd.concat()` 是 pandas 库中的一个函数，用于沿指定轴将多个数据对象（如数据框或数据系列）进行连接。该函数的各个参数如下：

1. **objs**: 这是要连接的数据对象的序列，可以是数据框（DataFrame）或数据系列（Series）的列表、元组或字典。

2. **axis**: 这是指定连接方向的轴。它可以取以下两个值：

   - 0 或 "index": 在行方向上进行连接，即沿着行的方向堆叠数据。
   - 1 或 "columns": 在列方向上进行连接，即沿着列的方向合并数据。

3. **join**: 这是指定连接方式的参数。它可以取以下几个值：

   - "inner": 执行内连接，只保留在所有输入对象中都存在的索引或列。
   - "outer": 执行外连接，保留所有输入对象中的索引或列，并在缺失的位置填充缺失值。
   - "left": 执行左连接，保留左侧输入对象的索引或列，并在缺失的位置填充缺失值。
   - "right": 执行右连接，保留右侧输入对象的索引或列，并在缺失的位置填充缺失值。

4. **ignore_index**: 这是一个布尔值，用于指定是否忽略连接后的结果的索引。如果设置为 True，则会生成一个新的整数索引；如果设置为 False，则保留原始对象的索引。默认值为 False。

5. **keys**: 这是一个用于创建分层索引的参数，用于在连接前为输入对象添加层级索引。

6. **levels**: 这是一个用于指定层级索引的参数，与 keys 一起使用。

7. **sort**: 这是一个布尔值，用于指定是否对结果进行排序。如果设置为 True，则按照连接轴进行排序；如果设置为 False，则保持原始顺序。默认值为 False。


In [49]:
colStu = ['学号', '姓名', '专业' ]      #列索引
data1 = [ ['202003101','赵成','软件工程'], ['202005114','李斌丽','机械制造'], ['202009111','孙武一','工业设计'] ]      #值列表
stu1 = pd.DataFrame( data1, columns=colStu )  #行索引自动生成
stu1

Unnamed: 0,学号,姓名,专业
0,202003101,赵成,软件工程
1,202005114,李斌丽,机械制造
2,202009111,孙武一,工业设计


In [50]:
data2 = [ ['202003103','王芳','软件工程'], ['202005116','袁一凡','工业设计'] ]
stu2 = pd.DataFrame( data2, columns=colStu )
newStu = pd.concat([stu1,stu2], axis=0)   #axis=0，表示按行进行数据追加
newStu.reset_index(drop=True,inplace=True)  # drop=True删除原索引，以免生成新列'index'
newStu

Unnamed: 0,学号,姓名,专业
0,202003101,赵成,软件工程
1,202005114,李斌丽,机械制造
2,202009111,孙武一,工业设计
3,202003103,王芳,软件工程
4,202005116,袁一凡,工业设计


#### 列数据连接
>`pd.merge()` 是 pandas 库中用于合并数据的函数，它根据一些列的值将两个数据框连接在一起。该函数的各个参数如下：
1. **left**: 这是左侧的数据框或数据系列（Series）。
2. **right**: 这是右侧的数据框或数据系列（Series）。
3. **how**: 这是指定连接方式的参数。它可以取以下几个值：
   - "inner": 执行内连接，只保留在两个数据对象中都存在的行。
   - "outer": 执行外连接，保留所有行，并在缺失的位置填充缺失值。
   - "left": 执行左连接，保留左侧数据对象的所有行，并在右侧数据对象中匹配的行上填充缺失值。
   - "right": 执行右连接，保留右侧数据对象的所有行，并在左侧数据对象中匹配的行上填充缺失值。
4. **on**: 这是用于指定连接列（或多个连接列）的参数。可以是列名（字符串）或列名列表。
5. **left_on**: 这是左侧数据框中用于连接的列名（或多个列名）。
6. **right_on**: 这是右侧数据框中用于连接的列名（或多个列名）。
7. **left_index**: 这是一个布尔值，用于指定是否使用左侧数据框的索引作为连接键。
8. **right_index**: 这是一个布尔值，用于指定是否使用右侧数据框的索引作为连接键。
9. **sort**: 这是一个布尔值，用于指定是否对结果进行排序。如果设置为 True，则按连接键进行排序；如果设置为 False，则保持原始顺序。
10. **suffixes**: 这是一个包含两个字符串的元组或列表，用于解决重叠列名的冲突。默认情况下，如果两个数据框中有相同的列名，将自动添加后缀 `_x` 和 `_y`。

In [51]:
colCard = ['ID','刷卡地点','刷卡时间','消费金额']
#data3 = [ ['202003101','一食堂',17], ['202003101','教育超市',25.2], ['202005113','图书馆'] ]
data3 = [
    ['202003101','一食堂','20180305 1145',14.2],
    ['104574','教育超市','20180307 1730',25.2],
    ['202003103','图书馆','20180311 1823'],
    ['202005116','图书馆','20180312 0832'],
    ['202005114','二食堂','20180312 1708',12.5],
    ['202003101','图书馆','20180314 1345']]
card = pd.DataFrame( data3, columns=colCard )   #创建一卡通数据对象
pd.merge(newStu,card, how='left',left_on='学号',right_on='ID')


Unnamed: 0,学号,姓名,专业,ID,刷卡地点,刷卡时间,消费金额
0,202003101,赵成,软件工程,202003101.0,一食堂,20180305 1145,14.2
1,202003101,赵成,软件工程,202003101.0,图书馆,20180314 1345,
2,202005114,李斌丽,机械制造,202005114.0,二食堂,20180312 1708,12.5
3,202009111,孙武一,工业设计,,,,
4,202003103,王芳,软件工程,202003103.0,图书馆,20180311 1823,
5,202005116,袁一凡,工业设计,202005116.0,图书馆,20180312 0832,


### 数据排序
#### 值排序
>`sort_values()` 是 pandas 库中用于对数据框或数据系列进行排序的函数。该函数的各个参数如下：

1. **by**: 这是用于指定排序依据的列名或列名列表。可以是单个列名的字符串，也可以是多个列名组成的列表。

2. **axis**: 这是指定排序方向的轴。它可以取以下两个值：

   - 0 或 "index": 沿着行的方向进行排序。
   - 1 或 "columns": 沿着列的方向进行排序。

3. **ascending**: 这是一个布尔值或布尔值列表，用于指定排序的升序或降序。如果设置为 True，则按升序排序；如果设置为 False，则按降序排序。当指定多个列名进行排序时，可以提供布尔值列表，以分别指定每列的排序顺序。

4. **inplace**: 这是一个布尔值，用于指定是否在原始数据上进行就地排序。如果设置为 True，则原始数据将被修改；如果设置为 False，则将返回一个排序后的副本。默认值为 False。

5. **kind**: 这是一个字符串，用于指定排序算法的种类。它可以取以下几个值：

   - "quicksort": 快速排序算法。
   - "mergesort": 归并排序算法。
   - "heapsort": 堆排序算法。

6. **na_position**: 这是一个字符串，用于指定缺失值在排序中的位置。它可以取以下两个值：

   - "last": 将缺失值放在排序结果的最后。
   - "first": 将缺失值放在排序结果的最前面。

7. **ignore_index**: 这是一个布尔值，用于指定是否忽略排序后的结果的索引。如果设置为 True，则会生成一个新的整数索引；如果设置为 False，则保留原始对象的索引。默认值为 False。

In [52]:
stu = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group3',index_col=0)
stu.sort_values(by='成绩',ascending=False)

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
30,female,20,168,52,JiangSu,98,700,5,5
21,female,21,165,45,ShangHai,93,1200,5,5
23,male,21,169,80,GanSu,93,900,5,5
22,female,19,167,42,HuBei,89,800,5,5
29,female,20,161,51,GuangXi,80,1250,5,5
28,female,22,160,52,ShanXi,73,800,3,4
25,female,21,162,54,GanSu,68,1300,4,5
27,female,21,162,49,ShanDong,65,950,4,4
26,male,21,181,77,SiChuan,62,800,2,5
24,female,21,160,49,HeBei,59,1100,3,5


In [53]:
# 根据多个参数排序
stu.sort_values(by=['身高','体重'],ascending=False)

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
26,male,21,181,77,SiChuan,62,800,2,5
23,male,21,169,80,GanSu,93,900,5,5
30,female,20,168,52,JiangSu,98,700,5,5
22,female,19,167,42,HuBei,89,800,5,5
21,female,21,165,45,ShangHai,93,1200,5,5
25,female,21,162,54,GanSu,68,1300,4,5
27,female,21,162,49,ShanDong,65,950,4,4
29,female,20,161,51,GuangXi,80,1250,5,5
28,female,22,160,52,ShanXi,73,800,3,4
24,female,21,160,49,HeBei,59,1100,3,5


#### 排名
>`.rank()` 是 pandas 库中用于为数据进行排名的函数。该函数的各个参数如下：

1. **axis**: 这是指定计算排名的轴方向。它可以取以下两个值：

   - 0 或 "index": 沿着列的方向进行排名。
   - 1 或 "columns": 沿着行的方向进行排名。

2. **method**: 这是指定计算排名使用的方法。它可以取以下几个值：

   - "average"（默认值）: 对于相同的值，分配平均排名。
   - "min": 对于相同的值，分配最低排名。
   - "max": 对于相同的值，分配最高排名。
   - "first": 按值出现的顺序分配排名。

3. **numeric_only**: 这是一个布尔值，用于指定是否只对数值列进行排名。如果设置为 True，则只对数值列进行排名；如果设置为 False，则对所有列进行排名。默认值为 True。

4. **na_option**: 这是指定处理缺失值的选项。它可以取以下几个值：

   - "keep"（默认值）: 将缺失值保留为缺失值。
   - "top": 将缺失值视为最大值，并分配最高排名。
   - "bottom": 将缺失值视为最小值，并分配最低排名。

5. **ascending**: 这是一个布尔值，用于指定排名的升序或降序。如果设置为 True，则按升序排名；如果设置为 False，则按降序排名。默认值为 True。

6. **pct**: 这是一个布尔值，用于指定是否返回排名的百分比值。如果设置为 True，则返回排名的百分比值；如果设置为 False，则返回原始排名。默认值为 False。


In [54]:
stu['成绩排名']=stu['成绩'].rank(method='min',ascending=False).astype(int)
stu

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学,成绩排名
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
21,female,21,165,45,ShangHai,93,1200,5,5,2
22,female,19,167,42,HuBei,89,800,5,5,4
23,male,21,169,80,GanSu,93,900,5,5,2
24,female,21,160,49,HeBei,59,1100,3,5,10
25,female,21,162,54,GanSu,68,1300,4,5,7
26,male,21,181,77,SiChuan,62,800,2,5,9
27,female,21,162,49,ShanDong,65,950,4,4,8
28,female,22,160,52,ShanXi,73,800,3,4,6
29,female,20,161,51,GuangXi,80,1250,5,5,5
30,female,20,168,52,JiangSu,98,700,5,5,1


## 统计分析
### 通用函数和运算
DataFrame 对象支持常见的算数运算，包括加法、减法、乘法和除法。当对 DataFrame 对象进行算数运算时，它会根据列和索引对齐数据，并生成一个新的 DataFrame 对象作为结果。下面是一些常见的 DataFrame 算数运算：
1. 加法运算：使用加号 (+) 运算符可以对两个 DataFrame 对象进行逐元素的相加操作。相加时，相同位置的元素会相加并生成一个新的 DataFrame 对象。
```python
result = df1 + df2
```
2. 减法运算：使用减号 (-) 运算符可以对两个 DataFrame 对象进行逐元素的相减操作。相减时，相同位置的元素会相减并生成一个新的 DataFrame 对象。
```python
result = df1 - df2
```
3. 乘法运算：使用乘号 (*) 运算符可以对两个 DataFrame 对象进行逐元素的相乘操作。相乘时，相同位置的元素会相乘并生成一个新的 DataFrame 对象。
```python
result = df1 * df2
```
4. 除法运算：使用除号 (/) 运算符可以对两个 DataFrame 对象进行逐元素的相除操作。相除时，相同位置的元素会相除并生成一个新的 DataFrame 对象。
```python
result = df1 / df2
```
此外，还可以对 DataFrame 对象进行标量运算，即将标量与 DataFrame 的每个元素进行运算。运算符可以是加号 (+)、减号 (-)、乘号 (*) 和除号 (/)。
```python
result = df + scalar
```
其中，`df` 是 DataFrame 对象，`scalar` 是标量。
需要注意的是，在进行算数运算时，两个 DataFrame 对象需要具有相同的列和索引，否则可能会产生 NaN（缺失值）。
这些是 DataFrame 对象的基本算数运算。你可以根据具体的需求使用这些算数运算来操作 DataFrame 数据。

In [55]:
#计算学生的BMI
stu = pd.read_excel('./data/studentsInfo.xlsx','Group3',index_col=0)  #导入excel数据
stu['BMI'] = stu['体重'] / ( np.square(stu['身高']/100) )
stu

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学,BMI
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
21,female,21,165,45,ShangHai,93,1200,5,5,16.528926
22,female,19,167,42,HuBei,89,800,5,5,15.059701
23,male,21,169,80,GanSu,93,900,5,5,28.010224
24,female,21,160,49,HeBei,59,1100,3,5,19.140625
25,female,21,162,54,GanSu,68,1300,4,5,20.576132
26,male,21,181,77,SiChuan,62,800,2,5,23.503556
27,female,21,162,49,ShanDong,65,950,4,4,18.670934
28,female,22,160,52,ShanXi,73,800,3,4,20.3125
29,female,20,161,51,GuangXi,80,1250,5,5,19.675167
30,female,20,168,52,JiangSu,98,700,5,5,18.424036


### 统计函数
在 Pandas 中，有许多常用的统计函数可用于处理 DataFrame 和 Series 对象。以下是几个常见的统计函数的介绍：
1. `mean()`: 计算平均值。对于数值型列，返回该列的平均值；对于日期时间型列，返回该列的平均日期时间。
```python
df.mean()  # 按列计算平均值
```
2. `median()`: 计算中位数。对于数值型列，返回该列的中位数；对于日期时间型列，返回该列的中位日期时间。
```python
df.median()  # 按列计算中位数
```
3. `sum()`: 计算总和。对于数值型列，返回该列的总和；对于字符串型列，返回连接后的字符串总和。
```python
df.sum()  # 按列计算总和
```
4. `min()`: 计算最小值。对于数值型列，返回该列的最小值；对于字符串型列，返回该列中的最小字符串。
```python
df.min()  # 按列计算最小值
```
5. `max()`: 计算最大值。对于数值型列，返回该列的最大值；对于字符串型列，返回该列中的最大字符串。
```python
df.max()  # 按列计算最大值
```
6. `std()`: 计算标准差。对于数值型列，返回该列的标准差。
```python
df.std()  # 按列计算标准差
```
7. `var()`: 计算方差。对于数值型列，返回该列的方差。
```python
df.var()  # 按列计算方差
```
8. `count()`: 计算非缺失值的数量。对于每个列，返回非缺失值的数量。
```python
df.count()  # 按列计算非缺失值的数量
```
9. `describe()`: 提供对数据的常见统计描述。返回每个数值型列的计数、平均值、标准差、最小值、25% 分位数、50% 分位数（中位数）和 75% 分位数，以及总和和数据类型。
```python
df.describe()  # 按列提供统计描述信息
```
10. `var()`: 计算方差。对于数值型列，`var()` 函数返回该列的方差。方差是衡量数据分散程度的统计量。
```python
df.var()  # 按列计算方差
```
11. `std()`: 计算标准差。对于数值型列，`std()` 函数返回该列的标准差。标准差是方差的平方根，表示数据的离散程度。
```python
df.std()  # 按列计算标准差
```
12. `quantile()`: 计算分位数。`quantile()` 函数用于计算给定分位数的值。可以通过指定 `q` 参数来指定分位数，例如 `q=0.25` 表示计算 25% 分位数（第一四分位数）。
```python
df.quantile(q=0.25)  # 按列计算 25% 分位数
```
当进行数据分析时，Pandas 还提供了一些其他有用的统计函数，如 `cov()` 和 `crosstab()`：
13. `cov()`: 计算协方差。`cov()` 函数用于计算两个数值型列之间的协方差。协方差衡量了两个变量之间的线性关系及其方向（正相关或负相关）。
```python
df.cov()  # 计算列间的协方差
```
14. `crosstab()`: 创建交叉表。`crosstab()` 函数用于创建两个或多个因素之间的交叉表。它对于分析分类变量之间的关系非常有用。
```python
pd.crosstab(df['Category'], df['Region'])  # 创建 Category 和 Region 之间的交叉表
```

In [56]:
stu['成绩'].mean() #计算成绩的平均值

78.0

In [57]:
stu['月生活费'].quantile([0.25,0.75])

0.25     800.0
0.75    1175.0
Name: 月生活费, dtype: float64

In [58]:
#使用describe 计算多个描述统计值
stu[['身高','体重','成绩']].describe()

Unnamed: 0,身高,体重,成绩
count,10.0,10.0,10.0
mean,165.5,55.1,78.0
std,6.381397,12.8448,14.476034
min,160.0,42.0,59.0
25%,161.25,49.0,65.75
50%,163.5,51.5,76.5
75%,167.75,53.5,92.0
max,181.0,80.0,98.0


>`groupby()` 是 Pandas 中一个强大的函数，用于按照指定的列或多个列对数据进行分组。它可以与其他函数（如聚合函数）结合使用，以便对每个组进行计算和分析。下面是 `groupby()` 的常见参数和用法：

```python
df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True)
```

以下是参数的解释：

- `by`: 指定用于分组的列名、列名列表或其他可调用对象。可以使用单个列名、多个列名组成的列表，或者一个函数/方法来返回分组依据。例如，`df.groupby('Category')` 将按照 'Category' 列的值进行分组。
- `axis`: 指定分组的轴方向。默认为 0，表示按行进行分组。可以设置为 1，表示按列进行分组。
- `level`: 如果数据有多层索引，则可以指定 level 来选择特定的索引层级进行分组。
- `as_index`: 控制分组后的索引设置。默认为 True，表示使用分组的列作为索引。设置为 False，将不会将分组的列作为索引，而是生成一个新的整数索引。
- `sort`: 控制分组后的排序。默认为 True，表示按分组列的字典顺序排序。设置为 False，可以提高性能。
- `group_keys`: 控制是否在结果中包含分组键。默认为 True，表示在结果中包含分组键。
- `squeeze`: 当分组后的结果只有一个列时，是否返回一个 Series 对象。默认为 False，返回一个 DataFrame 对象。
- `observed`: 对于分类类型的列，控制是否忽略未观察到的分类级别。默认为 False，表示包括所有可能的分类级别。
- `dropna`: 控制是否排除包含缺失值的组。默认为 True，表示排除含有缺失值的组。

使用 `groupby()` 后，可以对分组对象应用各种聚合函数（如 `sum()`、`mean()`、`count()` 等）来计算每个组的统计信息。例如：
```python
df.groupby('Category').mean()  # 计算每个 Category 分组的平均值
df.groupby(['Category', 'Region']).sum()  # 计算每个 Category 和 Region 组合的总和
```

>`groupby()` 是 Pandas 中进行分组和聚合操作的重要工具，可以根据不同的需求灵活地进行数据分析和汇总。根据实际的数据集和分析目标，合理使用 `groupby()` 的参数和相应的聚合函数，可以得到所需的分组结果。

In [59]:
grouped = stu.groupby(['性别','年龄'])
grouped['体重'].mean()

性别      年龄
female  19    42.00
        20    51.50
        21    49.25
        22    52.00
male    21    78.50
Name: 体重, dtype: float64

>`aggregate()` 是 Pandas 中的一个函数，用于对分组后的数据应用多个聚合函数。它允许你在一个操作中同时应用多个聚合函数，并返回每个聚合函数的结果。

`aggregate()` 函数的常用语法如下：

```python
df.groupby(by=grouping_columns).aggregate(functions)
```

其中：
- `by`：指定用于分组的列名、列名列表或其他可调用对象。
- `functions`：指定要应用的聚合函数。可以是单个聚合函数、多个聚合函数组成的列表，或者字典形式的聚合函数映射。

以下是 `aggregate()` 函数的使用示例：

```python
df.groupby('Category').aggregate(['mean', 'sum', 'max'])  # 对每个 Category 分组应用多个聚合函数
df.groupby('Category').aggregate({'Price': 'mean', 'Quantity': 'sum'})  # 对每个 Category 分组应用不同的聚合函数
```

在第一个示例中，我们对每个 Category 分组应用了三个聚合函数：`mean`、`sum` 和 `max`。结果将返回每个聚合函数的结果列。

在第二个示例中，我们对每个 Category 分组应用了两个不同的聚合函数：`mean` 和 `sum`。结果将返回两个列，分别是 Price 列的均值和 Quantity 列的总和。

>使用 `aggregate()` 函数，你可以根据不同的聚合需求一次性应用多个聚合函数，从而更灵活地分析和摘要数据。请根据你的具体需求选择适当的聚合函数，并根据情况组合使用它们。

In [60]:
grouped.aggregate(
    {
        '身高':np.mean,
        '月生活费':np.max,
    }
)
# 在聚合操作中，通过传递一个字典给aggregate函数，指定了两个列的聚合方式：
#
# '身高': np.mean表示对"身高"列进行求平均值的操作。
# '月生活费': np.max表示对"月生活费"列进行求最大值的操作。
# 通过执行这段代码，你将获得一个新的数据框，其中包含了按照性别和年龄分组后的平均身高和最大月生活费的结果。

Unnamed: 0_level_0,Unnamed: 1_level_0,身高,月生活费
性别,年龄,Unnamed: 2_level_1,Unnamed: 3_level_1
female,19,167.0,800
female,20,164.5,1250
female,21,162.25,1300
female,22,160.0,800
male,21,175.0,900


In [61]:
grouped['体重'].aggregate([np.mean,np.max])
#按照之前的性别和年龄分组后，对体重列进行的平均值和最大值的结果。

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,amax
性别,年龄,Unnamed: 2_level_1,Unnamed: 3_level_1
female,19,42.0,42
female,20,51.5,52
female,21,49.25,54
female,22,52.0,52
male,21,78.5,80


> `crosstab`是Pandas库中的一个函数，用于计算交叉表（也称为列联表）。它可以根据指定的行和列变量，对数据进行分组并计算每个组合的频数或统计量。以下是`crosstab`函数的各个参数的意义：

1. **index**: 这是一个必需的参数，指定用于分组的行变量。可以是单个列名，也可以是一个列名的列表或数组，用于按多个行变量进行分组。

2. **columns**: 这也是一个必需的参数，指定用于分组的列变量。可以是单个列名，也可以是一个列名的列表或数组，用于按多个列变量进行分组。

3. **values**: 可选参数，用于指定要计算的统计值。可以是单个列名，也可以是一个列名的列表或数组。默认情况下，将计算每个组合的频数。

4. **aggfunc**: 可选参数，用于指定要应用的聚合函数。可以是内置聚合函数（例如`sum`、`mean`、`count`等），也可以是自定义的聚合函数。默认情况下，使用`count`函数计算频数。

5. **rownames**: 可选参数，用于指定生成交叉表的行标签名称。可以是单个名称或名称的列表。

6. **colnames**: 可选参数，用于指定生成交叉表的列标签名称。可以是单个名称或名称的列表。

7. **margins**: 可选参数，用于指定是否在交叉表中包含边际总计。默认为False，不包含边际总计。如果设置为True，将在交叉表中添加行和列的边际总计。

> `crosstab`函数会根据指定的行和列变量对数据进行分组，并计算每个组合的频数或统计值。它可以帮助我们了解不同变量之间的关系和分布情况，特别适用于分析分类变量之间的关联性。

In [62]:
pd.crosstab(stu['性别'],stu['月生活费'])

月生活费,700,800,900,950,1100,1200,1250,1300
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,1,2,0,1,1,1,1,1
male,0,1,1,0,0,0,0,0


## 相关性分析
相关性系数 r 是用于衡量两个变量之间线性关系强度的统计量。它的取值范围是 -1 到 1，其中 -1 表示完全负相关，0 表示无相关性，1 表示完全正相关。

相关性系数 r 是通过计算变量之间的协方差和标准差来得出的。具体而言，计算公式如下：

$r\,\,=\,\,\frac{\sum_{}^{}{\left( X_i-\overline{X} \right) \left( Y_i-\overline{Y} \right)}}{\sqrt{\sum_{}^{}{\left( X_i-\overline{X} \right) ^2}\times \sum_{}^{}{\left( Y_i-\overline{Y} \right) ^2}}}$

相关性系数 r 的解释如下：
- 当 r 接近 1 时，表示两个变量之间存在强正相关关系。即，当一个变量增加时，另一个变量也会增加，并且变化趋势一致。
- 当 r 接近 -1 时，表示两个变量之间存在强负相关关系。即，当一个变量增加时，另一个变量会减少，并且变化趋势相反。
- 当 r 接近 0 时，表示两个变量之间几乎没有线性关系。即，一个变量的变化与另一个变量的变化之间没有明显的关联。

需要注意的是，相关性系数 r 只能衡量线性关系，不能判断其他类型的关系，如非线性关系或因果关系。此外，相关性系数只能反映两个变量之间的关系，不能用于推断因果关系或预测未来的变化。

pandas 是一个功能强大的数据处理和分析库，它提供了许多用于数据操作和分析的函数和工具。其中的 `corr()` 函数是用于计算数据框（DataFrame）或数据系列（Series）中变量之间的相关性系数的方法。

`corr()` 函数的语法如下：

在数据框上使用：
```python
DataFrame.corr(method='pearson', min_periods=1)
```

在数据系列上使用：
```python
Series1.corr(Series2, method='pearson')
```

参数说明：
- `method`：可选参数，用于指定计算相关性的方法。常用的方法包括：
  - `'pearson'`：皮尔逊相关系数，用于衡量线性关系，默认值。
  - `'kendall'`：肯德尔相关系数，用于衡量有序关系。
  - `'spearman'`：斯皮尔曼相关系数，用于衡量有序关系。
- `min_periods`：可选参数，在计算相关性时要求的最小观测值数量。默认值为 1。

`corr()` 函数返回一个相关性矩阵，其中包含了变量之间的相关性系数。相关性矩阵是一个对称矩阵，对角线上的元素为 1，表示每个变量与自身的相关性。

以下是一个示例，展示如何使用 `corr()` 函数计算数据框中变量之间的相关性：

```python
import pandas as pd

# 创建一个示例数据框
data = {
  'A': [1, 2, 3, 4, 5],
  'B': [5, 4, 3, 2, 1],
  'C': [1, 2, 1, 2, 1]
}

df = pd.DataFrame(data)

# 计算相关性矩阵
correlation_matrix = df.corr()

print(correlation_matrix)
```

运行上述代码，将输出相关性矩阵：

```
     A    B    C
A  1.0 -1.0  0.0
B -1.0  1.0  0.0
C  0.0  0.0  1.0
```

在这个示例中，变量 A 和 B 之间的相关性系数为 -1，表示它们之间存在强负相关关系。变量 A 和 C 之间的相关性系数为 0，表示它们之间几乎没有线性关系。变量 B 和 C 之间的相关性系数也为 0，表示它们之间几乎没有线性关系。

In [63]:
stu['身高'].corr(stu['体重']) #比较列的相关性

0.6757399098527682

In [64]:
# 多列数据的相关性分析
stu[['身高','体重','成绩']].corr()

Unnamed: 0,身高,体重,成绩
身高,1.0,0.67574,0.080587
体重,0.67574,1.0,-0.072305
成绩,0.080587,-0.072305,1.0


## 案例 问卷调查反馈表分析
- 目标:男生女生对数据科学课程兴趣程度和成绩变化趋势
- 学生来自的省份以及性别与升级是否存在关系
-  学生升高体重的达标情况

In [66]:
# 读入数据
df1 = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group1',index_col=0)
df2 = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group2',index_col=0)
df3 = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group3',index_col=0)
df4 = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group4',index_col=0)
df5 = pd.read_excel('./data/studentsInfo.xlsx',sheet_name='Group5',index_col=0)
# 按行拼接数据
stu = pd.concat([df1,df2,df3,df4,df5],axis=0)
print('Data Size:', stu.shape)

Data Size: (50, 9)


In [67]:
# 去除完全重复以及缺失数据较多(个数>=2)的行
stu.drop_duplicates(inplace=True)
stu.dropna(thresh=8,inplace=True)
stu

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5
1,female,21.0,162,49.0,YunNan,89.0,800.0,5,5
2,female,20.0,164,53.0,GuiZhou,79.0,1000.0,4,5


In [71]:
# 检测是否还有缺失数据:
print('NaN Columns :\n ',stu.isnull().any())

NaN Columns :
  性别      False
年龄       True
身高      False
体重      False
省份      False
成绩       True
月生活费    False
课程兴趣    False
案例教学    False
dtype: bool


In [73]:
# 填充缺失值,年龄用20填充,成绩用平均值填充
stu.fillna(
    {
        '年龄':20,
        '成绩':stu['成绩'].mean()
    },
    inplace=True
)
stu

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,male,20.0,170,70.0,LiaoNing,76.326087,800.0,5,4
2,male,22.0,180,71.0,GuangXi,77.0,1300.0,3,4
3,male,20.0,180,62.0,FuJian,57.0,1000.0,2,4
4,male,20.0,177,72.0,LiaoNing,79.0,900.0,4,4
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
7,female,21.0,166,53.0,LiaoNing,80.0,1200.0,4,5
8,female,20.0,162,47.0,AnHui,78.0,1000.0,4,4
10,male,19.0,169,76.0,HeiLongJiang,88.0,1100.0,5,5
1,female,21.0,162,49.0,YunNan,89.0,800.0,5,5
2,female,20.0,164,53.0,GuiZhou,79.0,1000.0,4,5


In [74]:
# 将学生数据按照成绩排序,统计成绩优秀(>=90分)和不及格(<60分)分别计算优秀和不及格的学生的兴趣程度,以及全体学生的平均值和兴趣程度

# 按照成绩排序
stu_grade = stu.sort_values(by='成绩',ascending=False)
stu_grade

Unnamed: 0_level_0,性别,年龄,身高,体重,省份,成绩,月生活费,课程兴趣,案例教学
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
30,female,20.0,168,52.0,JiangSu,98.0,700.0,5,5
35,male,20.0,171,66.0,ShangHai,97.0,650.0,5,5
37,male,21.0,177,68.0,XinJiang,95.0,500.0,5,5
21,female,21.0,165,45.0,ShangHai,93.0,1200.0,5,5
23,male,21.0,169,80.0,GanSu,93.0,900.0,5,5
43,female,21.0,161,55.0,XiZang,93.0,1250.0,5,5
31,female,21.0,162,45.0,JiLin,92.0,1400.0,5,5
6,male,20.0,179,75.0,YunNan,92.0,950.0,5,5
41,male,19.0,174,63.0,HeiLongJiang,91.0,600.0,5,5
42,male,21.0,177,73.0,SiChuan,89.0,700.0,4,5


In [75]:
excelent = (stu_grade['成绩']>=90).sum()
fail = (stu_grade['成绩']<60).sum()
print(f'Excellent : {excelent}  , Fail : {fail}')

Excellent : 9  , Fail : 4


In [85]:
ex_mean  =stu_grade[0:excelent][['成绩','课程兴趣']].mean()
total_mean = stu_grade[['成绩','课程兴趣']].mean()
fail_mean = stu_grade[-fail:][['成绩','课程兴趣']].mean()
print('ex_mean:\n', ex_mean,'\n','total_mean:\n',total_mean,'\n','fail_mean:\n',fail_mean)
# 计算相关系数
print('相关系数:\n',stu_grade[['成绩','课程兴趣']].corr())

ex_mean:
 成绩      93.777778
课程兴趣     5.000000
dtype: float64 
 total_mean:
 成绩      76.326087
课程兴趣     4.208333
dtype: float64 
 fail_mean:
 成绩      46.0
课程兴趣     3.0
dtype: float64
相关系数:
             成绩      课程兴趣
成绩    1.000000  0.491846
课程兴趣  0.491846  1.000000


In [97]:
# 分析性别,省份,成绩的相关性,由于性别和省份数据均为字符型数据,无法用corr计算,可以通过分组计算均值
sex_grouped = stu.groupby(['性别'])
sex_counts = sex_grouped.count() #计算行数
# 分组计算平均值
sex_mean = sex_grouped.aggregate(
    {
        '成绩':np.mean
    }
)
print(sex_counts) # 表示男生在这些列中出现几行,女生在这些列中出现几行
print(sex_mean)# 结果会说名男生成绩更好一点
# summary_stats = sex_grouped['成绩'].agg(['mean', 'median', 'min', 'max'])
# print(summary_stats)

        年龄  身高  体重  省份  成绩  月生活费  课程兴趣  案例教学
性别                                          
female  24  24  24  24  24    24    24    24
male    24  24  24  24  24    24    24    24
               成绩
性别               
female  73.666667
male    78.985507
             mean  median   min   max
性别                                   
female  73.666667    77.0  12.0  98.0
male    78.985507    78.0  57.0  97.0


In [99]:
# 计算BMI
stu['BMI'] = stu['体重']/(np.square(stu['身高']/100))
#计算四分位数
print(stu['BMI'].quantile([0.25,0.5,0.75]))

0.25    18.609210
0.50    20.450285
0.75    23.431521
Name: BMI, dtype: float64
