<h1 style="text-align: center;">Pandas处理缺失值</h1>

pandas使用这些函数处理缺失值

- isnull和notnull：监测是否空值，可用于df和series
- dropna：丢弃、删除缺失值
    - axis：删除行还是列 {0 or `index`, 1 or `columns`}, default 0
    - how：如果等于any则任何值都删除，如果等于all则所有值都为空才删除
    - inplace：如果为True则修改当前df，否则返回新的df
- fillna：填充空值
    - value：用于填充的值，可以是单个值，或者字典（key是列名，value是值）
    - method：等于ffill使用前一个不为空的值填充-forword fill，等于bfill使用后一个不为空的值填充-backword fill ## --这种参数形式已经废弃 直接使用函数obj.ffill()和obj.bfill()
    - axis：按行还是按列填充 {0 or `index`, 1 or `columns`}
    - inplace：如果为True则修改当前df，否则返回新的df

## 实例：特殊excel的读取、清洗、处理

### 步骤1：读取excel的时候，忽略前几个空行

In [1]:
import pandas as pd


file_path = './data/student_excel/student_excel.xlsx'
stdf = pd.read_excel(file_path, skiprows=2)

In [2]:
stdf

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小刚,语文,85.0
9,,,数学,80.0


### 步骤2：检测空值

In [3]:
stdf.isnull()

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [4]:
stdf['分数'].isnull()

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9     False
10    False
Name: 分数, dtype: bool

In [5]:
stdf['分数'].notnull()

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [6]:
# 筛选出没有空分数的所有行

stdf.loc[stdf['分数'].notnull(), :]

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小刚,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


### 步骤3 删除掉全是空值的列

In [11]:
stdf.dropna(axis='columns', how='all', inplace=True)
stdf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


### 步骤4 删除全是空值的行

In [12]:
stdf.dropna(axis='index', how='all', inplace=True)
stdf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


### 步骤5 将分数列为空的填充为0分

In [14]:
stdf.fillna({"分数": 0})

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [15]:
stdf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [16]:
# 等同于
stdf.loc[:, '分数'] = stdf['分数'].fillna(0)

In [17]:
stdf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


### 步骤6 将姓名的缺失值填充
使用前面的有效值填充 用ffill

In [21]:
stdf.loc[:, '姓名'] = stdf['姓名'].ffill()

In [22]:
stdf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


### 步骤7 将清洗好的excel保存

In [23]:
stdf.to_excel('./data/student_excel/student_clean.xlsx', index=False)