# 概要

## pandas使用这些函数处理缺失值

**检测**
* isnull 和 notnull:检测是否空值，可用用于df和series

**处理**
* dropna: 丢弃、删除缺失值
    * axis: 删除行还是列，{0 or 'index' , 1 or 'columns' },default 0
    * how: 如果等于any则任何空值都删除，如果等于all则所有值都为空才删除
    * inplace: 如果为True则修改当前df,否则返回新的df
* fillna:填充空值
    * value: 用于填充的值，可以是单个值，或者字典（key是列名，value是值）
    * method: 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill
    * axis: 按行还是按列填充，{O or 'index',1 or 'columns'}
    * inplace: 如果为True，则修改当前df,否则返回新的df

# 读取数据

In [1]:
import pandas as pd

In [2]:
ePath = './datas/student_excel.xlsx'
# 跳过前2行
eData = pd.read_excel(ePath,skiprows=2)

In [3]:
eData

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小刚,语文,85.0
9,,,数学,80.0


# 检测空值

In [4]:
eData.isnull()

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [5]:
eData['分数'].isnull()

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9     False
10    False
Name: 分数, dtype: bool

In [6]:
eData['分数'].notnull()

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [7]:
# 筛选没有空分数的所有行
eData.loc[eData['分数'].notnull(),:]

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小刚,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


# 数据处理

## 删除全是空值的列

In [8]:
eData.dropna(axis='columns',how='all',inplace=True)

In [9]:
eData

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


## 删除全是空值的行

In [10]:
eData.dropna(axis='index',how='all',inplace=True)

In [11]:
eData

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


# 将分数为空值填充为0

In [18]:
eData = eData.fillna({'分数':0})
# 等同于
# eData.loc[:,'分数'] = eData['分数'].fillna(0)

# 将姓名的缺失值补充

In [19]:
eData

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


In [20]:
eData.loc[:,'姓名'] = eData['姓名'].fillna(method='ffill')

In [21]:
eData

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


# 将清洗好的excel保存

In [22]:
eData.to_excel('./datas/student_clean.xlsx',index=False)