# Pandas对缺失值的处理

### Pandas使用这些函数处理缺失值：
  #### 1、isnull和notnull：检测是否是空值，可用于df和series
  #### 2、dropna：丢弃、删除缺失值
   ####   （1）axis：删除行还是列，{0 or 'index'，1 or 'columns'}，default 0
   ####   （2）how：如果等于any则任何值为空都删除，如果等于all则所有值都为空才删除
   ####   （3）inplace：如果为True则修改当前df，否则返回新的df
  #### 3、fillna：填充空值
   ####   （1）value：用于填充的值，可以是单个值，或者字典（key是列名，value是值）
   ####   （2）method：等于ffill使用前一个不为空的值填充forword fill；等于bfill使用后一个不为空的值填充backword fill(怎么用：obj.ffill或obj.bfill)
   ####   （3）axis：按行还是列填充，{0 or 'index'，1 or 'columns'}
   ####   （4）inplace：如果为True则修改当前df，否则返回新的df

In [1]:
import pandas as pd

### 实列：特殊Excel的读取、清洗、处理

#### 步骤1：读取excel的时候，忽略前几个空行

In [2]:
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx",skiprows=2)

In [3]:
studf

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小刚,语文,85.0
9,,,数学,80.0


#### 步骤2：检测空值

In [4]:
studf.isnull() # 是空值则为True
# 这是用于df，整个DataFrame

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [5]:
# 这是用于单个列Series
studf["分数"].isnull()

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9     False
10    False
Name: 分数, dtype: bool

In [6]:
studf["分数"].notnull() # 不是空值则为True，和isnull相反

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [7]:
# 应用：筛选没有空分数的所有行
studf.loc[studf["分数"].notnull(),:]

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小刚,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


#### 步骤3：删除掉全是空值的列

In [8]:
studf.dropna(axis="columns",how='all',inplace=True)

In [9]:
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


#### 步骤4：删除掉全是空值的行

In [10]:
studf.dropna(axis="index",how='all',inplace=True)

In [11]:
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


#### 步骤5：将分数列为空的填充为0分

In [12]:
studf.fillna({"分数":0})

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [13]:
# 等同于
studf.loc[:,'分数'] = studf['分数'].fillna(0)
# 用studf.loc[:,'分数']选出所有行和分数这一列，让它等于studf['分数'].fillna(0),让分数这一列单独进行空值填充

In [14]:
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


#### 步骤6：将姓名的缺失值进行填充

In [15]:
# 使用前面的有效值填充，用ffill：forward fill
studf.loc[:,'姓名'] = studf['姓名'].ffill()
# 注意：Series.fillna中使用method参数已弃用，未来版本会报错，可以改用obj.ffill或obj.bfill

In [16]:
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


#### 步骤7：将清洗好的excel保存

In [17]:
# studf.to_excel保存清洗好的excel；index=False把DataFrame里面左边的index列删除了，不会出现在清洗好的DataFrame中。
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx",index=False)