# pandas对缺失值的处理

pandas 处理缺失值的函数:
- isnull 和 notnull: 检测是否是空值, 可用于DataFrame和series
- dropna: 丢弃、删除缺失值
    参数:
    + axis: 删除行或是列(axis=0 或 axis=index 删除行, axis=1 或 axis=columns 删除列,默认为axis=0)
    + how: 如果等于any则任何值为空都删除, 如果等于all则所有值都为空才删除
    + inplace: 如果为True则修改当前DataFrame, 否则返回新的DataFrame
- fillna: 填充空值
    参数:
    + value: 用于填充的值, 可以是单个值, 或字典(key作为列名, value为值)
    + method: 等于ffill使用数据的前一个不为空的值填充数据; 等于bfill使用数据的后一个不为空的值填充数据
    + axis: 按行填充还是按列(axis=0 或者 axis=index 删除行, axis=1 或 axis=columns删除列,默认为axis=0)
    + inplace: 如果为True则修改当前DataFrame, 否则返回新的DataFrame

In [1]:
import pandas as pd

## 实例: 特殊excel的读取、清洗、处理

### 步骤1: 读取excel的时候, 忽略前级个空行

In [2]:
# skiprows参数为读取数据时用于指定需要跳过的行数。它可以是一个整数，也可以是一个列表或数组，其中包含需要跳过的行的编号
'''
读取 CSV 文件时跳过前两行
df = pd.read_csv('filename.csv', skiprows=2)
读取 CSV 文件时跳过第一行和第三行
df = pd.read_csv('filename.csv', skiprows=[0, 2])
读取 CSV 文件时跳过前 5 行
df = pd.read_csv('filename.csv', skiprows=lambda x: x < 5)
'''
studf = pd.read_excel('./data/缺失值处理/pandas缺失值处理源数据.xlsx', skiprows=2)
studf

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小钢,语文,85.0
9,,,数学,80.0


### 步骤2: 检测空值

In [3]:
studf.isnull()

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [4]:
studf['分数'].isnull()

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9     False
10    False
Name: 分数, dtype: bool

In [5]:
studf['分数'].notnull()

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [6]:
# 筛选没有空分数的所有行
studf.loc[studf['分数'].notnull(), :]

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小钢,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


### 步骤3: 删除掉全是空值的列

In [7]:
studf.dropna(axis='columns', how='all', inplace=True)
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小钢,语文,85.0
9,,数学,80.0


### 步骤4: 删除全是空值的行

In [8]:
studf.dropna(axis='index', how='all', inplace=True)
studf

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小钢,语文,85.0
9,,数学,80.0
10,,英语,90.0


### 步骤5: 将分数列为空的填充为0

In [9]:
studf_copy1 = studf.copy(True)
studf_copy1.loc[:, '分数'] = studf_copy1['分数'].fillna(0)
studf_copy1

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小钢,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [10]:
studf_copy2 = studf.copy(True)
studf_copy2.fillna({'分数':0}, inplace=True)
studf_copy2

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小钢,语文,85.0
9,,数学,80.0
10,,英语,90.0


### 步骤6: 将姓名的缺失值填充
使用前面的有效值填充

In [11]:
studf_copy1['姓名'].fillna(method='ffill', inplace=True)
studf_copy1

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小钢,语文,85.0
9,小钢,数学,80.0
10,小钢,英语,90.0


In [12]:
studf_copy2.loc[:, '姓名'] = studf_copy2.fillna(method='ffill')
studf_copy2

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小钢,语文,85.0
9,小钢,数学,80.0
10,小钢,英语,90.0


### 步骤7. 保存数据

In [21]:
# studf_copy2.to_excel('./data/缺失值处理/pandas缺失值处理源数据_save.xlsx', index=False)
studf_copy2

array(['小明', '小王', '小钢'], dtype=object)