In [1]:
import numpy as np
import pandas as pd

## 六、Pandas缺失值处理

有两种缺失值(空值)：

- None
- np.nan

### 1. None

- None是Python自带的，是Python中的空对象。None不能参与到任何计算中。

- object类型的运算要比int类型的运算慢得多

### 2. np.nan（NaN）

- np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。
- 但可以使用np.nan*()函数来计算nan，此时会过滤掉nan。

### 3. pandas中的None与NaN

#### 1) pandas中None与np.nan都视作np.nan

- 创建DataFrame

#### 2) pandas中None与np.nan的操作

- isnull()
- notnull()
- all()
- any()
- dropna():  过滤丢失数据
- fillna():  填充丢失数据

### 1. None

- None是Python自带的，是Python中的空对象。None不能参与到任何计算中。

- object类型的运算要比int类型的运算慢得多 

In [7]:
%timeit np.arange(1e6,dtype=object).sum()

55.6 ms ± 1.59 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [8]:
%timeit np.arange(1e6,dtype=np.int32).sum()

2.05 ms ± 62.4 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 2. np.nan（NaN）

- np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。
- 但可以使用np.nan*()函数来计算nan，此时会过滤掉nan。

In [9]:
type(np.nan)

float

In [14]:
# 使用np.nan*()函数来计算nan，此时会过滤掉nan
n = np.array([1,2,3,np.nan,5,6])
display(n)
display(np.sum(n)) # 因为存在nan，所以结果是nan
display(np.nansum(n)) # 结果是过滤掉nan之后的数据之和

array([ 1.,  2.,  3., nan,  5.,  6.])

np.float64(nan)

np.float64(17.0)

### 3. pandas中的None与NaN

#### 1) pandas中None与np.nan都视作np.nan

- 创建DataFrame

In [22]:
data = np.random.randint(0,100,size=(5,5))
df = pd.DataFrame(data,columns=list('ABCDE'))
df

Unnamed: 0,A,B,C,D,E
0,16,38,92,37,87
1,46,75,22,17,38
2,7,1,15,29,66
3,68,52,76,34,63
4,3,91,1,56,10


- 使用DataFrame行索引与列索引修改DataFrame数据

In [23]:
df.loc[2,'B'] = np.nan
df.loc[3,'C'] = None
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [24]:
df.loc[2,'B'],df.loc[3,'C']

(np.float64(nan), np.float64(nan))

#### 2) pandas中None与np.nan的操作

- isnull()
- notnull()
- all()
- any()
- dropna():  过滤丢失数据
- fillna():  填充丢失数据

(1)判断函数

- isnull()
- notnull()

In [25]:
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [26]:
df.isnull()

Unnamed: 0,A,B,C,D,E
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,False,False,False
3,False,False,True,False,False
4,False,False,False,False,False


In [27]:
df.notnull()

Unnamed: 0,A,B,C,D,E
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,False,True,True
4,True,True,True,True,True


- all(): 必须全部为True才为True， 类似and
- any(): 只要有一个为True即为True,  类似or

In [35]:
# 列维度
# 某列是否存在nan值
display(df.isnull().any())
# 某列是否全部为nan值
display(df.isnull().all())
# 某列是否全部不为nan值
display(df.notnull().all())
# 某列是否存在不为nan的值
display(df.notnull().any())

A    False
B     True
C     True
D    False
E    False
dtype: bool

A    False
B    False
C    False
D    False
E    False
dtype: bool

A     True
B    False
C    False
D     True
E     True
dtype: bool

A    True
B    True
C    True
D    True
E    True
dtype: bool

In [41]:
# 行维度
# 某行是否存在nan值
display(df.isnull().any(axis=1))
# 某行是否全部为nan值
display(df.isnull().all(axis=1))
# 某行是否全部不为nan值
display(df.notnull().all(axis=1))
# 某行是否存在不为nan的值
display(df.notnull().any(axis=1))

0    False
1    False
2     True
3     True
4    False
dtype: bool

0    False
1    False
2    False
3    False
4    False
dtype: bool

0     True
1     True
2    False
3    False
4     True
dtype: bool

0    True
1    True
2    True
3    True
4    True
dtype: bool

- 使用bool值索引过滤数据

In [42]:
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [49]:
# 过滤数据
# 行过滤，过滤掉存在nan值的行数据，保留都不为nan值的行数据
cond = df.isnull().any(axis=1)
display(df[~cond])
# notnull使用
cond2 = df.notnull().all(axis=1)
cond2
display(df[cond2])

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
4,3,91.0,1.0,56,10


Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
4,3,91.0,1.0,56,10


In [52]:
# 过滤列，过滤掉存在nan值的列数据，保留都不为nan值的列数据
cond = df.isnull().any()
display(df.loc[:,~cond])
# notnull使用
cond2 = df.notnull().all(axis=0)
cond2
display(df.loc[:,cond2])

Unnamed: 0,A,D,E
0,16,37,87
1,46,17,38
2,7,29,66
3,68,34,63
4,3,56,10


Unnamed: 0,A,D,E
0,16,37,87
1,46,17,38
2,7,29,66
3,68,34,63
4,3,56,10


（2）过滤函数
- dropna()

可以选择过滤的是行还是列（默认是行）

In [53]:
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [54]:
# 默认删除有空值的行
display(df.dropna())
# 删除有空行的列
display(df.dropna(axis=1))

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
4,3,91.0,1.0,56,10


Unnamed: 0,A,D,E
0,16,37,87
1,46,17,38
2,7,29,66
3,68,34,63
4,3,56,10


也可以选择过滤的方式 how='all'

In [55]:
# 默认是 how='any'，表示行或列任何一个元素为空那么就删除该行或列
display(df.dropna(how='any'))
# 默认是 how='all'，表示行或列所有元素都为空时删除该行或列
display(df.dropna(how='all'))

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
4,3,91.0,1.0,56,10


Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


inplace=True 会修改元数据，默认是False，不会修改原数据，生成新的数据

In [56]:
df2 = df.copy()
df2

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [58]:
# 没有返回值，修改的是原数据
df2.dropna(inplace=True)
df2

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
4,3,91.0,1.0,56,10


(3) 填充函数 Series/DataFrame

- `fillna()`

In [59]:
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [61]:
df2 = df.copy()
df2

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [64]:
df2.loc[1,'B'] = np.nan
df2.loc[2,'C'] = np.nan
df2

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,,22.0,17,38
2,7,,,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [69]:
# 填充空值，limit：限制每列填充次数，inplace：是否修改原数据
df2.fillna(value=100, limit=1,inplace=False)

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,100.0,22.0,17,38
2,7,,100.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


In [73]:
df

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,,15.0,29,66
3,68,52.0,,34,63
4,3,91.0,1.0,56,10


可以选择向前填充或者向后填充

In [81]:
# 向前填充，空值的前一行值填充空值
df.ffill()

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,75.0,15.0,29,66
3,68,52.0,15.0,34,63
4,3,91.0,1.0,56,10


In [82]:
# 向后填充，空值所在列的后一行值填充空值，即将值填充到后面一个空值元素的位置
df.bfill()

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,52.0,15.0,29,66
3,68,52.0,1.0,34,63
4,3,91.0,1.0,56,10


In [79]:
# 先进行向前填充，然后进行向后填充，防止第一行或者最后一行没有前一条数据或者没有后一条数据导致没办法填充还是为nan
df.ffill().bfill()

Unnamed: 0,A,B,C,D,E
0,16,38.0,92.0,37,87
1,46,75.0,22.0,17,38
2,7,75.0,15.0,29,66
3,68,52.0,15.0,34,63
4,3,91.0,1.0,56,10


In [84]:
# 按照列进行填充，向前（左）填充，空值前一列的值进行填充
df.ffill(axis=1)

Unnamed: 0,A,B,C,D,E
0,16.0,38.0,92.0,37.0,87.0
1,46.0,75.0,22.0,17.0,38.0
2,7.0,7.0,15.0,29.0,66.0
3,68.0,52.0,52.0,34.0,63.0
4,3.0,91.0,1.0,56.0,10.0
