In [1]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_csv('./pd_data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])

In [4]:
df.head()

Unnamed: 0,Grade,Name,Gender,Height,Weight,Transfer
0,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Freshman,Changqiang You,Male,166.5,70.0,N
2,Senior,Mei Sun,Male,188.9,89.0,N
3,Sophomore,Xiaojuan Sun,Female,,41.0,N
4,Sophomore,Gaojuan You,Male,174.0,74.0,N


## 缺失信息统计

1. <font color=red size=5>**isna**</font>,缺失信息统计可以使用isna或者isnull两个函数（没有区别），返回true或false的布尔值
2. 可以整个矩阵统计也可以某列或某几列进行统计
3. 结合mean函数可以计算每列缺失的比例
4. notna,any,all函数查看没有，至少一个或者全部缺失

* isna
* isnull

In [5]:
df.isna().head()

Unnamed: 0,Grade,Name,Gender,Height,Weight,Transfer
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,True,False,False
4,False,False,False,False,False,False


In [10]:
#  查看每列缺失值的比例
df.isna().mean() 

Grade       0.000
Name        0.000
Gender      0.000
Height      0.085
Weight      0.055
Transfer    0.060
dtype: float64

In [12]:
df.loc[:,'Height'].isna().mean()

0.085

In [13]:
sub_set = df[['Height', 'Weight', 'Transfer']]

In [15]:
# 查看全部缺失的行
df[sub_set.isna().all(1)]

Unnamed: 0,Grade,Name,Gender,Height,Weight,Transfer
102,Junior,Chengli Zhao,Male,,,


In [17]:
#  查看至少一个缺失的行
df[sub_set.isna().any(1)].head()

Unnamed: 0,Grade,Name,Gender,Height,Weight,Transfer
3,Sophomore,Xiaojuan Sun,Female,,41.0,N
9,Junior,Juan Xu,Female,164.8,,N
12,Senior,Peng You,Female,,48.0,
21,Senior,Xiaopeng Shen,Male,166.0,62.0,
26,Junior,Yanli You,Female,,48.0,N


In [18]:
#  查看没有缺失的行
df[sub_set.notna()].head()

Unnamed: 0,Grade,Name,Gender,Height,Weight,Transfer
0,,,,158.9,46.0,N
1,,,,166.5,70.0,N
2,,,,188.9,89.0,N
3,,,,,41.0,N
4,,,,174.0,74.0,N


## 缺失信息删除

1. <font face="微软雅黑" color=red size=5>**dropna**</font>删除缺失值，默认axis=0,删除行
2. 删除方式参数how, any和all
3. thresh,删除的非缺失值个数阈值，非缺失值没有达到这个数量的相应维度会被删除
4. subset，要操作的列子集
5. inplace，是否处理矩阵本身

In [22]:
df.shape

(200, 6)

In [21]:
res = df.dropna(how = 'any', subset = ['Height', 'Weight'])
res.shape

(174, 6)

In [37]:
res = df.loc[df[['Height', 'Weight']].notna().all(1)]
res.shape

(174, 6)

In [33]:
#  删除超过10个缺失值的列（总共200行）
res = df.dropna(axis = 1, thresh = 190)
res.shape
#res.head()

(200, 3)

In [35]:
res = df.loc[:, ~(df.isna().sum()>10)]
res.shape

(200, 3)

## 缺失信息填充

1. <font color=red size=5>**fillna**</font>进行填充
2. 常用参数**value, method, limit**
3. value 为填充值，可以是标量，也可以是索引到元素的字典映射
4. method 为填充方法，有用**前面的元素填充 ffill** 和用**后面的元素填充 bfill** 两种类型
5. limit 参数表示连续缺失值的最大填充次数

In [40]:
df['Height'].head()

0    158.9
1    166.5
2    188.9
3      NaN
4    174.0
Name: Height, dtype: float64

In [41]:
df['Height'].fillna(df['Height'].mean()).head()

0    158.900000
1    166.500000
2    188.900000
3    163.218033
4    174.000000
Name: Height, dtype: float64

In [47]:
# 通过索引映射填充
df['Height'].fillna({3:100}).head()

0    158.9
1    166.5
2    188.9
3    100.0
4    174.0
Name: Height, dtype: float64

In [42]:
df['Height'].fillna(method='ffill').head()

0    158.9
1    166.5
2    188.9
3    188.9
4    174.0
Name: Height, dtype: float64

In [43]:
df['Height'].fillna(method='bfill').head()

0    158.9
1    166.5
2    188.9
3    174.0
4    174.0
Name: Height, dtype: float64

In [44]:
#  连续出现的缺失，最多填充一次
df['Height'].fillna(method='bfill', limit=1)

0      158.9
1      166.5
2      188.9
3      174.0
4      174.0
       ...  
195    153.9
196    160.9
197    153.9
198    175.3
199    155.7
Name: Height, Length: 200, dtype: float64

## 缺失值类型

1. python 中的缺失值用 **None** 表示，该元素除了等于自己本身之外，与其他任何元素不相等
2. numpy 中利用 **np.nan** 来表示缺失值，该元素除了不和其他任何元素相等之外，和自身的比较结果也返回 False
3. 在时间序列的对象中， pandas 利用 **pd.NaT** 来指代缺失值

In [49]:
None == None

True

In [50]:
np.nan == np.nan

False

* 当进行单个标量运算的时候，除了 np.nan ** 0 和 1 ** np.nan 这两种情况为确定的值之外，所有运算结果全为缺失
* np.nan 在比较操作时一定返回 False ，而 pd.NA 返回 pd.NA

In [52]:
np.nan ** 0

1.0

In [53]:
1 ** np.nan 

1.0

In [54]:
pd.NA > 1

<NA>

In [55]:
np.nan > 1

False

* **diff, pct_change** 这两个函数虽然功能相似，但是对于缺失的处理不同，前者凡是参与缺失计算的部分全部设为了缺失值，而后者缺失值位置会被设为 0% 的变化率

In [56]:
s = pd.Series([2,3,np.nan,4,5])

In [57]:
s.diff()

0    NaN
1    1.0
2    NaN
3    NaN
4    1.0
dtype: float64

In [58]:
s.pct_change()

0         NaN
1    0.500000
2    0.000000
3    0.333333
4    0.250000
dtype: float64