DataFrame结构支持使用dropna()方法丢弃带有缺失值的数据行，或者使用fillna()方法对缺失值进行批量替换，也可以使用loc()、iloc()方法直接对符合条件的数据进行替换。

dropna()方法的语法为：

dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

其中，参数how='any'时表示只要某行包含缺失值就丢弃，how='all'时表示某行全部为缺失值才丢弃；参数thresh用来指定保留包含几个非缺失值数据的行；参数subset用来指定在判断缺失值时只考虑哪些列。

表达式:
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

inplace参数的取值：True、False

True：直接修改原对象

False：创建一个副本，修改副本，原对象不变（缺省默认）

method参数的取值 ： {‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值

backfill/bfill：用下一个非缺失值填充该缺失值

None：指定一个值去替换缺失值（缺省默认这种方式）

limit参数：限制填充个数

axis参数：修改填充方向

downcast ： dict，默认为None
如果可能的话，可以使用item-> dtype dict of downcast，或者尝试向下转换为适当的相等类型的字符串'infer'（如果可能的话，例如float64到int64）

In [1]:
#导包
import pandas as pd
import numpy as np
from numpy import nan as NaN


In [2]:
df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
df1


Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,,2.0
2,,,
3,8.0,8.0,


# 不指定任何参数

## 用常数填充

In [9]:
#一、不指定method参数
 
#1.用常数填充
print (df1.fillna(100))
print ("-----------------------")
print (df1)


       0      1      2
0    1.0    2.0    3.0
1  100.0  100.0    2.0
2  100.0  100.0  100.0
3    8.0    8.0  100.0
-----------------------
     0    1    2
0  1.0  2.0  3.0
1  NaN  NaN  2.0
2  NaN  NaN  NaN
3  8.0  8.0  NaN


## 用字典填充

In [12]:
#2.用字典填充
df2=df1.fillna({0:10,1:20,2:30})
print(df2)
print ("-----------------------")
print (df1)

      0     1     2
0   1.0   2.0   3.0
1  10.0  20.0   2.0
2  10.0  20.0  30.0
3   8.0   8.0  30.0
-----------------------
     0    1    2
0  1.0  2.0  3.0
1  NaN  NaN  2.0
2  NaN  NaN  NaN
3  8.0  8.0  NaN


# 指定Inplace参数

In [13]:
#二、指定inplace参数
 
print (df1.fillna(0,inplace=True))
print ("-------------------------")
print (df1)


None
-------------------------
     0    1    2
0  1.0  2.0  3.0
1  0.0  0.0  2.0
2  0.0  0.0  0.0
3  8.0  8.0  0.0


# 指定method参数

## method = 'ffill'/'pad'：用前一个非缺失值去填充该缺失值

In [21]:
#三、指定method参数
 
df2 = pd.DataFrame(np.random.randint(0,10,(5,5)))
df2.iloc[1:4,3] = NaN
df2.iloc[2:4,4] = NaN
df2


Unnamed: 0,0,1,2,3,4
0,6,6,7,7.0,1.0
1,8,6,9,,3.0
2,6,0,7,,
3,3,6,2,,
4,5,5,8,3.0,8.0


In [22]:
#1.method = 'ffill'/'pad'：用前一个非缺失值去填充该缺失值
 
df2.fillna(method='ffill')


Unnamed: 0,0,1,2,3,4
0,6,6,7,7.0,1.0
1,8,6,9,7.0,3.0
2,6,0,7,7.0,3.0
3,3,6,2,7.0,3.0
4,5,5,8,3.0,8.0


## method = 'bflii'/'backfill'：用下一个非缺失值填充该缺失值

In [23]:
#2.method = 'bflii'/'backfill'：用下一个非缺失值填充该缺失值
 
df2.fillna(method='bfill')


Unnamed: 0,0,1,2,3,4
0,6,6,7,7.0,1.0
1,8,6,9,3.0,3.0
2,6,0,7,3.0,8.0
3,3,6,2,3.0,8.0
4,5,5,8,3.0,8.0


# 指定limit参数

In [24]:
#四、指定limit参数
 
#用下一个非缺失值填充该缺失值
#只填充2个
 
df2.fillna(method='bfill', limit=2)


Unnamed: 0,0,1,2,3,4
0,6,6,7,7.0,1.0
1,8,6,9,,3.0
2,6,0,7,3.0,8.0
3,3,6,2,3.0,8.0
4,5,5,8,3.0,8.0


# 指定axis参数

In [25]:
#五、指定axis参数
 
df2.fillna(method="ffill", limit=1, axis=1)


Unnamed: 0,0,1,2,3,4
0,6.0,6.0,7.0,7.0,1.0
1,8.0,6.0,9.0,9.0,3.0
2,6.0,0.0,7.0,7.0,
3,3.0,6.0,2.0,2.0,
4,5.0,5.0,8.0,3.0,8.0
