In [1]:
import numpy as np
import pandas as pd

#### 对Series对象的填充

In [2]:
d = pd.Series([1,3,5,np.nan,5,6,np.nan])
d

0    1.0
1    3.0
2    5.0
3    NaN
4    5.0
5    6.0
6    NaN
dtype: float64

In [3]:
d.isnull()

0    False
1    False
2    False
3     True
4    False
5    False
6     True
dtype: bool

In [4]:
#填充 使用fillna(XX) 使用特定值填充
d.fillna(100)#这里使用100将所有缺失值进行填充

0      1.0
1      3.0
2      5.0
3    100.0
4      5.0
5      6.0
6    100.0
dtype: float64

In [5]:
#填充 使用fillna(XX) 使用method参数指定前一个值或者后一个值进行填充
d.fillna(method="bfill")#这里使用该位置处的后一个值进行填充如果没有保持原样

0    1.0
1    3.0
2    5.0
3    5.0
4    5.0
5    6.0
6    NaN
dtype: float64

In [6]:
d.fillna(method="ffill")#这里使用该位置处的前一个值进行填充如果没有保持原样

0    1.0
1    3.0
2    5.0
3    5.0
4    5.0
5    6.0
6    6.0
dtype: float64

In [7]:
d

0    1.0
1    3.0
2    5.0
3    NaN
4    5.0
5    6.0
6    NaN
dtype: float64

In [8]:
#先按照后一个填充 如果不能按照后一个填充那么就按照前一个进行填充
d.fillna(method="bfill").fillna(method="ffill")

0    1.0
1    3.0
2    5.0
3    5.0
4    5.0
5    6.0
6    6.0
dtype: float64

#### 对DataFrame对象的填充

In [9]:
data = pd.DataFrame([[1,np.nan,3,4],[2,4,np.nan,5],[6,2,5,np.nan],[7,3,3,5]])
data

Unnamed: 0,0,1,2,3
0,1,,3.0,4.0
1,2,4.0,,5.0
2,6,2.0,5.0,
3,7,3.0,3.0,5.0


In [10]:
#使用具体的值来填充
data.fillna(0)

Unnamed: 0,0,1,2,3
0,1,0.0,3.0,4.0
1,2,4.0,0.0,5.0
2,6,2.0,5.0,0.0
3,7,3.0,3.0,5.0


In [11]:
#使用前一个值来填充 默认按列上的前一个值 
data.fillna(method="ffill").fillna(method="bfill")

Unnamed: 0,0,1,2,3
0,1,4.0,3.0,4.0
1,2,4.0,3.0,5.0
2,6,2.0,5.0,5.0
3,7,3.0,3.0,5.0


In [12]:
#设置使用以列为单位进行填充 axis=1 | columns
data.fillna(method="ffill",axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,3.0,4.0
1,2.0,4.0,4.0,5.0
2,6.0,2.0,5.0,5.0
3,7.0,3.0,3.0,5.0


In [13]:
data.fillna(method="bfill",axis=0)#以行为单位按后面一个元素进行填充

Unnamed: 0,0,1,2,3
0,1,4.0,3.0,4.0
1,2,4.0,5.0,5.0
2,6,2.0,5.0,5.0
3,7,3.0,3.0,5.0


### 使用平均值进行填充

In [14]:
#案例一  以每一列的均值进行填充
data

Unnamed: 0,0,1,2,3
0,1,,3.0,4.0
1,2,4.0,,5.0
2,6,2.0,5.0,
3,7,3.0,3.0,5.0


In [15]:
data.columns

RangeIndex(start=0, stop=4, step=1)

In [16]:
for i in data.columns:#对data的每一列
    mean = np.nanmean(data[i])#每一列出去Nan的均值
    print(mean)
    #使用均值mean进行填充
    data[i] = data[i].fillna(mean)

4.0
3.0
3.6666666666666665
4.666666666666667


In [17]:
data

Unnamed: 0,0,1,2,3
0,1,3.0,3.0,4.0
1,2,4.0,3.666667,5.0
2,6,2.0,5.0,4.666667
3,7,3.0,3.0,5.0
