通过对缺失值进行合适的处理，在进行数据分析或数据挖掘时能够利用到更全的数据信息，建立出的模型也更加准确

一些来说，处理缺失值常用的三种方法分别为：删除法、填补法、插补法

1. 删除法

（1）定义一个新的数组arr1,且数组arr11中包含一些缺失值。其中，缺失值利用np.nan来表示



In [8]:
import numpy as np
import pandas as pd

In [2]:
arr1 = np.array([21,np.nan,np.nan,54,76,99,np.nan,23,27,np.nan,68,np.nan,66,32])

In [4]:
s = pd.Series(arr1)
s

0     21.0
1      NaN
2      NaN
3     54.0
4     76.0
5     99.0
6      NaN
7     23.0
8     27.0
9      NaN
10    68.0
11     NaN
12    66.0
13    32.0
dtype: float64

(3) pd.isnull()

Pandas数据库中的 isnull()函数是用来查看变量的数值中是否存在缺失值，如果是缺失值，返回值"True",否则返回"False"

如果使用sum(pd.isnul()),则可以计算出缺失值的个数。计算得该序列中有5个缺失值

In [5]:
sum(pd.isnull(arr1))

5

(4) .dropna()

.drophna()函数会帮助直接剔除序列中得任何含有缺失值得行，但这样会导致损失大量得数据。

在"()"中填写"how = 'all'",这样我们只删除所有信息都为NaN的数据行


2、填补法

在某一数据集中缺失值的分布不均匀时或缺失值不太多时，考虑用填补法对变量的缺失值进行补救。

对于连续型变量，如果分布近似正态分布，可以用均值代替缺失值，如果变量所对应的数值所在分布是有偏的，可以用中位数对缺失值进行填补；对于离散型变量，一般考虑用众数代替缺失值。



（1） .fillna()
.fillna()函数用来实现对数据的填补。比如，当希望用数字0来填补所有缺失值时，就在“（）”中添加参数0

In [11]:
df = pd.DataFrame([[1,2,3],[4,5,np.nan],[21,22,36],[55,np.nan,11],[np.nan,np.nan,np.nan],[1,2,1]],columns = ['x1','x2','x3'])
df

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,
2,21.0,22.0,36.0
3,55.0,,11.0
4,,,
5,1.0,2.0,1.0


In [12]:
df.fillna(0)

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,0.0
2,21.0,22.0,36.0
3,55.0,0.0,11.0
4,0.0,0.0,0.0
5,1.0,2.0,1.0


(2) 用相邻的数据值来填补

当想要用缺失值所在的位置的前一项或后一项观测值来填补缺失值时，同样用.fillna()函数，改变“（）”中参数

若想要用前一项来代替缺失值，在“（）”中输入“method = 'ffill'".

若想要用后一项来代替缺失值，在“（）”中输入“method = 'bfill'".

In [14]:
df.fillna(method ='ffill')

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,3.0
2,21.0,22.0,36.0
3,55.0,22.0,11.0
4,55.0,22.0,11.0
5,1.0,2.0,1.0


In [15]:
df.fillna(method ='bfill')

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,36.0
2,21.0,22.0,36.0
3,55.0,2.0,11.0
4,1.0,2.0,1.0
5,1.0,2.0,1.0


(3)用指定值来代替缺失值

当填补每一个变量的缺失值都不同时，要采用以下的方式，为每个列索引（变量名称）指定替换缺失值的数字。例如：第一列中所有的NaN都需被替换成1，第2列中所有的NaN需被替换成2，第三列中的NaN被指定替换成3.

In [16]:
df.fillna({'x1':1,'x2':2,'x3':3})

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,3.0
2,21.0,22.0,36.0
3,55.0,2.0,11.0
4,1.0,2.0,3.0
5,1.0,2.0,1.0


如果需要用均值、中位数或众数等来替换指定位置的缺失值时，首先应该计算

In [17]:
x1_median = df['x1'].median()  #计算第一列中位数
x2_mean = df['x2'].mean()  #第二列均值
x3_mean = df['x3'].mean()  #第三列均值

In [18]:
x1_median

4.0

In [19]:
x2_mean

7.75

In [20]:
x3_mean

12.75

In [21]:
df.fillna({'x1':x1_median,'x2':x2_mean,'x3':x3_mean})

Unnamed: 0,x1,x2,x3
0,1.0,2.0,3.0
1,4.0,5.0,12.75
2,21.0,22.0,36.0
3,55.0,7.75,11.0
4,4.0,7.75,12.75
5,1.0,2.0,1.0
