### 处理缺失数据
>- dropna : 对缺失数据进行过滤
>- fillna ：以特定的方式补充缺失数据
>- isnull ：返回布尔对象
>- notnull: isnull的否定

#### 删除缺失数据dropna()

In [4]:
import pandas as pd
import numpy as np
data = pd.DataFrame([[2.3, 6.6, 3.7], [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan], [np.nan, 6.5, 4.]])

data2 = data.dropna()
data

Unnamed: 0,0,1,2
0,2.3,6.6,3.7
1,1.0,,
2,,,
3,,6.5,4.0


In [7]:
# 默认是对行进行处理，有空值就会删除
data2

Unnamed: 0,0,1,2
0,2.3,6.6,3.7


In [8]:
# how =“all”，全部是空值这一行才删除
data.dropna(how='all')

Unnamed: 0,0,1,2
0,2.3,6.6,3.7
1,1.0,,
3,,6.5,4.0


In [10]:
# 丢弃列 axis =1
data['临时'] =np.nan
data

Unnamed: 0,0,1,2,临时
0,2.3,6.6,3.7,
1,1.0,,,
2,,,,
3,,6.5,4.0,


In [11]:
data.dropna(axis =1,how='all')

Unnamed: 0,0,1,2
0,2.3,6.6,3.7
1,1.0,,
2,,,
3,,6.5,4.0


In [13]:
# thresh可以只删除部分的缺失值的行,(对列不起效)
data.dropna(thresh = 2)

Unnamed: 0,0,1,2,临时
0,2.3,6.6,3.7,
3,,6.5,4.0,


#### 填补缺失数据 fillna()

In [14]:
#  用0填充,inplace =True可以实现源数据的修改
data.fillna(0)

Unnamed: 0,0,1,2,临时
0,2.3,6.6,3.7,0.0
1,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,6.5,4.0,0.0


In [16]:
# 调用字典,不同的列实现不同的填充
data.fillna({2:'#',"临时":"%%"})

Unnamed: 0,0,1,2,临时
0,2.3,6.6,3.7,%%
1,1.0,,#,%%
2,,,#,%%
3,,6.5,4,%%


> method = ffill,limit=2 也可以进行定制化限制
>>- value：用固定的值填充
>>- method: 插值方式，未指定的话默认是ffill
>>- axis：待填充的轴，默认axis =0
>>- inplace：数据源上修改
>>- limit：（向前向后填充），可以连续填充的最大数量

### 数据转换

#### 重复项的处理
>-  duplicated方法返回一个布尔型Series，表示是否出现重复行
>-  drop_duplicates方法，返回一个DataFrame，重复的数组会标记为False，也可以通过df.drop_duplicates(['K1','K2'])的方法指定列进行过滤重复项；keep='last'则可以保留重复项的最后一个

In [23]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4],
                     'v1':[0, 1, 2, 3, 4, 5, 6]},
                  )
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [25]:
data.drop_duplicates(["k1","k2"],keep='last')

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6
