# 数据预处理

- 移除和填充数据集中缺失的值
- 将分类数据转为机器学习算法需要的形式
- 选择相关的特征用于模型建立

## 处理缺失的数据

In [3]:
# 从CSV文件中创建一个简单样本数据的dataframe
import pandas as pd
from io import StringIO
csv_data='''A,B,C,D
            1.0,2.0,3.0,4.0
            5.0,6.0,,8.0
            10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [9]:
# 获取每一列缺失值的总个数
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

### 剔除带有缺失值的样本或特征

In [10]:
# 通过 dropna() 移除有缺失值的行
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [12]:
# 移除有缺失值的列
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [14]:
# 只丢弃所有列都是NaN的行
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [16]:
# 丢弃不足四个非NaN值的行
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [18]:
# 只丢弃NaN值出现在指定列的行
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


### 填充缺失值
> 插值技术

In [23]:
# 使用mean imputation完成缺失值的填充
import numpy as np
from sklearn.impute import SimpleImputer # instead of Imputer
# axis=0 ,notes: missing_values=np.nan instead of missing_values='NaN'
imr = SimpleImputer(missing_values=np.nan,strategy='mean') 
imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])