# 预处理
数据的质量及其所包含信息是决定机器学习算法优劣的关键.涵盖内容为:
* 去除和填补数据集的缺失数值
* 将分类数据转换为适合机器学习算法的格式
* 为构造模型选择相关的特征

## 处理缺失数据
常见的缺失是数据表的空白或占位符,如NaN,它表示该位置不是一个数字,或者是NULL(在关系型数据符中常用的未知值指示符)
### 识别数据中的缺失数值
先用**以逗号分隔的(CSV)** 文件创建一个简单的示例性数据桢,以便更好地理解问题:

In [8]:
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0, 2.0, 3.0, 4.0
5.0, 6.0,,8.0
10.0, 11.0, 12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


调用sum方法,可以得到每列缺失数值的统计,如下:

In [9]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

scikit-learn是为numpy阵列开发的,有时可以用pandas的DataFrame来更方便地预处理数据..在为scikit-learn提供数据之前,随时可以通过values属性来存取DataFrame底层Numpy中的数据:

In [10]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

### 删除缺失的数据
处理缺失数据最简单的方法是数据集里彻底删除相应的特征(列)或样本(行),调用`dropna`方法可以很容易删除缺失的数据行:

In [11]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


类似也可以通过设置axis参数为1来删除其中至少一行包括NaN的列:

In [13]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


还有一些其他参数

In [15]:
df.dropna(how='all')#只有当一行全都是NaN的时候才删除

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [16]:
df.dropna(thresh = 4)#删除少于四个值的行

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
