# 第6章 机器学习基础

## 6.4 数据预处理
	特征工程是机器学习任务中一项重要内容，而数据预处理又是特征工程的核心内容，本节将介绍基于Python、Pandas及Sklearn的几种数据预处理工具。
	首先，我们简单介绍机器学习中经常出现的特征工程中数据预处理，然后，用葡萄酒数据集实现一个完整的机器学习任务。
### 6.4.1 处理缺失值
	机器学习中经常遇到缺失值的情况，遇到缺失数据，如果简单的删除，可能因此删除一些有用信息，更重要的可能删除数据的历史轨迹。所以，我们往往采用补填方式进行处理。补填的方法很多，如用0补填，用所在列的平均数、中位数、自定义数等补填，或缺失值的相邻项进行补填等。以下说明如何用所在列的平均数来补填缺失数据。

In [1]:
import pandas as pd
from io import StringIO

csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


查看有缺失值的个数及对应列。

In [2]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

说明C、D列各有一个缺失值。用缺失值所在列的平均值补填。

In [4]:
import numpy as  np
from sklearn.impute import SimpleImputer

imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imputed_data = imr.fit_transform(df)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

### 6.4.2 处理分类数据
	机器学习的数据集中往往包含很多分类数据，其中有些是有序的（即有大小的区别，如衣服的型号，M<X<XL），有些是无序的（即没有大小的区别,如表示颜色的类别等）。对这些类别的如果处理不当，进行影响模型性能，尤其涉及几何距离方面的机器学习任务中。为此，我们一般把有序类别直接转换成整数，而把无序类别转换为独热编码。如果把无序类别也转换为整数，如红色转换为1，黄色转换为2，蓝色转换为3等，这样就给颜色类别赋予大小的含义了，实际上颜色应该更大小无关，从而破坏其本来属性。

In [5]:
import pandas as pd
df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'], 
            ['red', 'L', 13.5, 'class2'], 
            ['blue', 'XL', 15.3, 'class1']])

df.columns = ['颜色', '型号', '价格', '类别']
df

Unnamed: 0,颜色,型号,价格,类别
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


把有序特征型号变为整数

In [6]:
size_mapping = {
           'XL': 3,
           'L': 2,
           'M': 1}

df['型号'] = df['型号'].map(size_mapping)
df

Unnamed: 0,颜色,型号,价格,类别
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


然后把无序特征颜色变为one-hot编码。

In [7]:
pd.get_dummies(df[['价格', '颜色', '型号']])

Unnamed: 0,价格,型号,颜色_blue,颜色_green,颜色_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


主要颜色由1列变为3列，这3列中只有一个1，其余都是0。  
<font size=4 color=blue>【说明】把无序类别数据转换为热编码，对涉及距离计算类算法（如线性回归、KNN等算法）尤其重要要。对概率或比率类算法（如决策树、朴素贝叶斯等算法）直接转换为整数即可，不一定需要转换为热编码。</font>
