# 本章简介
机器学习算法最终学习结果的优劣取决于两个主要因素：数据的质量和数据中蕴含的有用信息的数量。因此，对其进行检验及预处理是至关重要的  
在本章中，我们将讨论主要的数据预处理技术，这些技术可以高效地构建好的机器学习模型  
本章将涵盖如下主题：  
+ 数据集中缺失数据的删除和填充
+ 数据格式化
+ 模型构建中的特征选择 5  

# 4.1 缺失数据的处理
> 作者介绍了数据删除、数据填充两种缺失处理手段及其使用方法  

通常，我们见到的缺失值是数据表中的空值，或者类似于NaN的占位符  
如果我们忽略这些缺失值，将导致大部分的计算工具无法对原始数据进行处理，或者得到某些不可预知的结果  
我们先通过一个文件构造一个简单的例子  

In [None]:
'''
5
python	io	StringIO	StringIO()

'''
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

我们可以使用代码中的isnull返回一个布尔型的DataFrame值,通过sum方法，我们可以得到如下所示的每列中缺失值数量：  

In [None]:
'''
python	python	dataframe	isna()
'''
df.isna().sum()

在我们使用sklearn处理数据之前，可以通过dataframe的value属性来访问相关的numpy数组  

In [None]:
'''
5
python	pandas	dataframe	values
'''
df.values

## 4.1.1 将存在缺失值的特征或样本删除
> 介绍了如何使用dataframe中的dropna进行缺失值删除的操作

删除数据集中包含缺失值的行

In [None]:
df.dropna()

删除数据集中至少包含一个NaN值的列

In [None]:
'''
5  
python	pandas	dataframe	dropna() axis
'''
df.dropna(axis=1)

只删除所有列为NaN的行

In [None]:
'''
python	pandas	dataframe	dropna() how
'''
df.dropna(how='all') 

只删除指定列含有NaN的行

In [None]:
'''
python	pandas	dataframe	dropna() subset
'''
df.dropna(subset=['C'])

我们可能会删除过多的样本，导致分析结果可靠性不高。从另一方面讲，如果删除了过多的特征列，有可能会面临丢失有价值信息的风险，而这些信息是分类器用来区分类别所必需的 5  
## 4.1.2 缺失数据填充
> 作者介绍了最常用的处理确实数据的方法-插值技术  

最常用的插值技术之一就是均值插补，即使用相应的特征均值来替换缺失值  

In [None]:
'''
5
python	sklearn	Impute	SimpleImputer()
'''
from sklearn.impute import SimpleImputer
imr = SimpleImputer(strategy='mean')
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

## 4.1.3 理解sklearn预估器的API
> 本节介绍了sklearn预估器的API及其使用方法  

Imputer类属于sklearn中的转换器类，主要用于数据的转换。这些类中常用的两个方法是fit和transform  
其中，fit方法用于对数据集中的参数进行识别并构建相应的数据补齐模型，而transform方法则使用刚构建的数据补齐模型中其他数据的维度相同  
![4-1](../syn_pic/py_machine_learning/4-1.png)
我们在第3章中用到了分类器，它们在sklearn中属于预估器类别，其API的设计与转换器非常相似，预估器类包含一个predict方法，同时也包含一个transform方法 5  
![4-2](../syn_pic/py_machine_learning/4-2.png)
5  
# 4.2 处理类别数据
> 本章介绍了处理类别数据的方法：针对有序特征的映射，类标的编码以及针对标称特征独热编码  

在真实数据集中，经常会出现一个或多个类别数据的特征列。在讨论类别数据时，又可以进一步将他们划分为标称特征和有序特征  
有序特征为类别的值是可以排序的，而标称数据则不具备排序的特性 

In [None]:
'''
5
'''
import pandas as pd
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

## 4.2.1 有序特征的映射
> 本节介绍了如何手工定义有序特征的映射  


In [None]:
'''
python	pandas	series	map()
'''
size_mapping = {
    'XL': 3,
    'L': 2,
    'M': 1}
df['size'] = df['size'].map(size_mapping)
df

如果在后续过程中需要将整数还原为有序字符串，可以简单地定义一个逆映射字典  

In [None]:
'''
5
python	dict	items()	items()
'''
inv_size_mapping = {v:k for k,v in size_mapping.items()}
inv_size_mapping

## 4.2.2 类标的编码
> 本节介绍了给类标编码的实现方法  

虽然sklearn大多数分类预估器都会在内部将类标转换为整数，但通过将类标转换为整数序列能够从技术角度避免某些问题的产生  

In [None]:
'''
python	Built-in Functions	enumerate()	enumerate()
python	numpy	Array manipulation routines	unique()
'''
import numpy as np
class_mapping = {label:idx for idx, label in 
                enumerate(np.unique(df['classlabel']))}
class_mapping

接下来，我们可以使用映射字典将类标转换为整数：  

In [None]:
'''
5
'''
df['classlabel'] = df['classlabel'].map(class_mapping)
df

我们可以通过下列代码将映射字典中的键值对倒置，以将转换过的类标还原回原始的字符串表示：  

In [None]:
inv_class_mapping = {v:k for k,v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

此外，使用sklearn中的LabelEncoder类可以更加方便地完成对类标的整数编码工作：  

In [None]:
'''
python	sklearn	Preprocessing and Normalization	LabelEncoder()
python	sklearn	Preprocessing and Normalization	fit_transform()
'''
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

我们还可以使用inverse_transform将整数类标还原为原始的字符串表示 5  

In [None]:
'''
5
python	sklearn	Preprocessing and Normalization	inverse_transform()
'''
class_le.inverse_transform(y)

## 4.2.3 标称特征上的独热编码
> 介绍了针对标称特征的独热编码方法

我们如果用LabelEncoder类处理数据集中标称数据格式的color列，就会犯处理类别数据时最常见的错误。颜色并没有特定的顺序，但是学习算法将假定green大于blue、red大于green  
虽然算法最终还是能够生成有用的结果，然后这个结果可能不是最优的  
解决此问题最常用的方法就是独热编码技术。理念就是创建一个新的虚拟特征，虚拟特征的每一列各代表标称数据的一个值  

In [None]:
'''
5
python	sklearn	Preprocessing and Normalization	OneHotEncoder()
python	scipy	Sparse matrices (scipy.sparse)	csr_matrix() toarray()
'''
X = df[['color']].values
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit(X)
ohe.transform(X).toarray()

默认情况下，当我们调用OneHotEncoder的transform方法时，它会返回一个稀疏矩阵。处于可视化的考虑，我们可以通过toarray方法将其转换为一个常规的NumPy数组  
另外，我们可以通过pandas中的get_dummies方法，更加方便地实现独热编码技术中的虚拟特征  

In [None]:
'''
5
python	pandas	General functions	get_dummies()
'''
pd.get_dummies(df[['price','color','size']])

# 4.3 将数据集划分为训练数据集和测试数据集
> 本章介绍了如何用sklearn实现测试集和训练集的划分

葡萄酒数据集是另一个开源数据集，可以通过UCI机器学习样本数据库获得，它包含178个葡萄酒样本，每个样本通过13个特征对其化学特征进行描述  

In [None]:
'''
python	pandas	Input/Output	read_csv() head
python	pandas	dataframe	head()
'''
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',
                      header=None)
df_wine.columns = ['Class label', 'Alcohol', 
                   'Malic acid', 'Ash',
                  'Alcalinity of ash', 'Magnesium',
                  'Total phenols', 'Flavanoids',
                  'Nonflavanoid phenols',
                  'Proanthocyanins',
                  'Color intensity', 'Hue',
                  'OD280/OD315 of diluted wines',
                  'Proline']
print('Class labels', np.unique(df_wine['Class label']))
df_wine.head()

将此数据集随机划分为测试数据集和训练数据集  

In [None]:
'''
python	sklearn	Model Selection	train_test_split()
'''
from sklearn.model_selection import train_test_split
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

设定test_size=0.3, 可以将30%的样本划分到X_test和y_test，剩余的70%样本划分到X_train及y_train 5  
在实际应用中，基于原始数据的大小，常用的划分比例是60:40、70:30、或者80:20。对于非常庞大的数据集，将训练集和测试集的比例按照90:10或者99:1进行划分也是常见且可以接受的  
为了让模型获得最佳的性能，完成分类模型的测试后，通常在整个数据集上需再次对模型进行训练 5  
# 4.4 将特征的值缩放到相同的区间
> 本章介绍了特征缩放及其技术方法：

**对大多数机器学习和优化算法而言，将特征的值缩放到相同的区间可以使其性能更佳**  
## 特征缩放的必要性
> 除决策树、随机森林算法之外，特征缩放的必要性的三大原因
1. 优化算法-如梯度下降
2. 正则化权重惩罚
3. 保证对每个特征优化的倾向性不受量纲影响 5


特征缩放的重要性可以通过一个简单的例子来描述。假定我们有两个特征：一个特征值的范围为1\~10；另一个特征值的范围为1\~10000。直观地说，算法将主要根据第二个特征上较大的误差进行权重的优化  
目前，将不同的特征缩放到相同的区间有两个常用的方法：归一化和标准化。这两个词在不同的领域中使用较为宽松，由具体语境所确定  
多数情况下，归一化指的是将特征的值缩放到区间[0,1],它是最小-最大缩放的一个特例。通过如下公式可以计算出一个新的样本$x^{(i)}$的值$x^{(i)}_{norm}$: 5   
$$x^{(i)}_{norm}=\frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$$
其中，$x^{(i)}$是一个特定的样本，$x_{min}$和$x_{max}$是某特征列的最小值和最大值  

In [None]:
'''
python	sklearn	Preprocessing and Normalization	MinMaxScaler()
'''
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)
X_test_norm[:2]

在大部分机器学习算法中，标准化的方法更加实用  
这是因为：许多线性模型，在对它们进行训练的最初阶段，即权重初始化阶段，可将其值设定0或是趋近于0的随机极小值  
通过标准化，我们可以将特征列的均值设为0，方差为1，这更易于权重的更新 5  
与最小-最大缩放将值限定在一个有限的区间不同，标准化方法保持了异常值所蕴含的有用信息，并且使得算法收到这些值的影响较小  
标准化的过程可用如下方程表示：  
$$x_{std}^{(i)}=\frac{x^{(i)}-\mu_x}{\sigma_x}$$
其中，$\mu_x$和$\sigma_x$分别为样本某个特征列的均值和标准差  
在包含值为0~5的数据样本，采用标准化和归一化两种常用的技术进行特征缩放，其两者之间的区别如下表所示： 5  

In [None]:
'''
5
'''
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.fit_transform(X_test)

feature_compare = np.arange(0.0,6.0).reshape(-1,1)
dfc = pd.DataFrame({'input' : np.arange(0.0,6.0),
                'std' : stdsc.fit_transform(feature_compare).ravel(),
                'mms' : mms.fit_transform(feature_compare).ravel()})
dfc.head(5)

# 4.5 选择有意义的特征
> 本章介绍了两种常用减少过拟合问题的方法：正则化和特征选择降维  

产生过拟合的原因是建立在给定训练数据集上的模型过于复杂，而常用的降低泛化误差的方案有：
1. 收集更多的训练数据
2. 通过正则化引入罚项
3. 选择一个参数相对较少的简单模型
4. 降低数据的维度   

一般来说，收集更多的训练数据不太适用 5  
## 4.5.1 适用L1正则化满足数据稀疏化
> 本节介绍了L1正则化作用、效果及其使用方法

L2正则化是通过对大的权重增加罚项以降低模型复杂度的一种方法  
$$L2:\|w\|^2_2=\sum^m_{j=1}{w^2_j}$$
另外一种降低模型复杂度的方法则与L1正则化相关：  
$$L1:\|w\|_1=\sum^m_{j=1}{|w_j|}$$
与L2正则化不同，L1正则化可生成稀疏的特征向量，且大多数的权值为0 5  
当高维数据集中包含许多不相关的特征，尤其是不相关的特征数量大于样本数量时，权重的稀疏化处理能够发挥很大的作用。**L1正则化可以被视作一种特征选择技术**  
为了更好地理解L1正则化如何对数据进行稀疏化，我们来看一下正则化的几何解释  
![4-3](../syn_pic/py_machine_learning/4-3.png)
我们可以将正则化看作是在代价函数中增加一个罚项，以对小的权重做出激励，换句话说，对大的权重做出了惩罚  
通过正则化参数$\lambda$来增加正则化项的强度，使得权重向0收缩，降低了模型对训练数据的依赖程度。我们使用下图来阐述L2罚项的概念 5  
![4-4](../syn_pic/py_machine_learning/4-4.png)
我们使用阴影表示的球代表二次的L2正则化项。在此，我们的权重系数不能超出正则化的区域-权重的组合不能落在阴影以外的区域  
在罚项的约束下，最好的选择就是L2球与不含有罚项的代价函数等高线的切点。正则化参数$\lambda$的值越大，含有罚项的代价函数增长得就越快，L2的球就会越小  
这个例子的主要内容：目标是使得代价函数和罚项之和最小，这可以理解为通过增加偏差使得模型趋向于简单，以降低在训练数据不足的情况下拟合得到的模型的方差  
由于L1的罚项是权重系数绝对值的和(L2罚项是二次的)，我们可以将其表示为菱形区域，如下图所示 5  
![4-5](../syn_pic/py_machine_learning/4-5.png)
代价函数等高线与L1菱形在$w_1=0$处相交。由于L1的边界不是圆滑的，这个交点有可能是最优的。椭圆形的代价函数边界与L1菱形边界的交点位于坐标轴上，这也就使得模型更加稀疏  

In [None]:
'''
python	sklearn	Linear Models	LogisticRegression() solver
python	sklearn	Linear Models	LogisticRegression() penalty
python	sklearn	Linear Models	LogisticRegression() score()
'''
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(penalty='l1', C=0.1, solver='liblinear')
lr.fit(X_train_std, y_train)
print('Training accuracy:',lr.score(X_train_std, y_train))
print('Training accuracy:',lr.score(X_test_std, y_test))

训练和测试的精确度显示此模型未出现过拟合。通过lr.intercept_属性得到截距项    

In [None]:
'''
5
python	sklearn	Linear Models	LogisticRegression() intercept_
'''
lr.intercept_

由于我们在多类别数据集上试用了LogisticRegression对象，它默认使用一对多的方法。其中，第一个截距项为类别1相对于类别2、3的匹配结果、第二个截距项为类别2相对于类别1、3的匹配结果，第三个截距项则为类别3相对类别1、2的匹配结果  

In [None]:
lr.coef_

每一个向量包含13个权重值，通过与13维的葡萄酒数据集中的特征数据相乘来计算模型的净输入：  
$$z=w_1x_1+\dots+w_mx_m=\sum^m_{j=0}{x_jw_j}=w^tx$$
我们注意到，权重向量是稀疏的，这意味着只有少数几个非零项 5  
最后，我们来绘制以下正则化效果的图，展示了将正则化参数应用于多个特征上时所产生的不同的正则化效果：  

In [None]:
'''
python	matplotlib	Pyplot function overview	subplot()
python	sklearn	Linear Models	LogisticRegression() solver
python	sklearn	Linear Models	LogisticRegression() penalty
python	sklearn	Linear Models	LogisticRegression() C
python	sklearn	Linear Models	LogisticRegression() coef_
python	Built-in Functions	zip()	zip()
python	numpy	The N-dimensional array (ndarray)	shape
python	matplotlib	Pyplot function overview	axhline()
python	matplotlib	Pyplot function overview	xscale()
python	matplotlib	axes	legend()
'''
import matplotlib.pyplot as plt
fig = plt.figure()
ax = plt.subplot(111)
colors = ['blue', 'green', 'red', 'cyan',
         'magenta', 'yellow', 'black',
         'pink', 'lightgreen', 'lightblue',
         'gray', 'indigo', 'orange']
weights, params = [], []
for c in np.arange(-4, 6):
    lr = LogisticRegression(penalty='l1',
                           C=10.0**c,
                           random_state=0,
                           solver='liblinear')
    lr.fit(X_train_std, y_train)
    weights.append(lr.coef_[1])
    params.append(10.0**c)
    
weights = np.array(weights)
for column, color in zip(range(weights.shape[1]), colors):
    plt.plot(params, weights[:, column],
            label=df_wine.columns[column+1],
            color=color)
plt.axhline(0, color='black', linestyle='--', linewidth=3)
plt.xlim([10.0**(-5), 10.0**5])
plt.ylabel('weight coefficient')
plt.xlabel('C')
plt.xscale('log')
plt.legend(loc='upper left')
ax.legend(loc='upper center',
         bbox_to_anchor=(1.38, 1.03),
         ncol=1)
plt.show()

在强的正则化参数(C<0.1)作用下，罚项使得所有的特征权重都趋近于0 5  
## 4.5.2 序列特征选择算法
> 本节介绍了降维技术中的特征选择算法，并实现了一个序列特征选择算法SBS

另一种降低过拟合问题的方法是通过特征选择进行降维，该方法对未经正则化处理的模型特别有效  
降维技术主要分为两大类：特征选择和特征提取  
序列特征选择算法是一种贪婪搜索算法，用于将原始的d维特征空间压缩到一个k维特征子空间，其中k\<d  
使用特征选择算法处于以下考虑：能够剔除不相关特征或噪声，自动选出与问题最相关的特征子集，从而提高计算效率或是降低模型的泛化误差 5  
一个经典的序列特征选择算法是序列后向选择算法，其目的是在分类性能衰减最小的约束下，降低原始特征空间上的数据维度，以提高计算效率  
SBS算法背后的理念非常简单：SBS依次从特征集合中删除某些特征，直到新的特征子空间包含指定数量的特征  
为了确定每一步所需删除的特征，我们定义一个需要最小化的标准衡量函数J。该函数的计算准则是：比较判定分类器的性能在删除某个特定特征前后的差异  
基于对SBS的定义，我们可以将算法总结为四个简单的步骤：  
1. 设k=d进行算法初始化，其中d是特征空间$X_d$的维度 5
2. 定义$x^-$为满足标准$x^-=argmaxJ(X_k-x)$最大化的特征，其中$x\in{X_k}$
3. 将特征$x^-$从特征集中删除：$X_{k-1}=X_k-x^1, k=k-1$
4. 如果k等于目标特征数量，算法终止，否则跳转到第2步  

In [None]:
'''
python	sklearn	Base classes and utility functions	clone()
python	sklearn	Model Selection	train_test_split()
python	numpy	The N-dimensional array (ndarray)	shape
python	Built-in Functions	tuple()	tuple()
python	itertools	combinations()	combinations()
python	numpy	Sorting, searching, and counting	argmax()
'''
from sklearn.base import clone
from itertools import combinations
from sklearn.metrics import accuracy_score
class SBS():
    def __init__(self, estimator, k_features,
                scoring=accuracy_score,
                test_size=0.25, random_state=1):
        self.scoring = scoring
        self.estimator = clone(estimator)
        self.k_features = k_features
        self.test_size = test_size
        self.random_state = random_state
        
    def fit(self, X, y):
        X_train, X_test, y_train, y_test = \
            train_test_split(X, y, test_size=self.test_size,
                            random_state=self.random_state)
        dim = X_train.shape[1]
        self.indices_ = tuple(range(dim))
        self.subsets_ = [self.indices_]
        score = self._calc_score(X_train, y_train,
                                X_test, y_test, self.indices_)
        self.scores_ = [score]
        
        while dim > self.k_features:
            scores = []
            subsets = []
            
            for p in combinations(self.indices_, r=dim-1):
                score = self._calc_score(X_train, y_train,
                                        X_test, y_test, p)
                scores.append(score)
                subsets.append(p)
                
            best = np.argmax(scores)
            self.indices_ = subsets[best]
            self.subsets_.append(self.indices_)
            dim -= 1
            self.scores_.append(scores[best])
        self.k_score_ = self.scores_[-1]
        
        return self
    
    def transform(self, X):
        return X[:, self.indices_]
    
    def _calc_score(self, X_train, y_train,
                   X_test, y_test, indices):
        self.estimator.fit(X_train[:, indices], y_train)
        y_pred = self.estimator.predict(X_test[:, indices])
        score = self.scoring(y_test, y_pred)
        return score

在前面的实现中，我们使用参数k_features来指定需返回的特征数量。我们使用sklearn中的accuracy_score去衡量分类器的模型和评估其在特征空间上的性能 5  
在fit方法的while循环中，通过itertools.combination函数创建的特征子集循环地进行评估和删减，直到特征子集达到预期维度  
在每次迭代中，基于内部测试数据集X_test创建的self.scores_列表存储了最优特征子集的准确度分值  
最终特征子集的列标被赋值给self.indices_，我们可以通过transform方法返回由选定特征列构成的一个新数组  

In [None]:
'''
python	sklearn	Nearest Neighbors	KNeighborsClassifier()
'''
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=2)
sbs = SBS(knn, k_features=1)
sbs.fit(X_train_std, y_train)

我们的SBS算法在每一步中存储了最优特征子集的分值，下面绘制出KNN分类器的分类准确率，准确率数值是在验证数据集上计算得出的 5  

In [None]:
'''
python	matplotlib	Pyplot function overview	grid()
'''
k_feat = [len(k) for k in sbs.subsets_]
plt.plot(k_feat, sbs.scores_, marker='o')
plt.ylim([0.7, 1.1])
plt.ylabel('Accuracy')
plt.xlabel('Number of features')
plt.grid()
plt.show()