# 本章简介
机器学习算法最终学习结果的优劣取决于两个主要因素：数据的质量和数据中蕴含的有用信息的数量。因此，对其进行检验及预处理是至关重要的  
在本章中，我们将讨论主要的数据预处理技术，这些技术可以高效地构建好的机器学习模型  
本章将涵盖如下主题：  
+ 数据集中缺失数据的删除和填充
+ 数据格式化
+ 模型构建中的特征选择 5  

# 4.1 缺失数据的处理
> 作者介绍了数据删除、数据填充两种缺失处理手段及其使用方法  

通常，我们见到的缺失值是数据表中的空值，或者类似于NaN的占位符  
如果我们忽略这些缺失值，将导致大部分的计算工具无法对原始数据进行处理，或者得到某些不可预知的结果  
我们先通过一个文件构造一个简单的例子  

In [None]:
'''
5
python	io	StringIO	StringIO()

'''
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

我们可以使用代码中的isnull返回一个布尔型的DataFrame值,通过sum方法，我们可以得到如下所示的每列中缺失值数量：  

In [None]:
'''
python	python	dataframe	isna()
'''
df.isna().sum()

在我们使用sklearn处理数据之前，可以通过dataframe的value属性来访问相关的numpy数组  

In [None]:
'''
5
python	pandas	dataframe	values
'''
df.values

## 4.1.1 将存在缺失值的特征或样本删除
> 介绍了如何使用dataframe中的dropna进行缺失值删除的操作

删除数据集中包含缺失值的行

In [None]:
df.dropna()

删除数据集中至少包含一个NaN值的列

In [None]:
'''
5  
python	pandas	dataframe	dropna() axis
'''
df.dropna(axis=1)

只删除所有列为NaN的行

In [None]:
'''
python	pandas	dataframe	dropna() how
'''
df.dropna(how='all') 

只删除指定列含有NaN的行

In [None]:
'''
python	pandas	dataframe	dropna() subset
'''
df.dropna(subset=['C'])

我们可能会删除过多的样本，导致分析结果可靠性不高。从另一方面讲，如果删除了过多的特征列，有可能会面临丢失有价值信息的风险，而这些信息是分类器用来区分类别所必需的 5  
## 4.1.2 缺失数据填充
> 作者介绍了最常用的处理确实数据的方法-插值技术  

最常用的插值技术之一就是均值插补，即使用相应的特征均值来替换缺失值  

In [None]:
'''
5
python	sklearn	Impute	SimpleImputer()
'''
from sklearn.impute import SimpleImputer
imr = SimpleImputer(strategy='mean')
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

## 4.1.3 理解sklearn预估器的API
> 本节介绍了sklearn预估器的API及其使用方法  

Imputer类属于sklearn中的转换器类，主要用于数据的转换。这些类中常用的两个方法是fit和transform  
其中，fit方法用于对数据集中的参数进行识别并构建相应的数据补齐模型，而transform方法则使用刚构建的数据补齐模型中其他数据的维度相同  
![3-13](../syn_pic/py_machine_learning/3-13.png)
我们在第3章中用到了分类器，它们在sklearn中属于预估器类别，其API的设计与转换器非常相似，预估器类包含一个predict方法，同时也包含一个transform方法 5  
![3-14](../syn_pic/py_machine_learning/3-14.png)
5  
# 4.2 处理类别数据
> 本章介绍了处理类别数据的方法：针对有序特征的映射，类标的编码以及针对标称特征独热编码  

在真实数据集中，经常会出现一个或多个类别数据的特征列。在讨论类别数据时，又可以进一步将他们划分为标称特征和有序特征  
有序特征为类别的值是可以排序的，而标称数据则不具备排序的特性 

In [None]:
'''
5
'''
import pandas as pd
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

## 4.2.1 有序特征的映射
> 本节介绍了如何手工定义有序特征的映射  


In [None]:
'''
python	pandas	series	map()
'''
size_mapping = {
    'XL': 3,
    'L': 2,
    'M': 1}
df['size'] = df['size'].map(size_mapping)
df

如果在后续过程中需要将整数还原为有序字符串，可以简单地定义一个逆映射字典  

In [None]:
'''
5
python	dict	items()	items()
'''
inv_size_mapping = {v:k for k,v in size_mapping.items()}
inv_size_mapping

## 4.2.2 类标的编码
> 本节介绍了给类标编码的实现方法  

虽然sklearn大多数分类预估器都会在内部将类标转换为整数，但通过将类标转换为整数序列能够从技术角度避免某些问题的产生  

In [None]:
'''
python	Built-in Functions	enumerate()	enumerate()
python	numpy	Array manipulation routines	unique()
'''
import numpy as np
class_mapping = {label:idx for idx, label in 
                enumerate(np.unique(df['classlabel']))}
class_mapping

接下来，我们可以使用映射字典将类标转换为整数：  

In [None]:
'''
5
'''
df['classlabel'] = df['classlabel'].map(class_mapping)
df

我们可以通过下列代码将映射字典中的键值对倒置，以将转换过的类标还原回原始的字符串表示：  

In [None]:
inv_class_mapping = {v:k for k,v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

此外，使用sklearn中的LabelEncoder类可以更加方便地完成对类标的整数编码工作：  

In [None]:
'''
python	sklearn	Preprocessing and Normalization	LabelEncoder()
python	sklearn	Preprocessing and Normalization	fit_transform()
'''
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

我们还可以使用inverse_transform将整数类标还原为原始的字符串表示 5  

In [None]:
'''
5
python	sklearn	Preprocessing and Normalization	inverse_transform()
'''
class_le.inverse_transform(y)

## 4.2.3 标称特征上的独热编码
> 介绍了针对标称特征的独热编码方法

我们如果用LabelEncoder类处理数据集中标称数据格式的color列，就会犯处理类别数据时最常见的错误。颜色并没有特定的顺序，但是学习算法将假定green大于blue、red大于green  
虽然算法最终还是能够生成有用的结果，然后这个结果可能不是最优的  
解决此问题最常用的方法就是独热编码技术。理念就是创建一个新的虚拟特征，虚拟特征的每一列各代表标称数据的一个值  

In [None]:
'''
5
python	sklearn	Preprocessing and Normalization	OneHotEncoder()
python	scipy	Sparse matrices (scipy.sparse)	csr_matrix() toarray()
'''
X = df[['color']].values
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit(X)
ohe.transform(X).toarray()