# 监督学习

### 1 数据预处理技术

在真实世界中，经常需要处理大量的原始数据，这些原始数据是机器学习算法无法理解的。
为了让机器学习算法理解原始数据，需要对数据进行预处理。

#### 1.1 准备工作

In [1]:
import numpy as np
from sklearn import preprocessing

In [2]:
data = np.array([[3, -1.5, 2, -5.4], [0, 4, -0.3, 2.1], [1, 3.3, -1.9, -4.3]])

In [3]:
data

array([[ 3. , -1.5,  2. , -5.4],
       [ 0. ,  4. , -0.3,  2.1],
       [ 1. ,  3.3, -1.9, -4.3]])

#### 1.2 详细步骤

1. 均值移除（Mean removal），通常把每个特征的平均值移除，以保证特征均值为0，即标准化，消除特征彼此间的偏差（bias）

In [4]:
data_standardized = preprocessing.scale(data)
print("Mean =\n", data_standardized.mean(axis=0))
print("Std deviation =\n", data_standardized.std(axis=0))

Mean =
 [  5.55111512e-17  -1.11022302e-16  -7.40148683e-17  -7.40148683e-17]
Std deviation =
 [ 1.  1.  1.  1.]


2. 范围缩放（Scaling），数据点中每个特征的数值范围可能变化很大，因此，有时将特征的数值范围缩放到合理的大小是非常重要的

In [5]:
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print("Min max scaled data =\n", data_scaled)

Min max scaled data =
 [[ 1.          0.          1.          0.        ]
 [ 0.          1.          0.41025641  1.        ]
 [ 0.33333333  0.87272727  0.          0.14666667]]


3. 归一化（Normalization），用于需要对特征向量的值进行调整时，以保证每个特征向量的值都缩放到相同的数值范围

> 机器学习中最常用的归一化形式就是将特征向量调整为L1范数，使特征向量的数值之和为1

>  L0范数表示向量中非0的元素的个数（一般不用）；L1范数表示向量中所有元素的绝对值和（求权值的稀疏矩阵）；L2范数表示欧氏距离（岭回归；防止过拟合）

In [6]:
data_normalized = preprocessing.normalize(data, norm='l1')
print("L1 normalized data =\n", data_normalized)

L1 normalized data =
 [[ 0.25210084 -0.12605042  0.16806723 -0.45378151]
 [ 0.          0.625      -0.046875    0.328125  ]
 [ 0.0952381   0.31428571 -0.18095238 -0.40952381]]


4. 二值化（Binarization），用于将数值特征向量转换为布尔类型向量

In [7]:
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print("Binarized data =\n", data_binarized)

Binarized data =
 [[ 1.  0.  1.  0.]
 [ 0.  1.  0.  1.]
 [ 0.  1.  0.  0.]]


5. 独热编码（One-Hot Encoding），可以把独热编码看作是一种收紧（tighten）特征向量的工具。它把特征向量的每个特征与特征的非重复总数相对应，通过one-of-k的形式对每个值进行编码特征向量的每个特征值都按照这种方式编码，这样可以更加有效地表示空间。

> 到目前为止，表示分类变量最常用的方法就是使用one-hot 编码（one-hot-encoding）或N取一编码（one-out-of-N encoding），也叫虚拟变量（dummy variable）。虚拟变量背后的思想是将一个分类变量替换为一个或多个新特征，新特征取值为0和1。对于线性二分类（以及scikit-learn 中其他所有模型）的公式而言，0和1这两个值是有意义的，我们可以像这样对每个类别引入一个新特征，从而表示任意数量的类别。

> 比如说，workclass 特征的可能取值包括"Government Employee"、"Private Employee"、"Self Employed" 和"Self Employed Incorporated"。为了编码这4个可能的取值，我们创建了4个新特征，分别叫作"Government Employee"、"Private Employee"、"SelfEmployed" 和"Self Employed Incorporated"。如果一个人的workclass 取某个值，那么对应的特征取值为1，其他特征均取值为0。因此，对每个数据点来说，4个新特征中只有一个的取值为1。这就是它叫作one-hot编码或N取一编码的原因。

In [8]:
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("Encoded vector =\n", encoded_vector)

Encoded vector =
 [[ 0.  0.  1.  0.  1.  0.  0.  0.  1.  1.  0.]]


#### 1.3 标记编码方法

在监督学习中，经常需要处理各种各样的标记。这些标记可能是数字，也可能是单词。如果
标记是数字，那么算法可以直接使用它们，但是，许多情况下，标记都需要以人们可理解的形式
存在，因此，人们通常会用单词标记训练数据集。标记编码就是要把单词标记转换成数值形式，
让算法懂得如何操作标记。

In [10]:
from sklearn import preprocessing

# 定义一个标记编码器
label_encoder = preprocessing.LabelEncoder()

# 创建标记
input_classes = ['audi', 'ford', 'audi', 'toyota', 'ford', 'bmw']

# 为标记编码
label_encoder.fit(input_classes)
print("Class mapping:")
for i, item in enumerate(label_encoder.classes_):
    print(item, '-->', i)

Class mapping:
audi --> 0
bmw --> 1
ford --> 2
toyota --> 3


In [11]:
# 转换标记
labels = ['toyota', 'ford', 'audi']
encoded_labels = label_encoder.transform(labels)
print("Labels =\n", labels)
print("Encoded labels =\n", list(encoded_labels))

Labels =
 ['toyota', 'ford', 'audi']
Encoded labels =
 [3, 2, 0]


In [14]:
# 数字反转回标记内容
encoded_labels = [2, 1, 0, 3, 1]
decoded_labels = label_encoder.inverse_transform(encoded_labels)
print("Encoded labels =\n", encoded_labels)
print("Decoded labels =\n", list(decoded_labels))

Encoded labels =
 [2, 1, 0, 3, 1]
Decoded labels =
 ['ford', 'bmw', 'audi', 'toyota', 'bmw']


#### 1.4 创建线性回归器