# 1.监督学习
监督学习是指在有标记的
样本（labeled samples）上建立机器学习的模型

## 1.1 数据预处理

In [3]:
import numpy as np
# !pip install -i  https://mirrors.aliyun.com/pypi/simple/ numpy
from sklearn import preprocessing

### array:数组

In [23]:
data = np.array([[3, -1.5, 2, -5.4], [0, 4, -0.3, 2.1], [1, 3.3,
-1.9, -4.3]])
data,data.shape, type(data)

(array([[ 3. , -1.5,  2. , -5.4],
        [ 0. ,  4. , -0.3,  2.1],
        [ 1. ,  3.3, -1.9, -4.3]]),
 (3, 4),
 numpy.ndarray)

### 1.1.1 均值移除
每个特征的平均值移除，以保证特征均值为0（即标准化处理）。

这样做可以消除特征彼此间的偏差（bias）

(X-X_mean)/X_std 计算时对每个属性/每列分别进行。

In [13]:
data_standardized = preprocessing.scale(data)
print("Mean =", data_standardized.mean(axis=0))
print("Std deviation =", data_standardized.std(axis=0))
data_standardized

Mean = [ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17]
Std deviation = [1. 1. 1. 1.]


array([[ 1.33630621, -1.40451644,  1.29110641, -0.86687558],
       [-1.06904497,  0.84543708, -0.14577008,  1.40111286],
       [-0.26726124,  0.55907936, -1.14533633, -0.53423728]])

### 1.1.2 范围缩放
数据点中每个特征的数值范围可能变化很大，因此，有时将特征的数值范围缩放到合理的大
小是非常重要的

In [22]:
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print("Min max scaled data =", data_scaled)

Min max scaled data = [[1.         0.         1.         0.        ]
 [0.         1.         0.41025641 1.        ]
 [0.33333333 0.87272727 0.         0.14666667]]


### 1.1.3 归一化
数据归一化用于需要对特征向量的值进行调整时，以保证每个特征向量的值都缩放到相同的
数值范围。

机器学习中最常用的归一化形式就是将特征向量调整为L1范数，使特征向量的数值之
和为1

这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异，即确保数据处于同
一数量级，提高不同特征数据的可比性。

In [24]:
data_normalized = preprocessing.normalize(data, norm='l1')
print("\nL1 normalized data =", data_normalized)


L1 normalized data = [[ 0.25210084 -0.12605042  0.16806723 -0.45378151]
 [ 0.          0.625      -0.046875    0.328125  ]
 [ 0.0952381   0.31428571 -0.18095238 -0.40952381]]


### 1.1.4 二值化
二值化用于将数值特征向量转换为布尔类型向量

In [25]:
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print("\nBinarized data =", data_binarized)


Binarized data = [[1. 0. 1. 0.]
 [0. 1. 0. 1.]
 [0. 1. 0. 0.]]


### 1.1.5 独热编码
需要处理的数值都是稀疏地、散乱地分布在空间中，然而，我们并不需要存储这些大
数值，这时就需要使用独热编码（One-Hot Encoding）

可以把独热编码看作是一种收紧（tighten）特征向量的工具。

它把特征向量的每个特征与特征的非重复总数相对应，通过one-of-k的形式对
每个值进行编码

In [26]:
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("\nEncoded vector =", encoded_vector)


Encoded vector = [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
