# scikit-learn中的Scaler

## 对测试数据集进行归一化时需要注意的事项

### 错误的测试数据集归一化的方法

![错误的测试数据集归一化的方法](images/错误的测试数据集归一化的方法.png)

### 正确的测试数据集归一化的方法

![正确的测试数据集归一化的方法](images/正确的测试数据集归一化的方法.png)

### 对训练数据集和测试数据集使用同一个均值和方差的原因

![对训练数据集和测试数据集使用同一个均值和方差的原因](images/对训练数据集和测试数据集使用同一个均值和方差的原因.png)


## Sklearn中的归一化封装方法Scaler的使用

### Scaler的使用流程
![Scaler的使用流程](images/Scaler的使用流程.png)

In [1]:
import numpy as np
from sklearn import datasets

In [2]:
iris = datasets.load_iris()

In [3]:
X = iris.data
y = iris.target

In [4]:
X[:10, :] # 前10行

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target)

### sklearn中均值方差归一化类StandardScaler的使用

In [6]:
from sklearn.preprocessing import StandardScaler

In [7]:
standardScaler = StandardScaler()

In [8]:
standardScaler.fit(X_train)  # 训练数据集归一化

StandardScaler(copy=True, with_mean=True, with_std=True)

In [9]:
standardScaler.mean_ # 结果中每个都是X_train中对应列的均值，因为列即特征，所以即为每个特征的均值

array([5.84732143, 3.0375    , 3.79017857, 1.20892857])

In [22]:
standardScaler.std_ # 新版sklearn已经把std_去掉了

AttributeError: 'StandardScaler' object has no attribute 'std_'

In [13]:
standardScaler.scale_ # std建议用scale替换，这里都是方差的意思

array([0.81536143, 0.43138585, 1.75310744, 0.75113647])

In [23]:
standardScaler.transform(X_train)[:10] # 对整个矩阵进行归一化，不会改变X_train。取前10行看看

array([[ -6.49053738,  -8.85486221,  -1.80087024,  -0.56184959],
       [ -9.19806055, -11.00431645,  -2.97221688,  -3.22045304],
       [ -5.7384476 ,  -6.16804441,  -1.47549617,   0.32435155],
       [ -7.24262715,  -8.85486221,  -1.73579543,  -0.38460937],
       [ -5.88886556,  -5.63068085,  -1.54057099,  -0.03012891],
       [ -8.29555283,  -9.92958933,  -2.41908097,  -1.8025312 ],
       [ -8.29555283,  -2.94386305,  -2.77699244,  -3.04321281],
       [ -7.69388101, -11.00431645,  -2.0937069 ,  -1.44805074],
       [ -8.29555283,  -5.09331729,  -2.90714207,  -3.39769327],
       [ -6.49053738,  -9.92958933,  -1.80087024,  -1.09357028]])

In [15]:
X_train = standardScaler.transform(X_train) # 对整个矩阵进行归一化，不会改变X_train,所以需要赋值

In [24]:
X_test_standard = standardScaler.transform(X_test) # 需要用同一个归一化类实例来对测试机进行归一化

In [25]:
from sklearn.neighbors import KNeighborsClassifier

In [26]:
knn_clf = KNeighborsClassifier(n_neighbors=3)

In [27]:
knn_clf.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [28]:
knn_clf.score(X_test_standard, y_test) # 获取计算地准确率。训练数据集和测试数据集必须都进行归一化(transform)操作

0.9736842105263158

In [29]:
knn_clf.score(X_test, y_test) # 直接使用X_test数据可以看到预测准确率很低，这里主要就是因为X_test没有进行归一化

0.34210526315789475

## sklearn中的最值方差归一化的类叫MinMaxScaler

> 所在包是`sklearn.preprocessing.MinMaxScaler`，不是很常用，一般我们还是用`sklearn.preprocessing.StandardScaler`