## 标准化（standardization）和规范化（normalization）

> 标准化：把数据调整（scaling）为标准正态分布（standard	normal）

在回归问题和一些机器学习算法中，以及训练神经网络的过程中，通常需要对原始数据进行中心化（Zero-centered或者Mean-subtraction）处理和标准化（Standardization或Normalization）处理。  
* 目的：通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。  
通过中心化得到均值为0的数据，再通过标准化得到标准差为1的数据  
$$x=	\frac	{x-	\bar	x}	\sigma$$

In [2]:
from sklearn import preprocessing #数据预处理模块
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [3]:
a = np.array([
    [10,2.7,3.6],
    [-100,5,-2],
    [120,20,40]
])

In [14]:
# 标准化和中心化，将数据集的均值变成0附近，标准差变成1
preprocessing.scale(a,axis=0),preprocessing.scale(a,axis=0).std(axis=0)

(array([[ 0.        , -0.85170713, -0.55138018],
        [-1.22474487, -0.55187146, -0.852133  ],
        [ 1.22474487,  1.40357859,  1.40351318]]), array([ 1.,  1.,  1.]))

> 规范化：目的？提升模型收敛速度和模型精度

In [52]:
# 规范化，norm可以指定正则类型
preprocessing.normalize(a,axis=0,norm='l2')

array([[ 0.06388766,  0.12986023,  0.08952676],
       [-0.63887656,  0.24048191, -0.04973709],
       [ 0.76665188,  0.96192763,  0.99474177]])

In [4]:
# 数据集分区，划分训练集和测试集
from sklearn.model_selection import train_test_split 
# 生成适合做classification数据集模块
from sklearn.datasets.samples_generator import make_classification
# svm模块
from sklearn.svm import SVC
import pyecharts as echarts

In [41]:
x, y = make_classification(
    n_samples=300, n_features=2,
    n_redundant=0, n_informative=2, 
    random_state=22, n_clusters_per_class=1, 
    scale=100)
scatter = echarts.Scatter()  
scatter.add('',x[y==0][:,0],x[y==0][:,1])
scatter.add('',x[y==1][:,0],x[y==1][:,1])
scatter

数据标准化前模型准确率

In [42]:
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3)
svm_model = SVC()
svm_model.fit(x_train,y_train)
svm_model.score(x_test,y_test)

0.52222222222222225

数据标准化

In [43]:
x = preprocessing.scale(x)
scatter = echarts.Scatter()
scatter.add('',x[y==0][:,0],x[y==1][:,1])
scatter.add('',x[y==1][:,0],x[y==1][:,1])
scatter

In [44]:
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3)
svm_model = SVC()
svm_model.fit(x_train,y_train)
svm_model.score(x_test,y_test)

0.96666666666666667

## 用阈值创建二元特征  
当不需要将数据呈现为标准化分布时，可以直接使用或者通过二元特征来分割数据（特别是处理连续数据时）

In [48]:
from sklearn import datasets as d
boston = d.load_boston()
import numpy as np

与标准化处理类似，scikit-learn有两种方法二元特征：
* preprocessing.binarize	（一个函数）
* preprocessing.Binarizer	（一个类）

In [46]:
from sklearn import preprocessing
new_target = preprocessing.binarize(boston.target,threshold=boston.target.mean())
new_target[0,:5]

array([ 1.,  0.,  1.,  1.,  1.])

在sklearn中，要使用pipeline命令就要用Binarizer类

In [50]:
bin = preprocessing.Binarizer(boston.target.mean())
new_target = bin.fit_transform(boston.target)
new_target[0,:5]

array([ 1.,  0.,  1.,  1.,  1.])

## 稀疏矩阵  
稀疏矩阵的 	0	是不被存储的；这样可以节省很多空间。这就为 	binarizer	造成
了问题，需要指定阈值参数 	threshold	不小于 	0	来解决，如果 	threshold	小
于 	0	就会出现错误