# Standardization 标准化：去均值    方差规范化

In [3]:
from sklearn import preprocessing
import numpy as np

#创建一组特征数据  每一行表示一个样本，每一列表示一个特征
x=np.array([[1.,-1.,2.],
            [2.,0.,0.],
            [0.,1.,-1.] ])

#将每一列特征标准化为标准正太分布  注意  标准化是针对每一列而言的
x_scale=preprocessing.scale(x)
x_scale

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [4]:
#可以查看标准化后的数据的均值与方差
x_scale.mean(axis=0)

array([ 0.,  0.,  0.])

In [5]:
#方差
x_scale.var(axis=0)

array([ 1.,  1.,  1.])

In [6]:
#调用fit方法  根据已有的训练数据创建一个标准化的转换器
scaler=preprocessing.StandardScaler().fit(x)
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [7]:
#使用上面这个转换器去转换训练数据x，调用 transform方法
scaler.transform(x)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [8]:
# 新加入一组样本也想得到相同的转换
new_x=[[-1.,1.,0.]]
scaler.transform(new_x)

array([[-2.44948974,  1.22474487, -0.26726124]])

# 更进一步：规范化特征值到一定范围内

#### 使得特征分布是在一个给定最小值与最大值的范围内，一般情况下是在[0,1]之间，或者是特征中绝对值最大的那个数为1，其他的数以此标准分布在 [-1,1] 之间
#### 之所以需要将特征规模化到一定的 [0,1]  的范围内 是为对付那些标准差相当小的特征并且保留下稀疏矩阵的0值

##### 1.min-max  标准化_离差归一化
######  限制数据在  [0,1]  之间
###### y=(x-MinValue)/(MaxValue-minValue)
###### x_scaler = x_std / (max-min) +min

In [13]:
#以下这个例子是将数据规在  [0,1] 之间 每个特征中的最小值变成了0  最大值变成了1
from sklearn import preprocessing
import numpy as np

X_train=np.array([[1.,-1.,2.],
                  [2.,0.,0.],
                  [0.,1.,-1.]])
min_max_scaler= preprocessing.MinMaxScaler()
X_train_minmax=min_max_scaler.fit_transform(X_train)
print(X_train_minmax)

[[ 0.5         0.          1.        ]
 [ 1.          0.5         0.33333333]
 [ 0.          1.          0.        ]]


In [14]:
#缩放因子等属性
print('缩放因子：',min_max_scaler.scale_)
print('每列最小值:',min_max_scaler.min_)

缩放因子： [ 0.5         0.5         0.33333333]
每列最小值: [ 0.          0.5         0.33333333]


In [16]:
#如果有新的测试数据进来 也想做相同的转换
x_test=np.array([[-3.,-1.,4.]])
x_test_minmax=min_max_scaler.transform(x_test)
x_test_minmax

array([[-1.5       ,  0.        ,  1.66666667]])

In [24]:
#自定义实现离差标准化
def AutoNorm(mat):
    '''
    对矩阵执行离差标准化
    '''
    n=len(mat)
    m=len(mat[0])
    MinNum=np.min( mat,axis=0)
    MaxNum=np.max(mat,axis=0)
    print('min:',MinNum)
    
    section=list(map(lambda x: x[0]-x[1],zip(MaxNum,MinNum)))
    print('每列的取值范围：',section)
    NormMat=[]
    
    for k in mat:
        distance=list(map(lambda x:x[0]-x[1],zip(k,MinNum)))
        value=list(map(lambda x:x[0]/x[1],zip(distance,section)))      #  (x-min)/(max-min)
        NormMat.append(value)
    return NormMat

In [25]:
dataMat=[[1,-1,2],
         [2,0,0],
         [0,1,-1]]
AutoNorm(dataMat)  

min: [ 0 -1 -1]
每列的取值范围： [2, 2, 3]


[[0.5, 0.0, 1.0], [1.0, 0.5, 0.33333333333333331], [0.0, 1.0, 0.0]]

# 2.最大化绝对值标准化， MaxAbsScaler：将每个属性除以该属性的绝对值的中最大值

它通过除以最大值将训练集缩放至[-1,1] 这意味着数据已经以0为中心或者是含有非常非常多0的稀疏矩阵
它可以将最大的绝对值缩放至单位大小

In [26]:
from sklearn.preprocessing import MaxAbsScaler
def test_MaxAbsScaler():
    '''
    测试 MaxAbsScaler 的用法
    ：return ：None
    '''
    x=[[1,5,1,2,10],
       [2,6,3,2,7],
       [3,7,5,6,4],
       [4,8,7,8,1]]
    print('转换前:',x)
    scaler=MaxAbsScaler()
    scaler.fit(x)
    print('缩放倍数的例数，也就是每个特征取值的绝对的最大值：',scaler.scale_)
    print('每个属性的绝对值的最大值：',scaler.max_abs_)  #每个属性的绝对值的最大值
    print("转换后：",scaler.transform(x))
    
test_MaxAbsScaler()

转换前: [[1, 5, 1, 2, 10], [2, 6, 3, 2, 7], [3, 7, 5, 6, 4], [4, 8, 7, 8, 1]]
缩放倍数的例数，也就是每个特征取值的绝对的最大值： [  4.   8.   7.   8.  10.]
每个属性的绝对值的最大值： [  4.   8.   7.   8.  10.]
转换后： [[ 0.25        0.625       0.14285714  0.25        1.        ]
 [ 0.5         0.75        0.42857143  0.25        0.7       ]
 [ 0.75        0.875       0.71428571  0.75        0.4       ]
 [ 1.          1.          1.          1.          0.1       ]]


# 归一化

In [27]:
from sklearn.preprocessing import Normalizer
def test_Normalizer():
    '''
    测试 Normalizer
    :return None
    '''
    X=[[1,2,3,4,5],
       [5,4,3,2,1],
       [1,3,5,2,4],
       [2,4,1,3,5]]
    # 范数  L1  -> 分母
    # 1/15   2/15  3/15  4/15  5/15
    # 范数 ：L2 -> 分母
    print('转换前：',X)
    normalizer=Normalizer(norm='max')  #取值  11  12  max(按这一行最大值作分母正则化)
    print('转换后：',normalizer.transform(X))
    
test_Normalizer()

转换前： [[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [1, 3, 5, 2, 4], [2, 4, 1, 3, 5]]
转换后： [[ 0.2  0.4  0.6  0.8  1. ]
 [ 1.   0.8  0.6  0.4  0.2]
 [ 0.2  0.6  1.   0.4  0.8]
 [ 0.4  0.8  0.2  0.6  1. ]]


In [28]:
import numpy as np
a=[[1,2,3,4,5],
    [5,4,3,2,1],
    [1,3,5,2,4],
    [2,4,1,3,5]]
print(a)
print("矩阵2的范数")
print(np.linalg.norm(a,ord=2))
print("矩阵1的范数")
print(np.linalg.norm(a,ord=1))
print("矩阵无穷的范数")
print(np.linalg.norm(a,ord=np.inf))

[[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [1, 3, 5, 2, 4], [2, 4, 1, 3, 5]]
矩阵2的范数
13.6183053417
矩阵1的范数
15.0
矩阵无穷的范数
15.0
