# 5.3 标准化数据

In [1]:
%%html
<img src = './image/5-3-2.png',width=700,height=400>

## 5.3.1 离差标准化数据 

In [8]:
import pandas as pd
import numpy as np
detail = pd.read_csv('../data/detail.csv',
                    index_col = 0,encoding = 'gbk')
# 自定义离差标准化函数
def MinMaxScale(data):
    data = (data-data.min())/(data.max()-data.min())
    return data
# 对菜品订单表售价和销量做离差标准化
data1=MinMaxScale(detail['counts'])
data2=MinMaxScale(detail ['amounts'])
data3=pd.concat([data1,data2],axis=1)
print('离差标准化之前销量和售价数据为：\n',
    detail[['counts','amounts']].head())
print('离差标准化之后销量和售价数据为：\n',data3.head())

离差标准化之前销量和售价数据为：
            counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
离差标准化之后销量和售价数据为：
            counts   amounts
detail_id                  
2956          0.0  0.271186
2958          0.0  0.265537
2961          0.0  0.163842
2966          0.0  0.135593
2968          0.0  0.067797


数据的整体分布情况并不会随离差标准化而发生改变，原先取值较大的数据，在做完离差标准化后的值依旧较大。
当数据和最小值相等的时候，通过离差标准化可以发现数据变为0。
若数据极差过大就会出现数据在离差标准化后数据之间的差值非常小的情况。
同时，还可以看出离差标准化的缺点：若数据集中某个数值很大，则离差标准化的值就会接近于0，并且相互之间差别不大。若将来遇到超过目前属性[min,max]取值范围的时候，会引起系统出错，这时便需要重新确定min和max。


## 5.3.2 标准差标准化数据
### 代码 5-27 标准差标准化示例

In [9]:
%%html
<img src = './image/5-3-3.png',width=700,height=400>

In [10]:
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data
##对菜品订单表售价和销量做标准化
data4=StandardScaler(detail['counts'])
data5=StandardScaler(detail['amounts'])
data6=pd.concat([data4,data5],axis=1)
print('标准差标准化之前销量和售价数据为：\n',
    detail[['counts','amounts']].head())
print('标准差标准化之后销量和售价数据为：\n',data6.head())

标准差标准化之前销量和售价数据为：
            counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
标准差标准化之后销量和售价数据为：
              counts   amounts
detail_id                    
2956      -0.177571  0.116671
2958      -0.177571  0.088751
2961      -0.177571 -0.413826
2966      -0.177571 -0.553431
2968      -0.177571 -0.888482


## 5.3.3 小数定标标准化数据
### 代码 5-28 小数定标标准化示例

In [11]:
%%html
<img src = './image/5-3-3.png',width=700,height=400>

In [13]:
##自定义小数定标差标准化函数
def DecimalScaler(data):
    data=data/10**np.ceil(np.log10(data.abs().max()))
    return data
##对菜品订单表售价和销量做标准化
data7=DecimalScaler(detail['counts'])
data8=DecimalScaler(detail['amounts'])
data9=pd.concat([data7,data8],axis=1)
print('小数定标标准化之前的销量和售价数据：\n',
    detail[['counts','amounts']].head())
print('小数定标标准化之后的销量和售价数据：\n',data9.head())

小数定标标准化之前的销量和售价数据：
            counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
小数定标标准化之后的销量和售价数据：
            counts  amounts
detail_id                 
2956          0.1    0.049
2958          0.1    0.048
2961          0.1    0.030
2966          0.1    0.025
2968          0.1    0.013


## 5.3.4 任务实现
### 代码 5-29 对订单详情表中的数值型数据做标准化

In [14]:
##自定义标准差标准化函数
def StandardScaler(data):
    data=(data-data.mean())/data.std()
    return data
##对菜品订单表售价和销量做标准化
data4=StandardScaler(detail['counts'])
data5=StandardScaler(detail['amounts'])
data6=pd.concat([data4,data5],axis = 1)
print('标准差标准化之后销量和销量数据为：','\n',data6.head(10))

标准差标准化之后销量和销量数据为： 
              counts   amounts
detail_id                    
2956      -0.177571  0.116671
2958      -0.177571  0.088751
2961      -0.177571 -0.413826
2966      -0.177571 -0.553431
2968      -0.177571 -0.888482
1899      -0.177571  1.205587
1902      -0.177571  0.284197
1906      -0.177571  1.205587
1907      -0.177571  0.088751
1908      -0.177571 -0.357984
