# 第5章　使用`pandas`进行数据预处理

## 任务5.3　标准化数据

<br>
<center>
    <b>代码5-26　离差标准化示例</b>
</center>

In [1]:
import pandas
import numpy
detail = pandas.read_csv('data/detail.csv', index_col=0, encoding='gbk')
# 自定义离差标准化函数
def minMaxScale(data):
    data = (data - data.min()) / (data.max() - data.min())
    return data
# 应用标准化
data_1 = minMaxScale(detail['counts'])
data_2 = minMaxScale(detail['amounts'])
data_3 = pandas.concat([data_1, data_2], axis=1)
print('离差标准化之前的销量和售价数据为：', detail[['counts', 'amounts']].head(), sep='\n')
print('离差标准化之后的销量和售价数据为：', data_3.head(), sep='\n')

离差标准化之前的销量和售价数据为：
           counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
离差标准化之后的销量和售价数据为：
           counts   amounts
detail_id                  
2956          0.0  0.271186
2958          0.0  0.265537
2961          0.0  0.163842
2966          0.0  0.135593
2968          0.0  0.067797


<br>
<center>
    <b>代码5-27　标准差标准化示例</b>
</center>

In [2]:
# 自定义标准化函数
def standardScale(data):
    data = (data - data.mean()) / data.std()
    return data
# 应用标准化
data_4 = standardScale(detail['counts'])
data_5 = standardScale(detail['amounts'])
data_6 = pandas.concat([data_4, data_5], axis=1)
print('标准差标准化之前销量和售价数据为：', detail[['counts', 'amounts']].head(), sep='\n')
print('标准差标准化之后销量和售价数据为：', data_6.head(), sep='\n')

标准差标准化之前销量和售价数据为：
           counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
标准差标准化之后销量和售价数据为：
             counts   amounts
detail_id                    
2956      -0.177571  0.116671
2958      -0.177571  0.088751
2961      -0.177571 -0.413826
2966      -0.177571 -0.553431
2968      -0.177571 -0.888482


<br>
<center>
    <b>代码5-28　小数定标标准化示例</b>
</center>

In [3]:
# 自定义函数
def decimalScale(data):
    data = data / (10 ** numpy.ceil(numpy.log10(data.abs().max())))
    return data
# 应用标准化
data_7 = decimalScale(detail['counts'])
data_8 = decimalScale(detail['amounts'])
data_9 = pandas.concat([data_7, data_8], axis=1)
print('小数定标标准化之前的销量和售价数据为：', detail[['counts', 'amounts']].head(), sep='\n')
print('小数定标标准化之后的销量和售价数据为：', data_9.head(), sep='\n')

小数定标标准化之前的销量和售价数据为：
           counts  amounts
detail_id                 
2956            1       49
2958            1       48
2961            1       30
2966            1       25
2968            1       13
小数定标标准化之后的销量和售价数据为：
           counts  amounts
detail_id                 
2956          0.1    0.049
2958          0.1    0.048
2961          0.1    0.030
2966          0.1    0.025
2968          0.1    0.013


<br>
<center>
    <b>代码5-29　对订单详情表中的数值型数据做标准差标准化</b>
</center>

In [4]:
# 自定义函数
def standardScale(data):
    data = (data - data.mean()) / data.std()
    return data
# 应用标准化
data_4 = standardScale(detail['counts'])
data_5 = standardScale(detail['amounts'])
data_6 = pandas.concat([data_4, data_5], axis=1)
print('标准差标准化之后销量和售价数据为：', data_6.head(10), sep='\n')

标准差标准化之后销量和售价数据为：
             counts   amounts
detail_id                    
2956      -0.177571  0.116671
2958      -0.177571  0.088751
2961      -0.177571 -0.413826
2966      -0.177571 -0.553431
2968      -0.177571 -0.888482
1899      -0.177571  1.205587
1902      -0.177571  0.284197
1906      -0.177571  1.205587
1907      -0.177571  0.088751
1908      -0.177571 -0.357984
