# 数据处理方法

> 数据处理目的： 去量纲的影响，即是去除指标的单位的影响，使他们都在无量纲上进行讨论，但他们之间的相互关系还在，便于数据处理计算，其他干扰因素就少了。以及防止数据爆炸的影响。

###  归一化的方法

#### 方法一：线性函数归一化

> 将数据归一化到[0,1]之间

* 适应： 在不涉及距离，协方差计算，数据不符合正太分布的时候，用该技术或其他归一化方法。比如图像处理中，将灰度图像界定在0-255的范围内时

* 公式

$ X_{norm} = \frac{X - X_{min}}{ X_{max} - X_{min}}$

该公式对数据等比例进行缩放

* python实现

In [1]:
import numpy as np


# min-max-scaling归一化方法函数
def Min_Max_scaling(X):
    '''
      Min-Max-scaling 归一化处理数据
    '''
    for k in range(X.shape[1]):
        max = np.max(X[:,k])
        min = np.min(X[:,k])
        X[:,k] = (X[:,k] - min) / (max - min)
    return X

#测试

X = np.array([
    [1,2,3],
    [3,4,5],
    [5,6,7]
], dtype=float)

scaling_x = Min_Max_scaling(X)

print('result：',scaling_x)

result： [[0.  0.  0. ]
 [0.5 0.5 0.5]
 [1.  1.  1. ]]


### 方法二：0均值标准化（Z-score standardization）

> 将数据归一化均值为0，方差为1的数据集

* 公式

$z = \frac{x - \mu}{\sigma}$

$\mu为原数据的均值，\sigma为原数据的标准差$ 要求原数据近似正态分布

* 适用：在分类，聚类算法中，需要用距离来度量相似性的时候，或使用PCA技术进行降维时

* python实现

In [3]:
def Z_score(X):
    '''
    0均值标准化
    '''
    for k in range(X.shape[1]):
        mu = np.mean(X[:,k])
        sigma = np.var(X[:,k])
        X[:,k] = (X[:,k] - mu) / sigma
    return X
    

In [4]:
#测试
X = np.array([
    [1,2,1],
    [2,3,4]
],dtype=float)

Z_score(X)

array([[-2.        , -2.        , -0.66666667],
       [ 2.        ,  2.        ,  0.66666667]])