**数据标准化（归一化）处理**是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果。为了消除的指标之间的量纲影响，需要数据标准化处理，以解决数据指标间的可比性。

**数据标准化**是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

目前**数据标准化方法**有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还**没有通用的法则可以遵循**。


**<span style="color:red">1. min-max normalizatin/0-1 normalization</span>**
> 是对原始数据的线性变换，使结果值映射到[0, 1]之间。

$$x^* = \frac{x-min}{max-min}$$

In [2]:
import numpy as np
def normaliatin(xArr):  # xArr:numpy array
    '''normalization by columns'''
    return (xArr-np.min(xArr, 0)) / (np.max(xArr, 0)-np.min(xArr, 0))

In [4]:
# 将数据映射到[-1, 1]
def normalization(xArr):
    return ((xArr-np.mean(xArr, 0)) / (np.max(xArr, 0)- np.min(xArr, 0)))

**缺点**：当有新数据加入时，可能导致max与min的变化，需要重新定义。

**<span style="color:red">2. zero-mean normalization</span>**
> 基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化，进过处理的数据符合标准正态分布。

$$x^* = \frac{x-mean}{std}$$

In [6]:
def z_scoreNorm(xArr):  # xArr:numpy array
    '''normalization by columns'''
    xArrMeans = np.mean(xArr, 0)
    xArrStd = np.std(xArrr, 0)
    return (xArr-xArrMeans) / xArrStd

**<span style="color:red">3. lg函数转换</span>**

$$x^* = \frac{lg(x)}{lg(max)}$$

In [7]:
def lgNorm(array_like):
    return np.log10(array_like) / np.log10(np.max())

**<span style="color:red">4. arctan函数转换</span>**
> 要想映射到区间[0,1]，则所有的数据应该>=0, 小于0的数据将被映射到[-1,0]上

$$x^* = \frac{arctan(x)*2}{np.pi}$$

**z-score standardization的表现更好：**
> 在分类聚类中，需要使用距离来度量相似性的时候

> 或者使用PCA技术来进行降维的时候

在不涉及距离度量、协方差计算、数据不符合正态分布的时候，可以使用第一种方法或其他归一化方法，比如图像中将RGB图像转换为灰度图像后将其值限定在[0, 255]的范围。