## 二元化

`Binarizer` 是根据阈值进行数据的二元化处理，大于的为1，小于的为0

In [1]:
from sklearn.preprocessing import Binarizer

X = [[1, 2, 3, 4, 5],
    [5, 4, 3, 2, 1],
    [3, 3, 3, 3, 3],
    [1, 1, 1, 1, 1]]

print("before transform:", X)

binarizer = Binarizer(threshold=2.5)
print("after transform:", binarizer.transform(X))

before transform: [[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [3, 3, 3, 3, 3], [1, 1, 1, 1, 1]]
after transform: [[0 0 1 1 1]
 [1 1 1 0 0]
 [1 1 1 1 1]
 [0 0 0 0 0]]


## 标准化

`MinMaxScaler` 标准化数据，数据的每个特征被缩放到指定的范围（通常是[0, 1]或[0, 2]）。计算公式为：

$$
X' = \frac{X - X_{min}}{X_{max} - X_{min}} \times (feature\_max - feature\_min) + feature\_min
$$

其中，$X$是原始值，$X_{min}$和$X_{max}$分别是特征的最小和最大值，$feature\_min$和$feature\_max$是目标范围的最小和最大值。通过这个公式，数据会被缩放到所需的范围内，保持特征之间的比例。

In [2]:
from sklearn.preprocessing import MinMaxScaler, MaxAbsScaler, StandardScaler


# min-max标准化
def test_MinMaxScaler():
    X = [[1, 5, 1, 2, 10],
        [2, 6, 3, 2, 7],
        [3, 7, 5, 6, 4],
        [4, 8, 7, 8, 1]]
    print("before transform:", X)
    scaler = MinMaxScaler(feature_range=(0, 2))
    scaler.fit(X)
    print("min_ is :", scaler.min_)
    print("scale_ is :", scaler.scale_)
    print("data_max_ is :", scaler.data_max_)
    print("data_min_ is :", scaler.data_min_)
    print("data_range_ is :", scaler.data_range_)
    print("after transform:", scaler.transform(X))


test_MinMaxScaler()

before transform: [[1, 5, 1, 2, 10], [2, 6, 3, 2, 7], [3, 7, 5, 6, 4], [4, 8, 7, 8, 1]]
min_ is : [-0.66666667 -3.33333333 -0.33333333 -0.66666667 -0.22222222]
scale_ is : [0.66666667 0.66666667 0.33333333 0.33333333 0.22222222]
data_max_ is : [ 4.  8.  7.  8. 10.]
data_min_ is : [1. 5. 1. 2. 1.]
data_range_ is : [3. 3. 6. 6. 9.]
after transform: [[0.         0.         0.         0.         2.        ]
 [0.66666667 0.66666667 0.66666667 0.         1.33333333]
 [1.33333333 1.33333333 1.33333333 1.33333333 0.66666667]
 [2.         2.         2.         2.         0.        ]]


`MaxAbsScaler` 标准化将每个特征按其最大绝对值进行缩放，将其映射到 [-1, 1] 范围内，缩放公式如下：

$$
X' = \frac{X}{X_{\text{max\_abs}}}
$$

其中，$X_{\text{max\_abs}}$ 是每个特征的最大绝对值。这样做的好处是不改变数据的正负号，同时使数据的绝对值保持在 [0, 1] 之间或 [-1, 1]。

In [3]:
def test_MaxAbsScaler():
    X = [[1, 5, 1, 2, 10],
        [2, 6, 3, 2, 7],
        [3, 7, 5, 6, 4],
        [4, 8, 7, 8, 1]]
    print("before transform:", X)
    scaler = MaxAbsScaler()
    scaler.fit(X)
    print("scale_ is :", scaler.scale_)
    print("max_abs_ is :", scaler.max_abs_)
    print("after transform:", scaler.transform(X))


test_MaxAbsScaler()

before transform: [[1, 5, 1, 2, 10], [2, 6, 3, 2, 7], [3, 7, 5, 6, 4], [4, 8, 7, 8, 1]]
scale_ is : [ 4.  8.  7.  8. 10.]
max_abs_ is : [ 4.  8.  7.  8. 10.]
after transform: [[0.25       0.625      0.14285714 0.25       1.        ]
 [0.5        0.75       0.42857143 0.25       0.7       ]
 [0.75       0.875      0.71428571 0.75       0.4       ]
 [1.         1.         1.         1.         0.1       ]]


`StandardScaler` 标准化后的数据符合标准正态分布，均值为0，标准差为1

也称为 Z-score 标准化，标准差标准化或零均值标准化

$$
z_i = \frac{x_i - \mu}{\sigma}
$$

其中：
- $x_i$ 是原始数据点
- $\mu$ 是该特征的**均值**
- $\sigma$ 是该特征的**标准差**

In [4]:
# StandardScaler
def test_StandardScaler():
    X = [[1, 5, 1, 2, 10],
        [2, 6, 3, 2, 7],
        [3, 7, 5, 6, 4],
        [4, 8, 7, 8, 1]]
    print("before transform:", X)
    scaler = StandardScaler()
    scaler.fit(X)
    print("scale_ is :", scaler.scale_)
    print("mean_ is :", scaler.mean_)
    print("var_ is :", scaler.var_)
    print("after transform:", scaler.transform(X))


test_StandardScaler()

before transform: [[1, 5, 1, 2, 10], [2, 6, 3, 2, 7], [3, 7, 5, 6, 4], [4, 8, 7, 8, 1]]
scale_ is : [1.11803399 1.11803399 2.23606798 2.59807621 3.35410197]
mean_ is : [2.5 6.5 4.  4.5 5.5]
var_ is : [ 1.25  1.25  5.    6.75 11.25]
after transform: [[-1.34164079 -1.34164079 -1.34164079 -0.96225045  1.34164079]
 [-0.4472136  -0.4472136  -0.4472136  -0.96225045  0.4472136 ]
 [ 0.4472136   0.4472136   0.4472136   0.57735027 -0.4472136 ]
 [ 1.34164079  1.34164079  1.34164079  1.34715063 -1.34164079]]


## 正则化

L1范数是指向量中各个元素绝对值之和

L2范数是指向量各元素的平方和然后求平方根

In [5]:
from sklearn.preprocessing import Normalizer


def test_Normalizer():
    X = [[1, 2, 3, 4, 5], 
         [5, 4, 3, 2, 1], 
         [1, 3, 5, 2, 4], 
         [2, 4, 1, 3, 5]]
    print("before transform:", X)
    # 11：采用L1范数进行正则化；12：采用L2范数进行正则化
    normalizer = Normalizer(norm="l2")
    print("after transform:", normalizer.transform(X))


test_Normalizer()

before transform: [[1, 2, 3, 4, 5], [5, 4, 3, 2, 1], [1, 3, 5, 2, 4], [2, 4, 1, 3, 5]]
after transform: [[0.13483997 0.26967994 0.40451992 0.53935989 0.67419986]
 [0.67419986 0.53935989 0.40451992 0.26967994 0.13483997]
 [0.13483997 0.40451992 0.67419986 0.26967994 0.53935989]
 [0.26967994 0.53935989 0.13483997 0.40451992 0.67419986]]
