## 2.1 数据预处理 - 归一化

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Original Training data:\n", X_train[:5])
print("Original Testing data:\n", X_test[:5])

Original Training data:
 [[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]
 [6.7 3.1 4.4 1.4]
 [4.8 3.4 1.6 0.2]
 [4.4 3.2 1.3 0.2]]
Original Testing data:
 [[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]
 [7.7 2.6 6.9 2.3]
 [6.  2.9 4.5 1.5]
 [6.8 2.8 4.8 1.4]]


#### 1. 归一化的概念：
归一化（Normalization）是数据预处理中的一种技术，旨在将不同特征的数据缩放到相同的范围内，通常是 [0, 1] 或 [-1, 1]。归一化有助于消除不同特征之间的量纲差异，提高机器学习算法的性能和收敛速度。

#### 2. 归一化的方法：

##### 2.1 最小-最大归一化 (Min-Max Normalization)
最小-最大归一化通过将数据线性转换到指定范围内（通常是 [0, 1]）来实现归一化。其公式如下：
$$X' = \frac{X - X_{min}}{X_{max} - X_{min}}$$
其中，\(X\) 是原始数据，\(X_{min}\) 和 \(X_{max}\) 分别是数据的最小值和最大值，\(X'\) 是归一化后的数据。

In [6]:
from sklearn.preprocessing import MinMaxScaler
min_max_scalar = MinMaxScaler()

# 对于训练集和测试集进行归一化
# 训练集使用 fit_transform，测试集使用 transform，避免将测试集的信息泄露到训练集中
X_train_minmax_scaled = min_max_scalar.fit_transform(X_train)
X_test_minmax_scaled = min_max_scalar.transform(X_test)
print("Training data after Min-Max Normalization:\n", X_train_minmax_scaled[:5])
print("Testing data after Min-Max Normalization:\n", X_test_minmax_scaled[:5])

Training data after Min-Max Normalization:
 [[0.08823529 0.66666667 0.         0.04166667]
 [0.41176471 1.         0.0877193  0.125     ]
 [0.70588235 0.45833333 0.59649123 0.54166667]
 [0.14705882 0.58333333 0.10526316 0.04166667]
 [0.02941176 0.5        0.05263158 0.04166667]]
Testing data after Min-Max Normalization:
 [[0.52941176 0.33333333 0.64912281 0.45833333]
 [0.41176471 0.75       0.12280702 0.08333333]
 [1.         0.25       1.03508772 0.91666667]
 [0.5        0.375      0.61403509 0.58333333]
 [0.73529412 0.33333333 0.66666667 0.54166667]]


##### 2.2 Max-Abs 归一化 (Max-Abs Normalization)
Max-Abs 归一化通过将数据除以其绝对值的最大值来实现归一化。其公式如下：
$$X' = \frac{X}{|X_{max}|}$$
其中，\(X\) 是原始数据，\(X_{max}\) 是数据的绝对值的最大值，\(X'\) 是归一化后的数据。

In [7]:
from sklearn.preprocessing import MaxAbsScaler
maxabs_scalar = MaxAbsScaler()
X_train_maxabs_scaled = maxabs_scalar.fit_transform(X_train)
X_test_maxabs_scaled = maxabs_scalar.transform(X_test)
print("Training data after Max-Abs Normalization:\n", X_train_maxabs_scaled[:5])
print("Testing data after Max-Abs Normalization:\n", X_test_maxabs_scaled[:5])

Training data after Max-Abs Normalization:
 [[0.5974026  0.81818182 0.14925373 0.08      ]
 [0.74025974 1.         0.2238806  0.16      ]
 [0.87012987 0.70454545 0.65671642 0.56      ]
 [0.62337662 0.77272727 0.23880597 0.08      ]
 [0.57142857 0.72727273 0.19402985 0.08      ]]
Testing data after Max-Abs Normalization:
 [[0.79220779 0.63636364 0.70149254 0.48      ]
 [0.74025974 0.86363636 0.25373134 0.12      ]
 [1.         0.59090909 1.02985075 0.92      ]
 [0.77922078 0.65909091 0.67164179 0.6       ]
 [0.88311688 0.63636364 0.71641791 0.56      ]]
