#### https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling

In [1]:
from sklearn import preprocessing
import numpy as np

In [2]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [3]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
scaler = preprocessing.StandardScaler().fit(X_train)

In [4]:
scaler

In [5]:
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [6]:
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

In [7]:
X_scaled = scaler.transform(X_train)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

#### https://scikit-learn.org/stable/modules/preprocessing.html#discretization

In [8]:
X = np.array([[ -3., 5., 15 ],
              [  0., 6., 14 ],
              [  6., 3., 11 ]])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)

#### 每个特征的分箱数量： n_bins=[3, 2, 2] encode='ordinal' 分箱后的结果用整数编码（如 0, 1, 2 表示不同的箱），而非独热编码（One-Hot）。strategy（未显式设置，默认为 'uniform'）分箱策略为等宽分箱（即每个箱的宽度相同）。

#### 第一个特征（列 [-3, 0, 6]）
#### 分箱数：3 个等宽箱。
#### 分箱边界：
#### 最小值 -3，最大值 6，分 3 个等宽区间：
#### [-3.0, 0.0), [0.0, 3.0), [3.0, 6.0]           
#### -3.0 → 箱 0；
#### 0.0 → 箱 1；
#### 6.0 → 箱 2。

In [9]:
est.transform(X)

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])