在前處理(preprocessing)的問題也包含缺失值處理(Missing Values)，我們把這個問題，移到 "其他工具" 的 pandas 的教學裡面。



# Standardization
在scikit-learn 裡面提供了四種不同資料處理的方法

* StandardScaler (平均值和標準差)
* MinMaxScaler (最小最大值標準化)
* MaxAbsScaler (絕對值最大標準化)
* RobustScaler

## StandardScaler
將所有特徵標準化，減去 mean 再除以 std，使得數據的 mean 為 $0$，std 為 $1$。

## MinMaxScaler
數據會縮放到到 $[0,1]$ 之間。

$$
X_{scaled} = \frac{X - X.min}{X.max - X.min}
$$

默認是對每一列都去做縮放。

## MaxAbsScaler
數據會縮放到到 $[-1,1]$ 之間，方法類似 MinMaxScaler。


## RobustScaler
可以有效的縮放帶有outlier的數據，透過Robust如果數據中含有異常值在縮放中會捨去。







In [4]:
from sklearn import datasets
from sklearn.preprocessing import StandardScaler


X, y = datasets.load_iris(return_X_y=True)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# scaled之後的資料零均值，單位方差  
print('資料集 X 的平均值 : ', X.mean(axis=0))
print('資料集 X 的標準差 : ', X.std(axis=0))

print('\nStandardScaler 縮放過後的平均值 : ', X_scaled.mean(axis=0))
print('StandardScaler 縮放過後的標準差 : ', X_scaled.std(axis=0))




資料集 X 的平均值 :  [5.84333333 3.05733333 3.758      1.19933333]
資料集 X 的標準差 :  [0.82530129 0.43441097 1.75940407 0.75969263]

StandardScaler 縮放過後的平均值 :  [-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
StandardScaler 縮放過後的標準差 :  [1. 1. 1. 1.]


In [5]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# scaled 之後的資料最小值、最大值  
print('資料集 X 的最小值 : ', X.min(axis=0))
print('資料集 X 的最大值 : ', X.max(axis=0))

print('\nStandardScaler 縮放過後的最小值 : ', X_scaled.min(axis=0))
print('StandardScaler 縮放過後的最大值 : ', X_scaled.max(axis=0))



資料集 X 的最小值 :  [4.3 2.  1.  0.1]
資料集 X 的最大值 :  [7.9 4.4 6.9 2.5]

StandardScaler 縮放過後的最小值 :  [0. 0. 0. 0.]
StandardScaler 縮放過後的最大值 :  [1. 1. 1. 1.]


In [10]:
from sklearn.preprocessing import MaxAbsScaler

X, y = datasets.load_iris(return_X_y=True)
# X = X-3
scaler = MaxAbsScaler()
X_scaled = scaler.fit_transform(X)


# scaled 之後的資料最小值、最大值  
print('資料集 X 的最小值 : ', X.min(axis=0))
print('資料集 X 的最大值 : ', X.max(axis=0))

print('\nStandardScaler 縮放過後的最小值 : ', X_scaled.min(axis=0))
print('StandardScaler 縮放過後的最大值 : ', X_scaled.max(axis=0))



資料集 X 的最小值 :  [4.3 2.  1.  0.1]
資料集 X 的最大值 :  [7.9 4.4 6.9 2.5]

StandardScaler 縮放過後的最小值 :  [0.5443038  0.45454545 0.14492754 0.04      ]
StandardScaler 縮放過後的最大值 :  [1. 1. 1. 1.]


In [11]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)


# scaled 之後的資料最小值、最大值  
print('資料集 X 的最小值 : ', X.min(axis=0))
print('資料集 X 的最大值 : ', X.max(axis=0))

print('\nStandardScaler 縮放過後的最小值 : ', X_scaled.min(axis=0))
print('StandardScaler 縮放過後的最大值 : ', X_scaled.max(axis=0))



資料集 X 的最小值 :  [4.3 2.  1.  0.1]
資料集 X 的最大值 :  [7.9 4.4 6.9 2.5]

StandardScaler 縮放過後的最小值 :  [-1.15384615 -2.         -0.95714286 -0.8       ]
StandardScaler 縮放過後的最大值 :  [1.61538462 2.8        0.72857143 0.8       ]
