In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris

In [2]:
np.set_printoptions(suppress=True)  # 設定print options

**Load the dataset**

將Iris flower dataset進行資料正規化

In [3]:
iris = load_iris()

df = pd.DataFrame(
    data=np.c_[iris["data"], iris["target"]],
    columns=["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidth", "Species"]
)
df

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidth,Species
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0


**檢查缺失值**

使用`numpy`的function來檢查是否有N/A缺失值，如果有缺失值則使用`dropna()`進行移除。

情境:

1. 少量缺失值時，可以用移除方式。
2. 大量缺失值時，建議使用機器學習的方式補上預測值。

補值方式:

1. 使用**average**, **median** or **mode**作為依據進行補值。
2. 如果資料有時間序的問題，可利用附近的數值加總取平均值進行補值。

In [4]:
X = df.drop(labels=["Species"], axis=1).values
y = df["Species"]
print(f"Checked missing data(NaN mount): {len(np.where(np.isnan(X))[0])}")

Checked missing data(NaN mount): 0


In [5]:
from sklearn.model_selection import train_test_split

# test_size -> 分割多少百分比的資料作為測試集
# random_state -> 給予一個隨機數值，主要目的是讓結果可再現(相同的數值)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print(f"Train shape: {X_train.shape}")
print(f"Test shape: {X_test.shape}")

Train shape: (105, 4)
Test shape: (45, 4)


**Standardization 平均&變異數標準化**

將所有特徵標準化，也就是**高斯分布**，使:

- Average = 0
- Variance = 1

適用於當有些特徵的方差過大時，能夠透過標準化讓模型收斂

In [6]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

print(f"Dataset - X average: {X_train.mean(axis=0)}")
print(f"Dataset - X std: {X_train.std(axis=0)}")
print()
print(f"StandardScaler 縮放過後的訓練集平均值: {X_train_scaled.mean(axis=0)}")
print(f"StandardScaler 縮放過後的訓練集標準差: {X_train_scaled.std(axis=0)}")

Dataset - X average: [5.87333333 3.0552381  3.7847619  1.20571429]
Dataset - X std: [0.85882164 0.45502087 1.77553646 0.77383751]

StandardScaler 縮放過後的訓練集平均值: [ 0. -0. -0. -0.]
StandardScaler 縮放過後的訓練集標準差: [1. 1. 1. 1.]


In [7]:
X_test_scaled = scaler.transform(X_test)

print(f"StandardScaler 縮放過後的測試集平均值: {X_test_scaled.mean(axis=0)}")
print(f"StandardScaler 縮放過後的測試集標準差: {X_test_scaled.std(axis=0)}")

StandardScaler 縮放過後的測試集平均值: [-0.11643861  0.01534903 -0.05024191 -0.02748619]
StandardScaler 縮放過後的測試集標準差: [0.85754489 0.83947065 0.96847064 0.9374037 ]


In [8]:
# 使用inverse_transform()可以將數值還原成原本的輸入
X_test_inverse = scaler.inverse_transform(X_test_scaled)
X_test_inverse[:3]

array([[7.3, 2.9, 6.3, 1.8],
       [6.1, 2.9, 4.7, 1.4],
       [6.3, 2.8, 5.1, 1.5]])

In [9]:
X_test[:3]

array([[7.3, 2.9, 6.3, 1.8],
       [6.1, 2.9, 4.7, 1.4],
       [6.3, 2.8, 5.1, 1.5]])

**MinMaxScaler** 最小最大值標準化

在`MinMaxScaler`中，最小值會被設定為**0**，最大值則為**1**，而其他數值會介於0~1之間。

In [10]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)

print(f"Dataset - X minimum: {X_train.min(axis=0)}")
print(f"Dataset - X maximum: {X_train.max(axis=0)}")
print()
print(f"StanderScaler 縮放過後訓練集的最小值: {X_train_scaled.min(axis=0)}")
print(f"StanderScaler 縮放過後訓練集的最大值: {X_train_scaled.max(axis=0)}")

Dataset - X minimum: [4.3 2.  1.1 0.1]
Dataset - X maximum: [7.9 4.4 6.9 2.5]

StanderScaler 縮放過後訓練集的最小值: [0. 0. 0. 0.]
StanderScaler 縮放過後訓練集的最大值: [1. 1. 1. 1.]


In [11]:
X_test_scaled = scaler.transform(X_test)

print(f"StanderScaler 縮放過後測試集的最小值: {X_test_scaled.min(axis=0)}")
print(f"StanderScaler 縮放過後測試集的最大值: {X_test_scaled.max(axis=0)}")

StanderScaler 縮放過後測試集的最小值: [ 0.02777778  0.125      -0.01724138  0.04166667]
StanderScaler 縮放過後測試集的最大值: [0.83333333 0.83333333 0.89655172 0.95833333]


**MaxAbsScaler** 絕對值最大化標準差

數據會縮放到[-1, 1]之間

In [12]:
from sklearn.preprocessing import MaxAbsScaler

scaler = MaxAbsScaler()
X_scaled = scaler.fit_transform(X_train)

In [13]:
print(f"Dataset - X minimum: {X_train.min(axis=0)}")
print(f"Dataset - X maximum: {X_train.max(axis=0)}")
print()
print(f"StanderScaler 縮放過後訓練集的最小值: {X_scaled.min(axis=0)}")
print(f"StanderScaler 縮放過後訓練集的最大值: {X_scaled.max(axis=0)}")

Dataset - X minimum: [4.3 2.  1.1 0.1]
Dataset - X maximum: [7.9 4.4 6.9 2.5]

StanderScaler 縮放過後訓練集的最小值: [0.5443038  0.45454545 0.15942029 0.04      ]
StanderScaler 縮放過後訓練集的最大值: [1. 1. 1. 1.]


In [14]:
X_test_scaled = scaler.transform(X_test)

print(f"StanderScaler 縮放過後測試集的最小值: {X_test_scaled.min(axis=0)}")
print(f"StanderScaler 縮放過後測試集的最大值: {X_test_scaled.max(axis=0)}")

StanderScaler 縮放過後測試集的最小值: [0.55696203 0.52272727 0.14492754 0.08      ]
StanderScaler 縮放過後測試集的最大值: [0.92405063 0.90909091 0.91304348 0.96      ]


**RobustScaler**

如果資料集包含許多outliers，這時使用資料集的mean & variance效果可能不好，在這些cases中，可以使用Robust Scaler，對於數據中心與範圍使用更可靠的預估。

In [15]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X_train)

In [16]:
print(f"Dataset - X minimum: {X_train.min(axis=0)}")
print(f"Dataset - X maximum: {X_train.max(axis=0)}")
print()
print(f"StanderScaler 縮放過後訓練集的最小值: {X_scaled.max(axis=0)}")
print(f"StanderScaler 縮放過後訓練集的最大值: {X_scaled.min(axis=0)}")

Dataset - X minimum: [4.3 2.  1.1 0.1]
Dataset - X maximum: [7.9 4.4 6.9 2.5]

StanderScaler 縮放過後訓練集的最小值: [1.61538462 2.8        0.77142857 0.75      ]
StanderScaler 縮放過後訓練集的最大值: [-1.15384615 -2.         -0.88571429 -0.75      ]


In [17]:
X_test_scaled = scaler.transform(X_test)

print(f"StanderScaler 縮放過後測試集的最小值: {X_test_scaled.min(axis=0)}")
print(f"StanderScaler 縮放過後測試集的最大值: {X_test_scaled.max(axis=0)}")

StanderScaler 縮放過後測試集的最小值: [-1.07692308 -1.4        -0.91428571 -0.6875    ]
StanderScaler 縮放過後測試集的最大值: [1.15384615 2.         0.6        0.6875    ]
