## Step1: 導入數據集與所需的套件 

In [13]:
## 導入sklearn 標準化套件
from sklearn import preprocessing

## 導入繪圖套件
import plotly.express as px

## 導入數據處理套件
import pandas as pd

## 使用Plotly Express的內建數據集
iris_data = px.data.iris()

## 顯示數據
iris_data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


## Step2: 原始資料進行繪圖

In [14]:
## 這邊我拿'sepal_length' 與 'petal_length' 特徵來當X軸與Y軸，顏色用'species'來根據種類繪製不同顏色 
## 原始資料進行繪圖
fig = px.scatter(iris_data, x = 'sepal_length', y = 'petal_length', color = 'species')

## 顯示圖像
fig.show()

## Step3: 標準化前的數據準備 

In [15]:
## 將species特徵欄位數據獨立出來，目的是讓正規化後的圖，可以用嚴肅想是物種不同
iris_species = iris_data.loc[:,'species']

## 將沒辦法進行標準化的特徵欄位先拿出來
iris_data = iris_data.drop(['species','species_id'], axis = 1)

## 顯示數據
iris_data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


## Step4: 標準化（Standard Scaler） 

## 方法一： Z-Score 將數據呈現正態分佈與中心化 

In [17]:
## 使用標準化Z-Score套件
z_score_scaler = preprocessing.StandardScaler()

## 對數據進行標準化
iris_z_score = z_score_scaler.fit_transform(iris_data)

## 轉換成DataFrame
iris_z_score = pd.DataFrame(iris_z_score)

## 將species數據結合起來
iris_z_score['species'] = iris_species


print(iris_z_score)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_z_score, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2         3    species
0   -0.900681  1.032057 -1.341272 -1.312977     setosa
1   -1.143017 -0.124958 -1.341272 -1.312977     setosa
2   -1.385353  0.337848 -1.398138 -1.312977     setosa
3   -1.506521  0.106445 -1.284407 -1.312977     setosa
4   -1.021849  1.263460 -1.341272 -1.312977     setosa
..        ...       ...       ...       ...        ...
145  1.038005 -0.124958  0.819624  1.447956  virginica
146  0.553333 -1.281972  0.705893  0.922064  virginica
147  0.795669 -0.124958  0.819624  1.053537  virginica
148  0.432165  0.800654  0.933356  1.447956  virginica
149  0.068662 -0.124958  0.762759  0.790591  virginica

[150 rows x 5 columns]


In [18]:
## 導入sklearn 標準化套件
from sklearn import preprocessing

## 導入繪圖套件
import plotly.express as px

## 導入數據處理套件
import pandas as pd

## 使用Plotly Express的內建數據集
iris_data = px.data.iris()

## 顯示數據
iris_data

## 這邊我拿'sepal_length' 與 'petal_length' 特徵來當X軸與Y軸，顏色用'species'來根據種類繪製不同顏色 
## 原始資料進行繪圖
fig = px.scatter(iris_data, x = 'sepal_length', y = 'petal_length', color = 'species')

## 顯示圖像
fig.show()

## 將species特徵欄位數據獨立出來，目的是讓正規化後的圖，可以用嚴肅想是物種不同
iris_species = iris_data.loc[:,'species']

## 將沒辦法進行標準化的特徵欄位先拿出來
iris_data = iris_data.drop(['species','species_id'], axis = 1)

## 顯示數據
iris_data

## 使用標準化Z-Score套件
z_score_scaler = preprocessing.StandardScaler()

## 對數據進行標準化
iris_z_score = z_score_scaler.fit_transform(iris_data)

## 轉換成DataFrame
iris_z_score = pd.DataFrame(iris_z_score)

## 將species數據結合起來
iris_z_score['species'] = iris_species


print(iris_z_score)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_z_score, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2         3    species
0   -0.900681  1.032057 -1.341272 -1.312977     setosa
1   -1.143017 -0.124958 -1.341272 -1.312977     setosa
2   -1.385353  0.337848 -1.398138 -1.312977     setosa
3   -1.506521  0.106445 -1.284407 -1.312977     setosa
4   -1.021849  1.263460 -1.341272 -1.312977     setosa
..        ...       ...       ...       ...        ...
145  1.038005 -0.124958  0.819624  1.447956  virginica
146  0.553333 -1.281972  0.705893  0.922064  virginica
147  0.795669 -0.124958  0.819624  1.053537  virginica
148  0.432165  0.800654  0.933356  1.447956  virginica
149  0.068662 -0.124958  0.762759  0.790591  virginica

[150 rows x 5 columns]


## Min-Max - 線性歸一化 

In [21]:
## 使用標準化Min-Max套件
min_max_scaler = preprocessing.MinMaxScaler(feature_range = (0,1))

## 對數據進行標準化
iris_min_max = min_max_scaler.fit_transform(iris_data)

## 轉換為Data Frame格式
iris_min_max = pd.DataFrame(iris_min_max)

## 接回species種類特徵的資料
iris_min_max['species'] = iris_species

print(iris_min_max)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_min_max, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2         3    species
0    0.222222  0.625000  0.067797  0.041667     setosa
1    0.166667  0.416667  0.067797  0.041667     setosa
2    0.111111  0.500000  0.050847  0.041667     setosa
3    0.083333  0.458333  0.084746  0.041667     setosa
4    0.194444  0.666667  0.067797  0.041667     setosa
..        ...       ...       ...       ...        ...
145  0.666667  0.416667  0.711864  0.916667  virginica
146  0.555556  0.208333  0.677966  0.750000  virginica
147  0.611111  0.416667  0.711864  0.791667  virginica
148  0.527778  0.583333  0.745763  0.916667  virginica
149  0.444444  0.416667  0.694915  0.708333  virginica

[150 rows x 5 columns]


In [22]:
## 導入sklearn 標準化套件
from sklearn import preprocessing

## 導入繪圖套件
import plotly.express as px

## 導入數據處理套件
import pandas as pd

## 使用Plotly Express的內建數據集
iris_data = px.data.iris()

## 顯示數據
iris_data

## 這邊我拿'sepal_length' 與 'petal_length' 特徵來當X軸與Y軸，顏色用'species'來根據種類繪製不同顏色 
## 原始資料進行繪圖
fig = px.scatter(iris_data, x = 'sepal_length', y = 'petal_length', color = 'species')

## 顯示圖像
fig.show()

## 將species特徵欄位數據獨立出來，目的是讓正規化後的圖，可以用嚴肅想是物種不同
iris_species = iris_data.loc[:,'species']

## 將沒辦法進行標準化的特徵欄位先拿出來
iris_data = iris_data.drop(['species','species_id'], axis = 1)

## 顯示數據
iris_data

## 使用標準化Min-Max套件
min_max_scaler = preprocessing.MinMaxScaler(feature_range = (0,1))

## 對數據進行標準化
iris_min_max = min_max_scaler.fit_transform(iris_data)

## 轉換為Data Frame格式
iris_min_max = pd.DataFrame(iris_min_max)

## 接回species種類特徵的資料
iris_min_max['species'] = iris_species

print(iris_min_max)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_min_max, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2         3    species
0    0.222222  0.625000  0.067797  0.041667     setosa
1    0.166667  0.416667  0.067797  0.041667     setosa
2    0.111111  0.500000  0.050847  0.041667     setosa
3    0.083333  0.458333  0.084746  0.041667     setosa
4    0.194444  0.666667  0.067797  0.041667     setosa
..        ...       ...       ...       ...        ...
145  0.666667  0.416667  0.711864  0.916667  virginica
146  0.555556  0.208333  0.677966  0.750000  virginica
147  0.611111  0.416667  0.711864  0.791667  virginica
148  0.527778  0.583333  0.745763  0.916667  virginica
149  0.444444  0.416667  0.694915  0.708333  virginica

[150 rows x 5 columns]


## 方法三： MaxAbs 標準化 

In [24]:
## 使用標準化MaxAbs函數
maxabs_scaler = preprocessing.MaxAbsScaler()

## 對數據進行標準化轉換
iris_maxabs = maxabs_scaler.fit_transform(iris_data)

## 轉換成Data Frame格式
iris_maxabs = pd.DataFrame(iris_maxabs)

## 接回species特徵種類的資料
iris_maxabs['species'] = iris_species

print(iris_maxabs)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_maxabs, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2     3    species
0    0.645570  0.795455  0.202899  0.08     setosa
1    0.620253  0.681818  0.202899  0.08     setosa
2    0.594937  0.727273  0.188406  0.08     setosa
3    0.582278  0.704545  0.217391  0.08     setosa
4    0.632911  0.818182  0.202899  0.08     setosa
..        ...       ...       ...   ...        ...
145  0.848101  0.681818  0.753623  0.92  virginica
146  0.797468  0.568182  0.724638  0.76  virginica
147  0.822785  0.681818  0.753623  0.80  virginica
148  0.784810  0.772727  0.782609  0.92  virginica
149  0.746835  0.681818  0.739130  0.72  virginica

[150 rows x 5 columns]


In [25]:
## 導入sklearn 標準化套件
from sklearn import preprocessing

## 導入繪圖套件
import plotly.express as px

## 導入數據處理套件
import pandas as pd

## 使用Plotly Express的內建數據集
iris_data = px.data.iris()

## 顯示數據
iris_data

## 這邊我拿'sepal_length' 與 'petal_length' 特徵來當X軸與Y軸，顏色用'species'來根據種類繪製不同顏色 
## 原始資料進行繪圖
fig = px.scatter(iris_data, x = 'sepal_length', y = 'petal_length', color = 'species')

## 顯示圖像
fig.show()

## 將species特徵欄位數據獨立出來，目的是讓正規化後的圖，可以用嚴肅想是物種不同
iris_species = iris_data.loc[:,'species']

## 將沒辦法進行標準化的特徵欄位先拿出來
iris_data = iris_data.drop(['species','species_id'], axis = 1)

## 顯示數據
iris_data

## 使用標準化MaxAbs函數
maxabs_scaler = preprocessing.MaxAbsScaler()

## 對數據進行標準化轉換
iris_maxabs = maxabs_scaler.fit_transform(iris_data)

## 轉換成Data Frame格式
iris_maxabs = pd.DataFrame(iris_maxabs)

## 接回species特徵種類的資料
iris_maxabs['species'] = iris_species

print(iris_maxabs)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_maxabs, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0         1         2     3    species
0    0.645570  0.795455  0.202899  0.08     setosa
1    0.620253  0.681818  0.202899  0.08     setosa
2    0.594937  0.727273  0.188406  0.08     setosa
3    0.582278  0.704545  0.217391  0.08     setosa
4    0.632911  0.818182  0.202899  0.08     setosa
..        ...       ...       ...   ...        ...
145  0.848101  0.681818  0.753623  0.92  virginica
146  0.797468  0.568182  0.724638  0.76  virginica
147  0.822785  0.681818  0.753623  0.80  virginica
148  0.784810  0.772727  0.782609  0.92  virginica
149  0.746835  0.681818  0.739130  0.72  virginica

[150 rows x 5 columns]


## 方法四： RobustScaler 

In [27]:
## 使用標準化RobustScaler函數
rs_scaler = preprocessing.RobustScaler()

## 對數據進行標準化
iris_rs = rs_scaler.fit_transform(iris_data)

## 轉換為Data Frame格式
iris_rs = pd.DataFrame(iris_rs)

## 將species特徵種類的資料接上
iris_rs['species'] = iris_species

print(iris_rs)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_rs, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0    1         2         3    species
0   -0.538462  1.0 -0.842857 -0.733333     setosa
1   -0.692308  0.0 -0.842857 -0.733333     setosa
2   -0.846154  0.4 -0.871429 -0.733333     setosa
3   -0.923077  0.2 -0.814286 -0.733333     setosa
4   -0.615385  1.2 -0.842857 -0.733333     setosa
..        ...  ...       ...       ...        ...
145  0.692308  0.0  0.242857  0.666667  virginica
146  0.384615 -1.0  0.185714  0.400000  virginica
147  0.538462  0.0  0.242857  0.466667  virginica
148  0.307692  0.8  0.300000  0.666667  virginica
149  0.076923  0.0  0.214286  0.333333  virginica

[150 rows x 5 columns]


In [28]:
## 導入sklearn 標準化套件
from sklearn import preprocessing

## 導入繪圖套件
import plotly.express as px

## 導入數據處理套件
import pandas as pd

## 使用Plotly Express的內建數據集
iris_data = px.data.iris()

## 顯示數據
iris_data

## 這邊我拿'sepal_length' 與 'petal_length' 特徵來當X軸與Y軸，顏色用'species'來根據種類繪製不同顏色 
## 原始資料進行繪圖
fig = px.scatter(iris_data, x = 'sepal_length', y = 'petal_length', color = 'species')

## 顯示圖像
fig.show()

## 將species特徵欄位數據獨立出來，目的是讓正規化後的圖，可以用嚴肅想是物種不同
iris_species = iris_data.loc[:,'species']

## 將沒辦法進行標準化的特徵欄位先拿出來
iris_data = iris_data.drop(['species','species_id'], axis = 1)

## 顯示數據
iris_data

## 使用標準化RobustScaler函數
rs_scaler = preprocessing.RobustScaler()

## 對數據進行標準化
iris_rs = rs_scaler.fit_transform(iris_data)

## 轉換為Data Frame格式
iris_rs = pd.DataFrame(iris_rs)

## 將species特徵種類的資料接上
iris_rs['species'] = iris_species

print(iris_rs)

## 繪圖，由於進行標準化後的欄位名稱會改變成數字，所以記得將X軸與Y軸的值，給予對應的數值
fig = px.scatter(iris_rs, x = 0, y = 2, color = 'species')

## 顯示圖像
fig.show()

            0    1         2         3    species
0   -0.538462  1.0 -0.842857 -0.733333     setosa
1   -0.692308  0.0 -0.842857 -0.733333     setosa
2   -0.846154  0.4 -0.871429 -0.733333     setosa
3   -0.923077  0.2 -0.814286 -0.733333     setosa
4   -0.615385  1.2 -0.842857 -0.733333     setosa
..        ...  ...       ...       ...        ...
145  0.692308  0.0  0.242857  0.666667  virginica
146  0.384615 -1.0  0.185714  0.400000  virginica
147  0.538462  0.0  0.242857  0.466667  virginica
148  0.307692  0.8  0.300000  0.666667  virginica
149  0.076923  0.0  0.214286  0.333333  virginica

[150 rows x 5 columns]
