<a href="https://colab.research.google.com/github/weilipan/MachineLearing/blob/main/1_1_%E6%95%B8%E6%93%9A%E9%A1%9E%E5%9E%8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1-1 數據類型
1. 數值型數據：區間、比例、數量等離散與連續數據。
2. 類別型數據：名目(nomial)與順序(ordinal)變數差異

## 1-1-1 數值型數據
1. 離散(discrete):可以被一一列舉的數值，可以是有限個，也可以是無限個。
2. 連續(continuous):無法單純以計數來描述，僅能透過在實數線上以區間的方式呈現。為紀錄和使用的便利，常會設定以四捨五入的方式到某位數的精準度。

In [1]:
# 特徵縮放-標準縮放 算出Z分數
from sklearn.preprocessing import StandardScaler
import numpy as np
X_train=np.array([[1.,-1.,2.],
                  [2.,0.,0.],
                  [0.,1.,-1.]])
#建立標準化縮放器並進行擬合
scaler=StandardScaler().fit(X_train)
scaler.mean_#擬合後的平均值

array([1.        , 0.        , 0.33333333])

In [2]:
X_train_std=scaler.transform(X_train) #標準化轉換
X_train_std

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [3]:
print("Mean:",X_train_std.mean())
print("Standard deviation:",X_train_std.std())

Mean: 4.9343245538895844e-17
Standard deviation: 1.0


In [4]:
X_test=[[-1.,1.,0.]]
scaler.transform(X_test) #轉換其他數據

array([[-2.44948974,  1.22474487, -0.26726124]])

## 最大最小縮放法 min-max scaling
$X_{mm}^i=\frac{X^i-X_{min}}{X_{max}=X_{min}}$  
當特徵分布非常態或是有較小標準差時能有不錯的效果。

In [5]:
# 特徵縮放到特定區間，轉換完區間為0-1
from sklearn.preprocessing import MinMaxScaler
X_train=np.array([[1.,-1.,2.],
                  [2.,0.,0.],
                  [0.,1.,-1.]])
# 建立最小最大縮放器
min_max_scaler=MinMaxScaler()
# 進行擬合後直接轉換
X_train_minmax=min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [9]:
# 縮放區間改為[1,10]
X_train_minmax=MinMaxScaler(feature_range=(1,10)).fit_transform(X_train)
X_train_minmax

array([[ 5.5,  1. , 10. ],
       [10. ,  5.5,  4. ],
       [ 1. , 10. ,  1. ]])

In [11]:
# 若數據中有一些離群值(outlier)，則上述兩種標準化方法可能無法得到好的縮放結果
# 此時可以使用以分位數範圍來縮放尺度，預設採用四分數(Interquartile Range,IQR)
# 的第一(25%)與第三(75%)分位數，可用RobustScaler進行縮放。
from sklearn.preprocessing import RobustScaler
X_train=np.array([[1.,-2.,2.],
                  [-2.,1.,3.],
                  [4.,1.,-2.]])
# 建立縮放器
scale=RobustScaler().fit(X_train)
scale.transform(X_train)

array([[ 0. , -2. ,  0. ],
       [-1. ,  0. ,  0.4],
       [ 1. ,  0. , -1.6]])

正規化是縮放各別樣本的特徵，使其具有單位範數（unit norm）性質，亦即特徵縮放後的長度總和為1。  
在圖1-1-1中，對特徵進行縮放是以Column-wise進行，而對縮放各別樣本則是以Row-wise進行。  
針對樣本的縮放方式常用在利用特徵向量的內積來評估兩個樣本距離，例如文本的特徵是一堆詞（word），而在計算兩個文本距離前可先正 每個文本的特徵。  
若要計算寶可夢距離，也可先將每隻寶可夢的屬性質正規化，使其突顯其特色屬性。  
scikit-learn的Normalizer()提供3個範數選項，分別是：  
歐幾里德範數（Euclidean norm，通常稱為L2，此為預設值）、曼哈頓範數（Manhattan norm，稱為L1）以及最大值。範例程式如下：

In [12]:
from sklearn.preprocessing import Normalizer
X_train=np.array([[1.,-1.,2.],
                  [2.,0.,0.],
                  [0.,1.,-1.]])
# 建立正規化縮放器
norm=Normalizer(norm='l2').fit(X_train)
norm.transform(X_train)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [13]:
# L1正規化調整樣本特徵值，其總和為1
norm=Normalizer(norm='l1').fit(X_train)
norm.transform(X_train)

array([[ 0.25, -0.25,  0.5 ],
       [ 1.  ,  0.  ,  0.  ],
       [ 0.  ,  0.5 , -0.5 ]])

## 1-1-2 類別型數據
類別型數據代表樣本的屬性，可再細分為「名目特徵」（nominal feature）與「有序特徵」（ordinal feature）。前者如性別、寶可夢屬性等沒有順序關係。而後者則能定義一個順序（order）關係，如名次、衣服大小。類別型數據常用數值來表示，例如：0代表女性、1則是男性。實務上類別型數據皆要轉成數值的型態才能交給機器學習模型進行擬合，儘管如此這些數值並沒有數學涵義，不能直接進行算術運算。  
常見是透過one-hot encoding編碼來處理。  
舉例而言，血型有四個值（A、B、AB、O），則可換為[1,0,0,0],[0,1,0,0],[0,0,1,0][0,0,0,1]，可利用稀疏矩陣向量表示法節省空間。  
編碼後的高維度向量容易引發「維度災難」（curse of dimensionality），導致衡量兩點間的距離容易失真，也容易造成模型校能的低落，因此可配合特徵選擇來降低難度。  
特徵增加可能引入「多元共線性」（multi-colinearity），而特徵間高度相關會導致難以計算反矩陣，使得個別參數的估計值不穩定，此時可簡單地刪除一個編碼後的特徵行，以降低特徵間的相關性。  

In [1]:
import pandas as pd
df=pd.DataFrame([['小火龍','Fire','39','FALSE'],
                 ['皮卡丘','Electric','35','FALSE'],
                 ['超夢','Psychic','106','TRUE'],
                 ['噴火龍','Fire','78','FALSE']])
df.columns=['Name','Type1','HP','Legendary']
df

Unnamed: 0,Name,Type1,HP,Legendary
0,小火龍,Fire,39,False
1,皮卡丘,Electric,35,False
2,超夢,Psychic,106,True
3,噴火龍,Fire,78,False


In [2]:
#利用get_dummies()自動完成編碼、命名並合併到DataFrame的程式(自動刪除原編碼欄位)
df_encode=pd.get_dummies(df,columns=['Type1','Legendary'])
df_encode

Unnamed: 0,Name,HP,Type1_Electric,Type1_Fire,Type1_Psychic,Legendary_FALSE,Legendary_TRUE
0,小火龍,39,0,1,0,1,0
1,皮卡丘,35,1,0,0,1,0
2,超夢,106,0,0,1,0,1
3,噴火龍,78,0,1,0,1,0


In [5]:
# 刪除一個編碼後的特徵行，以降低特徵間的相關性。儘管這裡刪除某些特徵，實際上並沒有遺失資訊。  
# 移除了Type1_Electric，但其實當Type1_Fire=0 and Type1_Psychic=0，就表示Type1_Electric=1。
df_encode=pd.get_dummies(df,columns=['Type1','Legendary'],drop_first=True)
df_encode

Unnamed: 0,Name,HP,Type1_Fire,Type1_Psychic,Legendary_TRUE
0,小火龍,39,1,0,0
1,皮卡丘,35,0,0,0
2,超夢,106,0,1,1
3,噴火龍,78,1,0,0


In [6]:
# 二進位編碼可透過LabelBunarizer來完成，以下針對Type1來編碼
from sklearn.preprocessing import LabelBinarizer
# 建立編碼器並進行擬合
lb=LabelBinarizer().fit(df['Type1'])
lb.transform(df['Type1'])

array([[0, 1, 0],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0]])

In [12]:
# 若只是要把名目特徵編碼設為介於0-nclasses-1間的整數值，可用字典來實作，
# 但scikit-learn中有個方便的LabelEncoder()能完成這個工作。
from sklearn.preprocessing import LabelEncoder
# 建立編碼器並進行擬合
le=LabelEncoder().fit(df['Type1'])
print(le.transform(df['Type1']))
# 將編碼結果轉回原字串
print(le.inverse_transform([2]))
print(le.inverse_transform([1]))
print(le.inverse_transform([0]))

[1 0 2 1]
['Psychic']
['Fire']
['Electric']


ValueError: ignored

In [13]:
# 有序特徵有OrdinalEncoder()可以處理，但使用上並不直覺，可透過字典加上map()來實作編碼
mapping={'Psychic':0,'Electric':1,'Fire':2}
df['Type1']=df['Type1'].map(mapping)
df

Unnamed: 0,Name,Type1,HP,Legendary
0,小火龍,2,39,False
1,皮卡丘,1,35,False
2,超夢,0,106,True
3,噴火龍,2,78,False


In [14]:
# 若要將編碼後的結果轉回原字串，也可透過字典來完成
inv_mapping={val:key for key,val in mapping.items()}
print(inv_mapping)
inv_mapping[1]

{0: 'Psychic', 1: 'Electric', 2: 'Fire'}


'Electric'