<a href="https://colab.research.google.com/github/chenboju/LLM/blob/main/13_one_hot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# One-Hot Encoding 獨熱碼
- one-hot encoding是用來向量表示字詞的方式，特點是每一個字詞之間皆為正交(orthogonal)
- 字詞向量正交，才能排除字詞之間互相影響
- one-hot的優點也是缺點，不同詞的向量正交，無法衡量不同詞之間的關係
- 只能反映某個詞是否在句中出現，無法衡量詞的重要性
- one-hot是高維稀疏矩陣，浪費計算能力與儲存空間
- 本範例示範如何把國家表示成one-hot encoding表示法

One-Hot Encoding 是一種將類別型變數轉換為數值型變數的技術，常用於機器學習和深度學習中。當我們有一個包含類別資訊的特徵時，這種方法可以將每個類別轉換為一個二進位碼，使得每個類別之間的相對關係得以保留。這在處理機器學習模型中需要使用數值資料的情境下非常有用。

舉例來說，假設有一個包含「紅色」、「藍色」和「綠色」三種顏色的特徵，One-Hot Encoding 將這個特徵轉換為三個二進位碼（或稱為虛擬變數），每個碼代表一種顏色。轉換後的特徵如下：

| 顏色   | 紅色 | 藍色 | 綠色 |
|--------|------|------|------|
| 紅色   | 1    | 0    | 0    |
| 藍色   | 0    | 1    | 0    |
| 綠色   | 0    | 0    | 1    |



這個例子中，原始的 'Color' 特徵被 One-Hot Encoding 轉換成三個新的特徵。

In [1]:
import numpy as np
import pandas as pd

# 定義資料
country = ['Taiwan', 'Australia', 'Ireland', 'Australia', 'Ireland', 'Taiwan']
age = [25, 30, 45, 35, 22, 36]
salary = [20000, 32000, 59000, 60000, 43000, 52000]

# 將資料組成字典
dic = {'Country': country, 'Age': age, 'Salary': salary}

# 使用 Pandas 創建 DataFrame
data = pd.DataFrame(dic)
print(data)


     Country  Age  Salary
0     Taiwan   25   20000
1  Australia   30   32000
2    Ireland   45   59000
3  Australia   35   60000
4    Ireland   22   43000
5     Taiwan   36   52000


## Label encoding
利用LabelEcoder函數，將Country欄位進行Label encoding編碼<br>
Australia：0<br>
Ireland：1<br>
Taiwan：2<br>

In [2]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# 原始資料
country = ['Taiwan', 'Australia', 'Ireland', 'Australia', 'Ireland', 'Taiwan']
age = [25, 30, 45, 35, 22, 36]
salary = [20000, 32000, 59000, 60000, 43000, 52000]
dic = {'Country': country, 'Age': age, 'Salary': salary}

# 轉換成 DataFrame
data = pd.DataFrame(dic)

# 初始化 LabelEncoder
labelencoder = LabelEncoder()

# 對 'Country' 特徵進行編碼
data['Country'] = labelencoder.fit_transform(data['Country'])

# 印出編碼後的 DataFrame
print(data)


   Country  Age  Salary
0        2   25   20000
1        0   30   32000
2        1   45   59000
3        0   35   60000
4        1   22   43000
5        2   36   52000


## One hot encoding
利用OneHotEcoder函數，將Country欄位進行Ont-Hot encoding編碼
<table><tr><td>Australia(0)</td><td>Ireland(1)</td><td>Taiwan(2)</td></tr></table>

In [4]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
import pandas as pd

# 原始資料
country = ['Taiwan', 'Australia', 'Ireland', 'Australia', 'Ireland', 'Taiwan']
age = [25, 30, 45, 35, 22, 36]
salary = [20000, 32000, 59000, 60000, 43000, 52000]
dic = {'Country': country, 'Age': age, 'Salary': salary}

# 轉換成 DataFrame
data = pd.DataFrame(dic)

# 對 'Country' 特徵進行 Label Encoding
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
data['Country'] = labelencoder.fit_transform(data['Country'])

# 初始化 ColumnTransformer，對 'Country' 特徵進行 One-Hot Encoding
ct = ColumnTransformer([("Country", OneHotEncoder(), [0])], remainder='passthrough')

# 對整個 DataFrame 進行轉換
data_ohe = ct.fit_transform(data)

# 將轉換後的資料轉換為 DataFrame
pd.DataFrame(data_ohe)



Unnamed: 0,0,1,2,3,4
0,0.0,0.0,1.0,25.0,20000.0
1,1.0,0.0,0.0,30.0,32000.0
2,0.0,1.0,0.0,45.0,59000.0
3,1.0,0.0,0.0,35.0,60000.0
4,0.0,1.0,0.0,22.0,43000.0
5,0.0,0.0,1.0,36.0,52000.0


## Pandas.get_dummies

In [5]:
import pandas as pd

# 原始資料
country = ['Taiwan', 'Australia', 'Ireland', 'Australia', 'Ireland', 'Taiwan']
age = [25, 30, 45, 35, 22, 36]
salary = [20000, 32000, 59000, 60000, 43000, 52000]
dic = {'Country': country, 'Age': age, 'Salary': salary}

# 轉換成 DataFrame
data = pd.DataFrame(dic)

# 使用 get_dummies 對 DataFrame 進行 One-Hot Encoding
data_dum = pd.get_dummies(data)

# 印出轉換後的 DataFrame
pd.DataFrame(data_dum)


Unnamed: 0,Age,Salary,Country_Australia,Country_Ireland,Country_Taiwan
0,25,20000,0,0,1
1,30,32000,1,0,0
2,45,59000,0,1,0
3,35,60000,1,0,0
4,22,43000,0,1,0
5,36,52000,0,0,1
