<h1 style="text-align: center ;">Encoding</h1>

#### <i>1. Label Encoding:</i>
Màu sắc: Red, Green, Blue có thể được mã hóa thành 0, 1, 2.
Nhược điểm: Có thể gây ra sự nhầm lẫn về thứ tự vì các số nguyên không phải lúc nào cũng phản ánh một thứ tự tự nhiên.

#### <i>2. One-Hot Encoding:</i>
 Nếu một giá trị tồn tại, cột tương ứng sẽ có giá trị 1, ngược lại sẽ là 0.

#### <i>3. Binary Encoding:</i>
Chuyển đổi giá trị thành số nhị phân và sau đó tách thành các cột.

#### <i>4. Target Encoding:</i>
Gán giá trị trung bình (hoặc một thống kê khác) của biến mục tiêu cho mỗi giá trị phân loại. Điều này có thể tạo ra thông tin có giá trị nhưng có thể dẫn đến overfitting nếu không cẩn thận.

#### 1. Nhập Thư Viện Cần Thiết

In [1]:
import pandas as pd

#### 2. Tạo Dữ Liệu Mẫu

In [2]:
gdp = [11, 22, 33, 44, 55, 66, 77]
countries = ['Spain', 'France', 'Spain', 'Germany', 'France']

# create data frame from list 
df = pd.DataFrame(list(zip(gdp, countries)),
                  columns=['GDP', 'Countries'])
df

Unnamed: 0,GDP,Countries
0,11,Spain
1,22,France
2,33,Spain
3,44,Germany
4,55,France


#### 3. Đánh Nhãn cho DataFrame với <b>Label Encoding</b>
Tự đánh nhãn từ chữ --> số

In [3]:
# Đánh nhãn cho datafarme
# Import label encoder
from sklearn import preprocessing

# Iabel_encoder object knows
# how to understand word labels.
label_encoder = preprocessing.LabelEncoder()

# Encode labels in column 'species"
df['labelCountries']= label_encoder.fit_transform(df['Countries']) 

df


Unnamed: 0,GDP,Countries,labelCountries
0,11,Spain,2
1,22,France,0
2,33,Spain,2
3,44,Germany,1
4,55,France,0


In [None]:
# Giải thích: Sử dụng LabelEncoder từ sklearn để chuyển đổi các tên quốc gia thành các giá trị số nguyên.
# Kết quả: Cột mới labelCountries được thêm vào DataFrame, chứa các giá trị mã hóa cho từng quốc gia.

#### 4. <b>One-Hot Encoding</b>
Chuyển về Nhị phân 0 1 

In [4]:
# tạo ra 3 datafarmedatafarme
dfOneHotEncoding = pd.get_dummies(df.Countries, prefix='Country')
print(dfOneHotEncoding.head())
# 1 và 2 là False
# 0 là True

   Country_France  Country_Germany  Country_Spain
0               0                0              1
1               1                0              0
2               0                0              1
3               0                1              0
4               1                0              0


#### 5. Kết Hợp DataFrames

In [5]:
# Là lấy df = df + dfOneHotEncoding --> Gộp chung lại 
df = pd.concat([df, dfOneHotEncoding], axis=1)
df
#             label       france  Germany Spain
# Spain       2       <   0       0       1       > = Căn của 0^2+0^2+1^2 = 1
# france      2       <   1       0       0       > = 1
# Germany     2       <   0       1       0       > = 1


Unnamed: 0,GDP,Countries,labelCountries,Country_France,Country_Germany,Country_Spain
0,11,Spain,2,0,0,1
1,22,France,0,1,0,0
2,33,Spain,2,0,0,1
3,44,Germany,1,0,1,0
4,55,France,0,1,0,0


#### 6. Sử Dụng LabelBinarizer

In [None]:
# Giải thích: LabelBinarizer được sử dụng để chuyển đổi các giá trị phân loại thành dạng nhị phân.
# Kết quả: Biến y chứa dữ liệu nhị phân tương ứng với các quốc gia.

In [6]:
from sklearn.preprocessing import LabelBinarizer
y = LabelBinarizer().fit_transform(df.Countries)
y


array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0],
       [1, 0, 0]])

In [None]:
# Mỗi hàng trong mảng này tương ứng với một giá trị trong cột Countries.
# Mỗi cột đại diện cho một quốc gia:
# Cột 1 (Spain): Nếu giá trị là "Spain", thì là 1, ngược lại là 0.
# Cột 2 (France): Nếu giá trị là "France", thì là 1, ngược lại là 0.
# Cột 3 (Germany): Nếu giá trị là "Germany", thì là 1, ngược lại là 0.

<p> fit_transform(df[['Countries']]): Tạo một ma trận nhị phân (sparse matrix) từ cột Countries.</p>
<p> toarray(): Chuyển đổi ma trận sparse đó thành một mảng NumPy thông thường.</p>

In [7]:
from sklearn.preprocessing import OneHotEncoder
y = OneHotEncoder().fit_transform(df[['Countries']]).toarray()
print(y)

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]
