### ENCODER IN SKLEARN

Trong thư viện scikit-learn (sklearn), có một số encoder phổ biến mà bạn có thể sử dụng để chuyển đổi dữ liệu trước khi áp dụng các thuật toán học máy. Dưới đây là một số encoder phổ biến cùng với ví dụ sử dụng của chúng:

Xem thêm clip dưới đây để hiểu: https://www.youtube.com/watch?v=589nCGeWG1w

<img src="https://pbs.twimg.com/tweet_video_thumb/GQvtU92WEAANbq5.jpg" width=600>

### `OneHotEncoder`: Dùng để mã hóa các biến phân loại thành các vector nhị phân.

Lưu ý: Không nên sử dụng với cột có nhiều categories, dẫn đến overfit

In [8]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

encoder = OneHotEncoder(sparse_output=False)
categories = np.array([['red'], ['blue'], ['green']])
one_hot_encoded = encoder.fit_transform(categories)
print(one_hot_encoded)

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]


### `HashEncoder`: 

Gây mất thông tin

### `LabelEncoder`: Dùng để mã hóa các nhãn (labels) của dữ liệu phân loại thành các số nguyên.

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
labels = ['red', 'blue', 'green', 'blue', 'green']
encoded_labels = le.fit_transform(labels)
print(encoded_labels)

[2 0 1 0 1]


### `Target Encoder` là một phương pháp mã hóa biến phân loại dựa trên giá trị của biến mục tiêu (target variable). Đặc biệt hữu ích trong các bài toán phân loại, target encoding chuyển đổi các giá trị của biến phân loại thành giá trị trung bình của biến mục tiêu tương ứng.

<img src="https://brendanhasz.github.io/assets/img/target-encoding/cross-fold.gif" style='background-color: white;' width=500>


In [13]:
import pandas as pd
import category_encoders as ce

# Tạo dữ liệu ví dụ
df = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'blue', 'green', 'red'],
    'target': [1, 0, 1, 0, 1, 0]
})

# Khởi tạo và áp dụng Target Encoder
encoder = ce.TargetEncoder()
df_encoded = encoder.fit_transform(df['color'], df['target'])

print(df_encoded)

      color
0  0.500000
1  0.429074
2  0.570926
3  0.429074
4  0.570926
5  0.500000


### `Bayesian Mean Target Encoding`: Tính toán lại Target Encoding dựa trên bình quân trọng số

Là một kỹ thuật mã hóa đặc trưng (feature encoding) trong học máy, đặc biệt hữu ích khi làm việc với các biến phân loại (categorical variables). Đây là một phương pháp để thay thế các giá trị phân loại bằng các giá trị số để mô hình học máy có thể xử lý hiệu quả hơn. Phương pháp này kết hợp giữa thông tin của các lớp trong biến phân loại và thông tin về mục tiêu (target) để tạo ra các giá trị mã hóa.

### `K-Fold Target Encoding`: 

### `OrdinalEncoder`: Dùng để mã hóa các biến phân loại theo thứ tự.

In [10]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()
categories = [['low'], ['medium'], ['high']]
encoded_categories = encoder.fit_transform(categories)
print(encoded_categories)

[[1.]
 [2.]
 [0.]]


### `BinaryEncoder` (thường được sử dụng thông qua thư viện category_encoders):

In [15]:
import category_encoders as ce
import pandas as pd

encoder = ce.BinaryEncoder()
df = pd.DataFrame({'color': ['red', 'blue', 'green', 'green', 'green']})
encoded_df = encoder.fit_transform(df['color'])
print(encoded_df)
# Output might look like:
#    color_0  color_1  color_2
# 0        1        0        0
# 1        0        1        0
# 2        0        0        1


   color_0  color_1
0        0        1
1        1        0
2        1        1
3        1        1
4        1        1
