There are many ways we can encode these categorical variables.


1. One Hot Encoding
2. Label Encoding
3. Ordinal Encoding
4. Frequency or Count Encoding
5. Binary Encoding
6. Base-N Encoding
7. Helmert Encoding 
8. Mean Encoding or Target Encoding
9. Weight of Evidence Encoding
10. Sum Encoder (Deviation Encoding or Effect Encoding)
11. Leave One Out Encoding 
12. CatBoost Encoding
13. James-Stein Encoding
14. M-estimator Encoding
15. Hashing Encoding
16. Backward Difference Encoding
17. Polynomial Encoding
18. MultiLabelBinarizer

### install in terminal
pip install scikit-learn
pip install category-encoders

In [46]:
import pandas as pd , numpy as np
import category_encoders as ce

In [47]:
data = {'Temperature':['Hot','Cold','Very Hot','Warm','Hot','Warm','Warm','Hot','Hot','Cold'],
        'Color':['Red','Yellow','Blue','Blue','Red','Yellow','Red','Yellow','Yellow','Yellow'],
        'Target':[1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,Temperature,Color,Target
0,Hot,Red,1
1,Cold,Yellow,1
2,Very Hot,Blue,1
3,Warm,Blue,0
4,Hot,Red,1
5,Warm,Yellow,0
6,Warm,Red,1
7,Hot,Yellow,0
8,Hot,Yellow,1
9,Cold,Yellow,1


## One Hot Encoding

In [48]:
df_ohe = df.copy()
one_hot_1 = pd.get_dummies(df_ohe,prefix = 'Temp' ,columns=['Temperature'],drop_first=False)
one_hot_1.insert(loc=2, column='Temperature', value=df.Temperature.values)
one_hot_1

Unnamed: 0,Color,Target,Temperature,Temp_Cold,Temp_Hot,Temp_Very Hot,Temp_Warm
0,Red,1,Hot,False,True,False,False
1,Yellow,1,Cold,True,False,False,False
2,Blue,1,Very Hot,False,False,True,False
3,Blue,0,Warm,False,False,False,True
4,Red,1,Hot,False,True,False,False
5,Yellow,0,Warm,False,False,False,True
6,Red,1,Warm,False,False,False,True
7,Yellow,0,Hot,False,True,False,False
8,Yellow,1,Hot,False,True,False,False
9,Yellow,1,Cold,True,False,False,False


Có 4 Temperature nên sẽ có 4 cột về temperature là: Temp_Cold, Temp_Hot	,Temp_Very Hot, Temp_Warm

In [49]:
from sklearn.preprocessing import OneHotEncoder
# Sử dụng One Hot trong thư viện sklearn
ohe = OneHotEncoder()
oh_array = ohe.fit_transform(df['Temperature'].values.reshape(-1, 1)).toarray()
oh_df = pd.DataFrame(oh_array,columns=['Temp_Cold','Temp_Hot','Temp_Very_Hot','Temp_Warm'])
pd.concat([df,oh_df],axis=1)

Unnamed: 0,Temperature,Color,Target,Temp_Cold,Temp_Hot,Temp_Very_Hot,Temp_Warm
0,Hot,Red,1,0.0,1.0,0.0,0.0
1,Cold,Yellow,1,1.0,0.0,0.0,0.0
2,Very Hot,Blue,1,0.0,0.0,1.0,0.0
3,Warm,Blue,0,0.0,0.0,0.0,1.0
4,Hot,Red,1,0.0,1.0,0.0,0.0
5,Warm,Yellow,0,0.0,0.0,0.0,1.0
6,Warm,Red,1,0.0,0.0,0.0,1.0
7,Hot,Yellow,0,0.0,1.0,0.0,0.0
8,Hot,Yellow,1,0.0,1.0,0.0,0.0
9,Cold,Yellow,1,1.0,0.0,0.0,0.0


Chuyển giá trị Boolean thành Binary

In [50]:
# Sử dụng category_encoders OneHotEncoder
import category_encoders as ce
ohe = ce.OneHotEncoder(cols=['Temperature'])
ce_ohe = ohe.fit_transform(df.iloc[:,0], df.iloc[:,-1])
ce_ohe.columns = ['Temp_Hot','Temp_Cold','Temp_Very_Hot','Temp_Warm']
pd.concat([df,ce_ohe],axis=1)

Unnamed: 0,Temperature,Color,Target,Temp_Hot,Temp_Cold,Temp_Very_Hot,Temp_Warm
0,Hot,Red,1,1,0,0,0
1,Cold,Yellow,1,0,1,0,0
2,Very Hot,Blue,1,0,0,1,0
3,Warm,Blue,0,0,0,0,1
4,Hot,Red,1,1,0,0,0
5,Warm,Yellow,0,0,0,0,1
6,Warm,Red,1,0,0,0,1
7,Hot,Yellow,0,1,0,0,0
8,Hot,Yellow,1,1,0,0,0
9,Cold,Yellow,1,0,1,0,0


Đối với thuật toán hồi quy thì ta có thể sử dụng (n-1) cột, tức là xóa cột đầu hoặc cột cuối
Đối với việc phân loại thì sử dụng tất cả các cột vì khi phân loại cần sử dụng tất cả các dữ liệu có sẵn

## Label Encoding

Theo thứ tự về tăng dần theo bảng chữ cái như Cold<Hot<Very Hot <warm thì ra sẽ đánh số thứ tự tương ứng 1,2,3,4

Nhưng điều này sai lệch thông tin bằng cách gán các giá trị dựa trên thứ tự bảng chữ cái thay vì thứ tự nhãn thực tế.

In [51]:
# Sử dụng sklearn LabelEncoder()
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df_ohe['Temperature_encoded'] = le.fit_transform(df.Temperature)
df_ohe

Unnamed: 0,Temperature,Color,Target,Temperature_encoded
0,Hot,Red,1,1
1,Cold,Yellow,1,0
2,Very Hot,Blue,1,2
3,Warm,Blue,0,3
4,Hot,Red,1,1
5,Warm,Yellow,0,3
6,Warm,Red,1,3
7,Hot,Yellow,0,1
8,Hot,Yellow,1,1
9,Cold,Yellow,1,0


In [52]:
# Sử dụng Pandas factorize()
fact = df.copy()
fact['Temperature_factor'] = pd.factorize(df.Temperature)[0]
fact

Unnamed: 0,Temperature,Color,Target,Temperature_factor
0,Hot,Red,1,0
1,Cold,Yellow,1,1
2,Very Hot,Blue,1,2
3,Warm,Blue,0,3
4,Hot,Red,1,0
5,Warm,Yellow,0,3
6,Warm,Red,1,3
7,Hot,Yellow,0,0
8,Hot,Yellow,1,0
9,Cold,Yellow,1,1


### Ordinal Encoding

In [53]:
from sklearn.preprocessing import OrdinalEncoder
oe = OrdinalEncoder()
oe_val = oe.fit_transform(df['Temperature'].values.reshape(-1, 1))
pd.concat([df,pd.DataFrame(oe_val,columns=['Temperature_Oe'])],axis=1)

Unnamed: 0,Temperature,Color,Target,Temperature_Oe
0,Hot,Red,1,1.0
1,Cold,Yellow,1,0.0
2,Very Hot,Blue,1,2.0
3,Warm,Blue,0,3.0
4,Hot,Red,1,1.0
5,Warm,Yellow,0,3.0
6,Warm,Red,1,3.0
7,Hot,Yellow,0,1.0
8,Hot,Yellow,1,1.0
9,Cold,Yellow,1,0.0


In [54]:
# Sử dụng category_encoders OrdinalEncoder
import category_encoders as ce
ohe = ce.OrdinalEncoder(cols=['Temperature'])
df['Temp_ce_oe'] = ohe.fit_transform(df.iloc[:,0], df.iloc[:,-1])
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe
0,Hot,Red,1,1
1,Cold,Yellow,1,2
2,Very Hot,Blue,1,3
3,Warm,Blue,0,4
4,Hot,Red,1,1
5,Warm,Yellow,0,4
6,Warm,Red,1,4
7,Hot,Yellow,0,1
8,Hot,Yellow,1,1
9,Cold,Yellow,1,2


Dán nhãn theo thứ tự 1<2<3<4 tương ứng với các mức độ của độ nóng<br>
Và đây là cách tốt nhất bởi nó ánh xạ dựa trên thứ tự nhãn thực tế

In [55]:
Temp_order = {'Cold' : 1 , 'Warm' : 2 , 'Hot' : 3 , 'Very Hot' : 4}
df['Temperature_Order'] = df.Temperature.map(Temp_order)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order
0,Hot,Red,1,1,3
1,Cold,Yellow,1,2,1
2,Very Hot,Blue,1,3,4
3,Warm,Blue,0,4,2
4,Hot,Red,1,1,3
5,Warm,Yellow,0,4,2
6,Warm,Red,1,4,2
7,Hot,Yellow,0,1,3
8,Hot,Yellow,1,1,3
9,Cold,Yellow,1,2,1


## Frequency or Count Encoder

Mã hóa bằng tần số của từng danh mục <br>
Do tần số liên quan đến biến nên tỷ lệ thuận nghịch sẽ tùy thuộc vào bản chất dữ liệu

Tần suất của danh mục =  số giá trị của danh mục đó <br>
kích thước = kích thước của toàn bộ tập dữ liệu

In [56]:

cat_freq = df.groupby('Temperature').size() / len(df)
df['Temp_Freq_Enc'] = df.Temperature.map(cat_freq)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc
0,Hot,Red,1,1,3,0.4
1,Cold,Yellow,1,2,1,0.2
2,Very Hot,Blue,1,3,4,0.1
3,Warm,Blue,0,4,2,0.3
4,Hot,Red,1,1,3,0.4
5,Warm,Yellow,0,4,2,0.3
6,Warm,Red,1,4,2,0.3
7,Hot,Yellow,0,1,3,0.4
8,Hot,Yellow,1,1,3,0.4
9,Cold,Yellow,1,2,1,0.2


In [57]:
# sử dụng category_encoders CountEncoder
import category_encoders as ce
ce = ce.CountEncoder(cols=['Temperature'])
df['Temp_Count_Enc'] = ce.fit_transform(df.iloc[:,0], df.iloc[:,-1])
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc
0,Hot,Red,1,1,3,0.4,4
1,Cold,Yellow,1,2,1,0.2,2
2,Very Hot,Blue,1,3,4,0.1,1
3,Warm,Blue,0,4,2,0.3,3
4,Hot,Red,1,1,3,0.4,4
5,Warm,Yellow,0,4,2,0.3,3
6,Warm,Red,1,4,2,0.3,3
7,Hot,Yellow,0,1,3,0.4,4
8,Hot,Yellow,1,1,3,0.4,4
9,Cold,Yellow,1,2,1,0.2,2


Nếu hai loại có tần số giống nhau thì khó có thể phân biệt được giữa chúng.

## Binary Encoding

Giống Onehot, tạo ra các cột tính năng nhờ bit nhị phân 0 và 1 <br>
Yêu cầu ít cột tính năng hơn onehot ( Nếu onehot yêu cầu 100 cột tính năng với 100 danh mục thì binary chỉ cần 7) <br>
Feature -> ordinal encoding -> binary code -> digits of the binary code to separate columns

In [58]:
import category_encoders as ce
be = ce.BinaryEncoder(cols=['Temperature'])
be_df = be.fit_transform(df['Temperature'])
pd.concat([df,be_df],axis=1)

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,0,0,1
1,Cold,Yellow,1,2,1,0.2,2,0,1,0
2,Very Hot,Blue,1,3,4,0.1,1,0,1,1
3,Warm,Blue,0,4,2,0.3,3,1,0,0
4,Hot,Red,1,1,3,0.4,4,0,0,1
5,Warm,Yellow,0,4,2,0.3,3,1,0,0
6,Warm,Red,1,4,2,0.3,3,1,0,0
7,Hot,Yellow,0,1,3,0.4,4,0,0,1
8,Hot,Yellow,1,1,3,0.4,4,0,0,1
9,Cold,Yellow,1,2,1,0.2,2,0,1,0


## Base-N encoder

Mã hóa các danh mục thành các mảng baseN của chúng <br>
#### Cơ Số Base:
Trong hệ thống số (number system), cơ số (base hoặc radix) là số chữ số hoặc kết hợp các chữ số và chữ cái được sử dụng để biểu diễn các số. Cơ số (base) phổ biến nhất mà chúng ta sử dụng trong cuộc sống của mình là 10 hoặc hệ thập phân vì ở đây chúng ta sử dụng 10 chữ số duy nhất, tức là từ 0 đến 9 để đại diện cho tất cả các số. Một hệ thống được sử dụng rộng rãi khác là hệ nhị phân, tức là cơ số là 2. Nó sử dụng 0 và 1, tức là 2 chữ số để thể hiện tất cả các số.

Đối với binary encoding, cơ số (base) là 2 có nghĩa là nó chuyển đổi các giá trị số của một lớp (category) thành dạng nhị phân tương ứng của nó. Nếu bạn muốn thay đổi cơ số của lược đồ encoding , bạn có thể sử dụng base n encoding. Trong trường hợp khi lớp (category) nhiều hơn và binary encoding không thể xử lý chiều (dimensionality) thì chúng ta có thể sử dụng cơ số lớn hơn như 4 hoặc 8.

So với binary encoding, kỹ thuật base n encoding làm giảm hơn số lượng các đặc trưng cần thiết để biểu diễn dữ liệu một cách hiệu quả và cải thiện việc sử dụng bộ nhớ. Cơ số mặc định cho base n là 2 tương đương với binary encoding.


Cơ sở 1 tương đương one hot, cơ sở 2 tương đương binary <br>
N là số lượng dang mục thực tế

In [59]:
bne = ce.BaseNEncoder(cols=['Temperature'],base=2)
bne_df = bne.fit_transform(df['Temperature'],df.Target)
pd.concat([df,bne_df],axis=1)

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,0,0,1
1,Cold,Yellow,1,2,1,0.2,2,0,1,0
2,Very Hot,Blue,1,3,4,0.1,1,0,1,1
3,Warm,Blue,0,4,2,0.3,3,1,0,0
4,Hot,Red,1,1,3,0.4,4,0,0,1
5,Warm,Yellow,0,4,2,0.3,3,1,0,0
6,Warm,Red,1,4,2,0.3,3,1,0,0
7,Hot,Yellow,0,1,3,0.4,4,0,0,1
8,Hot,Yellow,1,1,3,0.4,4,0,0,1
9,Cold,Yellow,1,2,1,0.2,2,0,1,0


## Helmert Encoding

Nó so sánh từng cấp độ của một biến phân loại với giá trị trung bình của các cấp độ tiếp theo <br>
Là mã hóa phân loại phổ biến thứ 3<br>
Nó rất hữu ích trong những vấn đề được xác định rõ ràng nhất trong đó các loại phân loại biến được sắp xếp theo thứ tự, hạn chế như từ thấp nhất đến cao nhất hoặc từ nhỏ nhất đến lớn nhất.

In [60]:
import category_encoders as ce
he = ce.HelmertEncoder(cols=['Temperature'])
he_df = he.fit_transform(df['Temperature'])
pd.concat([df,he_df],axis=1)



Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,intercept,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,1,-1.0,-1.0,-1.0
1,Cold,Yellow,1,2,1,0.2,2,1,1.0,-1.0,-1.0
2,Very Hot,Blue,1,3,4,0.1,1,1,0.0,2.0,-1.0
3,Warm,Blue,0,4,2,0.3,3,1,0.0,0.0,3.0
4,Hot,Red,1,1,3,0.4,4,1,-1.0,-1.0,-1.0
5,Warm,Yellow,0,4,2,0.3,3,1,0.0,0.0,3.0
6,Warm,Red,1,4,2,0.3,3,1,0.0,0.0,3.0
7,Hot,Yellow,0,1,3,0.4,4,1,-1.0,-1.0,-1.0
8,Hot,Yellow,1,1,3,0.4,4,1,-1.0,-1.0,-1.0
9,Cold,Yellow,1,2,1,0.2,2,1,1.0,-1.0,-1.0


## Mean Encoding or Target Encoding

Nó lấy thông tin về mục tiêu để mã hóa các danh mục, điều này khiến nó trở nên cực kỳ mạnh mẽ.<br>
Trong Mã hóa mục tiêu, các nhãn có mối tương quan trực tiếp với mục tiêu. Tức là, đối với mỗi danh mục trong nhãn đặc điểm được quyết định bằng giá trị trung bình của biến mục tiêu trên dữ liệu huấn luyện.<br>

In [61]:
import category_encoders as ce
te = ce.TargetEncoder(cols=['Temperature'])
df['Temperature_ce_TarEnc'] = te.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc
0,Hot,Red,1,1,3,0.4,4,0.708399
1,Cold,Yellow,1,2,1,0.2,2,0.742555
2,Very Hot,Blue,1,3,4,0.1,1,0.739033
3,Warm,Blue,0,4,2,0.3,3,0.643363
4,Hot,Red,1,1,3,0.4,4,0.708399
5,Warm,Yellow,0,4,2,0.3,3,0.643363
6,Warm,Red,1,4,2,0.3,3,0.643363
7,Hot,Yellow,0,1,3,0.4,4,0.708399
8,Hot,Yellow,1,1,3,0.4,4,0.708399
9,Cold,Yellow,1,2,1,0.2,2,0.742555


In [62]:
tar_enc = df.groupby('Temperature')['Target'].mean()
# print(tar_enc)
df['Temperature_tar_enc'] = df['Temperature'].map(tar_enc)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0


Lợi ích: ko ảnh hưởng dữ liệu và giúp xử lý nhanh hơn <br>
Bất lợi: rò rỉ mục tiêu: sử dụng thông tin về mục tiêu. Do rò rỉ mục tiêu, mô hình đã khớp quá mức với dữ liệu huấn luyện, dẫn đến việc xác thực không đáng tin cậy và điểm kiểm tra thấp hơn.

## Weight of Evidence Encoding

Mã hóa bằng chứng<br>
Chủ yếu là xây dựng mô hình dự đoán để đánh giá rủi ro <br>
Phân tách rủi ro tốt và rủi ro xấu <br>
Trọng số của bằng chứng WOE là thước đo mật độ bằng chứng ủng hộ hay phản đối 1 giả thuyết, suy đoán nào đó



In [63]:
woe = ce.WOEEncoder(cols=['Temperature'])
df['Temperature_ce_WOE'] = woe.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826


## Sum Encoder (Deviation Encoding or Effect Encoding)

-So sánh giá trị trung bình của biến phụ thuộc (mục tiêu) ở một mức nhất định của cột phân loại với giá trị trung bình tổng thể của mục tiêu.<br>
-Mã hóa tổng rất giống với OHE và cả hai đều được sử dụng phổ biến trong các loại mô hình hồi quy tuyến tính (LR).<br>
-Tuy nhiên, sự khác biệt giữa chúng là cách giải thích các hệ số LR: trong mô hình OHE, điểm chặn biểu thị giá trị trung bình của điều kiện cơ sở và các hệ số biểu thị các hiệu ứng đơn giản (sự khác biệt giữa một điều kiện cụ thể và đường cơ sở), trong khi ở mô hình Sum Encoding, điểm chặn đại diện cho giá trị trung bình lớn (trên tất cả các điều kiện) và các hệ số có thể được hiểu trực tiếp là các tác động chính.

In [64]:
se = ce.SumEncoder(cols=['Temperature'])
se_df = se.fit_transform(df['Temperature'],df.Target)
pd.concat([df,se_df],axis=1)



Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,intercept,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,1,1.0,0.0,0.0
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,1,0.0,1.0,0.0
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,1,0.0,0.0,1.0
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,1,-1.0,-1.0,-1.0
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,1,1.0,0.0,0.0
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,1,-1.0,-1.0,-1.0
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,1,-1.0,-1.0,-1.0
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,1,1.0,0.0,0.0
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,1,1.0,0.0,0.0
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,1,0.0,1.0,0.0


## Leave-one-out Encoder (LOO or LOOE)

-Đây là một ví dụ khác về bộ mã hóa dựa trên mục tiêu.<br>
Bộ mã hóa này tính toán mục tiêu trung bình của loại k cho quan sát j nếu quan sát j bị xóa khỏi tập dữ liệu:<br>
Bất lợi: Cũng giống như tất cả các bộ mã hóa dựa trên mục tiêu khác, vấn đề với LOO là rò rỉ mục tiêu

In [65]:
loue = ce.LeaveOneOutEncoder(cols=['Temperature'])
df['Temperature_ce_CBE'] = loue.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.666667
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,1.0
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.5
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.666667
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.5
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.0
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,1.0
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.666667
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,1.0


## CatBoost Encoder

Catboost là bộ mã hóa phân loại dựa trên mục tiêu được tạo gần đây.<br>
Nó nhằm mục đích khắc phục các vấn đề rò rỉ mục tiêu vốn có trong LOO.<br>
Để ngăn chặn việc trang bị quá tải, quá trình mã hóa mục tiêu cho tập dữ liệu huấn luyện được lặp lại nhiều lần trên các phiên bản được xáo trộn của tập dữ liệu và kết quả được tính trung bình.


In [66]:
cbe = ce.CatBoostEncoder(cols=['Temperature'])
df['Temperature_ce_CBE'] = cbe.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85


## James-Stein Encoding

Bộ mã hóa James-Stein là bộ mã hóa dựa trên mục tiêu.

Ý tưởng sơ bộ cho dòng bộ mã hóa này là:

Đối với hồi quy : thay thế giá trị danh mục Xi với giá trị trung bình của mục tiêu trên nhóm đó.<br>
Để phân loại nhị phân : thay thế giá trị danh mục Xi với tỷ lệ các thể hiện có giá trị đó thuộc về lớp dương.<br>
Để phân loại nhiều lớp : thay thế giá trị danh mục Xi với một giá trị cho mỗi lớp; giá trị đó là tỷ lệ các thể hiện có giá trị đó bên dưới mỗi lớp.<br>

In [67]:
jse = ce.JamesSteinEncoder(cols=['Temperature'])
df['Temperature_ce_JSE'] = jse.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE,Temperature_ce_JSE
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7,0.741379
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7,1.0
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7,1.0
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7,0.405229
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85,0.741379
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35,0.405229
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333,0.405229
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9,0.741379
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675,0.741379
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85,1.0


Bất lợi: chỉ xác định cho phân phối chuẩn <br>
Để giải quyết thì chúng ta có thể chuyển đổi các mục tiêu nhị phân với tỷ lệ log-odds như đã được thực hiện trong Bộ mã hóa WoE Encoder

## M-estimator Encoding

Bộ mã hóa ước tính M là phiên bản đơn giản của Bộ mã hóa mục tiêu.<br>
Nó chỉ có một siêu tham số - m, đại diện cho sức mạnh của việc chính quy hóa.

In [68]:
mee = ce.MEstimateEncoder(cols=['Temperature'],m=1.0)
df['Temperature_ce_JSE'] = mee.fit_transform(df['Temperature'],df.Target)
df

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE,Temperature_ce_JSE
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7,0.74
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7,0.9
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7,0.85
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7,0.425
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85,0.74
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35,0.425
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333,0.425
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9,0.74
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675,0.74
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85,0.9


## Hashing Encoding

Chuyển đổi các biến phân loại thành không gian số nguyên có chiều cao hơn, trong đó khoảng cách giữa hai vectơ của các biến phân loại gần như duy trì không gian số chiều được biến đổi.<br>
Với Hashing, số thứ nguyên sẽ ít hơn rất nhiều so với số thứ nguyên có mã hóa như One Hot Encoding.<br>


In [69]:
hash_df = ce.HashingEncoder(cols=['Temperature'],n_components=8)
hash_df = hash_df.fit_transform(df['Temperature'],df.Target)
pd.concat([df,hash_df],axis=1)

Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE,Temperature_ce_JSE,col_0,col_1,col_2,col_3,col_4,col_5,col_6,col_7
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7,0.74,1,0,0,0,0,0,0,0
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7,0.9,0,0,1,0,0,0,0,0
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7,0.85,0,1,0,0,0,0,0,0
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7,0.425,0,1,0,0,0,0,0,0
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85,0.74,1,0,0,0,0,0,0,0
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35,0.425,0,1,0,0,0,0,0,0
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333,0.425,0,1,0,0,0,0,0,0
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9,0.74,1,0,0,0,0,0,0,0
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675,0.74,1,0,0,0,0,0,0,0
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85,0.9,0,0,1,0,0,0,0,0


Phương pháp này thuận lợi khi số lượng phần tử của phân loại rất cao với tham số N <br>
Nhưng Nó chậm so với các bộ mã hóa khác

## Backward Difference Encoding

Trong mã hóa sai phân ngược, giá trị trung bình của biến phụ thuộc đối với một cấp độ được so sánh với giá trị trung bình của biến phụ thuộc đối với cấp độ trước đó.<br>
Kỹ thuật này thuộc hệ thống mã hóa tương phản cho các đặc điểm phân loại. Một đặc điểm của K danh mục hoặc cấp độ thường đi vào hồi quy dưới dạng một chuỗi các biến giả K-1.<br>

In [70]:
bde = ce.BackwardDifferenceEncoder(cols=['Temperature'])
bde_df = bde.fit_transform(df['Temperature'],df.Target)
pd.concat([df,bde_df],axis=1)



Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE,Temperature_ce_JSE,intercept,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7,0.74,1,-0.75,-0.5,-0.25
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7,0.9,1,0.25,-0.5,-0.25
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7,0.85,1,0.25,0.5,-0.25
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7,0.425,1,0.25,0.5,0.75
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85,0.74,1,-0.75,-0.5,-0.25
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35,0.425,1,0.25,0.5,0.75
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333,0.425,1,0.25,0.5,0.75
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9,0.74,1,-0.75,-0.5,-0.25
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675,0.74,1,-0.75,-0.5,-0.25
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85,0.9,1,0.25,-0.5,-0.25


## Polynomial Encoding

In [71]:
pe = ce.PolynomialEncoder(cols=['Temperature'])
pe_df = pe.fit_transform(df['Temperature'],df.Target)
pd.concat([df,pe_df],axis=1)



Unnamed: 0,Temperature,Color,Target,Temp_ce_oe,Temperature_Order,Temp_Freq_Enc,Temp_Count_Enc,Temperature_ce_TarEnc,Temperature_tar_enc,Temperature_ce_WOE,Temperature_ce_CBE,Temperature_ce_JSE,intercept,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.7,0.74,1,-0.67082,0.5,-0.223607
1,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.7,0.9,1,-0.223607,-0.5,0.67082
2,Very Hot,Blue,1,3,4,0.1,1,0.739033,1.0,0.0,0.7,0.85,1,0.223607,-0.5,-0.67082
3,Warm,Blue,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.7,0.425,1,0.67082,0.5,0.223607
4,Hot,Red,1,1,3,0.4,4,0.708399,0.75,0.105361,0.85,0.74,1,-0.67082,0.5,-0.223607
5,Warm,Yellow,0,4,2,0.3,3,0.643363,0.333333,-0.993252,0.35,0.425,1,0.67082,0.5,0.223607
6,Warm,Red,1,4,2,0.3,3,0.643363,0.333333,-0.993252,0.233333,0.425,1,0.67082,0.5,0.223607
7,Hot,Yellow,0,1,3,0.4,4,0.708399,0.75,0.105361,0.9,0.74,1,-0.67082,0.5,-0.223607
8,Hot,Yellow,1,1,3,0.4,4,0.708399,0.75,0.105361,0.675,0.74,1,-0.67082,0.5,-0.223607
9,Cold,Yellow,1,2,1,0.2,2,0.742555,1.0,0.510826,0.85,0.9,1,-0.223607,-0.5,0.67082


## MultiLabelBinarizer
MultiLabel Binarizer được sử dụng khi bất kỳ cột nào có nhiều nhãn.

In [72]:
# Lấy nhãn
data = {'Type':[['fruits','vegitables'],['animals','vegitables'],['animals','fruits'],['vehicals','fruits']]}
df = pd.DataFrame(data)
df

Unnamed: 0,Type
0,"[fruits, vegitables]"
1,"[animals, vegitables]"
2,"[animals, fruits]"
3,"[vehicals, fruits]"


In [73]:
# Sử dụng MultiLabelBinarizer
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
types_encoded = pd.DataFrame(mlb.fit_transform(df['Type']),columns=mlb.classes_)
types_encoded.head()

Unnamed: 0,animals,fruits,vegitables,vehicals
0,0,1,1,0
1,1,0,1,0
2,1,1,0,0
3,0,1,0,1
