Trong xử lý ngôn ngữ tự nhiên (NLP), có nhiều phương pháp biểu diễn từ ngữ dưới dạng vector. Dưới đây là các loại biểu diễn vector phổ biến:

1. **One-hot Encoding**:
   - Mỗi từ được biểu diễn bằng một vector có chiều dài bằng kích thước từ vựng, với duy nhất một phần tử có giá trị 1 và các phần tử còn lại là 0.
   - Ví dụ: Với từ vựng gồm các từ ["apple", "banana", "cherry"], từ "banana" sẽ được biểu diễn là [0, 1, 0].

2. **Count Vector**:
   - Đếm số lần xuất hiện của mỗi từ trong tài liệu. Mỗi từ được biểu diễn bằng một vector có chiều dài bằng kích thước từ vựng, và mỗi phần tử là số lần từ đó xuất hiện trong tài liệu.
   - Ví dụ: Với từ vựng ["apple", "banana", "cherry"], tài liệu "apple banana banana" sẽ được biểu diễn là [1, 2, 0].

3. **Term Frequency-Inverse Document Frequency (TF-IDF)**:
   - Kết hợp giữa tần suất xuất hiện của từ trong tài liệu (TF) và tần suất xuất hiện của từ trong toàn bộ tập tài liệu (IDF). TF-IDF giúp giảm trọng số của các từ thông dụng và tăng trọng số của các từ ít gặp nhưng mang nhiều thông tin hơn.
   - Ví dụ: Với từ vựng ["apple", "banana", "cherry"], TF-IDF của từ "banana" trong tài liệu "apple banana banana" sẽ cao hơn TF-IDF của từ "apple" nếu "banana" ít xuất hiện trong các tài liệu khác.

4. **Word Embeddings**:
   - Biểu diễn từ dưới dạng vector dense (vector đặc) trong không gian nhiều chiều, thường từ vài chục đến vài trăm chiều. Các phương pháp phổ biến bao gồm:
     - **Word2Vec**: Sử dụng mạng nơ-ron để học biểu diễn vector của từ sao cho các từ có ngữ nghĩa tương tự sẽ có vector gần nhau.
     - **GloVe (Global Vectors for Word Representation)**: Học biểu diễn từ dựa trên thống kê của sự đồng xuất hiện của từ trong tập dữ liệu.
     - **FastText**: Mở rộng Word2Vec bằng cách xem xét các n-grams ký tự, giúp biểu diễn các từ chưa từng thấy và xử lý tốt hơn các ngôn ngữ biến hình.
   - Ví dụ: Vector của từ "king" và "queen" sẽ có quan hệ gần nhau trong không gian vector.

5. **Contextualized Word Embeddings**:
   - Biểu diễn từ ngữ trong ngữ cảnh của chúng, sử dụng các mô hình ngôn ngữ tiên tiến như:
     - **ELMo (Embeddings from Language Models)**: Sử dụng các lớp LSTM để tạo ra vector ngữ cảnh cho từ dựa trên toàn bộ câu.
     - **BERT (Bidirectional Encoder Representations from Transformers)**: Sử dụng kiến trúc Transformer để tạo ra vector ngữ cảnh hai chiều cho từ.
     - **GPT (Generative Pre-trained Transformer)**: Sử dụng mô hình Transformer một chiều để tạo ra vector ngữ cảnh cho từ.
   - Ví dụ: Vector của từ "bank" trong câu "I went to the bank to deposit money" sẽ khác với vector của từ "bank" trong câu "The river bank was flooded".

6. **Sentence Embeddings**:
   - Biểu diễn cả câu hoặc đoạn văn dưới dạng vector. Các phương pháp phổ biến bao gồm:
     - **Universal Sentence Encoder (USE)**: Sử dụng mạng nơ-ron sâu để biểu diễn câu dưới dạng vector.
     - **Sentence-BERT (SBERT)**: Mở rộng BERT để biểu diễn câu bằng cách sử dụng cấu trúc siamese và triplet network.
   - Ví dụ: Câu "I am happy" và "I feel joyful" sẽ có vector gần nhau trong không gian vector.

Những phương pháp biểu diễn này cho phép các mô hình NLP xử lý văn bản một cách hiệu quả hơn, từ đó cải thiện hiệu suất của các ứng dụng như phân loại văn bản, dịch máy, và nhận diện thực thể.

# One Hot Encoding so với Label Encoding trong Machine Learning

Khi làm việc với dữ liệu phân loại trong học máy, điều quan trọng là phải chuyển đổi các biến này thành định dạng số mà thuật toán có thể hiểu được. Hai kỹ thuật thường được sử dụng để mã hóa các biến phân loại là mã hóa one-hot (OHE) và mã hóa nhãn. Việc lựa chọn phương pháp mã hóa phù hợp có thể tác động đáng kể đến hiệu suất của mô hình học máy. Trong bài viết này, chúng ta sẽ khám phá sự khác biệt giữa one-hot encoding và label encoding, các trường hợp sử dụng của chúng và cách triển khai chúng bằng cách sử dụng các thư viện Pandas và Scikit-Learn trong Python .

Trong bài viết này, bạn sẽ tìm hiểu khi nào nên sử dụng one hot encoding và label encoding, sự khác biệt giữa chúng và cách chọn phương pháp phù hợp cho dữ liệu của bạn. Chúng ta sẽ tìm hiểu label encoding là gì, sự khác biệt giữa one hot encoding và label encoding, đồng thời cung cấp thông tin chi tiết về one hot encoder so với label encoder. Cuối cùng, bạn sẽ hiểu được tầm quan trọng của việc lựa chọn kỹ thuật mã hóa phù hợp cho các biến phân loại của mình trong học máy.

### Mục tiêu học tập:
- Hiểu các kỹ thuật mã hóa theo danh mục cho máy học
- Tìm hiểu cách triển khai mã hóa nhãn và mã hóa one-hot trong Python
- Nhận biết khi nào nên sử dụng mã hóa nhãn so với mã hóa một nóng

1. What is Categorical Encoding?
2. Different Approaches to Categorical Encoding
3. What is Label Encoding?
- Implementing Label Encoding using Pandas
- Challenges with Label Encoding
4. What is One Hot Encoding?
- Implementing One-Hot Encoding in Python using Scikit-Learn
- Implementing One-Hot Encoding using Pandas
- Challenges of One-Hot Encoding: Dummy Variable Trap
5. Khi nào sử dụng mã hóa nhãn so với mã hóa một nóng
6. Mã hóa One-Hot so với Mã hóa Nhãn
7. Phần kết luận

## 1. Categorical Encoding là gì? 
Một tập dữ liệu có cấu trúc thường bao gồm sự kết hợp giữa các biến số và biến phân loại. Thuật toán học máy chỉ có thể xử lý dữ liệu số, không phải văn bản. Đây là nơi mã hóa phân loại phát huy tác dụng.

![image.png](attachment:image.png)

Mã hóa theo danh mục chuyển đổi các cột theo danh mục thành các cột số, cho phép các thuật toán học máy diễn giải và xử lý dữ liệu một cách hiệu quả.

2. Các cách tiếp cận khác nhau trong categorical encoding

So, how should we handle categorical variables? There are several methods, but this article will focus on the two most widely used techniques:

- **Label Encoding**
- **One-Hot Encoding (OHE)**

These techniques are essential for preparing your categorical data for machine learning models, ensuring they can learn and make predictions accurately.

## Mã hóa nhãn(label encoding) là gì?
Mã hóa nhãn là một kỹ thuật phổ biến để chuyển đổi các biến phân loại thành các giá trị số. Mỗi giá trị danh mục duy nhất được gán một số nguyên duy nhất dựa trên thứ tự chữ cái hoặc số.

Chúng ta hãy cùng tìm hiểu cách triển khai mã hóa nhãn bằng cả thư viện Pandas và Scikit-Learn trong Python:

### Triển khai mã hóa nhãn bằng Pandas
### Bước 1: Nhập các thư viện và bộ dữ liệu cần thiết

In [17]:
#importing the libraries
import pandas as pd
import numpy as np

#reading the dataset
df=pd.read_csv("salary_data.csv")
df_test = df[['country_name','average_salary']]

df_test = df_test.rename(columns={'country_name':'Country','average_salary':'Salary'})
df_test


Unnamed: 0,Country,Salary
0,Afghanistan,1001.150000
1,Aland Islands,3858.350000
2,Albania,956.920000
3,Algeria,1308.810000
4,American Samoa,1570.000000
...,...,...
216,Virgin Islands (US),2710.000000
217,Western Sahara,1011.670000
218,Yemen,133.360000
219,Zambia,0.285524


In [6]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221 entries, 0 to 220
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  221 non-null    object 
 1   Salary   221 non-null    float64
dtypes: float64(1), object(1)
memory usage: 3.6+ KB


Từ kết quả, chúng ta thấy rằng cột đầu tiên, Country, là một đặc điểm phân loại được biểu thị bằng kiểu dữ liệu đối tượng, trong khi các cột còn lại là các đặc điểm số được biểu thị bằng float.
### Bước 2: Triển khai label encoding
Bây giờ chúng ta đã nhập tập dữ liệu trước đó, hãy tiếp tục và triển khai Bộ mã hóa nhãn bằng scikit-learn.



In [18]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

df_test['Country'] = label_encoder.fit_transform(df_test['Country'])

df_test.head()

Unnamed: 0,Country,Salary
0,0,1001.15
1,1,3858.35
2,2,956.92
3,3,1308.81
4,4,1570.0


### Những thách thức với mã hóa nhãn
Mã hóa nhãn áp đặt một thứ tự tùy ý lên dữ liệu phân loại, điều này có thể gây hiểu lầm. Trong ví dụ đã cho, các quốc gia không có thứ tự cố hữu, nhưng một mã hóa nóng và mã hóa nhãn đưa ra mối quan hệ thứ tự dựa trên các số nguyên được mã hóa (ví dụ: Pháp < Đức < Tây Ban Nha). Điều này có thể khiến mô hình hiểu sai các danh mục này là có thứ tự có ý nghĩa, có khả năng dẫn đến suy luận không chính xác.

Bằng cách hiểu và triển khai mã hóa một nóng so với mã hóa nhãn bằng cả Pandas và Scikit-Learn, bạn có thể chuyển đổi dữ liệu theo danh mục một cách hiệu quả cho các mô hình học máy trong khi vẫn nhận thức được những hạn chế của nó và khả năng diễn giải sai.

## One Hot Encoding là gì?
One-Hot Encoding là một kỹ thuật phổ biến khác để xử lý các biến phân loại . Nó chỉ đơn giản là tạo ra các tính năng bổ sung dựa trên số lượng các giá trị duy nhất trong tính năng phân loại. Mỗi giá trị duy nhất trong danh mục sẽ được thêm vào như một tính năng. One-Hot Encoding là quá trình tạo các biến giả.

### Triển khai One-Hot Encoding trong Python bằng Scikit-Learn
Sau đây là cách bạn có thể triển khai mã hóa one-hot bằng Scikit-Learn trong Python:

### Nhập các thư viện cần thiết

In [19]:
df_test = pd.get_dummies(df_test,columns=['Country'],dtype='int')

df_test

Unnamed: 0,Salary,Country_0,Country_1,Country_2,Country_3,Country_4,Country_5,Country_6,Country_7,Country_8,...,Country_211,Country_212,Country_213,Country_214,Country_215,Country_216,Country_217,Country_218,Country_219,Country_220
0,1001.150000,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,3858.350000,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,956.920000,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1308.810000,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1570.000000,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
216,2710.000000,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
217,1011.670000,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
218,133.360000,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
219,0.285524,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


Việc chỉ định kiểu dữ liệu int là quan trọng vì theo mặc định, get_dummiessẽ trả về giá trị boolean ( Truehoặc False). Thiết lập dtype='int'đảm bảo các cột mới chứa giá trị số nguyên.

### Challenges of One-Hot Encoding: Dummy Variable Trap

Mã hóa One-Hot dẫn đến Bẫy biến giả vì kết quả của một biến có thể dễ dàng được dự đoán với sự trợ giúp của các biến còn lại. Bẫy biến giả là một kịch bản trong đó các biến có mối tương quan cao với nhau.

Bẫy biến giả dẫn đến vấn đề được gọi là [đa cộng tuyến](https://www.analyticsvidhya.com/blog/2020/03/what-is-multicollinearity/) . Đa cộng tuyến xảy ra khi có sự phụ thuộc giữa các tính năng độc lập. Đa cộng tuyến là một vấn đề nghiêm trọng trong các mô hình học máy như Hồi quy tuyến tính và Hồi quy logistic .

Vì vậy, để khắc phục vấn đề đa cộng tuyến, một trong các biến giả phải được loại bỏ. Ở đây, tôi sẽ chứng minh thực tế cách vấn đề đa cộng tuyến được đưa vào sau khi thực hiện mã hóa one-hot.

Một trong những cách phổ biến để kiểm tra đa cộng tuyến là Hệ số lạm phát phương sai(Variance Inflation Factor) (VIF):

- VIF=1, Đa cộng tuyến rất ít
- VIF<5, Đa cộng tuyến trung bình
- VIF>5, Đa cộng tuyến cực đại (Đây là điều chúng ta phải tránh)

Tính điểm VIF :

```
# Function to calculate VIF
def calculate_vif(data):
    vif_df = pd.DataFrame(columns = ['Var', 'Vif'])
    x_var_names = data.columns
    for i in range(0, x_var_names.shape[0]):
        y = data[x_var_names[i]]
        x = data[x_var_names.drop([x_var_names[i]])]
        r_squared = sm.OLS(y,x).fit().rsquared
        vif = round(1/(1-r_squared),2)
        vif_df.loc[i] = [x_var_names[i], vif]
    return vif_df.sort_values(by = 'Vif', axis = 0, ascending=False, inplace=False)

X=df.drop(['Salary'],axis=1)
calculate_vif(X)
```

![image.png](attachment:image.png)

Từ kết quả đầu ra, chúng ta có thể thấy rằng các biến giả được tạo ra bằng cách sử dụng mã hóa one-hot có VIF trên 5. Chúng ta có vấn đề đa cộng tuyến.

Bây giờ, chúng ta hãy loại bỏ một trong các biến giả để giải quyết vấn đề đa cộng tuyến:

```
df = df.drop(df.columns[[0]], axis=1)
calculate_vif(df)
```

![image-2.png](attachment:image-2.png)

Wow! VIF đã giảm. Chúng tôi đã giải quyết được vấn đề đa cộng tuyến. Bây giờ, tập dữ liệu đã sẵn sàng để xây dựng mô hình.

Chúng tôi khuyên bạn nên tìm  hiểu sâu hơn về [Phân tích hồi quy với Giả định, Biểu đồ & Giải pháp](https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assumptions-plots-solutions/?utm_source=blog&utm_medium=one-hot-encoding-vs-label-encoding-using-scikit-learn) để hiểu các giả định của hồi quy tuyến tính.

## Khi nào sử dụng mã hóa nhãn so với mã hóa một nóng
Câu hỏi này thường phụ thuộc vào tập dữ liệu của bạn và mô hình mà bạn muốn áp dụng. Tuy nhiên, vẫn có một vài điểm cần lưu ý trước khi chọn kỹ thuật mã hóa phù hợp cho mô hình của bạn:

**Chúng tôi áp dụng Mã hóa One-Hot khi:**

- Tính năng phân loại không phải là thứ tự (như các quốc gia ở trên)
- Số lượng các tính năng phân loại ít hơn nên mã hóa one-hot có thể được áp dụng hiệu quả

**Chúng tôi áp dụng Mã hóa nhãn khi:**

- Đặc điểm phân loại là thứ tự (như Jr. kg, Sr. kg, Tiểu học, Trung học phổ thông)
- Số lượng danh mục khá lớn vì mã hóa một lần có thể dẫn đến mức tiêu thụ bộ nhớ caoMã hóa nhãn so với Mã hóa một lần so với Mã hóa thứ tự

# One-hot encoding vs Label encoding

| Tên cột       | Mã hóa một nóng                                   | Mã hóa nhãn                                                   |
|---------------|---------------------------------------------------|--------------------------------------------------------------|
| **Sự miêu tả**| Chuyển đổi mỗi giá trị danh mục duy nhất thành một cột nhị phân mới. | Gán cho mỗi giá trị danh mục duy nhất một số nguyên.        |
| **Ví dụ**     | “Ấn Độ” -> [1, 0, 0]<br>“Nhật Bản” -> [0, 1, 0]<br>“Hoa Kỳ” -> [0, 0, 1] | “Ấn Độ” -> 0<br>“Nhật Bản” -> 1<br>“Mỹ” -> 2                 |
| **Khi nào sử dụng** | Các tính năng phân loại không theo thứ tự. Số lượng danh mục duy nhất có thể quản lý được. | Các tính năng phân loại theo thứ tự. Số lượng lớn các danh mục duy nhất. |
| **Thuận lợi** | Ngăn chặn mô hình đảm nhận bất kỳ thứ tự cố hữu nào. | Đơn giản và hiệu quả cho dữ liệu thứ tự. Không làm tăng tính đa chiều. |
| **Nhược điểm** | Có thể tạo ra tính đa chiều cao với nhiều danh mục độc đáo. | Áp đặt thứ tự tùy ý cho dữ liệu không theo thứ tự. Mô hình có thể giả định các mối quan hệ sai. |

# Phần kết luận
Hiểu được sự khác biệt giữa mã hóa one-hot và mã hóa nhãn là rất quan trọng để xử lý hiệu quả dữ liệu theo danh mục trong các dự án học máy. Bằng cách nắm vững các phương pháp mã hóa này và triển khai Scikit-Learn, các nhà khoa học dữ liệu có thể nâng cao kỹ năng của mình và cung cấp các giải pháp ML mạnh mẽ và chính xác hơn.