## Tóm tắt kiến thức cơ bản về LabelEncoder()

**LabelEncoder()** là một công cụ trong thư viện scikit-learn của Python được sử dụng để mã hóa các thuộc tính phân loại (categorical features) thành các giá trị số.

Trong bài toán Classification, khi tập dữ liệu có nhiều giá trị giống nhau, chúng ta có thể phân loại chúng thành từng nhóm. Mỗi nhóm được đánh dấu bởi một nhãn (giá trị số tự nhiên). `LabelEncoder()` có thể thực hiện điều này bằng cách truy tìm những phần tử giống nhau và gán nhãn cho chúng để phân biệt với nhau.


**Cách thức hoạt động (Khá phức tạp đấy)**

1. **Fit:** Đầu tiên, LabelEncoder() phân loại dữ liệu duy nhất và gán nhãn (label) cho chúng.
2. **Transform:** Sau đó, nó mã hóa mỗi nhãn bởi một số nguyên, bắt đầu từ 0 và tăng dần cho mỗi nhãn khác nhau.

**Ví dụ:**

```python
from sklearn.preprocessing import LabelEncoder

# Dữ liệu ban đầu
data = ["Đỏ", "Xanh", "Vàng", "Vàng", "Đỏ", "Xanh", "Xanh"]

# Khởi tạo LabelEncoder
le = LabelEncoder()

# Fit dữ liệu
le.fit(data)

# Transform dữ liệu
encoded_data = le.transform(data)

# In ra kết quả
print(encoded_data)

# Output: [2 1 0 0 2 1 1]
```

**Lưu ý:**

- LabelEncoder() chỉ hoạt động với dữ liệu danh mục (Ví dụ  Màu sắc, Giới tính, Địa chỉ, Loại sản phẩm,...)
- LabelEncoder() không thay đổi thứ tự của dữ liệu.
- LabelEncoder() có thể được sử dụng với các loại dữ liệu khác ngoài văn bản, chẳng hạn như dữ liệu thời gian.

**Lợi ích:**

- Đơn giản: LabelEncoder() rất dễ sử dụng và có thể được triển khai nhanh chóng.
- Hiệu quả: LabelEncoder() sử dụng ít bộ nhớ và có thể xử lý dữ liệu nhanh chóng.
- Tương thích: LabelEncoder() tương thích với nhiều thư viện học máy khác nhau.

**Điểm trừ:**

- Mất thông tin: LabelEncoder() có thể làm mất thông tin về thứ tự của các nhãn văn bản..
- Nhạy cảm với giá trị ngoại lai: LabelEncoder() có thể bị ảnh hưởng bởi các giá trị ngoại lai trong dữ liệu.


Nếu cảm thấy quá phức tạp thì hãy xem tiếp phần giải thích sâu hơn dưới đây
## Giải thích thêm về phương thức `fit()` và `transform()`

**1. fit()**:

Phương thức `fit()` được sử dụng để huấn luyện LabelEncoder() với dữ liệu. Nó thực hiện hai nhiệm vụ:

- Xác định các giá trị duy nhất: LabelEncoder() sẽ xác định tất cả các giá trị khác nhau trong thuộc tính phân loại và tạo một danh sách các giá trị duy nhất.
- Gán mã số cho các giá trị: Sau khi xác định các giá trị duy nhất, LabelEncoder() sẽ gán cho mỗi nhãn một số nguyên, bắt đầu từ 0 và tăng dần cho mỗi giá trị khác nhau.

Ví dụ:

```python

# Dữ liệu ban đầu
data = ["Đỏ", "Xanh", "Vàng", "Đỏ", "Xanh", "Tím"]

# Khởi tạo LabelEncoder
le = LabelEncoder()

# lọc giá trị (nhãn) ở trong data
le.fit(data)

# In ra bảng mã
print(le.classes_)

# Output: ['Đỏ' 'Tím' 'Xanh' 'Vàng']

```

Hàm fit() không làm thay đổi dữ liệu ban đầu. Nó chỉ lấy thông tin từ đó và học để tạo bảng mã sử dụng cho hàm transform().

**2. transform()**

Phương thức `transform()` được sử dụng để chuyển đổi dữ liệu theo cách đã được học trong quá trình fit(). 

Nó sẽ thay thế mỗi giá trị trong bảng mã từ `fit()` bằng một số nguyên.

Ví dụ:

```python
# chuyển đổi mỗi nhãn thành một số nguyên
encoded_data = le.transform(data)

# In kết quả
print(encoded_data)

# Output: [0 2 3 0 2 1]
```

Như vậy, trong trường hợp này, LabelEncoder() sẽ gán mã số như sau:
+ "Đỏ": 0
+ "Tím": 1
+ "Xanh": 2
+ "Vàng": 3

Cuối cùng, LabelEncoder() sẽ sử dụng bảng mã này để mã hóa cho dữ liệu ban đầu. 

**Tham khảo:**

* scikit-learn documentation on LabelEncoder: [https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)
* Feature Engineering (Phần 3): Feature engineering với dữ liệu dạng phân loại (Categorical Data): [https://viblo.asia/p/feature-engineering-phan-3-feature-engineering-voi-du-lieu-dang-phan-loai-categorical-data-GrLZDQx2lk0](https://viblo.asia/p/feature-engineering-phan-3-feature-engineering-voi-du-lieu-dang-phan-loai-categorical-data-GrLZDQx2lk0)

**Tóm tắt:**

* LabelEncoder() là một công cụ hữu ích để mã hóa dữ liệu phân loại.
* Cách sử dụng LabelEncoder() khá đơn giản với hai phương thức chính là `fit()` và `transform()`.
* LabelEncoder() có một số lợi ích và hạn chế nhất định cần lưu ý khi sử dụng.

**Ngoài ra:**

* LabelEncoder() có một số tham số khác có thể được sử dụng để tùy chỉnh cách thức hoạt động của nó.
* Có một số thư viện khác cũng có thể được sử dụng để mã hóa dữ liệu phân loại, ví dụ như `category_encoders` trong Python.

**Hy vọng tóm tắt này giúp bạn hiểu rõ hơn về LabelEncoder().**

In [1]:
from sklearn.preprocessing import LabelEncoder

# Dữ liệu ban đầu
data = ["Đỏ", "Xanh", "Vàng", "Vàng", "Đỏ", "Xanh", "Xanh"]
# Khởi tạo LabelEncoder
le = LabelEncoder()

# Fit dữ liệu
le.fit(data)

# Transform dữ liệu
encoded_data = le.transform(data)

# In ra kết quả
print(encoded_data)


[2 1 0 0 2 1 1]
