Trong hướng dẫn này, bạn sẽ tìm hiểu **biến phân loại** (*categorical variable*) là gì, cùng với ba phương pháp để xử lý loại dữ liệu này.

# Giới thiệu (# Introduction #)

Một **biến phân loại** (*categorical variable*) chỉ có thể nhận một số lượng giới hạn các giá trị.

- Hãy xem xét một cuộc khảo sát hỏi về tần suất ăn sáng của bạn với bốn lựa chọn: "Không bao giờ", "Hiếm khi", "Hầu hết các ngày", hoặc "Mỗi ngày". Trong trường hợp này, dữ liệu thuộc loại phân loại vì câu trả lời rơi vào một tập hợp cố định các danh mục.
- Nếu mọi người trả lời khảo sát về thương hiệu ô tô họ sở hữu, các câu trả lời sẽ thuộc các danh mục như "Honda", "Toyota" và "Ford". Trong trường hợp này, dữ liệu cũng là phân loại.

Nếu bạn cố gắng đưa những biến này vào hầu hết các mô hình *machine learning* trong Python mà không xử lý trước, bạn sẽ gặp lỗi. Trong hướng dẫn này, chúng ta sẽ so sánh ba phương pháp mà bạn có thể sử dụng để chuẩn bị dữ liệu phân loại.

# Ba phương pháp tiếp cận (# Three Approaches #)

### 1) Loại bỏ biến phân loại (# Drop Categorical Variables #)

Cách dễ nhất để xử lý biến phân loại là đơn giản loại bỏ chúng khỏi tập dữ liệu. Tuy nhiên, phương pháp này chỉ phù hợp nếu các cột bị loại bỏ không chứa thông tin hữu ích.

### 2) Mã hóa thứ tự (*Ordinal Encoding*) (# Ordinal Encoding #)

**Ordinal encoding** gán một số nguyên khác nhau cho mỗi giá trị duy nhất.

![tut3_ordinalencode](https://storage.googleapis.com/kaggle-media/learn/images/tEogUAr.png)

Phương pháp này giả định rằng các danh mục có một thứ tự nhất định:  
"Không bao giờ" (0) < "Hiếm khi" (1) < "Hầu hết các ngày" (2) < "Mỗi ngày" (3).  

Giả định này hợp lý trong ví dụ này vì có một thứ tự xếp hạng rõ ràng giữa các danh mục. Không phải tất cả các biến phân loại đều có thứ tự rõ ràng, nhưng những biến có thứ tự như vậy được gọi là **biến thứ tự** (*ordinal variables*).  

Đối với các mô hình dựa trên cây (*tree-based models*) như *decision trees* và *random forests*, bạn có thể mong đợi *ordinal encoding* hoạt động tốt với các biến thứ tự.

### 3) Mã hóa one-hot (*One-Hot Encoding*) (# One-Hot Encoding #)

**One-hot encoding** tạo ra các cột mới để chỉ ra sự xuất hiện (hoặc không xuất hiện) của từng giá trị có thể có trong dữ liệu gốc.  

Hãy cùng xem xét một ví dụ.

![tut3_onehot](https://storage.googleapis.com/kaggle-media/learn/images/TW5m0aJ.png)

Trong tập dữ liệu ban đầu, "Color" là một biến phân loại có ba danh mục: "Red", "Yellow" và "Green".  

Tương ứng, *one-hot encoding* tạo ra một cột riêng biệt cho từng giá trị có thể có, với mỗi hàng tương ứng với một hàng trong tập dữ liệu gốc.  
- Nếu giá trị ban đầu là "Red", chúng ta đặt `1` vào cột "Red".  
- Nếu giá trị ban đầu là "Yellow", chúng ta đặt `1` vào cột "Yellow".  
- Và tương tự với các giá trị khác.  

Khác với *ordinal encoding*, *one-hot encoding* **không** giả định thứ tự giữa các danh mục. Do đó, phương pháp này đặc biệt hữu ích khi không có thứ tự rõ ràng trong dữ liệu phân loại (ví dụ: "Red" không *hơn* hay *kém* "Yellow"). Những biến phân loại không có thứ tự nội tại được gọi là **biến danh định** (*nominal variables*).

Tuy nhiên, *one-hot encoding* thường không hoạt động tốt nếu biến phân loại có quá nhiều giá trị khác nhau (thường không nên áp dụng cho biến có hơn 15 giá trị duy nhất).

# Ví dụ (# Example #)

Giống như trong hướng dẫn trước, chúng ta sẽ làm việc với tập dữ liệu [Melbourne Housing](https://www.kaggle.com/dansbecker/melbourne-housing-snapshot/home).  

Chúng ta sẽ không tập trung vào bước tải dữ liệu. Thay vào đó, giả sử rằng chúng ta đã có sẵn dữ liệu huấn luyện và kiểm định trong các biến:  
- `X_train`, `X_valid` (tập đặc trưng huấn luyện và kiểm định)  
- `y_train`, `y_valid` (tập mục tiêu huấn luyện và kiểm định)


In [11]:

import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
data = pd.read_csv('melb_data.csv')

# Separate target from predictors
y = data.Price
X = data.drop(['Price'], axis=1)

# Divide data into training and validation subsets
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                                random_state=0)

# Drop columns with missing values (simplest approach)
cols_with_missing = [col for col in X_train_full.columns if X_train_full[col].isnull().any()] 
X_train_full.drop(cols_with_missing, axis=1, inplace=True)
X_valid_full.drop(cols_with_missing, axis=1, inplace=True)

# "Cardinality" means the number of unique values in a column
# Select categorical columns with relatively low cardinality (convenient but arbitrary)
low_cardinality_cols = [cname for cname in X_train_full.columns if X_train_full[cname].nunique() < 10 and 
                        X_train_full[cname].dtype == "object"]

# Select numerical columns
numerical_cols = [cname for cname in X_train_full.columns if X_train_full[cname].dtype in ['int64', 'float64']]

# Keep selected columns only
my_cols = low_cardinality_cols + numerical_cols
X_train = X_train_full[my_cols].copy()
X_valid = X_valid_full[my_cols].copy()

Chúng ta xem qua dữ liệu huấn luyện bằng phương thức `head()` dưới đây.

In [12]:
X_train.head()

Unnamed: 0,Type,Method,Regionname,Rooms,Distance,Postcode,Bedroom2,Bathroom,Landsize,Lattitude,Longtitude,Propertycount
12167,u,S,Southern Metropolitan,1,5.0,3182.0,1.0,1.0,0.0,-37.85984,144.9867,13240.0
6524,h,SA,Western Metropolitan,2,8.0,3016.0,2.0,2.0,193.0,-37.858,144.9005,6380.0
8413,h,S,Western Metropolitan,3,12.6,3020.0,3.0,1.0,555.0,-37.7988,144.822,3755.0
2919,u,SP,Northern Metropolitan,3,13.0,3046.0,3.0,1.0,265.0,-37.7083,144.9158,8870.0
6043,h,S,Western Metropolitan,3,13.3,3020.0,3.0,1.0,673.0,-37.7623,144.8272,4217.0


Tiếp theo, chúng ta lấy danh sách tất cả các biến phân loại trong tập dữ liệu huấn luyện.

Chúng ta thực hiện điều này bằng cách kiểm tra kiểu dữ liệu (*dtype*) của từng cột. Kiểu dữ liệu `object` cho biết một cột chứa văn bản (trên lý thuyết, nó có thể chứa các loại dữ liệu khác, nhưng điều này không quan trọng trong ngữ cảnh của chúng ta).  

Đối với tập dữ liệu này, các cột chứa văn bản đại diện cho các biến phân loại.

In [13]:
# Get list of categorical variables
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Categorical variables:")
print(object_cols)

Categorical variables:
['Type', 'Method', 'Regionname']


### Xác định hàm đánh giá chất lượng của từng phương pháp (# Define Function to Measure Quality of Each Approach #)

Chúng ta định nghĩa một hàm `score_dataset()` để so sánh ba phương pháp xử lý biến phân loại khác nhau.  

Hàm này sẽ báo cáo *mean absolute error* ([MAE](https://en.wikipedia.org/wiki/Mean_absolute_error) - sai số tuyệt đối trung bình) từ một mô hình *random forest*.  

Nhìn chung, chúng ta muốn giá trị MAE càng thấp càng tốt!

In [14]:

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Function for comparing different approaches
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

### Điểm số từ phương pháp 1 (Loại bỏ biến phân loại) (# Score from Approach 1 (Drop Categorical Variables) #)

Chúng ta loại bỏ các cột có kiểu dữ liệu `object` bằng phương thức [`select_dtypes()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.html).

In [15]:
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

print("MAE from Approach 1 (Drop categorical variables):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

MAE from Approach 1 (Drop categorical variables):
175703.48185157913


### Điểm số từ phương pháp 2 (Mã hóa thứ tự - Ordinal Encoding) (# Score from Approach 2 (Ordinal Encoding) #)

Scikit-learn cung cấp lớp [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) để thực hiện *ordinal encoding*.  

Chúng ta sẽ lặp qua các biến phân loại và áp dụng *ordinal encoder* riêng biệt cho từng cột.

In [16]:
from sklearn.preprocessing import OrdinalEncoder

# Make copy to avoid changing original data 
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

# Apply ordinal encoder to each column with categorical data
ordinal_encoder = OrdinalEncoder()
label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

print("MAE from Approach 2 (Ordinal Encoding):") 
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))

MAE from Approach 2 (Ordinal Encoding):
165936.40548390493


Trong ô mã trên, đối với mỗi cột, chúng ta ngẫu nhiên gán một số nguyên khác nhau cho từng giá trị duy nhất. Đây là một phương pháp phổ biến và đơn giản hơn so với việc gán nhãn theo cách thủ công. Tuy nhiên, nếu chúng ta có thể cung cấp các nhãn được xác định tốt hơn cho tất cả các biến thứ tự (*ordinal variables*), hiệu suất của mô hình có thể được cải thiện hơn nữa.

### Điểm số từ phương pháp 3 (Mã hóa one-hot) (# Score from Approach 3 (One-Hot Encoding) #)

Chúng ta sử dụng lớp [`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) từ *scikit-learn* để thực hiện *one-hot encoding*.  

Có một số tham số quan trọng có thể được tùy chỉnh trong quá trình mã hóa:  
- Chúng ta đặt `handle_unknown='ignore'` để tránh lỗi khi tập dữ liệu kiểm định (*validation data*) chứa các giá trị danh mục không xuất hiện trong tập huấn luyện.  
- Đặt `sparse=False` đảm bảo rằng các cột được mã hóa được trả về dưới dạng mảng numpy thay vì một *sparse matrix* (*ma trận thưa*).

Để sử dụng *encoder*, chúng ta chỉ cung cấp các cột phân loại cần được mã hóa *one-hot*.  

Ví dụ, để mã hóa tập dữ liệu huấn luyện, chúng ta cung cấp `X_train[object_cols]`.  
(`object_cols` trong ô mã dưới đây là danh sách tên các cột chứa dữ liệu phân loại, do đó `X_train[object_cols]` chứa tất cả dữ liệu phân loại trong tập huấn luyện.)

In [17]:
from sklearn.preprocessing import OneHotEncoder

# Apply one-hot encoder to each column with categorical data
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))

# One-hot encoding removed index; put it back
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Remove categorical columns (will replace with one-hot encoding)
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# Add one-hot encoded columns to numerical features
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

# Ensure all columns have string type
OH_X_train.columns = OH_X_train.columns.astype(str)
OH_X_valid.columns = OH_X_valid.columns.astype(str)

print("MAE from Approach 3 (One-Hot Encoding):") 
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

MAE from Approach 3 (One-Hot Encoding):
166089.4893009678


# Phương pháp nào là tốt nhất? (# Which approach is best? #)

Trong trường hợp này, loại bỏ các cột phân loại (**Phương pháp 1**) có hiệu suất kém nhất, vì nó có điểm MAE cao nhất.  

Đối với hai phương pháp còn lại, vì các điểm MAE trả về có giá trị rất gần nhau, nên không có sự khác biệt đáng kể giữa chúng.

Nhìn chung, *one-hot encoding* (**Phương pháp 3**) thường mang lại hiệu suất tốt nhất, trong khi loại bỏ các cột phân loại (**Phương pháp 1**) thường có hiệu suất kém nhất. Tuy nhiên, kết quả có thể thay đổi tùy theo từng trường hợp cụ thể.

# Kết luận (# Conclusion #)

Thế giới đầy rẫy dữ liệu phân loại. Bạn sẽ trở thành một *data scientist* hiệu quả hơn nhiều nếu biết cách xử lý loại dữ liệu phổ biến này!

# Đến lượt bạn! (# Your Turn #)

Hãy áp dụng kỹ năng mới của bạn trong **[bài tập tiếp theo](https://www.kaggle.com/kernels/fork/3370279)**!

---




*Have questions or comments? Visit the [course discussion forum](https://www.kaggle.com/learn/intermediate-machine-learning/discussion) to chat with other learners.*