In this article, we will learn about how can we able to handle multi categorical variables using the Feature Engineering technique One Hot Encoding.

But before going ahead, let us have a brief discussion on Feature engineering and One Hot Encoding.

# Feature Engineering

Feature Engineering là quá trình trích xuất các đặc điểm từ dữ liệu thô bằng cách sử dụng kiến ​​thức chuyên ngành của vấn đề. Các đặc điểm này có thể được sử dụng để cải thiện hiệu suất của các thuật toán học máy và nếu hiệu suất tăng lên thì nó sẽ mang lại độ chính xác tốt nhất. Chúng ta cũng có thể nói rằng feature engineering giống như học máy ứng dụng. Feature engineering là nghệ thuật quan trọng nhất trong học máy, tạo ra sự khác biệt rất lớn giữa một mô hình tốt và một mô hình xấu. Đây là bước thứ ba trong bất kỳ vòng đời dự án khoa học dữ liệu nào.

Khái niệm về tính minh bạch đối với các mô hình học máy là một điều phức tạp vì các mô hình khác nhau thường yêu cầu các cách tiếp cận khác nhau cho các loại dữ liệu khác nhau. Chẳng hạn như:

- Dữ liệu liên tục(Continuous data)
- Các tính năng categorical(Categorical features)
- Giá trị bị thiếu(Missing values)
- Chuẩn hóa(Normalization)
- Ngày và giờ(Date and time)

Nhưng ở đây chúng ta chỉ thảo luận về các Categorical Feature, Các Categorical Feature là những tính năng mà kiểu dữ liệu là kiểu Đối tượng. Giá trị của điểm dữ liệu trong bất kỳ tính năng categorical nào không ở dạng số, mà ở dạng đối tượng.

There are many techniques for handling the categorical variables, some are :

- Label Encoding or Ordinal Encoding
- One hot Encoding
- Dummy Encoding(mã hóa giả)
- Effect Encoding
- Binary Encoding
- Basel Encoding
- Hash Encoding(mã hóa băm)
- Target Encoding

Vì vậy, ở đây chúng ta xử lý các tính năng categorical theo One Hot Encoding, do đó trước hết chúng ta sẽ thảo luận về One Hot Encoding.

# One-hot Encoding

Chúng ta biết rằng các biến categorical chứa các giá trị nhãn chứ không phải các giá trị số. Số lượng các giá trị có thể thường bị giới hạn trong một tập hợp cố định. Các biến categorical thường được gọi là nominal. Nhiều thuật toán học máy không thể hoạt động trực tiếp trên dữ liệu nhãn. Chúng yêu cầu tất cả các biến đầu vào và biến đầu ra phải là số.

Điều này có nghĩa là dữ liệu categorical phải được chuyển đổi sang dạng số. Nếu biến categorical là biến đầu ra, bạn cũng có thể muốn chuyển đổi các dự đoán của mô hình trở lại dạng categorical để trình bày chúng hoặc sử dụng chúng trong một số ứng dụng.

Ví dụ  dữ liệu về giới tính có dạng 'nam' và 'nữ'.

Nhưng nếu chúng ta sử dụng mã hóa one-hot thì việc mã hóa và cho phép mô hình giả định thứ tự tự nhiên giữa các danh mục có thể dẫn đến hiệu suất kém hoặc kết quả không mong muốn.

Mã hóa một nóng có thể được áp dụng cho biểu diễn số nguyên. Đây là nơi biến được mã hóa số nguyên bị loại bỏ và một biến nhị phân mới được thêm vào cho mỗi giá trị số nguyên duy nhất.

Ví dụ, chúng tôi mã hóa biến màu sắc,

| Màu đỏ | Màu xanh lam |
|--------|--------------|
|   0    |      1       |
|   1    |      0       |
|   0    |      1       |


# Đọc tập dữ liệu 

In [3]:
import pandas as pd

df = pd.read_csv('house-prices-advanced-regression-techniques/train.csv')
df

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

Nhưng chúng ta chỉ phải sử dụng các biến phân loại cho một bộ mã hóa nóng và chúng ta sẽ chỉ cố gắng giải thích bằng các biến phân loại để dễ hiểu.

để phân vùng các biến phân loại từ dữ liệu, chúng ta phải kiểm tra xem có bao nhiêu tính năng có giá trị phân loại.

# Checking Categorical Values

Để kiểm tra giá trị, chúng ta sử dụng hàm select_dtypes của pandas, được dùng để chọn kiểu dữ liệu của biến.

In [12]:
# checking features
cat = df.select_dtypes(include='object').keys()
# display variabels
cat

Index(['MSZoning', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities',
       'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2',
       'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st',
       'Exterior2nd', 'MasVnrType', 'ExterQual', 'ExterCond', 'Foundation',
       'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2',
       'Heating', 'HeatingQC', 'CentralAir', 'Electrical', 'KitchenQual',
       'Functional', 'FireplaceQu', 'GarageType', 'GarageFinish', 'GarageQual',
       'GarageCond', 'PavedDrive', 'PoolQC', 'Fence', 'MiscFeature',
       'SaleType', 'SaleCondition'],
      dtype='object')

Bây giờ chúng ta phải loại bỏ các cột số đó khỏi tập dữ liệu và chúng ta sẽ sử dụng biến phân loại này cho mục đích sử dụng của mình. Chúng ta chỉ sử dụng 3-4 cột phân loại từ tập dữ liệu để áp dụng mã hóa one-hot.

# Tạo df mới

Bây giờ, để sử dụng các biến phân loại, chúng ta sẽ tạo một khung dữ liệu mới gồm các cột phân loại đã chọn.




In [14]:
new_df = pd.read_csv('house-prices-advanced-regression-techniques/train.csv',usecols=['Neighborhood','Exterior1st','Exterior2nd'])  
new_df.head()

Unnamed: 0,Neighborhood,Exterior1st,Exterior2nd
0,CollgCr,VinylSd,VinylSd
1,Veenker,MetalSd,MetalSd
2,CollgCr,VinylSd,VinylSd
3,Crawfor,Wd Sdng,Wd Shng
4,NoRidge,VinylSd,VinylSd


Bây giờ chúng ta phải tìm xem có bao nhiêu danh mục duy nhất có trong mỗi cột danh mục.

# Finding Unique Values

In [15]:
for x in new_df.columns:
    #prinfting unique values
    print(x ,':', len(new_df[x].unique()))

Neighborhood : 25
Exterior1st : 15
Exterior2nd : 16


# Kỹ thuật cho các biến đa danh mục(Multi Categorical Variables)

Kỹ thuật này là chúng ta sẽ giới hạn mã hóa one-hot cho 10 nhãn thường gặp nhất của biến. Điều này có nghĩa là chúng ta sẽ tạo một biến nhị phân cho mỗi nhãn thường gặp nhất trong số 10 nhãn, điều này tương đương với việc nhóm tất cả các nhãn khác vào một danh mục mới, trong trường hợp này sẽ bị loại bỏ. Do đó, 10 biến giả mới cho biết nếu một trong 10 nhãn thường gặp nhất có mặt thì là 1 hay không thì là 0 cho một quan sát cụ thể.

### Most Frequent variables

Here we will select the 20 most frequent variables.



In [16]:
new_df.Neighborhood.value_counts().sort_values(ascending=False).head(20)

Neighborhood
NAmes      225
CollgCr    150
OldTown    113
Edwards    100
Somerst     86
Gilbert     79
NridgHt     77
Sawyer      74
NWAmes      73
SawyerW     59
BrkSide     58
Crawfor     51
Mitchel     49
NoRidge     41
Timber      38
IDOTRR      37
ClearCr     28
StoneBr     25
SWISU       25
MeadowV     17
Name: count, dtype: int64

Khi bạn nhìn vào hình ảnh đầu ra này, bạn sẽ nhận thấy nhãn NAmes được lặp lại 225 lần trong các cột Neighborhood và khi đi xuống, con số này đang giảm dần.

Vì vậy, chúng tôi đã lấy 10 kết quả hàng đầu từ trên cùng và chuyển đổi 10 kết quả hàng đầu này thành mã hóa one-hot và các nhãn bên trái sẽ chuyển thành số không.

## List of Most Frequent Categorical Variables


In [17]:
top_10 = [x for x in new_df.Neighborhood.value_counts().sort_values(ascending=False).head(10).index]
top_10

['NAmes',
 'CollgCr',
 'OldTown',
 'Edwards',
 'Somerst',
 'Gilbert',
 'NridgHt',
 'Sawyer',
 'NWAmes',
 'SawyerW']

In [18]:
import numpy as np
for label in top_10:
    new_df[label] = np.where(new_df['Neighborhood']==label,1,0)
new_df[['Neighborhood']+top_10]

Unnamed: 0,Neighborhood,NAmes,CollgCr,OldTown,Edwards,Somerst,Gilbert,NridgHt,Sawyer,NWAmes,SawyerW
0,CollgCr,0,1,0,0,0,0,0,0,0,0
1,Veenker,0,0,0,0,0,0,0,0,0,0
2,CollgCr,0,1,0,0,0,0,0,0,0,0
3,Crawfor,0,0,0,0,0,0,0,0,0,0
4,NoRidge,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
1455,Gilbert,0,0,0,0,0,1,0,0,0,0
1456,NWAmes,0,0,0,0,0,0,0,0,1,0
1457,Crawfor,0,0,0,0,0,0,0,0,0,0
1458,NAmes,1,0,0,0,0,0,0,0,0,0


## Ưu điểm
- Dễ dàng thực hiện
- Không cần nhiều thời gian để khám phá biến đổi
- Không mở rộng đáng kể không gian tính năng.
## Nhược điểm
- Không thêm bất kỳ thông tin nào có thể làm cho biến có tính dự đoán hơn
- Không giữ lại thông tin của các biến bị bỏ qua.
# Ghi chú cuối
Tóm lại là chúng ta tìm hiểu về cách xử lý các biến đa danh mục, Nếu bạn gặp phải vấn đề này thì đây là một nhiệm vụ rất khó khăn. Cảm ơn bạn đã đọc bài viết này.