# MÃ HÓA BIẾN SỐ PHÂN LOẠI VỚI PANDAS

Như chúng ta đã biết trong phân tích dữ liệu có hai nhóm biến số chính là biến số định lượng và biến số phân loại. Cụ thể:
- Biến số định lượng (numerical variables):
    - Biến số liên tục (continuous variable)
    - Biến số rời rạc (discrete variable)
- Biến số phân loại (categorical variables):
    - Biến số hai giá trị (binary variable or dichotomous variable)   
    - Biến số phân loại có thứ bậc (ordinal variables)
    - Biến số phân loại không có thứ bậc (nominal variables)
   
Biến số phân loại hay có khi còn gọi là biến số định tính, mỗi giá biến số có từ hai đến nhiều giá trị và mỗi giá trị đại diện cho một nhóm nào đó. Loại biến số này thông thường được lưu trữ dưới dạng kiểu dữ liệu chuỗi chính vì vậy mà đa phần các thuật toán thống kê và học máy đều không thể xử lý được (ngoại trừ một số thuật toán dựa trên mô hình cây quyết định như Decision Tree, Random forest, XGBoot, Adaboot... và dựa trên tần suất Naive Bayes). Chính vì vậy nhà phân tích cần mã hóa các biến số phân loại này thành dạng số. Một số phần mềm thống kê khác đã được nhà phát triển tích hợp công đoàn này vào thuật toán. Dưới đây là một số phương pháp mã hóa biến số phân loại thông dụng.  
Cho tập dữ liệu mô phỏng:

In [1]:
import pandas as pd
import numpy as np

data= pd.read_csv('data/bmi-simulation_v2.csv', index_col= 0)
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi,tt_dinh_duong
0,Nam,Khong,21.57,False,Binh_thuong
1,Nam,Cong_Giao,20.95,False,Binh_thuong
2,Nu,Khong,25.33,True,Beo_phi_do_1
3,Nu,Khong,21.04,False,Binh_thuong
4,Nam,Khong,21.44,False,Binh_thuong


## 1. Mã hóa biến số hai giá trị  

Biến số hai giá trị đang có kiểu dữ liệu dạng chuỗi cần chuyển thành kiểu dữ liệu dạng số có giá trị 0 và 1 hoặc True và False (trong python True = 1 và False = 0). Trong tập dữ liệu trên có hai biến số hai giá trị là gioi_tinh và beo_phi. Biến beo_phi đã được mã hóa tuy nhiên biến gioi_tinh chưa được mã hóa.

In [2]:
# Cách 1
data['nam_1']= data['gioi_tinh'] == 'Nam'
data[['gioi_tinh', 'nam_1']].head(3)

Unnamed: 0,gioi_tinh,nam_1
0,Nam,True
1,Nam,True
2,Nu,False


In [3]:
# Cách 2
data['nam_2'] = 0
data.loc[data['gioi_tinh'] == 'Nam', 'nam_2'] = 1
data[['gioi_tinh', 'nam_2']].head(3)

Unnamed: 0,gioi_tinh,nam_2
0,Nam,1
1,Nam,1
2,Nu,0


In [4]:
# Cách 3
data= pd.get_dummies(data= data,columns= ['gioi_tinh'], drop_first= True)
data.head()

Unnamed: 0,ton_giao,bmi,beo_phi,tt_dinh_duong,nam_1,nam_2,gioi_tinh_Nu
0,Khong,21.57,False,Binh_thuong,True,1,0
1,Cong_Giao,20.95,False,Binh_thuong,True,1,0
2,Khong,25.33,True,Beo_phi_do_1,False,0,1
3,Khong,21.04,False,Binh_thuong,False,0,1
4,Khong,21.44,False,Binh_thuong,True,1,0


Còn nhiều cách khác nữa, có thể linh hoạt trong lập trình để mã hóa

## 2. Mã hóa biến số phân loại có thứ bậc

Biến số phân loại có thứ bậc có các giá trị có thể được sắp xếp theo một thứ tự nhất định, mỗi giá trị tương ứng với một bậc. Chính vì vậy chúng ta có thể mã hóa biến số này về kiểu số nguyên sao cho mỗi bậc cách nhau một khoảng nhất định (thông thường là 1 đơn vị). Sau khi mã hóa biến số này trở thành kiểu biến số rời rạc.  
Không có một cách tự động nào để mã hóa biến số này chính vì vậy nhà phân tích cần gán giá trị tương ứng với mỗi bậc.  
Ví dụ: mã hóa biến số tình trạng dinh dưỡng gồm 4 giá trị: Thieu_can < Binh_thuong < Thua_can < Beo_phi_do_1 < Beo_phi_do_2 < Beo_phi_do_3

In [5]:
tt_dinh_duong_code= {'Thieu_can': 0,
                     'Binh_thuong': 1,
                     'Thua_can': 2,
                     'Beo_phi_do_1': 3,
                     'Beo_phi_do_2': 4,
                     'Beo_phi_do_3': 5}
data['tt_dinh_duong_recode']= data['tt_dinh_duong'].map(tt_dinh_duong_code)
data.head(5)

Unnamed: 0,ton_giao,bmi,beo_phi,tt_dinh_duong,nam_1,nam_2,gioi_tinh_Nu,tt_dinh_duong_recode
0,Khong,21.57,False,Binh_thuong,True,1,0,1
1,Cong_Giao,20.95,False,Binh_thuong,True,1,0,1
2,Khong,25.33,True,Beo_phi_do_1,False,0,1,3
3,Khong,21.04,False,Binh_thuong,False,0,1,1
4,Khong,21.44,False,Binh_thuong,True,1,0,1


## 3. Mã hóa biến số phân loại không có thứ bậc

### 3.1. Mã hóa thành biến số giả / biến số thay thế   
Phương pháp này là phương pháp sử dụng phổ biến trong mã hóa biến số phân loại. Với mỗi nhóm của biến số phân loại tạo một biến số tương ứng có hai giá trị là 1/True thể hiện nhóm đó còn 0/False là không phải.  
Như vậy, với một biến số có 5 nhóm sẽ tạo thành 5 biến số giả mà trong mỗi mẫu chỉ có 1 biến nhận giá trị 1/True và 4 biến còn lại đều nhận giá trị 0/False. Chúng ta có thể xóa bỏ 1 biến số thì lúc này nhóm mà biến số được xóa thể hiện bởi 4 biến số nhận giá trị 0.

In [6]:
# Cách 1
def get_dummies(data, column, drop_first= False):
    values= data[column].value_counts().index
    if drop_first:
        values= values[1:]
    for value in values:
        data[column + '_' + value]= data[column]== value
    return data

data_dummies_1= get_dummies(data.copy(), column= 'ton_giao', drop_first= False)

import re
data_dummies_1.loc[:,[bool(re.match('^ton_giao', col)) for col in data_dummies_1.columns]].head(5)

Unnamed: 0,ton_giao,ton_giao_Khong,ton_giao_Cong_Giao,ton_giao_Phat_Giao,ton_giao_Hoi_Giao,ton_giao_Tin_Lanh,ton_giao_Cao_Dai,ton_giao_Hoa_Hao
0,Khong,True,False,False,False,False,False,False
1,Cong_Giao,False,True,False,False,False,False,False
2,Khong,True,False,False,False,False,False,False
3,Khong,True,False,False,False,False,False,False
4,Khong,True,False,False,False,False,False,False


In [7]:
# Cách 2
data_dummies_2= pd.get_dummies(data, columns= ['ton_giao'], drop_first= True)
data_dummies_2.loc[:,[bool(re.match('^ton_giao', col)) for col in data_dummies_2.columns]].head(5)

Unnamed: 0,ton_giao_Cong_Giao,ton_giao_Hoa_Hao,ton_giao_Hoi_Giao,ton_giao_Khong,ton_giao_Phat_Giao,ton_giao_Tin_Lanh
0,0,0,0,1,0,0
1,1,0,0,0,0,0
2,0,0,0,1,0,0
3,0,0,0,1,0,0
4,0,0,0,1,0,0


### 3.2. Mã hóa theo tần suất

Sử dụng tần suất xuất hiện để gán giá trị cho nhóm đó. Như vậy nhóm xuất hiện nhiều có trọng số cao hơn các nhóm xuất hiện ít khác.  
Ví dụ: mã hóa biến số tôn giáo.

In [8]:
freq_table= data['ton_giao'].value_counts(normalize= True)
data['ton_giao_freq']= data['ton_giao'].map(freq_table)
data[['ton_giao', 'ton_giao_freq']].head()

Unnamed: 0,ton_giao,ton_giao_freq
0,Khong,0.823333
1,Cong_Giao,0.08
2,Khong,0.823333
3,Khong,0.823333
4,Khong,0.823333
