# MÃ HÓA BIẾN SỐ ĐỊNH LƯỢNG VỚI PANDAS

Trong biên tập, xử lý và phân tích dữ liệu, một số trường hợp đòi hỏi nhà phân tích phải biến đổi một biến số liên tục sang biến số phân loại có từ hai hoặc nhiều nhóm.  
Ví dụ: biến số BMI có thể biến đổi thành biến số phân loại tình trạng dinh dưỡng gồm các nhóm: thiếu cân (< 18,5), bình thường (18,50 - 22,99), thừa cân (23,00 - 24,99), béo phì độ I (25,00 - 29,99), béo phì độ II	(30,00 - 39,99), béo phì độ III	(≥ 40). Hoặc có thể biến đổi thành biến số Béo phì: Có (>= 25) và Không (< 25).

In [1]:
# Cho bộ dữ liệu mô phỏng gồm 3 biến số: gioi_tinh, dan_toc, bmi
import pandas as pd
import numpy as np

data= pd.read_csv('data/bmi-simulation.csv', index_col= 0)
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi
0,Nam,Khong,21.57
1,Nam,Cong_Giao,20.95
2,Nu,Khong,25.33
3,Nu,Khong,21.04
4,Nam,Khong,21.44


## 1. Chuyển đổi biến liên tục thành biến nhị phân

Chuyển đổi biến bmi thành biến béo phì: bmi >= 25

In [2]:
data['beo_phi']= data['bmi'] >= 25
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi
0,Nam,Khong,21.57,False
1,Nam,Cong_Giao,20.95,False
2,Nu,Khong,25.33,True
3,Nu,Khong,21.04,False
4,Nam,Khong,21.44,False


Trong Python True = 1 và False = 0.  
Có thể áp dụng cách map với function như ở mục 2.

## 2. Chuyển đổi biến liên tục thành biến phân loại (có thứ tự)

### 2.1. Chuyển đổi theo các khoảng cho trước
Chuyển đổi biến số bmi thành biến số tình trạng dinh dưỡng:
- Thiếu cân (< 18,5)
- Bình thường (18,50 - 22,99)
- Thừa cân (23,00 - 24,99)
- Béo phì độ I (25,00 - 29,99)
- Béo phì độ II (30,00 - 39,99)
- Béo phì độ III (≥ 40)

In [3]:
# Cách 1
# Function xác định tình trạng dinh dưỡng của mỗi người
def tinh_trang_dinh_duong(bmi):
    if bmi < 18.5:
        ttdd= 'Thieu_can'
    elif bmi >= 18.5 and bmi < 23:
        ttdd= 'Binh_thuong'
    elif bmi >= 23 and bmi < 25:
        ttdd= 'Thua_can'
    elif bmi >= 25 and bmi < 30:
        ttdd= 'Beo_phi_do_1'
    elif bmi >= 30 and bmi < 40:
        ttdd= 'Beo_phi_do_2'
    else:
        ttdd= 'Beo_phi_do_3'
    return ttdd

# Áp dụng với biến bmi để tạo biến tình trạng dinh dưỡng
data['tt_dinh_duong_1']= data['bmi'].map(tinh_trang_dinh_duong)
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi,tt_dinh_duong_1
0,Nam,Khong,21.57,False,Binh_thuong
1,Nam,Cong_Giao,20.95,False,Binh_thuong
2,Nu,Khong,25.33,True,Beo_phi_do_1
3,Nu,Khong,21.04,False,Binh_thuong
4,Nam,Khong,21.44,False,Binh_thuong


In [4]:
# Cách 2
data['tt_dinh_duong_2']= pd.cut(x= data.bmi, 
                                bins= [0, 18.5, 23, 25, 30, 40, 100], # giá trị 0 và 100 tạm để thay thế cho min và max
                                labels= ['Thieu_can', 'Binh_thuong', 'Thua_can', 'Beo_phi_do_1', 'Beo_phi_do_2', 'Beo_phi_do_3'],
                                right= False)
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi,tt_dinh_duong_1,tt_dinh_duong_2
0,Nam,Khong,21.57,False,Binh_thuong,Binh_thuong
1,Nam,Cong_Giao,20.95,False,Binh_thuong,Binh_thuong
2,Nu,Khong,25.33,True,Beo_phi_do_1,Beo_phi_do_1
3,Nu,Khong,21.04,False,Binh_thuong,Binh_thuong
4,Nam,Khong,21.44,False,Binh_thuong,Binh_thuong


### 2.2. Chuyển đổi dựa vào khoảng giá trị  
Chuyển đổi thành một số lượng các nhóm mà mỗi nhóm có chiều rộng bằng nhau trong phạm vi của biến số.

In [5]:
data['ordinal_var_1']= pd.cut(x= data.bmi, 
        bins= 4, 
        labels= ['Thap', 'Trung_binh', 'Cao', 'Rat_cao'])
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi,tt_dinh_duong_1,tt_dinh_duong_2,ordinal_var_1
0,Nam,Khong,21.57,False,Binh_thuong,Binh_thuong,Trung_binh
1,Nam,Cong_Giao,20.95,False,Binh_thuong,Binh_thuong,Trung_binh
2,Nu,Khong,25.33,True,Beo_phi_do_1,Beo_phi_do_1,Cao
3,Nu,Khong,21.04,False,Binh_thuong,Binh_thuong,Trung_binh
4,Nam,Khong,21.44,False,Binh_thuong,Binh_thuong,Trung_binh


In [6]:
data['ordinal_var_1'].value_counts()

Trung_binh    122
Cao           118
Thap           33
Rat_cao        27
Name: ordinal_var_1, dtype: int64

### 2.3. Chuyển đổi dựa vào khoảng phân vị  
Chuyển đổi dựa vào phân vị sẽ tạo thành một biến số phận loại mà mỗi nhóm có số lượng bằng nhau.  
Ví dụ chuyển đổi biến bmi thành 4 nhóm theo phân vị.

In [7]:
data['ordinal_var_2']= pd.qcut(x= data.bmi, 
        q= 4, # q là số nhóm hoặc có thể truyền vào phân vị vd: [0, 0.25, 0.5, 0.75, 1]
        labels= ['Thap', 'Trung_binh', 'Cao', 'Rat_cao'])
data.head()

Unnamed: 0,gioi_tinh,ton_giao,bmi,beo_phi,tt_dinh_duong_1,tt_dinh_duong_2,ordinal_var_1,ordinal_var_2
0,Nam,Khong,21.57,False,Binh_thuong,Binh_thuong,Trung_binh,Trung_binh
1,Nam,Cong_Giao,20.95,False,Binh_thuong,Binh_thuong,Trung_binh,Thap
2,Nu,Khong,25.33,True,Beo_phi_do_1,Beo_phi_do_1,Cao,Rat_cao
3,Nu,Khong,21.04,False,Binh_thuong,Binh_thuong,Trung_binh,Trung_binh
4,Nam,Khong,21.44,False,Binh_thuong,Binh_thuong,Trung_binh,Trung_binh


In [8]:
data['ordinal_var_2'].value_counts()

Rat_cao       75
Cao           75
Trung_binh    75
Thap          75
Name: ordinal_var_2, dtype: int64