In [3]:
import sys
from pathlib import Path

PROJECT_ROOT = Path.cwd().parent.parent
if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

In [5]:
import importlib
import src.config as cfg
importlib.reload(cfg)

PROCESSED_DATA_DIR = cfg.PROCESSED_DATA_DIR
NAN_TO_MEDIAN_FILE = PROCESSED_DATA_DIR / 'nan_to_median.csv'

In [6]:
import pandas as pd
df = pd.read_csv(NAN_TO_MEDIAN_FILE)

# Biến đổi đặc trưng

Biến đổi đặc trưng là phương pháp để tăng cường hiệu năng dự đoán bằng các biến đổi không gian đặc trưng của tập dữ liệu. Các phương pháp biến đổi đặc trưng cho phép trích xuất đặc trưng mới cho mô hình học máy từ dữ liệu gốc, giúp mô hình học tốt hơn, chính xác hơn và tổng quát hóa tốt hơn trên dữ liệu mới.

Phương pháp biến đổi đặc trưng được dùng trong bài tập này là chia khoảng giá trị theo dữ liệu đánh giá y tế

## Glucose

Giá trị Glucose được chia theo 3 khoảng: Bình thường, Tiền tiểu đường và Tiểu đường

Theo Vinmec, lượng đường huyết Glucose sau khi thực hiện nghiệm pháp dung nạp Glucose giúp hỗ trợ chẩn đoán tiểu đường:
* Bình thường: Glucose < 140 mg/dl
* Tiền tiểu đường: 140 <= Glucose < 200 dl
* Tiểu đường: >= 200 mg/dl

https://www.vinmec.com/vie/bai-viet/chi-so-glucose-trong-mau-o-muc-bao-nhieu-la-mac-benh-tieu-duong-vi

In [7]:
New_Glucose = pd.Series(['Normal', 'Prediabetes', 'Diabetes'], dtype='category')
New_Glucose

0         Normal
1    Prediabetes
2       Diabetes
dtype: category
Categories (3, object): ['Diabetes', 'Normal', 'Prediabetes']

In [8]:
df['New_Glucose'] = New_Glucose
df.loc[df['Glucose'] < 140, 'New_Glucose'] = New_Glucose[0]
df.loc[(df['Glucose'] >= 140) & (df['Glucose'] <= 200), 'New_Glucose'] = New_Glucose[1]
df.loc[df['Glucose'] > 200, 'New_Glucose'] = New_Glucose[2]

In [9]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,New_Glucose
0,6,148.0,72.0,35.0,169.5,33.6,0.627,50,1,Prediabetes
1,1,85.0,66.0,29.0,102.5,26.6,0.351,31,0,Normal
2,8,183.0,64.0,32.0,169.5,23.3,0.672,32,1,Prediabetes
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,Normal
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,Normal


## BMI

Các nghiên cứu y tế cho rằng béo phì và tiểu đường type 2 có mối liên hệ chặt chẽ với nhau

Chỉ số BMI cho biết tình trạng cơ thể

Theo Medlatec, giá trị BMI được chia theo các khoảng: 
* Thiếu cân: BMI < 18.5
* Khỏe mạnh: 18.5 <= BMI < 25 
* Thừa cân: 25 <= BMI < 30
* Béo phì loại I: 30 <= BMI < 35
* Béo phì loại II 35 <= BMI < 40
* Béo phì loại III: 40 <= BMI 

https://medlatec.vn/bmi-online?gad_source=1&gad_campaignid=22225949037&gbraid=0AAAAADN9HXy5Q5E352aBRw7ImqcwX5DCt&gclid=Cj0KCQjw_JzABhC2ARIsAPe3ynpm_WXIRb1GNjkQR6ggVfFIF7HQrhBiqzevCbF1-OF_sZSDC_yFst8aAuLvEALw_wcB

In [11]:
New_BMI = pd.Series(
    [
        'Underweight', 
        'Healthy', 
        'Overweight', 
        'Obese I', 
        'Obese II', 
        'Obese III'
    ], 
    dtype='category')
New_BMI

0    Underweight
1        Healthy
2     Overweight
3        Obese I
4       Obese II
5      Obese III
dtype: category
Categories (6, object): ['Healthy', 'Obese I', 'Obese II', 'Obese III', 'Overweight', 'Underweight']

In [12]:
df['New_BMI'] = New_BMI
df.loc[df['BMI'] < 18.5, 'New_BMI'] = New_BMI[0]
df.loc[(df['BMI'] >= 18.5) & (df['BMI'] < 25), 'New_BMI'] = New_BMI[1]
df.loc[(df['BMI'] >= 25) & (df['BMI'] < 30), 'New_BMI'] = New_BMI[2]
df.loc[(df['BMI'] >= 30) & (df['BMI'] < 35), 'New_BMI'] = New_BMI[3]
df.loc[(df['BMI'] >= 35) & (df['BMI'] < 40), 'New_BMI'] = New_BMI[4]
df.loc[df['BMI'] >= 40, 'New_BMI'] = New_BMI[5]

In [13]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,New_Glucose,New_BMI
0,6,148.0,72.0,35.0,169.5,33.6,0.627,50,1,Prediabetes,Obese I
1,1,85.0,66.0,29.0,102.5,26.6,0.351,31,0,Normal,Overweight
2,8,183.0,64.0,32.0,169.5,23.3,0.672,32,1,Prediabetes,Healthy
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,Normal,Overweight
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,Normal,Obese III


## BloodPressure

Các bài báo y tế chỉ ra rằng người bị bệnh đái tháo đường có nguy cơ bị tăng huyết áp cao hơn so với người không mắc bệnh.

https://nhathuoclongchau.com.vn/bai-viet/tai-sao-dai-thao-duong-gay-tang-huyet-ap.html

Theo trang Medlineplus, giá trị BloodPressure được chia thành các khoảng: 
* Bình thường: BP < 80
* Huyết áp cao giai đoạn I: 80 <= BP < 90
* Huyết áp cao giai đoạn II: 90 <= BP < 120
* Huyết áp tăng nghiêm trọng: BP >= 120

https://medlineplus.gov/highbloodpressure.html

In [14]:
New_Blood_Pressure = pd.Series(
    ['Normal', 
    'High Blood Pressure Stage I', 
    'High Blood Pressure Stage II', 
    'Hypertensive Crisis'
    ], 
    dtype= 'category')
New_Blood_Pressure

0                          Normal
1     High Blood Pressure Stage I
2    High Blood Pressure Stage II
3             Hypertensive Crisis
dtype: category
Categories (4, object): ['High Blood Pressure Stage I', 'High Blood Pressure Stage II', 'Hypertensive Crisis', 'Normal']

In [15]:
df['New_Blood_Pressure'] = New_Blood_Pressure
df.loc[df['BloodPressure'] < 80, 'New_Blood_Pressure'] = New_Blood_Pressure[0]
df.loc[(df['BloodPressure'] >= 80) & (df['BloodPressure'] < 90), 'New_Blood_Pressure'] = New_Blood_Pressure[1]
df.loc[(df['BloodPressure'] >= 90) & (df['BloodPressure'] < 120), 'New_Blood_Pressure'] = New_Blood_Pressure[2]
df.loc[(df['BloodPressure'] >= 90) & (df['BloodPressure'] < 120), 'New_Blood_Pressure'] = New_Blood_Pressure[2]
df.loc[df['BloodPressure'] >= 120, 'New_Blood_Pressure'] = New_Blood_Pressure[3]

In [16]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,New_Glucose,New_BMI,New_Blood_Pressure
0,6,148.0,72.0,35.0,169.5,33.6,0.627,50,1,Prediabetes,Obese I,Normal
1,1,85.0,66.0,29.0,102.5,26.6,0.351,31,0,Normal,Overweight,Normal
2,8,183.0,64.0,32.0,169.5,23.3,0.672,32,1,Prediabetes,Healthy,Normal
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,Normal,Overweight,Normal
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,Normal,Obese III,Normal


## Insulin

Giá trị Insulin được chia theo khoảng bình thường và bất thường

https://medlatec.vn/tin-tuc/insulin--hormon-giup-dieu-hoa-luong-duong-trong-mau%C2%A0-s159-n18195#:~:text=Insulin%20l%C3%A0%20m%E1%BB%99t%20hormon%20c%C3%B3,276%2C0%20%C2%B5U%2FmL.

Trang Medlatec cũng chỉ ra rằng, giá trị nồng Insulin trong máu sau 2 giờ xét nghiệm được cho là bình thường nếu nằm trong khoảng 16 - 166 mU/mL

In [17]:
New_Insulin = pd.Series(['Normal', 'Abnormal'], dtype= 'category')
New_Insulin

0      Normal
1    Abnormal
dtype: category
Categories (2, object): ['Abnormal', 'Normal']

In [18]:
df['New_Insulin'] = New_Insulin
df.loc[df['Insulin'] < 16, 'New_Insulin'] = New_Insulin[1]
df.loc[(df['Insulin'] >= 16) & (df['Insulin'] <= 166), 'New_Insulin'] = New_Insulin[0]
df.loc[df['Insulin'] > 166, 'New_Insulin'] = New_Insulin[1]

In [19]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,New_Glucose,New_BMI,New_Blood_Pressure,New_Insulin
0,6,148.0,72.0,35.0,169.5,33.6,0.627,50,1,Prediabetes,Obese I,Normal,Abnormal
1,1,85.0,66.0,29.0,102.5,26.6,0.351,31,0,Normal,Overweight,Normal,Normal
2,8,183.0,64.0,32.0,169.5,23.3,0.672,32,1,Prediabetes,Healthy,Normal,Abnormal
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,Normal,Overweight,Normal,Normal
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,Normal,Obese III,Normal,Abnormal


# Mã hóa OneHotEncoding cho các trường nhị phân

In [20]:
df = pd.get_dummies(
    df, 
    columns = [
                "New_Glucose", 
                "New_BMI", 
                "New_Blood_Pressure", 
                "New_Insulin"
              ]
                  )#, drop_first= True)

In [21]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,New_Glucose_Diabetes,...,New_BMI_Obese II,New_BMI_Obese III,New_BMI_Overweight,New_BMI_Underweight,New_Blood_Pressure_High Blood Pressure Stage I,New_Blood_Pressure_High Blood Pressure Stage II,New_Blood_Pressure_Hypertensive Crisis,New_Blood_Pressure_Normal,New_Insulin_Abnormal,New_Insulin_Normal
0,6,148.0,72.0,35.0,169.5,33.6,0.627,50,1,False,...,False,False,False,False,False,False,False,True,True,False
1,1,85.0,66.0,29.0,102.5,26.6,0.351,31,0,False,...,False,False,True,False,False,False,False,True,False,True
2,8,183.0,64.0,32.0,169.5,23.3,0.672,32,1,False,...,False,False,False,False,False,False,False,True,True,False
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0,False,...,False,False,True,False,False,False,False,True,False,True
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1,False,...,False,True,False,False,False,False,False,True,True,False


In [22]:
df.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome',
       'New_Glucose_Diabetes', 'New_Glucose_Normal', 'New_Glucose_Prediabetes',
       'New_BMI_Healthy', 'New_BMI_Obese I', 'New_BMI_Obese II',
       'New_BMI_Obese III', 'New_BMI_Overweight', 'New_BMI_Underweight',
       'New_Blood_Pressure_High Blood Pressure Stage I',
       'New_Blood_Pressure_High Blood Pressure Stage II',
       'New_Blood_Pressure_Hypertensive Crisis', 'New_Blood_Pressure_Normal',
       'New_Insulin_Abnormal', 'New_Insulin_Normal'],
      dtype='object')

In [24]:
FEATURES_ENGINEER_FILE = PROCESSED_DATA_DIR / 'features_engineer.csv'
df.to_csv(FEATURES_ENGINEER_FILE, index= False)