In [1]:
import pandas as pd 
import pyrootutils 
from pathlib import Path 


pyrootutils.setup_root(Path.cwd(), indicator = ".project-root", pythonpath = True)
path = pyrootutils.find_root(Path.cwd(), indicator = ".project-root")


data_path = path / "data" / "train.csv"

df = pd.read_csv(data_path)




In [2]:
df.head()

Unnamed: 0,id,age,alcohol_consumption_per_week,physical_activity_minutes_per_week,diet_score,sleep_hours_per_day,screen_time_hours_per_day,bmi,waist_to_hip_ratio,systolic_bp,...,gender,ethnicity,education_level,income_level,smoking_status,employment_status,family_history_diabetes,hypertension_history,cardiovascular_history,diagnosed_diabetes
0,0,31,1,45,7.7,6.8,6.1,33.4,0.93,112,...,Female,Hispanic,Highschool,Lower-Middle,Current,Employed,0,0,0,1.0
1,1,50,2,73,5.7,6.5,5.8,23.8,0.83,120,...,Female,White,Highschool,Upper-Middle,Never,Employed,0,0,0,1.0
2,2,32,3,158,8.5,7.4,9.1,24.1,0.83,95,...,Male,Hispanic,Highschool,Lower-Middle,Never,Retired,0,0,0,0.0
3,3,54,3,77,4.6,7.0,9.2,26.6,0.83,121,...,Female,White,Highschool,Lower-Middle,Current,Employed,0,1,0,1.0
4,4,54,1,55,5.7,6.2,5.1,28.8,0.9,108,...,Male,White,Highschool,Upper-Middle,Never,Retired,0,1,0,1.0


In [3]:
# 1. Thông tin tổng quan về dataset
print("=" * 50)
print("THÔNG TIN TỔNG QUAN VỀ DATASET")
print("=" * 50)
print(f"Số lượng dòng: {df.shape[0]}")
print(f"Số lượng cột: {df.shape[1]}")
print(f"\nCác cột trong dataset:\n{df.columns.tolist()}")
print(f"\nKiểu dữ liệu của các cột:")
print(df.dtypes)
print(f"\nThông tin tổng quan:")
df.info()

THÔNG TIN TỔNG QUAN VỀ DATASET
Số lượng dòng: 700000
Số lượng cột: 26

Các cột trong dataset:
['id', 'age', 'alcohol_consumption_per_week', 'physical_activity_minutes_per_week', 'diet_score', 'sleep_hours_per_day', 'screen_time_hours_per_day', 'bmi', 'waist_to_hip_ratio', 'systolic_bp', 'diastolic_bp', 'heart_rate', 'cholesterol_total', 'hdl_cholesterol', 'ldl_cholesterol', 'triglycerides', 'gender', 'ethnicity', 'education_level', 'income_level', 'smoking_status', 'employment_status', 'family_history_diabetes', 'hypertension_history', 'cardiovascular_history', 'diagnosed_diabetes']

Kiểu dữ liệu của các cột:
id                                      int64
age                                     int64
alcohol_consumption_per_week            int64
physical_activity_minutes_per_week      int64
diet_score                            float64
sleep_hours_per_day                   float64
screen_time_hours_per_day             float64
bmi                                   float64
waist_to_hip_ra

In [4]:
df['ethnicity'].value_counts()

ethnicity
White       386153
Hispanic    129984
Black       106301
Asian        60120
Other        17442
Name: count, dtype: int64

In [5]:
df['gender'].value_counts()

gender
Female    363237
Male      333085
Other       3678
Name: count, dtype: int64

In [6]:
df['education_level'].value_counts() 

education_level
Highschool      344145
Graduate        261268
Postgraduate     79642
No formal        14945
Name: count, dtype: int64

In [7]:
print("=" * 50)
print("XÁC ĐỊNH CÁC CỘT CATEGORICAL")
print("=" * 50)

categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
print(f"Các cột categorical: {categorical_cols}")

for col in categorical_cols:
    print(f"\n{col}:")
    print(f"  - Số lượng giá trị unique: {df[col].nunique()}")
    print(f"  - Các giá trị: {df[col].unique()}")  # Hiển thị tối đa 10 giá trị đầu

XÁC ĐỊNH CÁC CỘT CATEGORICAL
Các cột categorical: ['gender', 'ethnicity', 'education_level', 'income_level', 'smoking_status', 'employment_status']

gender:
  - Số lượng giá trị unique: 3
  - Các giá trị: ['Female' 'Male' 'Other']

ethnicity:
  - Số lượng giá trị unique: 5
  - Các giá trị: ['Hispanic' 'White' 'Asian' 'Black' 'Other']

education_level:
  - Số lượng giá trị unique: 4
  - Các giá trị: ['Highschool' 'Graduate' 'Postgraduate' 'No formal']

income_level:
  - Số lượng giá trị unique: 5
  - Các giá trị: ['Lower-Middle' 'Upper-Middle' 'Low' 'Middle' 'High']

smoking_status:
  - Số lượng giá trị unique: 3
  - Các giá trị: ['Current' 'Never' 'Former']

employment_status:
  - Số lượng giá trị unique: 4
  - Các giá trị: ['Employed' 'Retired' 'Student' 'Unemployed']


In [8]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder

# Tạo bản copy để xử lý
df_encoded = df.copy()

# education_level - có thứ tự rõ ràng
education_mapping = {
    'No formal': 0,
    'Highschool': 1,
    'Graduate': 2,
    'Postgraduate': 3
}
df_encoded['education_level'] = df['education_level'].map(education_mapping)

# income_level - có thứ tự từ thấp đến cao
income_mapping = {
    'Low': 0,
    'Lower-Middle': 1,
    'Middle': 2,
    'Upper-Middle': 3,
    'High': 4
}
df_encoded['income_level'] = df['income_level'].map(income_mapping)

# smoking_status - có thứ tự theo mức độ tiếp xúc với thuốc lá
smoking_mapping = {
    'Never': 0,
    'Former': 1,
    'Current': 2
}
df_encoded['smoking_status'] = df['smoking_status'].map(smoking_mapping)


In [9]:
# 2. ONE-HOT ENCODING cho các biến nominal (không có thứ tự) và ít categories
print("\n\n2. ONE-HOT ENCODING")
print("-" * 50)

# gender - nominal, ít categories (3 values)
df_encoded = pd.get_dummies(df_encoded, columns=['gender'], prefix='gender', drop_first=False)

# employment_status - nominal, ít categories (4 values)
df_encoded = pd.get_dummies(df_encoded, columns=['employment_status'], prefix='employment', drop_first=False)

# ethnicity - nominal, ít categories (5 values)
df_encoded = pd.get_dummies(df_encoded, columns=['ethnicity'], prefix='ethnicity', drop_first=False)




2. ONE-HOT ENCODING
--------------------------------------------------


In [10]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700000 entries, 0 to 699999
Data columns (total 35 columns):
 #   Column                              Non-Null Count   Dtype  
---  ------                              --------------   -----  
 0   id                                  700000 non-null  int64  
 1   age                                 700000 non-null  int64  
 2   alcohol_consumption_per_week        700000 non-null  int64  
 3   physical_activity_minutes_per_week  700000 non-null  int64  
 4   diet_score                          700000 non-null  float64
 5   sleep_hours_per_day                 700000 non-null  float64
 6   screen_time_hours_per_day           700000 non-null  float64
 7   bmi                                 700000 non-null  float64
 8   waist_to_hip_ratio                  700000 non-null  float64
 9   systolic_bp                         700000 non-null  int64  
 10  diastolic_bp                        700000 non-null  int64  
 11  heart_rate                