In [40]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

### Read data
First we have to read data from csv file

In [41]:
# 1. Đọc dữ liệu từ file CSV
df = pd.read_csv("adult_preprocessed.csv")
# 2. Tách đặc trưng và biến mục tiêu
X = df.drop('income', axis=1)  # Đặc trưng
y = df['income']  # Biến mục tiêu (0: <=50K, 1: >50K)

print(df.head())

# 3. Mã hóa các cột phân loại
categorical_cols = ['age', 'relationship', 'occupation', 'capital-gain', 'capital-loss', 'hours-per-week', 'education-num']
X_encoded = pd.get_dummies(X, columns=categorical_cols)
print("Dữ liệu sau khi mã hóa:")
print(X_encoded.head())

# 4. Chia dữ liệu
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y,
    test_size=0.3,  
    random_state=42,  
    stratify=y,  
    shuffle=True 
)

print(f"Kích thước tập huấn luyện: {X_train.shape}")
print(f"Kích thước tập kiểm tra: {X_test.shape}")

           age education-num   relationship         occupation capital-gain   
0  Middle-aged          High  Not-in-family       Adm-clerical     Has Gain  \
1  Middle-aged          High        Husband    Exec-managerial      No Gain   
2  Middle-aged        Medium  Not-in-family  Handlers-cleaners      No Gain   
3  Middle-aged           Low        Husband  Handlers-cleaners      No Gain   
4        Young          High           Wife     Prof-specialty      No Gain   

  capital-loss hours-per-week  income  
0      No Loss       Overtime       0  
1      No Loss      Part-time       0  
2      No Loss       Overtime       0  
3      No Loss       Overtime       0  
4      No Loss       Overtime       0  
Dữ liệu sau khi mã hóa:
   age_Middle-aged  age_Senior  age_Young  relationship_Husband   
0             True       False      False                 False  \
1             True       False      False                  True   
2             True       False      False                 Fa

### Classification algorithms implementation

#### Decision Tree

In [42]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

In [43]:
# Khởi tạo mô hình
dt = DecisionTreeClassifier()

# Định nghĩa lưới tham số
param_grid = {
    'max_depth': [3, 5, 10, None],
    'criterion': ['gini', 'entropy']
}

# Tìm tham số tốt nhất bằng GridSearchCV
grid_search_dt = GridSearchCV(dt, param_grid, cv=5, scoring='accuracy',error_score='raise')
grid_search_dt.fit(X_train, y_train)

# Lấy mô hình tốt nhất
best_dt = grid_search_dt.best_estimator_
print("Tham số tốt nhất Decision Tree:", grid_search_dt.best_params_)

Tham số tốt nhất Decision Tree: {'criterion': 'gini', 'max_depth': 10}


#### Random Forest

In [44]:
from sklearn.ensemble import RandomForestClassifier

# Khởi tạo mô hình
rf = RandomForestClassifier()

# Định nghĩa lưới tham số
param_grid = {
    'n_estimators': [50, 100],
    'max_features': ['sqrt'],
    'bootstrap': [True, False]
}

# Tìm tham số tốt nhất
grid_search_rf = GridSearchCV(rf, param_grid, cv=5, scoring='accuracy')
grid_search_rf.fit(X_train, y_train)

# Lấy mô hình tốt nhất
best_rf = grid_search_rf.best_estimator_
print("Tham số tốt nhất Random Forest:", grid_search_rf.best_params_)

Tham số tốt nhất Random Forest: {'bootstrap': True, 'max_features': 'sqrt', 'n_estimators': 50}


#### Naive Bayes

In [45]:
from sklearn.naive_bayes import GaussianNB

# Khởi tạo mô hình
nb = GaussianNB()

# Định nghĩa lưới tham số
param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7]
}

# Tìm tham số tốt nhất
grid_search_nb = GridSearchCV(nb, param_grid, cv=5, scoring='accuracy')
grid_search_nb.fit(X_train, y_train)

# Lấy mô hình tốt nhất
best_nb = grid_search_nb.best_estimator_
print("Tham số tốt nhất Naive Bayes:", grid_search_nb.best_params_)

Tham số tốt nhất Naive Bayes: {'var_smoothing': 1e-07}


#### Support Vector Machine (SVM)

In [None]:
from sklearn.svm import SVC

# Khởi tạo mô hình
svm = SVC(probability=True)  # probability=True để tính ROC sau này

# Định nghĩa lưới tham số
param_grid = {
    'kernel': ['linear', 'rbf'],
    'C': [0.1, 1],
    'gamma': ['scale', 'auto']
}

# Tìm tham số tốt nhất
grid_search_svm = GridSearchCV(svm, param_grid, cv=5, scoring='accuracy')
grid_search_svm.fit(X_train, y_train)

# Lấy mô hình tốt nhất
best_svm = grid_search_svm.best_estimator_
print("Tham số tốt nhất SVM:", grid_search_svm.best_params_)

#### Multilayer Perceptron (MLP)

In [None]:
from sklearn.neural_network import MLPClassifier

# Khởi tạo mô hình
mlp = MLPClassifier(max_iter=500)  # Tăng số lần lặp để hội tụ

# Định nghĩa lưới tham số
param_grid = {
    'hidden_layer_sizes': [(50,), (100,)],
    'activation': ['relu', 'tanh'],
    'learning_rate_init': [0.001, 0.01]
}

# Tìm tham số tốt nhất
grid_search_mlp = GridSearchCV(mlp, param_grid, cv=5, scoring='accuracy')
grid_search_mlp.fit(X_train, y_train)

# Lấy mô hình tốt nhất
best_mlp = grid_search_mlp.best_estimator_
print("Tham số tốt nhất MLP:", grid_search_mlp.best_params_)