In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn import tree
import warnings

# Tắt các cảnh báo không quan trọng
warnings.filterwarnings('ignore')

# Cài đặt để Matplotlib hiển thị biểu đồ ngay trong notebook
%matplotlib inline

In [None]:
# --- Bước 1: Tải và Khám phá Dữ liệu ---
print("--- Bước 1: Tải và Khám phá Dữ liệu ---")
try:
    data = pd.read_csv('./data/train.csv')
    print("Tải dữ liệu 'train.csv' thành công!")
    
    print("\n5 dòng dữ liệu đầu tiên:")
    display(data.head())
    
    print("\nThông tin chung về dữ liệu:")
    data.info()
    
except FileNotFoundError:
    print("Lỗi: Không tìm thấy tệp 'train.csv'.")
    data = None

In [None]:
# --- Bước 2: Tiền xử lý dữ liệu ---

def preprocess_data(df):
    # Sao chép để tránh thay đổi dữ liệu gốc
    df_processed = df.copy()
    
    # 1. Xử lý giá trị thiếu (Missing Values)
    # Age: Điền giá trị tuổi bị thiếu bằng giá trị trung vị (median)
    df_processed['Age'] = df_processed['Age'].fillna(df_processed['Age'].median())
    
    # Embarked: Điền giá trị bị thiếu bằng giá trị xuất hiện nhiều nhất (mode)
    df_processed['Embarked'] = df_processed['Embarked'].fillna(df_processed['Embarked'].mode()[0])
    
    # 2. Mã hóa các biến phân loại (Encoding Categorical Variables)
    # Sex: Chuyển 'male' -> 0, 'female' -> 1
    df_processed['Sex'] = df_processed['Sex'].map({'male': 0, 'female': 1}).astype(int)
    
    # Embarked: Dùng One-Hot Encoding
    df_processed = pd.get_dummies(df_processed, columns=['Embarked'], drop_first=True)
    
    # 3. Bỏ các cột không cần thiết cho mô hình
    # PassengerId không phải là đặc trưng, Name và Ticket quá phức tạp, Cabin thiếu quá nhiều
    cols_to_drop = ['Name', 'Ticket', 'PassengerId', 'Cabin']
    df_processed = df_processed.drop(columns=cols_to_drop, axis=1)
    
    return df_processed

# Áp dụng hàm tiền xử lý
data_processed = preprocess_data(data)
print("Tiền xử lý dữ liệu thành công.")
print("Dữ liệu sau khi xử lý (5 dòng đầu):")
display(data_processed.head())

In [None]:
# --- Bước 3: Chuẩn bị dữ liệu cho tập Train và Test ---
print("\n--- Bước 3: Chuẩn bị dữ liệu (Train/Test Split) ---")

# Tách X (đặc trưng) và y (mục tiêu)
X = data_processed.drop('Survived', axis=1)
y = data_processed['Survived']

# Lấy tên các đặc trưng để sử dụng sau này
feature_names = X.columns.tolist() 

# Chia dữ liệu (tương tự Nhiệm vụ 1, bước 3 trong tài liệu)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Kích thước tập huấn luyện (X_train): {X_train.shape}")
print(f"Kích thước tập kiểm tra (X_test): {X_test.shape}")
print(f"Kích thước nhãn huấn luyện (y_train): {y_train.shape}")
print(f"Kích thước nhãn kiểm tra (y_test): {y_test.shape}")

In [None]:
# --- Nhiệm vụ A: Xây dựng Cây quyết định (Decision Tree) ---
print("\n--- Nhiệm vụ A: Xây dựng Cây quyết định ---")

# 1. Xây dựng cây với độ sâu giới hạn (max_depth=4) để tránh overfitting
dt_model = DecisionTreeClassifier(max_depth=4, random_state=42)
dt_model.fit(X_train, y_train)

# 2. Đánh giá mô hình
y_pred_dt = dt_model.predict(X_test)
print(f"Độ chính xác (Accuracy) của Cây quyết định: {accuracy_score(y_test, y_pred_dt):.4f}")

# 3. Hiển thị cây quyết định (Yêu cầu cài đặt 'graphviz')
# Nếu bạn chưa cài đặt, chạy: pip install graphviz
try:
    import graphviz
    dot_data = tree.export_graphviz(dt_model,
                                  out_file=None,
                                  filled=True,
                                  rounded=True,
                                  feature_names=feature_names,
                                  class_names=['Not Survived', 'Survived'],
                                  proportion=True)

    graph = graphviz.Source(dot_data)
    display(graph)
except ImportError:
    print("\nKhông thể vẽ cây. Vui lòng cài đặt thư viện 'graphviz' để hiển thị cây quyết định.")

In [None]:
# --- Nhiệm vụ B: Xây dựng Rừng cây (Random Forest) và Tối ưu hóa (GridSearchCV) ---
print("\n--- Nhiệm vụ B: Xây dựng Rừng cây & Tối ưu hóa ---")

# 1. Tạo mô hình
rf_model = RandomForestClassifier(random_state=42)

# 2. Định nghĩa các tham số để tối ưu (tương tự Nhiệm vụ 2 trong tài liệu)
params_grid = {
    'n_estimators': [50, 100, 150],  # Số lượng cây
    'max_depth': [3, 5, 7, 10]     # Độ sâu tối đa của mỗi cây
}

# 3. Sử dụng GridSearchCV để tìm tham số tối ưu (scoring='accuracy')
# cv=4 nghĩa là 4-fold cross-validation
grid_search_rf = GridSearchCV(estimator=rf_model, 
                            param_grid=params_grid, 
                            cv=4, 
                            scoring='accuracy', 
                            verbose=1,
                            n_jobs=-1) # Sử dụng tất cả các nhân CPU

print("Bắt đầu huấn luyện GridSearchCV...")
grid_search_rf.fit(X_train, y_train)
print("Huấn luyện GridSearchCV hoàn tất.")

# 4. In ra tham số tốt nhất
print(f"\nTham số Rừng cây tốt nhất tìm được: {grid_search_rf.best_params_}")

# 5. Đánh giá mô hình tốt nhất
best_rf = grid_search_rf.best_estimator_
y_pred_rf = best_rf.predict(X_test)
print(f"Độ chính xác (Accuracy) của Rừng cây tốt nhất: {accuracy_score(y_test, y_pred_rf):.4f}")

print("\nBáo cáo phân loại (Classification Report) của Rừng cây:")
print(classification_report(y_test, y_pred_rf, target_names=['Not Survived', 'Survived']))

In [None]:
# --- Phân tích mức độ quan trọng của đặc trưng ---
# (Tương tự Hình 2.4 trong tài liệu)
print("\n--- Phân tích mức độ quan trọng của đặc trưng ---")

# 1. Lấy dữ liệu
feat_imp_df = pd.DataFrame({
    'Importance': best_rf.feature_importances_},
    index=feature_names
)

# Sắp xếp để vẽ biểu đồ
feat_imp_df = feat_imp_df.sort_values('Importance', ascending=False)
print("Mức độ quan trọng của các đặc trưng (sắp xếp giảm dần):")
display(feat_imp_df)

# 2. Vẽ biểu đồ Barh
plt.figure(figsize=(10, 6))
# Sắp xếp tăng dần để hiển thị đặc trưng quan trọng nhất ở trên cùng
feat_imp_df.sort_values('Importance', ascending=True).plot(kind='barh', legend=False, ax=plt.gca())
plt.title('Feature Importance (Random Forest)')
plt.xlabel('Importance')
plt.ylabel('Features')
plt.tight_layout()
# Lưu biểu đồ nếu muốn
plt.savefig('titanic_feature_importance.png')
plt.show()