In [47]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

#  1. Đọc dữ liệu
Ngày 27/10/2025 2:54 PM

Đọc dữ liệu đầu vào (ở đây là bộ dữ liệu Titanic) từ file train.csv để đưa vào quá trình xử lý, huấn luyện và đánh giá mô hình

In [48]:
data = pd.read_csv("train.csv")

#  Xác định cột nhãn (thay 'target' bằng tên cột thực tế của bạn)
Ngày 27/10/2025 2:55 PM

Tách dữ liệu thành biến độc lập (features) và biến mục tiêu (target variable) để chuẩn bị cho quá trình huấn luyện mô hình:

target_col = 'Survived':
Xác định cột đích (biến mục tiêu) là “Survived”, biểu thị hành vi cần dự đoán (0 = không sống sót, 1 = sống sót).

X = data.drop(columns=[target_col]):
Lưu toàn bộ các đặc trưng đầu vào (features) — tức là những cột dùng để dự đoán kết quả (như Age, Sex, Fare,...).

y = data[target_col]:
Lưu biến mục tiêu (label) mà mô hình sẽ học để dự đoán.

In [49]:
target_col = 'Survived'
X = data.drop(columns=[target_col])
y = data[target_col]

Mục tiêu của đoạn code này là tách dữ liệu thành hai phần:

Biến đầu vào (X) – chứa các đặc trưng (features) dùng để dự đoán.

Biến đầu ra (y) – chứa giá trị mục tiêu (target) mà mô hình cần dự đoán.

# Nếu nhãn là dạng chữ, ta mã hóa lại
Ngày 27/10/2025 2:56 PM

Mục tiêu của đoạn code này là chuyển đổi các nhãn (label) trong biến mục tiêu y từ dạng chuỗi (categorical) sang dạng số (numeric) để các mô hình học máy có thể xử lý được.

In [50]:
if y.dtype == 'object':
    y = LabelEncoder().fit_transform(y)

#  2. Xử lý dữ liệu

# Bỏ cột không cần thiết
Ngày 27/10/2025 2:58 PM

Mục tiêu của đoạn code này là loại bỏ các cột không cần thiết hoặc không có giá trị dự đoán rõ ràng trong quá trình huấn luyện mô hình.
Những cột này thường mang tính định danh, mô tả hoặc chứa nhiều giá trị thiếu, nên không giúp ích cho việc học của mô hình.

In [51]:
data = data.drop(columns=["PassengerId", "Name", "Ticket", "Cabin"])

# Điền giá trị thiếu
Ngày 27/10/2025 2:59 PM

Mục tiêu của đoạn code này là xử lý các giá trị bị thiếu (NaN) trong hai cột "Age" và "Embarked" bằng cách thay thế chúng bằng giá trị phù hợp nhất, giúp mô hình có thể huấn luyện trơn tru mà không gặp lỗi.

In [52]:
data["Age"].fillna(data["Age"].median(), inplace=True)
data["Embarked"].fillna(data["Embarked"].mode()[0], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data["Age"].fillna(data["Age"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data["Embarked"].fillna(data["Embarked"].mode()[0], inplace=True)


# Mã hóa cột chữ
Ngày 27/10/2025 3:00 PM

Mục tiêu của đoạn code này là chuyển đổi các giá trị dạng chuỗi (categorical variables) trong hai cột "Sex" và "Embarked" thành giá trị số (numeric) để mô hình học máy có thể xử lý được.

In [53]:
label_enc = LabelEncoder()
data["Sex"] = label_enc.fit_transform(data["Sex"])
data["Embarked"] = label_enc.fit_transform(data["Embarked"])

#  3. Chia dữ liệu
Ngày 27/10/2025 3:02 PM

Mục tiêu của đoạn code này là tách dữ liệu thành hai phần:

Tập huấn luyện (training set): dùng để “dạy” mô hình học cách dự đoán.

Tập kiểm tra (test set): dùng để đánh giá độ chính xác của mô hình trên dữ liệu chưa thấy trước đó.

In [54]:
X = data.drop(columns=["Survived"])
y = data["Survived"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#  4. Chuẩn hóa
Ngày 27/10/2025 3:03 PM

Mục tiêu của đoạn code này là chuẩn hóa (scale) các đặc trưng đầu vào sao cho chúng có trung bình bằng 0 và độ lệch chuẩn bằng 1, giúp các mô hình học máy hoạt động hiệu quả và ổn định hơn.

In [55]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 5. Các mô hình
Ngày 27/10/2025 3:05 PM

Mục tiêu của đoạn code này là khởi tạo và lưu trữ nhiều mô hình học máy khác nhau trong một từ điển (dictionary) để so sánh hiệu năng của chúng trên cùng một tập dữ liệu.

In [56]:
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(probability=True, random_state=42),
    "KNN": KNeighborsClassifier()
}

#  6. Huấn luyện và đánh giá
Ngày 27/10/2025 3:05 PM

Mục tiêu của đoạn code này là huấn luyện các mô hình đã khởi tạo, sau đó đánh giá hiệu suất của từng mô hình bằng cách đo độ chính xác (Accuracy), ma trận nhầm lẫn (Confusion Matrix) và báo cáo phân loại (Classification Report).
Kết quả của từng mô hình được lưu vào dictionary results để dễ so sánh.

In [57]:
results = {}

for name, model in models.items():
    if name in ["Logistic Regression", "SVM", "KNN"]:
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
    else:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

    acc = accuracy_score(y_test, y_pred)
    results[name] = acc
    print("="*40)
    print(f"🔹 {name}")
    print(f"Độ chính xác: {acc:.4f}")
    print("Confusion Matrix:")
    print(confusion_matrix(y_test, y_pred))
    print("Báo cáo phân loại:")
    print(classification_report(y_test, y_pred))

🔹 Logistic Regression
Độ chính xác: 0.8045
Confusion Matrix:
[[90 15]
 [20 54]]
Báo cáo phân loại:
              precision    recall  f1-score   support

           0       0.82      0.86      0.84       105
           1       0.78      0.73      0.76        74

    accuracy                           0.80       179
   macro avg       0.80      0.79      0.80       179
weighted avg       0.80      0.80      0.80       179

🔹 Decision Tree
Độ chính xác: 0.7821
Confusion Matrix:
[[83 22]
 [17 57]]
Báo cáo phân loại:
              precision    recall  f1-score   support

           0       0.83      0.79      0.81       105
           1       0.72      0.77      0.75        74

    accuracy                           0.78       179
   macro avg       0.78      0.78      0.78       179
weighted avg       0.79      0.78      0.78       179

🔹 Random Forest
Độ chính xác: 0.8212
Confusion Matrix:
[[92 13]
 [19 55]]
Báo cáo phân loại:
              precision    recall  f1-score   support

      

#  7. Tổng kết
Ngày 27/10/2025 3:06 PM

Mục tiêu là     

In [58]:
print("\n TỔNG HỢP KẾT QUẢ:")
for name, acc in results.items():
    print(f"{name:20s}: {acc:.4f}")


 TỔNG HỢP KẾT QUẢ:
Logistic Regression : 0.8045
Decision Tree       : 0.7821
Random Forest       : 0.8212
SVM                 : 0.8156
KNN                 : 0.8045


In [59]:
# Đây chính là dict bạn thu được:
results = {
    'Logistic Regression': 0.8044692737430168,
    'Decision Tree': 0.7821229050279329,
    'Random Forest': 0.8212290502793296,
    'SVM': 0.8156424581005587,
    'KNN': 0.8044692737430168
}

# Chuyển từ dict sang DataFrame đúng định dạng
experiments_summary = pd.DataFrame(
    list(results.items()),  # chuyển dict thành list các tuple
    columns=['Model', 'Accuracy']  # đặt tên cột
)

# Xuất ra file CSV
experiments_summary.to_csv("experiments_summary.csv", index=False)

print(" Đã tạo file experiments_summary.csv thành công!")
print(experiments_summary)

 Đã tạo file experiments_summary.csv thành công!
                 Model  Accuracy
0  Logistic Regression  0.804469
1        Decision Tree  0.782123
2        Random Forest  0.821229
3                  SVM  0.815642
4                  KNN  0.804469
