In [1]:
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
import time # Để đo thời gian

In [2]:
# --- 0. (TÙY CHỌN) TẢI LẠI DỮ LIỆU VÀ LABEL ENCODER NẾU Ở NOTEBOOK MỚI ---
print("Đang tải dữ liệu đã tiền xử lý...")
model_dir = '../models/'
processed_data_dir = '../data/processed/'
X_train_df = pd.read_csv(os.path.join(processed_data_dir, 'X_train_filtered.csv'))
X_test_df = pd.read_csv(os.path.join(processed_data_dir, 'X_test_filtered.csv'))
y_train_series = pd.read_csv(os.path.join(processed_data_dir, 'y_train_filtered.csv'))['Disease_encoded']
y_test_series = pd.read_csv(os.path.join(processed_data_dir, 'y_test_filtered.csv'))['Disease_encoded']
label_encoder_filtered = joblib.load(os.path.join(model_dir, 'disease_label_encoder_filtered.pkl'))
X_train = X_train_df.values
X_test = X_test_df.values
y_train = y_train_series.values
y_test = y_test_series.values
print("Đã tải xong dữ liệu.")

Đang tải dữ liệu đã tiền xử lý...
Đã tải xong dữ liệu.


In [3]:
# --- 1. KHỞI TẠO MODEL LOGISTIC REGRESSION NGUYÊN THỦY ---
print("\nKhởi tạo model Logistic Regression nguyên thủy...")

# Sử dụng các giá trị siêu tham số cơ bản/mặc định hoặc những giá trị bạn đã dùng ban đầu
# C=1.0 là giá trị mặc định.
# penalty='l2' là mặc định cho solver='liblinear' nếu không có penalty='l1'.
log_reg_primitive_model = LogisticRegression(
    C=1.0,                   # Giá trị C mặc định
    penalty='l2',            # Mặc định cho liblinear
    solver='liblinear',
    multi_class='ovr',       # Sẽ có FutureWarning, nhưng vẫn chạy
    class_weight='balanced', # Vẫn giữ để xử lý mất cân bằng
    random_state=42,
    max_iter=1000            # Đảm bảo đủ iter để hội tụ (có thể tăng nếu cần)
)



Khởi tạo model Logistic Regression nguyên thủy...


In [4]:
# --- 2. HUẤN LUYỆN MODEL LOGISTIC REGRESSION ---
print("\nBắt đầu huấn luyện model Logistic Regression nguyên thủy...")
start_time_lr_primitive = time.time()

log_reg_primitive_model.fit(X_train, y_train)

end_time_lr_primitive = time.time()
print(f"\nHoàn thành huấn luyện Logistic Regression nguyên thủy sau: {((end_time_lr_primitive - start_time_lr_primitive) / 60):.2f} phút")


Bắt đầu huấn luyện model Logistic Regression nguyên thủy...





Hoàn thành huấn luyện Logistic Regression nguyên thủy sau: 55.13 phút


In [5]:
# --- 3. ĐÁNH GIÁ MODEL LOGISTIC REGRESSION NGUYÊN THỦY TRÊN TẬP TEST ---
print("\n--- Đánh giá Model Logistic Regression Nguyên thủy trên Tập Test ---")
y_pred_lr_primitive = log_reg_primitive_model.predict(X_test)

accuracy_lr_primitive = accuracy_score(y_test, y_pred_lr_primitive)
print(f"Accuracy của Model Logistic Regression Nguyên thủy: {accuracy_lr_primitive:.4f}")

print("\nClassification Report của Model Logistic Regression Nguyên thủy:")
report_lr_primitive = classification_report(
    y_test,
    y_pred_lr_primitive,
    labels=np.arange(len(label_encoder_filtered.classes_)), # Sử dụng tất cả các lớp đã biết
    target_names=label_encoder_filtered.classes_,
    zero_division=0
)
print(report_lr_primitive)


--- Đánh giá Model Logistic Regression Nguyên thủy trên Tập Test ---
Accuracy của Model Logistic Regression Nguyên thủy: 0.8573

Classification Report của Model Logistic Regression Nguyên thủy:
                                                          precision    recall  f1-score   support

                               abdominal aortic aneurysm       0.85      1.00      0.92        28
                                        abdominal hernia       0.97      0.95      0.96        81
                                         abscess of nose       0.72      0.90      0.80        58
                                     abscess of the lung       0.40      1.00      0.57         4
                                  abscess of the pharynx       0.81      0.90      0.85        68
                                    acanthosis nigricans       0.35      1.00      0.52         6
                                               acariasis       0.75      0.86      0.80         7
                    

In [6]:
# --- 4. LƯU MODEL LOGISTIC REGRESSION NGUYÊN THỦY ---
model_dir = '../models/' # Đảm bảo thư mục này tồn tại
# os.makedirs(model_dir, exist_ok=True) # Nếu chưa tạo

joblib.dump(log_reg_primitive_model, os.path.join(model_dir, 'logistic_regression_primitive_model.pkl'))
print(f"\nModel Logistic Regression nguyên thủy được lưu vào {os.path.join(model_dir, 'logistic_regression_primitive_model.pkl')}")


Model Logistic Regression nguyên thủy được lưu vào ../models/logistic_regression_primitive_model.pkl
