# 03. Modeling

Notebook này sẽ sử dụng các hàm từ `src/models.py` để xây dựng và đánh giá mô hình.


In [10]:
import sys
sys.path.append('../src')

import numpy as np
from models import (
    LogisticRegression,
)


## 1. Load dữ liệu đã preprocess


In [11]:
# Load dữ liệu đã preprocess (đã stratified split 80/20)
X_train = np.load('../data/processed/X_train.npy')
y_train = np.load('../data/processed/y_train.npy')
X_test = np.load('../data/processed/X_test.npy')
y_test = np.load('../data/processed/y_test.npy')

print("=" * 60)
print("LOAD DỮ LIỆU ĐÃ PREPROCESS")
print("=" * 60)
print("\nTrain set:")
print(f"  X_train shape: {X_train.shape}")
print(f"  y_train shape: {y_train.shape}")
print(f"  Phân phối y_train: {np.bincount(y_train)}")
print(f"  Tỷ lệ class 1: {np.mean(y_train)*100:.2f}%")

print("\nTest set:")
print(f"  X_test shape: {X_test.shape}")
print(f"  y_test shape: {y_test.shape}")
print(f"  Phân phối y_test: {np.bincount(y_test)}")
print(f"  Tỷ lệ class 1: {np.mean(y_test)*100:.2f}%")
print("=" * 60)

LOAD DỮ LIỆU ĐÃ PREPROCESS

Train set:
  X_train shape: (15327, 40)
  y_train shape: (15327,)
  Phân phối y_train: [11505  3822]
  Tỷ lệ class 1: 24.94%

Test set:
  X_test shape: (3831, 40)
  y_test shape: (3831,)
  Phân phối y_test: [2876  955]
  Tỷ lệ class 1: 24.93%


## 2. Dữ liệu đã được chia sẵn

- Dữ liệu ban đầu: toàn bộ `aug_train.csv` đã được tiền xử lý.
- Đã thực hiện **stratified split 80/20** để tạo ra `Train` và `Test` (giữ nguyên tỷ lệ class).
- Cả hai tập đều có nhãn (`y_train`, `y_test`) để đánh giá mô hình một cách chuẩn.

Sau khi train, ta sẽ đánh giá trực tiếp trên `Test set` và báo cáo Accuracy, Precision, Recall, F1.

In [12]:
# Thông tin kích thước sau stratified split
print("Dữ liệu sau stratified split 80/20:")
print(f"  - Train: {X_train.shape[0]:,} mẫu")
print(f"  - Test : {X_test.shape[0]:,} mẫu")

Dữ liệu sau stratified split 80/20:
  - Train: 15,327 mẫu
  - Test : 3,831 mẫu


## 3. Train & Evaluate Logistic Regression


In [13]:
# Train Logistic Regression
lr_model = LogisticRegression(learning_rate=0.01, max_iters=500, tol=1e-6)
lr_model.fit(X_train, y_train, verbose=True)


Iteration 100/500, Loss: 0.5995, Accuracy: 0.7497
Iteration 200/500, Loss: 0.5543, Accuracy: 0.7692
Iteration 200/500, Loss: 0.5543, Accuracy: 0.7692
Iteration 300/500, Loss: 0.5270, Accuracy: 0.7772
Iteration 300/500, Loss: 0.5270, Accuracy: 0.7772
Iteration 400/500, Loss: 0.5093, Accuracy: 0.7788
Iteration 500/500, Loss: 0.4974, Accuracy: 0.7781
Training completed. Final loss: 0.4974, Final accuracy: 0.7781
Iteration 400/500, Loss: 0.5093, Accuracy: 0.7788
Iteration 500/500, Loss: 0.4974, Accuracy: 0.7781
Training completed. Final loss: 0.4974, Final accuracy: 0.7781


### Kết quả trên Train/Test


In [14]:
# Đánh giá nhanh trên train và test
train_metrics = lr_model.evaluate(X_train, y_train)
test_metrics = lr_model.evaluate(X_test, y_test)


print("LOGISTIC REGRESSION - TRAIN/TEST METRICS\n")
print("Train set:")
print(f"  Samples        : {X_train.shape[0]:,}")
print(f"  Accuracy       : {train_metrics['accuracy']:.4f}")
print(f"  Precision      : {train_metrics['precision']:.4f}")
print(f"  Recall         : {train_metrics['recall']:.4f}")
print(f"  F1             : {train_metrics['f1']:.4f}")

print("\nTest set:")
print(f"  Samples        : {X_test.shape[0]:,}")
print(f"  Accuracy       : {test_metrics['accuracy']:.4f}")
print(f"  Precision      : {test_metrics['precision']:.4f}")
print(f"  Recall         : {test_metrics['recall']:.4f}")
print(f"  F1             : {test_metrics['f1']:.4f}")



LOGISTIC REGRESSION - TRAIN/TEST METRICS

Train set:
  Samples        : 15,327
  Accuracy       : 0.7781
  Precision      : 0.5782
  Recall         : 0.4071
  F1             : 0.4778

Test set:
  Samples        : 3,831
  Accuracy       : 0.7753
  Precision      : 0.5673
  Recall         : 0.4147
  F1             : 0.4791
