# Logistic Regression cho nhận diện chữ số MNIST
Notebook này chuyển đổi từ file Python gốc sang định dạng Jupyter Notebook.

In [12]:
import time
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    classification_report,
)

In [13]:
# Đọc dữ liệu
data = pd.read_csv('data/train.csv')
X = data.drop('label', axis=1).values
y = data['label'].values
# Chuẩn hóa pixel về [0,1]
X = X / 255.0

In [14]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
print('Kích thước Train dataset: ', X_train.shape)
print('Kích thước Test dataset : ', X_test.shape)

Kích thước Train dataset:  (33600, 784)
Kích thước Test dataset :  (8400, 784)


In [15]:
# Khởi tạo mô hình Logistic Regression
logreg = LogisticRegression(
    solver='lbfgs',
    max_iter=1000,
    n_jobs=-1
)

In [16]:
# Đo thời gian huấn luyện
time0 = time.time()
logreg.fit(X_train, y_train)
t_train = time.time() - time0
print('===== Thời gian huấn luyện =====')
print(f'Thời gian huấn luyện: {t_train:.3f}s')

===== Thời gian huấn luyện =====
Thời gian huấn luyện: 33.975s


In [17]:
# Đo thời gian dự đoán
time1 = time.time()
y_pred = logreg.predict(X_test)
t_pred = time.time() - time1
print('===== Thời gian dự đoán =====')
print(f'Thời gian dự đoán trên Test data  : {t_pred:.4f}s')
print(f'Thời gian dự đoán trung bình / mẫu: {t_pred/ len(y_test):.6f}s')

===== Thời gian dự đoán =====
Thời gian dự đoán trên Test data  : 0.0309s
Thời gian dự đoán trung bình / mẫu: 0.000004s


In [18]:
# Độ chính xác mô hình
acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')
print('===== Độ chính xác mô hình =====')
print(f'Accuracy        : {acc:.4f}')
print(f'Precision(macro): {prec:.4f}')
print(f'Recall(macro)   : {recall:.4f}')
print(f'F1-score(macro) : {f1:.4f}')

===== Độ chính xác mô hình =====
Accuracy        : 0.9129
Precision(macro): 0.9119
Recall(macro)   : 0.9115
F1-score(macro) : 0.9116


In [19]:
# Phân bố lỗi và độ nhầm lẫn (Confusion Matrix)
cm = confusion_matrix(y_test, y_pred)
print('===== Confusion Matrix =====')
print('Hàng: nhãn thật, Cột: nhãn dự đoán')
print(cm)

===== Confusion Matrix =====
Hàng: nhãn thật, Cột: nhãn dự đoán
[[794   0   6   2   3   7  10   0   4   1]
 [  0 914   1   4   0   2   0   1  14   1]
 [  5  12 751  11   9   9   3  14  19   2]
 [  4   7  26 760   0  36   4   9  15   9]
 [  3   4   8   0 737   3   5   6   7  41]
 [  8   8   9  32  14 649  10   2  21   6]
 [  4   3   6   0   5  11 796   0   2   0]
 [  1   4   4   5   8   1   0 820   6  31]
 [  7  23   8  26   3  25   9   2 693  17]
 [  5   4   3   8  23   5   0  29   7 754]]


In [20]:
# Tài nguyên và độ phức tạp
n_params = logreg.coef_.size + logreg.intercept_.size
model_size_bytes = logreg.coef_.nbytes + logreg.intercept_.nbytes
model_size_kb = model_size_bytes / 1024
model_size_mb = model_size_kb / 1024
print('===== Tài nguyên và độ phức tạp =====')
print(f'Số tham số của mô hình: {n_params}')
print(f'Kích thước của mô hình: {model_size_kb:.2f} KB (~{model_size_mb:.2f}MB)')

===== Tài nguyên và độ phức tạp =====
Số tham số của mô hình: 7850
Kích thước của mô hình: 61.33 KB (~0.06MB)


In [21]:
import joblib
joblib.dump(logreg, 'models/logistic_regression_model.joblib')
print('Đã lưu mô hình vào file models/logistic_regression_model.joblib')

Đã lưu mô hình vào file models/logistic_regression_model.joblib


In [None]:
print('--- LOGISTIC REGRESSION ---')
print('Kích thước Train dataset: ', X_train.shape)
print('Kích thước Test dataset : ', X_test.shape)
print("----------------------------")
print(f'Thời gian huấn luyện: {t_train:.3f}s')
print("----------------------------")
print(f'Thời gian dự đoán trên Test data  : {t_pred:.4f}s')
print(f'Thời gian dự đoán trung bình / mẫu: {t_pred/ len(y_test):.6f}s')
print("----------------------------")
print(f'Accuracy        : {acc:.4f}')
print(f'Precision(macro): {prec:.4f}')
print(f'Recall(macro)   : {recall:.4f}')
print(f'F1-score(macro) : {f1:.4f}')
print("----------------------------")
print('Confusion Matrix:')
print(cm)
print("----------------------------")
print(f'Số tham số của mô hình: {n_params}')
print(f'Kích thước của mô hình: {model_size_kb:.2f} KB (~{model_size_mb:.2f}MB)')
print("----------------------------")

--- LOGISTIC REGRESSION ---
Kích thước Train dataset:  (33600, 784)
Kích thước Test dataset :  (8400, 784)
----------------------------
Thời gian huấn luyện: 33.975s
----------------------------
Thời gian dự đoán trên Test data  : 0.0309s
Thời gian dự đoán trung bình / mẫu: 0.000004s
----------------------------
Accuracy        : 0.9129
Precision(macro): 0.9119
Recall(macro)   : 0.9115
F1-score(macro) : 0.9116
----------------------------
Confusion Matrix:
[[794   0   6   2   3   7  10   0   4   1]
 [  0 914   1   4   0   2   0   1  14   1]
 [  5  12 751  11   9   9   3  14  19   2]
 [  4   7  26 760   0  36   4   9  15   9]
 [  3   4   8   0 737   3   5   6   7  41]
 [  8   8   9  32  14 649  10   2  21   6]
 [  4   3   6   0   5  11 796   0   2   0]
 [  1   4   4   5   8   1   0 820   6  31]
 [  7  23   8  26   3  25   9   2 693  17]
 [  5   4   3   8  23   5   0  29   7 754]]
----------------------------
Số tham số của mô hình: 7850
Kích thước của mô hình: 61.33 KB (~0.06MB)
