In [3]:
import sys
sys.path.append(".")

# 1. Mục tiêu notebook

- Notebook này nhằm:

- Xây dựng các baseline models cho bài toán phân loại rượu vang

- Đánh giá hiệu năng ban đầu của từng mô hình

- Tạo mốc so sánh cho các bước cải tiến sau

- Các mô hình được sử dụng trong notebook này bao gồm:

- K-Nearest Neighbors (KNN)

- Naive Bayes

- Support Vector Machine (SVM)

- Logistic Regression

# 2. Chuẩn bị dữ liệu

Dữ liệu đã được:

- Load từ module data_utils.py

- Chia thành tập train và test theo tỉ lệ 80/20

- Scale các feature bằng StandardScaler

Việc scale dữ liệu là cần thiết do:

- Các feature có thang đo khác nhau

- Một số mô hình (KNN, SVM, Logistic Regression) nhạy cảm với scale

In [4]:
from src.data_utils import load_data

In [5]:
df = load_data()

In [6]:
X = df.drop('target', axis=1)
y = df['target']

In [8]:
from src.preprocessing import preprocess
X_train, X_test, y_train, y_test = preprocess(X, y)

# 3. Chiến lược xây dựng baseline

Trong giai đoạn baseline:

- Sử dụng tham số mặc định của các mô hình

- Không thực hiện tuning hyperparameter

- Mục tiêu là đánh giá khả năng học ban đầu của từng thuật toán

Điều này giúp:

- So sánh mô hình một cách công bằng

- Tránh overfitting sớm

- Làm rõ mức cải thiện khi tối ưu sau này

# Logistic Regression (Baseline)

In [9]:
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

In [10]:
from src.train import train
logistic_model = train(logistic_model, X_train, y_train)

# K-Nearest Neighbors (KNN)

In [12]:
from sklearn.neighbors import KNeighborsClassifier
knn_model = KNeighborsClassifier(n_neighbors=3)

In [13]:
from src.train import train
knn_model = train(knn_model, X_train, y_train)

# Naive Bayes

In [14]:
from sklearn.naive_bayes import GaussianNB
nb_model = GaussianNB()

In [18]:
from src.train import train
nb_model = train(nb_model, X_train, y_train)

# Support Vector Machine (SVM)

In [16]:
from sklearn.svm import SVC
svm_model = SVC(kernel='linear')

In [19]:
from src.train import train
svm_model = train(svm_model, X_train, y_train)

#4. Đánh giá kết quả huấn luyện

In [20]:
from src.evaluate import evaluate_model

In [22]:
metrics_logistic = evaluate_model(X_test, y_test, logistic_model)
print(metrics_logistic)

{'accuracy': 0.9722222222222222, 'precision': 0.974074074074074, 'recall': 0.9722222222222222, 'f1': 0.9719701552732407}


# Logistic Regression

- Accuracy: 97.2%

- Precision (weighted): 97.4

- Recall (weighted): 97.2

- F1-score (weighted): 97.19

Nhận xét:

Logistic Regression cho kết quả rất tốt, điều này cho thấy mô hình tuyến tính phân loại rất tốt dataset wine sau khi scale. Mô hình đơn giản nhưng cho ra khả năng cạnh tranh cao so với các mô hình phức tạp hơn.

In [23]:
metrics_knn = evaluate_model(X_test, y_test, knn_model)
print(metrics_knn)

{'accuracy': 0.9722222222222222, 'precision': 0.9743589743589745, 'recall': 0.9722222222222222, 'f1': 0.9722633744855966}


# K-Nearest Neighbors (KNN)

- Accuracy: 97.2%

- Precision (weighted): 97.4

- Recall (weighted): 97.2

- F1-score (weighted): 97.2

Nhận xét:

K-Nearest Neighbors (KNN) cho kết quả rất tốt, knn sử dụng mối quan hệ với các hàng xóm xung quan để tiến hành đưa ra dự đoán. Việc kết quả cho ra khá cao cho thấy dataset wine có sự phân cụm rõ ràng giữa các class giúp knn có thể dự đoán với độ chính xác cao.

In [24]:
metrics_nb = evaluate_model(X_test, y_test, nb_model)
print(metrics_nb)

{'accuracy': 0.9722222222222222, 'precision': 0.9743589743589745, 'recall': 0.9722222222222222, 'f1': 0.9722633744855966}


# Naive Bayes

- Accuracy: 97.2%

- Precision (weighted): 97.4

- Recall (weighted): 97.2

- F1-score (weighted): 97.2

Nhận xét:

Naive Bayes cho kết quả rất tốt. Việc kết quả cho ra khá cao cho thấy dataset wine dù có sự phụ thuộc nhất định giữa các chỉ số hoá học với nhau, song giả sử các feature độc lập của naive bayes vẫn cho ra kết quả rất tốt không kém cạnh các model phức tạp hơn.

In [25]:
metrics_svm = evaluate_model(X_test, y_test, svm_model)
print(metrics_svm)

{'accuracy': 0.9444444444444444, 'precision': 0.9465811965811967, 'recall': 0.9444444444444444, 'f1': 0.944269005847953}


# Support Vector Machine (SVM)

- Accuracy: 94.44%

- Precision (weighted): 94.65%

- Recall (weighted): 94.44%

- F1-score (weighted): 94.42%

Nhận xét:

Mặc dù kết quả thấp hơn so với các mô hình khác trong thiết lập baseline, SVM vẫn đạt F1-score cao, cho thấy khả năng phân tách các class là tốt. Hiệu năng có thể được cải thiện thêm khi tuning hyperparameter.

# 5. Nhận xét tổng quan

- Mô hình cho kết quả tốt nhất theo F1-score: KNN và Naive Bayes

- Mô hình có hiệu năng kém nhất: SVM

- Sự chênh lệch giữa các mô hình là: Chỉ số F1

Các kết quả này cho thấy:

- Dataset có mức độ phân tách cao giữa các class, cho phép nhiều mô hình khác nhau đạt hiệu năng tốt, bao gồm cả mô hình tuyến tính và phi tuyến.

- Một số mô hình tận dụng tốt hơn các feature đã scale

# 6. Hướng phát triển tiếp theo

- Một số hướng cải tiến có thể thực hiện:

- Hyperparameter tuning

- Cross-validation

- Feature selection

- Thử các mô hình nâng cao hơn

# 7. Kết luận chung

Kết quả cho thấy với dataset wine, các mô hình baseline đều đạt hiệu năng cao và tương đối tương đồng. Điều này phản ánh đặc điểm dữ liệu có cấu trúc rõ ràng và ít nhiễu. Trong phạm vi project này, Logistic Regression và KNN cho thấy sự cân bằng tốt giữa hiệu năng và độ đơn giản, phù hợp làm baseline cho các bước cải tiến tiếp theo.