# Bộ dữ liệu Wine 

Để đánh giá hiệu suất của mô hình KNN, tui sử dụng thêm bộ dữ liệu Wine để đánh giá. Bộ dữ liệu Wine  này bao gồm thông tin về các loại rượu và các đặc tính hóa học của chúng, với tổng cộng 178 mẫu và 13 đặc trưng.

In [14]:
import pandas as pd
from sklearn.datasets import load_wine

# Tải tập dữ liệu Wine
wine = load_wine()

# Tạo DataFrame từ dữ liệu và nhãn
df = pd.DataFrame(data=wine.data, columns=wine.feature_names)
df['Target'] = wine.target

# Thêm cột ID
df.insert(0, 'Id', range(1, len(df) + 1))

# Lưu DataFrame vào một tệp CSV trong thư mục chỉ định
file_path = 'D:\Code\May_hoc\data\wine_dataset.csv'
df.to_csv(file_path, index=False)

print("Tập dữ liệu Wine đã được lưu vào: wine_dataset.csv")


Tập dữ liệu Wine đã được lưu vào: wine_dataset.csv


  file_path = 'D:\Code\May_hoc\data\wine_dataset.csv'


# Tách training và test sets
 chúng ta chia dữ liệu thành tập huấn luyện (80%) và tập kiểm tra (20%). Điều này có nghĩa là 80% dữ liệu sẽ được sử dụng để huấn luyện mô hình và 20% còn lại sẽ được sử dụng để đánh giá mô hình

In [15]:
from sklearn.model_selection import train_test_split

# Tách dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.2, random_state=42)

print("Số lượng mẫu trong tập huấn luyện:", len(X_train))
print("Số lượng mẫu trong tập kiểm tra:", len(X_test))


Số lượng mẫu trong tập huấn luyện: 142
Số lượng mẫu trong tập kiểm tra: 36


# chuẩn hóa dữ liệu

In [16]:
from sklearn.preprocessing import StandardScaler

# Khởi tạo một scaler
scaler = StandardScaler()

# Chuẩn hóa dữ liệu huấn luyện và dữ liệu kiểm tra
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


# xây dựng mô hình

In [22]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Khởi tạo mô hình KNN với số lượng láng giềng gần nhất là 5
clf = KNeighborsClassifier(n_neighbors=3)

# Huấn luyện mô hình trên tập huấn luyện
clf.fit(X_train, y_train)

# Dự đoán nhãn cho tập kiểm tra
y_pred = clf.predict(X_test)

# Đánh giá hiệu suất của mô hình bằng accuracy score
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy of KNN model:", accuracy)


Accuracy of KNN model: 0.8055555555555556


# Tinh chỉnh siêu tham số


In [21]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
from scipy.stats import randint

# Định nghĩa phạm vi các siêu tham số cần tinh chỉnh
param_dist = {
    'n_neighbors': randint(1, 20),  # Số lượng láng giềng
    'p': [1, 2]  # Phương pháp tính khoảng cách: 1 cho khoảng cách Manhattan, 2 cho khoảng cách Euclidean
}

# Tạo một randomized search với mô hình KNeighborsClassifier
random_search = RandomizedSearchCV(
    KNeighborsClassifier(),  # Mô hình KNN
    param_distributions=param_dist,  # Phạm vi siêu tham số
    n_iter=10,  # Số lượng lần lặp để tìm kiếm ngẫu nhiên
    cv=5  # Số lượng folds trong cross-validation
)

# Huấn luyện randomized search trên dữ liệu huấn luyện
random_search.fit(X_train, y_train)

# In ra các siêu tham số tốt nhất được tìm thấy
print("Best parameters found:", random_search.best_params_)

# Đánh giá hiệu suất của mô hình tốt nhất trên tập kiểm tra
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy of the best model:", accuracy)


Best parameters found: {'n_neighbors': 8, 'p': 1}
Accuracy of the best model: 0.8333333333333334
