# Bộ dữ liệu Wine 

Để đánh giá hiệu suất của mô hình KNN, tui sử dụng thêm bộ dữ liệu Wine để đánh giá. Bộ dữ liệu Wine  này bao gồm thông tin về các loại rượu và các đặc tính hóa học của chúng, với tổng cộng 178 mẫu và 13 đặc trưng.

In [3]:
import pandas as pd
from sklearn.datasets import load_wine

# Tải tập dữ liệu Wine
wine = load_wine()

# Tạo DataFrame từ dữ liệu và nhãn
df = pd.DataFrame(data=wine.data, columns=wine.feature_names)
df['Target'] = wine.target

# Thêm cột ID
df.insert(0, 'Id', range(1, len(df) + 1))

# Lưu DataFrame vào một tệp CSV trong thư mục chỉ định
file_path = 'D:\Code\May_hoc\data\wine_dataset.csv'
df.to_csv(file_path, index=False)

print("Tập dữ liệu Wine đã được lưu vào: wine_dataset.csv")


  file_path = 'D:\Code\May_hoc\data\wine_dataset.csv'


Tập dữ liệu Wine đã được lưu vào: wine_dataset.csv


# Tiền xử lý và trực quan hóa dữ liệu

In [4]:
# hiện thị dataset
print(df)

      Id  alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  \
0      1    14.23        1.71  2.43               15.6      127.0   
1      2    13.20        1.78  2.14               11.2      100.0   
2      3    13.16        2.36  2.67               18.6      101.0   
3      4    14.37        1.95  2.50               16.8      113.0   
4      5    13.24        2.59  2.87               21.0      118.0   
..   ...      ...         ...   ...                ...        ...   
173  174    13.71        5.65  2.45               20.5       95.0   
174  175    13.40        3.91  2.48               23.0      102.0   
175  176    13.27        4.28  2.26               20.0      120.0   
176  177    13.17        2.59  2.37               20.0      120.0   
177  178    14.13        4.10  2.74               24.5       96.0   

     total_phenols  flavanoids  nonflavanoid_phenols  proanthocyanins  \
0             2.80        3.06                  0.28             2.29   
1             2.65       

In [5]:
# Thống kê cơ bản về dữ liệu
print(df.describe())

               Id     alcohol  malic_acid         ash  alcalinity_of_ash  \
count  178.000000  178.000000  178.000000  178.000000         178.000000   
mean    89.500000   13.000618    2.336348    2.366517          19.494944   
std     51.528309    0.811827    1.117146    0.274344           3.339564   
min      1.000000   11.030000    0.740000    1.360000          10.600000   
25%     45.250000   12.362500    1.602500    2.210000          17.200000   
50%     89.500000   13.050000    1.865000    2.360000          19.500000   
75%    133.750000   13.677500    3.082500    2.557500          21.500000   
max    178.000000   14.830000    5.800000    3.230000          30.000000   

        magnesium  total_phenols  flavanoids  nonflavanoid_phenols  \
count  178.000000     178.000000  178.000000            178.000000   
mean    99.741573       2.295112    2.029270              0.361854   
std     14.282484       0.625851    0.998859              0.124453   
min     70.000000       0.980000   

In [6]:
# Kiểm tra dữ liệu bị thiếu
print(df.isnull().sum())

Id                              0
alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
Target                          0
dtype: int64


# Tách training và test sets
 chúng ta chia dữ liệu thành tập huấn luyện (80%) và tập kiểm tra (20%). Điều này có nghĩa là 80% dữ liệu sẽ được sử dụng để huấn luyện mô hình và 20% còn lại sẽ được sử dụng để đánh giá mô hình

In [7]:
from sklearn.model_selection import train_test_split

# Tách dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.2)

print("Số lượng mẫu trong tập huấn luyện:", len(X_train))
print("Số lượng mẫu trong tập kiểm tra:", len(X_test))


Số lượng mẫu trong tập huấn luyện: 142
Số lượng mẫu trong tập kiểm tra: 36


# chuẩn hóa dữ liệu


In [8]:
#chuẩn hóa dữ liệu để (Cải thiện hiệu quả của mô hình,ăng tốc độ huấn luyện,Giúp mô hình tốt hơn...)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler() #Min-Max Scaling, đưa tất cả các thuộc tính về khoảng giá trị từ 0 đến 1.
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Xây dựng mô hình(với k=1 (1-NN))

In [9]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train_scaled, y_train)


# Dự đoán  mô hình

In [8]:
from sklearn.model_selection import train_test_split
from sklearn import neighbors, datasets
from sklearn.metrics import accuracy_score

# Huấn luyện mô hình KNN với k = 1 và độ đo khoảng cách Euclidean (p = 2)
clf = neighbors.KNeighborsClassifier(n_neighbors=1, p=2)
clf.fit(X_train, y_train)

# Dự đoán nhãn cho dữ liệu kiểm tra
y_pred = clf.predict(X_test)

# In kết quả dự đoán cho 20 điểm dữ liệu kiểm tra đầu tiên
print("Print results for 20 test data points:")
print("Predicted labels: ", y_pred[:20])
print("Ground truth    : ", y_test[:20])


Print results for 20 test data points:
Predicted labels:  [2 1 1 1 2 1 2 1 2 2 2 0 1 2 0 0 2 0 1 0]
Ground truth    :  [0 1 1 0 2 1 1 1 1 2 1 0 1 2 0 0 2 0 1 0]


# Phương pháp đánh giá 

dùng hàm số accuracy_score đánh giá và dùng  khoảng cách Euclidean

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Khởi tạo mô hình KNN với số lượng láng giềng gần nhất là 5
clf = KNeighborsClassifier(n_neighbors=5, p =2)

# Huấn luyện mô hình trên tập huấn luyện
clf.fit(X_train, y_train)
# Dự đoán nhãn cho tập kiểm tra
y_pred = clf.predict(X_test)
# Đánh giá hiệu suất của mô hình bằng accuracy score
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy of KNN model:", accuracy)


Accuracy of KNN model: 0.7777777777777778


#Điều chỉnh siêu tham số:
mô hình máy học có các siêu tham số cần được điều chỉnh để cải thiện hiệu suất và tránh overfitting.
và sử dụng tìm kiếm ngẫu nhiên (random search) để tìm ra các giá trị tối ưu cho các siêu tham số này.

In [10]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
from scipy.stats import randint

# Định nghĩa phạm vi các siêu tham số cần tinh chỉnh
param_dist = {
    'n_neighbors': randint(1, 20),  # Số lượng láng giềng
    'p': [1, 2]  # Phương pháp tính khoảng cách: 1 cho khoảng cách Manhattan, 2 cho khoảng cách Euclidean
}

# Tạo một randomized search với mô hình KNeighborsClassifier
random_search = RandomizedSearchCV(
    KNeighborsClassifier(),  # Mô hình KNN
    param_distributions=param_dist,  # Phạm vi siêu tham số
    n_iter=10,  # Số lượng lần lặp để tìm kiếm ngẫu nhiên
    cv=5  # Số lượng folds trong cross-validation
)

# Huấn luyện randomized search trên dữ liệu huấn luyện
random_search.fit(X_train, y_train)

# In ra các siêu tham số tốt nhất được tìm thấy
print("Best parameters found:", random_search.best_params_)

# Đánh giá hiệu suất của mô hình tốt nhất trên tập kiểm tra
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy of the best model:", accuracy)


Best parameters found: {'n_neighbors': 16, 'p': 1}
Accuracy of the best model: 0.8611111111111112


đánh giá mô hình bằng cross-validation

In [11]:
from sklearn.model_selection import cross_val_score

# Tạo mô hình KNeighborsClassifier với các siêu tham số tốt nhất được tìm thấy
best_model = random_search.best_estimator_

# Đánh giá hiệu suất của mô hình bằng cross-validation
cv_scores = cross_val_score(best_model, X_train, y_train, cv=5)

# In ra độ chính xác trung bình của các fold
print("Cross-validation scores:", cv_scores)
print("Average cross-validation accuracy: %.2f %%" % (100 * cv_scores.mean()))


Cross-validation scores: [0.72413793 0.72413793 0.60714286 0.82142857 0.64285714]
Average cross-validation accuracy: 70.39 %


# Triển khai mô hình:

In [27]:

best_model.fit(X_train, y_train)

# Dự đoán nhãn cho các điểm dữ liệu mới
new_data = [
    [12.37, 0.94, 1.36, 10.6, 88, 1.98, 0.57, 0.28, 0.42, 1.95, 1.05, 1.82, 520],  
    [13.76, 1.53, 2.7, 19.5, 132, 2.95, 2.74, 0.5, 1.35, 5.4, 1.25, 3, 1230],         
    [13.4,3.91,2.48,23.0,102.0,1.8,0.75,0.43,1.41,7.3,0.7,1.56,750.0]    
]
predicted_labels = best_model.predict(new_data)

# In ra kết quả dự đoán
for i, data in enumerate(new_data):
    print("Data:", data, "Predicted label: Class", predicted_labels[i])


Data: [12.37, 0.94, 1.36, 10.6, 88, 1.98, 0.57, 0.28, 0.42, 1.95, 1.05, 1.82, 520] Predicted label: Class 1
Data: [13.76, 1.53, 2.7, 19.5, 132, 2.95, 2.74, 0.5, 1.35, 5.4, 1.25, 3, 1230] Predicted label: Class 0
Data: [13.4, 3.91, 2.48, 23.0, 102.0, 1.8, 0.75, 0.43, 1.41, 7.3, 0.7, 1.56, 750.0] Predicted label: Class 2
