# Chương 13: So Sánh Các Thuật Toán Học Máy

Việc so sánh hiệu suất của nhiều thuật toán học máy khác nhau một cách nhất quán là rất quan trọng. Trong chương này, bạn sẽ khám phá cách tạo một bộ kiểm thử để so sánh nhiều thuật toán học máy khác nhau trong Python với scikit-learn. Bạn có thể sử dụng bộ kiểm thử này như một mẫu cho các vấn đề học máy của riêng bạn và thêm các thuật toán khác nhau để so sánh.

## 13.1 Chọn Mô Hình Học Máy Tốt Nhất

Khi bạn làm việc trên một dự án học máy, bạn thường kết thúc với nhiều mô hình tốt để lựa chọn. Mỗi mô hình sẽ có đặc điểm hiệu suất khác nhau. Sử dụng các phương pháp lấy mẫu lại như kiểm chứng chéo (cross validation), bạn có thể có được ước tính về độ chính xác của từng mô hình trên dữ liệu chưa từng thấy. Bạn cần có khả năng sử dụng các ước tính này để chọn một hoặc hai mô hình tốt nhất từ bộ các mô hình mà bạn đã tạo.

Khi bạn có một tập dữ liệu mới, việc hình dung dữ liệu bằng các kỹ thuật khác nhau để nhìn dữ liệu từ các góc độ khác nhau là một ý tưởng tốt. Ý tưởng tương tự cũng áp dụng cho việc lựa chọn mô hình. Bạn nên sử dụng một số cách khác nhau để xem xét độ chính xác ước tính của các thuật toán học máy để chọn một hoặc hai thuật toán để hoàn thiện. Một cách để làm điều này là sử dụng các phương pháp trực quan hóa để hiển thị độ chính xác trung bình, phương sai và các thuộc tính khác của phân phối độ chính xác của mô hình.

## 13.2 So Sánh Các Thuật Toán Học Máy Một Cách Nhất Quán

Để so sánh công bằng các thuật toán học máy là đảm bảo rằng mỗi thuật toán được đánh giá theo cùng một cách trên cùng một dữ liệu. Bạn có thể đạt được điều này bằng cách buộc mỗi thuật toán được đánh giá trên một bộ kiểm thử nhất quán.

In [None]:
# So Sánh Các Thuật Toán
from pandas import read_csv
from matplotlib import pyplot
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

# tải dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# chuẩn bị các mô hình
models = []
models.append(('LR', LogisticRegression()))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC()))

# đánh giá từng mô hình lần lượt
results = []
names = []
scoring = 'accuracy'
for name, model in models:
    kfold = KFold(n_splits=10, random_state=7)
    cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
    print(msg)

In [None]:
# biểu đồ so sánh thuật toán
fig = pyplot.figure()
fig.suptitle('So Sánh Thuật Toán')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(names)
pyplot.show()

Kết quả chạy mẫu cung cấp danh sách mỗi tên rút gọn của thuật toán, độ chính xác trung bình và độ lệch chuẩn độ chính xác:

```
LR: 0.769515 (0.048411)
LDA: 0.773462 (0.051592)
KNN: 0.726555 (0.061821)
CART: 0.695232 (0.062517)
NB: 0.755178 (0.042766)
SVM: 0.651025 (0.072141)
```

Ví dụ cũng cung cấp biểu đồ hộp và râu (box and whisker plot) cho thấy sự phân tán của các điểm số độ chính xác trên mỗi fold của kiểm chứng chéo cho mỗi thuật toán.