# Chương 9 - Đánh giá hiệu suất của thuật toán học máy bằng kỹ thuật lấy mẫu

Trong chương này, bạn sẽ khám phá cách ước tính độ chính xác của các thuật toán học máy bằng phương pháp lấy mẫu lại (resampling) trong Python và scikit-learn. Mục tiêu là đánh giá hiệu suất của thuật toán trên dữ liệu chưa từng thấy bằng cách sử dụng các kỹ thuật thống kê gọi là **lấy mẫu lại**.

## 9.2 Phân chia thành tập huấn luyện và tập kiểm tra

Kỹ thuật này chia tập dữ liệu thành hai phần: một phần để huấn luyện và một phần để kiểm tra. Mô hình được huấn luyện trên tập huấn luyện và được kiểm tra trên tập kiểm tra. Tỷ lệ phân chia điển hình là **67% cho huấn luyện** và **33% cho kiểm tra**.

In [None]:
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
test_size = 0.33
seed = 7
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression()
model.fit(X_train, Y_train)
result = model.score(X_test, Y_test)
print("Accuracy: %.3f%%" % (result*100.0))

## 9.3 Kiểm tra chéo K-fold

Trong kiểm tra chéo K-fold, tập dữ liệu được chia thành **k** phần (fold). Mô hình được huấn luyện trên **k-1** fold và được kiểm tra trên fold còn lại. Quá trình này được lặp lại cho mỗi fold, cho chúng ta **k** điểm hiệu suất.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=kfold)
print("Accuracy: %.3f%% (%.3f%%)" % (results.mean()*100.0, results.std()*100.0))

## 9.4 Kiểm tra chéo Leave One Out (LOO-CV)

Kiểm tra chéo Leave One Out (LOO-CV) là một trường hợp đặc biệt của kiểm tra chéo K-fold trong đó **k** bằng với số lượng quan sát trong tập dữ liệu.

In [None]:
from pandas import read_csv
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
loocv = LeaveOneOut()
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=loocv)
print("Accuracy: %.3f%% (%.3f%%)" % (results.mean()*100.0, results.std()*100.0))

## 9.5 Phân chia ngẫu nhiên lặp lại giữa tập huấn luyện và kiểm tra

Kỹ thuật này liên quan đến việc lặp lại nhiều lần phân chia ngẫu nhiên tập dữ liệu thành tập huấn luyện và tập kiểm tra.

In [None]:
from pandas import read_csv
from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
n_splits = 10
test_size = 0.33
seed = 7
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=kfold)
print("Accuracy: %.3f%% (%.3f%%)" % (results.mean()*100.0, results.std()*100.0))

## 9.7 Tóm tắt

Trong chương này, bạn đã học về các kỹ thuật lấy mẫu lại khác nhau để đánh giá hiệu suất của thuật toán học máy:

- **Tập huấn luyện và tập kiểm tra**
- **Kiểm tra chéo K-fold**
- **Kiểm tra chéo Leave One Out**
- **Phân chia ngẫu nhiên lặp lại giữa tập huấn luyện và kiểm tra**

Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Kỹ thuật tốt nhất phụ thuộc vào các yếu tố như kích thước tập dữ liệu, chi phí tính toán và nhu cầu về ước tính hiệu suất chính xác.