# Chương 11 - Kiểm tra các thuật toán phân loại

Kiểm tra (Spot-checking) là một cách để khám phá những thuật toán nào hoạt động tốt trên bài toán học máy của bạn. Bạn không thể biết trước thuật toán nào phù hợp nhất với bài toán của mình. Bạn phải thử nghiệm một số phương pháp và tập trung vào những phương pháp chứng tỏ chúng hứa hẹn nhất.

## 11.1 Kiểm tra thuật toán

Không thể biết trước thuật toán nào sẽ hoạt động tốt nhất trên tập dữ liệu của mình. Bạn phải sử dụng phương pháp thử nghiệm để khám phá một danh sách ngắn các thuật toán hoạt động tốt trên bài toán của bạn, sau đó bạn có thể tập trung vào chúng và tinh chỉnh thêm.

## 11.2 Tổng quan về các thuật toán

Chúng ta sẽ xem xét sáu thuật toán phân loại mà bạn có thể kiểm tra trên tập dữ liệu của mình:

- **Hồi quy Logistic (Logistic Regression)**
- **Phân tích phân biệt tuyến tính (Linear Discriminant Analysis)**
- **k-Nearest Neighbors (k-láng giềng gần nhất)**
- **Naive Bayes (Bayes ngây thơ)**
- **Cây phân loại và hồi quy (Classification and Regression Trees - CART)**
- **Máy vector hỗ trợ (Support Vector Machines - SVM)**

## 11.3 Thuật toán học máy tuyến tính

### 11.3.1 Hồi quy Logistic

Hồi quy logistic giả định phân phối Gaussian cho các biến đầu vào số học và có thể mô hình hóa các bài toán phân loại nhị phân.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold, cross_val_score
import pandas as pd

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Logistic Regression Accuracy: {results.mean():.4f}")

### 11.3.2 Phân tích phân biệt tuyến tính

Phân tích phân biệt tuyến tính (LDA) là một kỹ thuật thống kê cho phân loại nhị phân và đa lớp.

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"LDA Accuracy: {results.mean():.4f}")

## 11.4 Thuật toán học máy phi tuyến tính

### 11.4.1 k-Nearest Neighbors

Thuật toán k-Nearest Neighbors (KNN) sử dụng một phép đo khoảng cách để tìm k phần tử tương tự nhất trong dữ liệu huấn luyện cho một phần tử mới.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"KNN Accuracy: {results.mean():.4f}")

### 11.4.2 Naive Bayes

Naive Bayes tính toán xác suất của mỗi lớp và xác suất có điều kiện của mỗi lớp với từng giá trị đầu vào.

In [None]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Naive Bayes Accuracy: {results.mean():.4f}")

### 11.4.3 Cây phân loại và hồi quy

Cây phân loại và hồi quy (CART) xây dựng một cây nhị phân từ dữ liệu huấn luyện.

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"CART Accuracy: {results.mean():.4f}")

### 11.4.4 Máy vector hỗ trợ

Máy vector hỗ trợ (SVM) tìm kiếm đường thẳng phân tách tốt nhất giữa hai lớp.

In [None]:
from sklearn.svm import SVC

model = SVC()
results = cross_val_score(model, X, Y, cv=kfold)
print(f"SVM Accuracy: {results.mean():.4f}")

## 11.5 Tóm tắt

Trong chương này đã tìm hiểu 6 thuật toán học máy mà bạn có thể sử dụng để kiểm tra trên bài toán phân loại của mình trong Python sử dụng scikit-learn. Các thuật toán bao gồm:

- **Hồi quy Logistic**
- **Phân tích phân biệt tuyến tính**
- **k-Nearest Neighbors**
- **Naive Bayes**
- **Cây phân loại và hồi quy**
- **Máy vector hỗ trợ**