Spot-checking là quá trình khám phá ra thuật toán nào sẽ biểu diễn tốt cho bài toán machine learning của bạn. Bạn không thể biết thuật toán nào là phù hợp nhất với bài toán của bạn trước khi bắt tay vào làm. Bạn phải thử một loạt các phương thức mà qua đó chứng minh được rằng cái nào là hứa hẹn nhất.

### I. Algorithm Spot-Checking

Bạn không thể nào biết được thuật toán nào sẽ hoạt động tốt nhất cho bộ dữ liệu của bạn. Bạn phải thử nghiệm và tìm ra một danh sách ngắn các thuật toán giải quyết tốt cho bài toán của bạn, từ đó đi sâu hơn và xa nữa là tối ưu hóa. Quá trình này được gọi là spot-checking.<br>
Câu hỏi đặt ra không phải: _Tôi nên dùng thuật toán nào cho bộ dữ liệu này?_ mà là _những thuật toán nào tôi nên dùng để spot-check bộ dữ liệu này?_. Về phân loại thì thường spot-check bằng 6 thuật toán như sau<br><br>
Linear machine learning algorithms:
- Logistic Regression
- Linear Discriminant Analysis.

Nonlinear machine learning algorithms:
- KNN.
- Naive Bayes.
- Classification and Regression Trees
- Support Vector Machines

### II. Linear Machine Learning Algorithms

**2.1 Logistic Regression**

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_score, KFold
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv('pima-indians-diabetes.csv', names=names)
array = dataframe.values
X = array[:,0:8] #input
Y = array[:, 8] #output
seed = 7
num_folds= 10
dataframe.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(solver='liblinear')
kfold = KFold(n_splits=num_folds, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7695146958304853


**2.2 Linear Discriminant Analysis**

In [4]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv=kfold) # kfold lấy ở trên
print(results.mean())

0.773462064251538


### III. Nonlinear Machine Learning Algorithms

**3.1 KNN**

In [6]:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
results = cross_val_score(model, X, Y, cv=kfold) # kfold lấy ở trên
print(results.mean())

0.7265550239234451


**3.2 Naive Bayes**

Naive Bayes tính toán **xác suất** mỗi class và xác suất có điều kiện của mỗi class cho mỗi gia trị input. Xác suất này khi được đo lường trên một dữ liệu mới và tích lại với nhau giả định rằng tất cả chúng đều độc lập (a simple or naive assumption).<br>
Khi hoạt động với dữ liệu giá trị thực, phân phối Gaussian được giả định xác suất cho biến input.

In [7]:
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
results = cross_val_score(model, X, Y, cv=kfold) # kfold lấy ở trên
print(results.mean())

0.7551777170198223


**3.2 Classification and Regression Trees (CART)**

CART cấu trúc một cây nhị phân từ bộ dữ liệu train. Split points được chọn tham lam bằng việc đánh giá từng attribute và mỗi giá trị của mỗi attribute trong bộ dữ liệu train để tối thiểu hóa cost function (như Gini index).

In [8]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
results = cross_val_score(model, X, Y, cv=kfold) # kfold lấy ở trên
print(results.mean())

0.6965481886534518


**3.3 Support Vector Machines (SVM)**

SVM tìm một đường thẳng tốt nhất để tách biệt 2 class. Những thực thể dữ liệu mà nằm gần nhất với đường tốt nhất tách biệt 2 class đó gọi là support vectors và chi phối đến vị trí của cái đường đó. SVM đã được mở rộng để hỗ trợ nhiều class hơn.

In [10]:
from sklearn.svm import SVC
model = SVC(gamma='auto')
results = cross_val_score(model, X, Y, cv=kfold) # kfold lấy ở trên
print(results.mean())

0.6510252904989747
