11.3 Linear Machine Learning Algorithms

11.3.1 Logistic Regression

In [29]:
# 11.3.1 Hồi quy Logistic (Logistic Regression)
# Logistic Regression Classification
# Logistic Regression là một thuật toán tuyến tính, thường được sử dụng cho bài toán phân loại nhị phân.
# Thuật toán giả định phân phối Gaussian cho các biến đầu vào.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)  # Thiết lập shuffle=True để xáo trộn dữ liệu
model = LogisticRegression(max_iter=200)  # Mô hình Logistic Regression với max_iter=200 để tránh cảnh báo hội tụ

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print( results.mean())  # Kết quả độ chính xác trung bình



Logistic Regression Mean Accuracy: 0.7721633629528366


11.3.2 Linear Discriminant Analysis

In [30]:
# 11.3.2 Phân tích biệt tuyến tính (LDA)
# Linear Discriminant Analysis (LDA) là một kỹ thuật thống kê cho phân loại nhị phân và đa lớp.
# LDA giả định phân phối Gaussian cho các biến đầu vào và cố gắng tối đa hóa sự phân biệt giữa các lớp.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearDiscriminantAnalysis()  # Mô hình Linear Discriminant Analysis

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print(results.mean())  # Kết quả độ chính xác trung bình


Linear Discriminant Analysis Mean Accuracy: 0.7669685577580315


11.4 Nonlinear Machine Learning Algorithms

11.4.1 k-Nearest Neighbors (KNN)

In [32]:
# 11.4.1 K-Láng giềng gần nhất (KNN)
# k-Nearest Neighbors (KNN) là một thuật toán phi tuyến tính sử dụng khoảng cách giữa các điểm dữ liệu để phân loại.
# Thuật toán này tìm k điểm gần nhất với điểm mới và chọn lớp dựa trên số lượng lớp trong k điểm gần nhất.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = KNeighborsClassifier()  # Mô hình k-Nearest Neighbors

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print( results.mean())  # Kết quả độ chính xác trung bình


0.7109876965140123


11.4.2 Naive Bayes

In [33]:
# 11.4.2 Naive Bayes (Giả định độc lập giữa các biến)
# Naive Bayes là một thuật toán phân loại dựa trên lý thuyết Bayes với giả định rằng các đặc trưng độc lập với nhau.
# Thuật toán này rất hiệu quả khi các đặc trưng của bài toán có phân phối chuẩn (Gaussian).

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = GaussianNB()  # Mô hình Naive Bayes (Gaussian)

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print( results.mean())  # Kết quả độ chính xác trung bình



0.7591421736158578


11.4.3 Classification and Regression Trees (CART)

In [34]:
# 11.4.3 Cây phân loại và hồi quy (CART)
# Classification and Regression Trees (CART) là một thuật toán cây quyết định, có thể được sử dụng cho cả phân loại và hồi quy.
# Cây quyết định phân chia dữ liệu thành các nhánh dựa trên các câu hỏi kiểm tra đặc trưng.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = DecisionTreeClassifier()  # Mô hình CART (Decision Tree)

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print( results.mean())  # Kết quả độ chính xác trung bình



0.6902255639097744


11.4.4 Support Vector Machines (SVM)

In [35]:
# 11.4.4 Máy vector hỗ trợ (SVM)
# Support Vector Machine (SVM) là một thuật toán phân loại mạnh mẽ, tìm kiếm hyperplane tối ưu phân chia các lớp trong không gian đặc trưng.
# SVM thường hiệu quả trong các bài toán phân loại với nhiều đặc trưng.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC

# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Chia dữ liệu thành các biến đầu vào (X) và mục tiêu (Y)
array = dataframe.values
X = array[:, 0:8]  # Các cột đầu vào (từ 0 đến 7)
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) để đánh giá mô hình
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = SVC()  # Mô hình Support Vector Machine (SVM)

# Đánh giá mô hình với cross-validation và tính toán độ chính xác trung bình
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình của mô hình
print( results.mean())  # Kết quả độ chính xác trung bình



0.760457963089542


11.5 Summary of Algorithms

In [41]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]  # Các biến đầu vào
Y = array[:, 8]    # Cột mục tiêu (class)

# Sử dụng KFold với 10 lần gập (folds) và shuffle=True để đảm bảo sự ngẫu nhiên
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình Support Vector Machine (SVM)
model = SVC()

# Đánh giá mô hình bằng cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# In kết quả độ chính xác trung bình
print(results.mean())


0.760457963089542
