# Chapter 10

# Machine Learning Algorithm

## Classification Metrics

### Classification Accuracy

In [None]:
from pandas import read_csv  # Import thư viện pandas để đọc dữ liệu từ file CSV
from sklearn.model_selection import KFold, cross_val_score  # Import các công cụ KFold và cross_val_score từ sklearn
from sklearn.linear_model import LogisticRegression  # Import LogisticRegression từ sklearn

filename = 'diabetes.csv'  # Tên file dữ liệu
data = read_csv(filename)  # Đọc dữ liệu từ file CSV
array = data.values  # Chuyển dữ liệu thành mảng numpy
X = array[:,0:8]  # Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
Y = array[:,8]  # Lấy cột cuối cùng làm nhãn (labels)

num_folds = 10  # Số lượng tập con trong k-fold cross-validation
seed = 7  # Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)  # Tạo đối tượng k-fold cross-validation

model = LogisticRegression(solver='liblinear')  # Khởi tạo mô hình Logistic Regression với solver 'liblinear'
scoring = 'accuracy'  # Tiêu chí đánh giá là độ chính xác (accuracy)

# Thực hiện đánh giá mô hình bằng cross-validation
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)  

# In ra độ chính xác trung bình và độ lệch chuẩn
print("Accuracy: %.3f (%.3f)" % (result.mean(), result.std()))  

Accuracy: 0.771 (0.051)


### Logarithmic Loss

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import các công cụ KFold và cross_val_score từ sklearn
from sklearn.model_selection import KFold, cross_val_score
# Import LogisticRegression từ sklearn
from sklearn.linear_model import LogisticRegression

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Số lượng tập con trong k-fold cross-validation
num_folds = 10
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Tạo đối tượng k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Khởi tạo mô hình Logistic Regression với solver 'liblinear'
model = LogisticRegression(solver='liblinear')
# Tiêu chí đánh giá là log loss (negative log loss)
scoring = 'neg_log_loss'

# Thực hiện đánh giá mô hình bằng cross-validation
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)

# In ra log loss trung bình và độ lệch chuẩn
print("Accuracy: %.3f (%.3f)" % (result.mean(), result.std()))

Accuracy: -0.494 (0.042)


### Area Under ROC Curve

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import các công cụ KFold và cross_val_score từ sklearn
from sklearn.model_selection import KFold, cross_val_score
# Import LogisticRegression từ sklearn
from sklearn.linear_model import LogisticRegression

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Số lượng tập con trong k-fold cross-validation
num_folds = 10
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Tạo đối tượng k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Khởi tạo mô hình Logistic Regression với solver 'liblinear'
model = LogisticRegression(solver='liblinear')
# Tiêu chí đánh giá là AUC (Area Under the ROC Curve)
scoring = 'roc_auc'

# Thực hiện đánh giá mô hình bằng cross-validation
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)

# In ra AUC trung bình và độ lệch chuẩn
print("Accuracy: %.3f (%.3f)" % (result.mean(), result.std()))

Accuracy: 0.826 (0.050)


### Confusion Matrix

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import công cụ train_test_split từ sklearn để chia dữ liệu thành tập huấn luyện và kiểm tra
from sklearn.model_selection import train_test_split
# Import LogisticRegression từ sklearn để xây dựng mô hình hồi quy logistic
from sklearn.linear_model import LogisticRegression
# Import confusion_matrix từ sklearn để tạo ma trận nhầm lẫn
from sklearn.metrics import confusion_matrix

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Tỷ lệ dữ liệu kiểm tra là 33%
test_size = 0.33
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)

# Khởi tạo mô hình Logistic Regression với solver 'liblinear'
model = LogisticRegression(solver='liblinear')
# Huấn luyện mô hình trên tập huấn luyện
model.fit(X_train, Y_train)
# Dự đoán nhãn trên tập kiểm tra
predicted = model.predict(X_test)

# Tạo ma trận nhầm lẫn từ nhãn thực tế và nhãn dự đoán
matrix = confusion_matrix(Y_test, predicted)
# In ra ma trận nhầm lẫn
print(matrix)

[[141  21]
 [ 41  51]]


### Classification Report

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import công cụ train_test_split từ sklearn để chia dữ liệu thành tập huấn luyện và kiểm tra
from sklearn.model_selection import train_test_split
# Import LogisticRegression từ sklearn để xây dựng mô hình hồi quy logistic
from sklearn.linear_model import LogisticRegression
# Import classification_report từ sklearn để tạo báo cáo phân loại
from sklearn.metrics import classification_report

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Tỷ lệ dữ liệu kiểm tra là 33%
test_size = 0.33
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)

# Khởi tạo mô hình Logistic Regression với solver 'liblinear'
model = LogisticRegression(solver='liblinear')
# Huấn luyện mô hình trên tập huấn luyện
model.fit(X_train, Y_train)
# Dự đoán nhãn trên tập kiểm tra
predicted = model.predict(X_test)
# Tạo báo cáo phân loại từ nhãn thực tế và nhãn dự đoán
report = classification_report(Y_test, predicted)
# In ra báo cáo phân loại
print(report)

              precision    recall  f1-score   support

         0.0       0.77      0.87      0.82       162
         1.0       0.71      0.55      0.62        92

    accuracy                           0.76       254
   macro avg       0.74      0.71      0.72       254
weighted avg       0.75      0.76      0.75       254



## Regression Metrics

### Mean Absolute Error

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import các công cụ KFold và cross_val_score từ sklearn để thực hiện cross-validation
from sklearn.model_selection import KFold, cross_val_score
# Import LinearRegression từ sklearn để xây dựng mô hình hồi quy tuyến tính
from sklearn.linear_model import LinearRegression

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Tỷ lệ dữ liệu kiểm tra là 33% (không được sử dụng trong đoạn code này)
test_size = 0.33
# Số lượng tập con trong k-fold cross-validation
num_folds = 10
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Tạo đối tượng k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Khởi tạo mô hình hồi quy tuyến tính
model = LinearRegression()
# Tiêu chí đánh giá là lỗi tuyệt đối trung bình (negative mean absolute error)
scoring = 'neg_mean_absolute_error'

# Thực hiện đánh giá mô hình bằng cross-validation
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)

# In ra lỗi tuyệt đối trung bình trung bình và độ lệch chuẩn
print("MAE: %.3f (%.3f)" % (result.mean(), result.std()))

MAE: -0.337 (0.020)


### Mean Squared Error

In [None]:
# Import thư viện pandas để đọc dữ liệu từ file CSV
from pandas import read_csv
# Import các công cụ KFold và cross_val_score từ sklearn để thực hiện cross-validation
from sklearn.model_selection import KFold, cross_val_score
# Import LinearRegression từ sklearn để xây dựng mô hình hồi quy tuyến tính
from sklearn.linear_model import LinearRegression

# Tên file dữ liệu
filename = 'diabetes.csv'
# Đọc dữ liệu từ file CSV
data = read_csv(filename)
# Chuyển dữ liệu thành mảng numpy
array = data.values
# Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
X = array[:,0:8]
# Lấy cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Số lượng tập con trong k-fold cross-validation
num_folds = 10
# Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7
# Tạo đối tượng k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Khởi tạo mô hình hồi quy tuyến tính
model = LinearRegression()
# Tiêu chí đánh giá là lỗi bình phương trung bình (negative mean squared error)
scoring = 'neg_mean_squared_error'

# Thực hiện đánh giá mô hình bằng cross-validation
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)

# In ra lỗi bình phương trung bình trung bình và độ lệch chuẩn
print("MSE: %.3f (%.3f)" % (result.mean(), result.std()))

MSE: -0.163 (0.020)


### $R^2$ Metric

In [None]:
from pandas import read_csv  # Import thư viện pandas để đọc dữ liệu từ file CSV
from sklearn.model_selection import KFold, cross_val_score  # Import các công cụ KFold và cross_val_score từ sklearn
from sklearn.linear_model import LinearRegression  # Import LinearRegression từ sklearn để xây dựng mô hình hồi quy tuyến tính

filename = 'diabetes.csv'  # Tên file dữ liệu
data = read_csv(filename)  # Đọc dữ liệu từ file CSV
array = data.values  # Chuyển dữ liệu thành mảng numpy
X = array[:,0:8]  # Lấy 8 cột đầu tiên làm dữ liệu đầu vào (features)
Y = array[:,8]  # Lấy cột cuối cùng làm nhãn (labels)

test_size = 0.33  # Tỷ lệ dữ liệu kiểm tra là 33% (không được sử dụng trong đoạn code này)
num_folds = 10  # Số lượng tập con trong k-fold cross-validation
seed = 7  # Giá trị seed để đảm bảo tính ngẫu nhiên có thể tái lập
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)  # Tạo đối tượng k-fold cross-validation

model = LinearRegression()  # Khởi tạo mô hình hồi quy tuyến tính
scoring = 'r2'  # Tiêu chí đánh giá là R^2 (hệ số xác định)

result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)  # Thực hiện đánh giá mô hình bằng cross-validation
print("R^2: %.3f (%.3f)" % (result.mean(), result.std()))  # In ra R^2 trung bình và độ lệch chuẩn

R^2: 0.264 (0.102)
