# Chapter 10: Machine Learning Algorithm Performance Metrics

## 10.2. Classification Metrics

### 10.2.1. Classification Accuracy

In [None]:
# Cross Validation Classification Accuracy
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
# Tên file dữ liệu
filename = 'pima-indians-diabetes-dataset.csv'
# Đặt tên cột phù hợp
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu
data = pd.read_csv(filename, names=names, header=0)
array = data.values
X = array[:, :-1].values
y = array[:, -1].values
# Cấu hình K-Fold Cross Validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để xáo trộn dữ liệu
model = LogisticRegression(max_iter=200)
scoring = 'accuracy'
# Đánh giá mô hình
results = cross_val_score(model, X, y, cv=kfold, scoring=scoring)
# In kết quả
print("Accuracy: {:.3f} ({:.3f})".format(results.mean(), results.std()))

Accuracy: 0.772 (0.050)


### 10.2.2. Logarithmic Loss

In [None]:
# Cross Validation Classification LogLoss
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
# Tên file dữ liệu
filename = 'pima-indians-diabetes-dataset.csv'
# Đặt tên cột phù hợp
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu
data = pd.read_csv(filename, names=names, header=0)
array = data.values
X = array[:, :-1].values
y = array[:, -1].values
# Cấu hình K-Fold Cross Validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = LogisticRegression(max_iter=200)
# Đánh giá bằng log loss
scoring = 'neg_log_loss'
results = cross_val_score(model, X, y, cv=kfold, scoring=scoring)
# In kết quả (đổi dấu vì sklearn trả về giá trị âm của log loss)
print("LogLoss: {:.3f} ({:.3f})".format(-results.mean(), results.std()))

LogLoss: 0.485 (0.057)


### 10.2.3. Area Under ROC Curve

In [None]:
# Cross Validation Classification ROC AUC
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
# Tên file dữ liệu
filename = 'pima-indians-diabetes-dataset.csv'
# Đặt tên cột phù hợp
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu
data = pd.read_csv(filename, names=names, header=0)
array = data.values
X = array[:, :-1].values
y = array[:, -1].values
# Cấu hình Cross-Validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = LogisticRegression(max_iter=200)
scoring = 'roc_auc'
# Tính điểm AUC
results = cross_val_score(model, X, y, cv=kfold, scoring=scoring)
# In kết quả
print("AUC: {:.3f} ({:.3f})".format(results.mean(), results.std()))

AUC: 0.829 (0.047)


### 10.2.4. Confusion Matrix

In [10]:
# Cross Validation Classification Confusion Matrix
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
# Tên file dữ liệu
filename = 'pima-indians-diabetes-dataset.csv'
# Đặt tên cột phù hợp
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu
data = pd.read_csv(filename, names=names, header=0)
X = data.iloc[:, 0:8].values
y = data.iloc[:, 8].values
# Chia tập train/test
test_size = 0.33
seed = 7
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=seed)
# Huấn luyện mô hình
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
# Dự đoán và tính confusion matrix
predicted = model.predict(X_test)
matrix = confusion_matrix(y_test, predicted)
# In confusion matrix
print("Confusion Matrix:")
print(matrix)

Confusion Matrix:
[[142  20]
 [ 34  58]]


### 10.2.5. Classification Report

In [12]:
# Cross Validation Classification Report
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
# Tên file dữ liệu
filename = 'pima-indians-diabetes-dataset.csv'
# Đặt tên cột phù hợp
names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',  'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
# Đọc dữ liệu
data = pd.read_csv(filename, names=names, header=0)
X = data.iloc[:, 0:8].values
Y = data.iloc[:, 8].values
# Chia dữ liệu thành tập huấn luyện và kiểm tra
test_size = 0.33
seed = 7
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
# Huấn luyện mô hình Logistic Regression
model = LogisticRegression(max_iter=200)
model.fit(X_train, Y_train)
# Dự đoán và hiển thị báo cáo phân loại
predicted = model.predict(X_test)
report = classification_report(Y_test, predicted)
print("Classification Report:")
print(report)

Classification Report:
              precision    recall  f1-score   support

           0       0.81      0.88      0.84       162
           1       0.74      0.63      0.68        92

    accuracy                           0.79       254
   macro avg       0.78      0.75      0.76       254
weighted avg       0.78      0.79      0.78       254



## 10.3. Regression Metrics

### 10.3.1. Mean Absolute Error

In [None]:
# Cross Validation Regression MAE
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
# Tên file dữ liệu
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc dữ liệu đúng cách (vì dữ liệu dùng dấu phẩy)
dataframe = pd.read_csv(filename, names=names, header=0)  # bỏ delim_whitespace
# Xử lý dữ liệu nếu có giá trị thiếu
dataframe = dataframe.dropna()
# Phân chia X và Y
X = dataframe.iloc[:, 0:13].values
Y = dataframe.iloc[:, 13].values
# Khởi tạo mô hình và phương pháp đánh giá
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = LinearRegression()
scoring = 'neg_mean_absolute_error'
# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print("Mean Absolute Error: {:.3f} ({:.3f})".format(-results.mean(), results.std()))

Mean Absolute Error: 3.387 (0.667)


### 10.3.2. Mean Squared Error

In [22]:
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
# Đọc dữ liệu
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataframe = pd.read_csv(filename, names=names, header=0)
# Tách dữ liệu đầu vào và đầu ra
X = dataframe.iloc[:, 0:13].values
Y = dataframe.iloc[:, 13].values
# Khởi tạo mô hình và KFold
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
# Tính điểm đánh giá
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
# Đảo dấu vì giá trị trả về là âm
print("MSE: {:.3f} ({:.3f})".format(-results.mean(), results.std()))

MSE: 23.747 (11.143)


### 10.3.3. R^2 Metric

In [23]:
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression
# Đọc dữ liệu CSV (dùng dấu phẩy)
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataframe = pd.read_csv(filename, names=names, header=0)
# Tách đặc trưng và nhãn
X = dataframe.iloc[:, 0:13].values
Y = dataframe.iloc[:, 13].values
# Khởi tạo KFold và mô hình
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = LinearRegression()
scoring = 'r2'
# Tính điểm R^2
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
# In kết quả với định dạng đúng
print("R^2: {:.3f} ({:.3f})".format(results.mean(), results.std()))

R^2: 0.718 (0.099)
