1. Classification Accuracy

In [1]:
# Đánh giá độ chính xác phân loại với Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LogisticRegression(max_iter=1000)

# Đánh giá độ chính xác
results = cross_val_score(model, X, y, cv=kfold, scoring='accuracy')

# In kết quả: trung bình và độ lệch chuẩn
print(f"Độ chính xác: {results.mean():.3f} (±{results.std():.3f})")

Độ chính xác: 0.772 (±0.050)


2. Logarithmic Loss

In [2]:
# Đánh giá Logloss với Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LogisticRegression(max_iter=1000)

# Đánh giá logloss (lưu ý: giá trị âm do scikit-learn)
results = cross_val_score(model, X, y, cv=kfold, scoring='neg_log_loss')

# In kết quả
print(f"Logloss: {results.mean():.3f} (±{results.std():.3f})")

Logloss: -0.485 (±0.057)


3. Area Under ROC Curve (AUC)

In [3]:
# Đánh giá AUC với Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LogisticRegression(max_iter=1000)

# Đánh giá AUC
results = cross_val_score(model, X, y, cv=kfold, scoring='roc_auc')

# In kết quả
print(f"AUC: {results.mean():.3f} (±{results.std():.3f})")

AUC: 0.829 (±0.047)


4. Confusion Matrix

In [4]:
# Tính ma trận nhầm lẫn với Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=7)

# Huấn luyện mô hình
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính ma trận nhầm lẫn
matrix = confusion_matrix(y_test, y_pred)

# In kết quả
print("Ma trận nhầm lẫn:")
print(matrix)

Ma trận nhầm lẫn:
[[142  20]
 [ 34  58]]


5. Classification Report

In [5]:
# Tạo báo cáo phân loại với Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Chia dữ liệu
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=7)

# Huấn luyện mô hình
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Dự đoán
y_pred = model.predict(X_test)

# Tạo và in báo cáo phân loại
report = classification_report(y_test, y_pred)
print("Báo cáo phân loại:")
print(report)

Báo cáo phân loại:
              precision    recall  f1-score   support

           0       0.81      0.88      0.84       162
           1       0.74      0.63      0.68        92

    accuracy                           0.79       254
   macro avg       0.78      0.75      0.76       254
weighted avg       0.78      0.79      0.78       254



6. Mean Absolute Error (MAE)

In [6]:
# Đánh giá MAE với Linear Regression trên tập Boston House Price
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data"
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv(url, delim_whitespace=True, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LinearRegression()

# Đánh giá MAE (lưu ý: giá trị âm do scikit-learn)
results = cross_val_score(model, X, y, cv=kfold, scoring='neg_mean_absolute_error')

# In kết quả
print(f"MAE: {results.mean():.3f} (±{results.std():.3f})")

  data = pd.read_csv(url, delim_whitespace=True, names=columns)


MAE: -3.387 (±0.667)


7. Mean Squared Error (MSE)

In [7]:
# Đánh giá MSE với Linear Regression trên tập Boston House Price
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data"
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv(url, delim_whitespace=True, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LinearRegression()

# Đánh giá MSE (lưu ý: giá trị âm do scikit-learn)
results = cross_val_score(model, X, y, cv=kfold, scoring='neg_mean_squared_error')

# In kết quả
print(f"MSE: {results.mean():.3f} (±{results.std():.3f})")

MSE: -23.747 (±11.143)


  data = pd.read_csv(url, delim_whitespace=True, names=columns)


8. R² Metric

In [8]:
# Đánh giá R² với Linear Regression trên tập Boston House Price
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data"
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv(url, delim_whitespace=True, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Khởi tạo mô hình
model = LinearRegression()

# Đánh giá R²
results = cross_val_score(model, X, y, cv=kfold, scoring='r2')

# In kết quả
print(f"R²: {results.mean():.3f} (±{results.std():.3f})")

R²: 0.718 (±0.099)


  data = pd.read_csv(url, delim_whitespace=True, names=columns)
