# Chương 10: Các Chỉ Số Đánh Giá Hiệu Suất Thuật Toán Máy Học

Các chỉ số đo lường hiệu suất của thuật toán máy học rất quan trọng. Việc lựa chọn các chỉ số này ảnh hưởng đến cách bạn đánh giá và so sánh hiệu suất của các thuật toán, cũng như quyết định thuật toán nào sẽ được chọn. Trong chương này, bạn sẽ tìm hiểu cách chọn và sử dụng các chỉ số hiệu suất khác nhau trong Python với scikit-learn.

## 10.3 Các Chỉ Số Đánh Giá Hồi Quy

Trong phần này, chúng ta sẽ xem xét ba chỉ số phổ biến để đánh giá các dự đoán cho bài toán hồi quy:

- **Lỗi tuyệt đối trung bình (Mean Absolute Error - MAE)**
- **Lỗi bình phương trung bình (Mean Squared Error - MSE)**
- **Chỉ số R² (R Squared)**

### 10.3.1 Lỗi Tuyệt Đối Trung Bình (Mean Absolute Error - MAE)

MAE là tổng của các sai số tuyệt đối giữa các giá trị dự đoán và giá trị thực. Nó cho bạn biết độ lớn của sai số, nhưng không cho biết sai số đó có bị thừa hay thiếu.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearRegression()
scoring = 'neg_mean_absolute_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print("MAE: %.3f (%.3f)" % (results.mean(), results.std()))

### 10.3.2 Lỗi Bình Phương Trung Bình (Mean Squared Error - MSE)

MSE cung cấp thông tin về độ lớn của sai số, nhưng vì bình phương các sai số, MSE có thể nhạy cảm hơn với các sai số lớn.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print("MSE: %.3f (%.3f)" % (results.mean(), results.std()))

### 10.3.3 Chỉ Số R² (R Squared)

R² đo lường mức độ phù hợp của mô hình với dữ liệu thực tế. Giá trị R² càng gần 1.0, mô hình càng phù hợp với dữ liệu.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearRegression()
scoring = 'r2'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print("R^2: %.3f (%.3f)" % (results.mean(), results.std()))

## 10.4 Tổng Kết

Trong chương này, bạn đã học về các chỉ số mà bạn có thể sử dụng để đánh giá các thuật toán máy học. Các chỉ số bao gồm:

- **Lỗi tuyệt đối trung bình (MAE)**
- **Lỗi bình phương trung bình (MSE)**
- **Chỉ số R² (R Squared)**

Mỗi chỉ số cung cấp một góc nhìn khác nhau về hiệu suất của mô hình, giúp bạn chọn được mô hình phù hợp nhất với bài toán của mình.