Khi đào tạo một mô hình học máy, điều rất quan trọng là phải hiểu được độ lệch và phương sai của các dự đoán trong mô hình của bạn. Nó giúp phân tích các lỗi dự đoán, giúp chúng ta đào tạo các mô hình học máy chính xác hơn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách tính độ lệch và phương sai bằng Python

Độ lệch và phương sai là gì?

    Độ lệch là sự khác biệt giữa giá trị dự đoán và kết quả mong đợi. Một mô hình học máy có độ lệch thấp là một mô hình hoàn hảo và một mô hình có độ lệch cao được kỳ vọng sẽ có tỷ lệ lỗi cao trên các tập huấn luyện và kiểm tra.

    Phương sai là sự thay đổi trong dự đoán của mô hình của bạn đối với các bộ dữ liệu khác nhau. Một mô hình học máy có phương sai cao cho thấy rằng mô hình đó có thể hoạt động tốt trên dữ liệu đã được huấn luyện nhưng sẽ không khái quát tốt trên tập dữ liệu mà nó chưa từng thấy trước đây.

Độ lệch và phương sai khi sử dụng Python

    Hy vọng bây giờ bạn đã hiểu độ lệch và phương sai là gì trong học máy cũng như cách một mô hình có độ lệch và phương sai cao có thể ảnh hưởng đến hiệu suất mô hình của bạn trên một tập dữ liệu mà nó chưa từng thấy trước đây. Trong phần này, chúng ta sẽ tìm hiểu cách tính độ lệch và phương sai bằng Python.

    Bạn phải sử dụng thư viện scikit-learn trong Python để triển khai hầu hết các thuật toán học máy. Nhưng nó không có bất kỳ chức năng nào để tính toán độ lệch và phương sai của mô hình được đào tạo của bạn. Vì vậy, để tính toán độ lệch và phương sai của mô hình bằng Python, bạn phải cài đặt một thư viện khác có tên mlxtend. Bạn có thể dễ dàng cài đặt nó trong hệ thống của mình bằng cách sử dụng lệnh:

        pip install mlxtend

Bây giờ, hãy huấn luyện một mô hình học máy và sau đó chúng ta sẽ xem cách tính toán độ lệch và phương sai của nó bằng Python:


In [3]:
import numpy as np
import pandas as pd

#mlxtend cung cấp các công cụ hữu ích để đánh giá mô hình học máy, đặc biệt trong tính toán các độ đo đánh giá mô hình
#hàm bias_variance_decomp giúp phân tích và đánh giá độ lệch(bias) và phương sai(varience)
from mlxtend.evaluate import bias_variance_decomp

#sklearn (Scikit-learn) cung cấp các công cụ và thuật toán để xây dựng, huấn luyện và đánh giá các mô hình học máy trên dữ liệu. 
#class LinearRegression sử dụng để xây dưng mô hình hồi quy tuyến tính
#tham số shuffle được sử dụng trong một số hàm để xáo trộn dữ liệu
#mean_squared_error dùng để tính toán độ đo Mean Squared Error giữa các dự đoán của mô hình và giá trị thực tế của biến mục tiêu.
from sklearn.linear_model import LinearRegression
from sklearn.utils import shuffle
from sklearn.metrics import mean_squared_error

#Sử dụng pandas để đọc nội dung trong file csv
data = pd.read_csv("https://raw.githubusercontent.com/amankharwal/Website-data/master/student-mat.csv")

#chọn các cột cần sử dụng("G1", "G2"...)
data = data[["G1", "G2", "G3", "studytime", "failures", "absences"]]

predict = "G3"
#khai báo x là mảng numpy với giá trị là dataframe data được loại bỏ đi cột predict("G3")
x = np.array(data.drop([predict], axis = 1))
#khai báo y là mảng numpy với giá trị là cột predict("G3") dataframe data
y = np.array(data[predict])

#Train_test_split dùng để chia dữ liệu thành các tập huấn luyện và tập kiểm tra để đào tạo và đánh giá mô hình học máy
from sklearn.model_selection import train_test_split

# hàm train_test_split có các tham số:
#     x: dữ liệu đầu vào
#     y: Nhãn hoặc biến mục tiêu
#     test_size = 0.2: Tỉ lệ dữ liệu chia cho tập kiểm tra là 0,2
# sau khi chạy, ta sẽ có các biến:
#     xtrain: Tập huấn luyện cho dữ liệu đầu vào
#     xtest: Tập kiểm tra cho dữ liệu đầu vào
#     ytrain: Tập huấn luyện cho nhãn
#     ytest: Tập kiểm tra cho nhãn
xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.2)

#tạo đối tượng linear_regression thuộc lớp LinearRegression()
linear_regression = LinearRegression()

#Phương thức fit dùng để huấn luyện mô hình trên dữ liệu huấn luyện để tìm ra các trọng số tối ưu cho mô hình
linear_regression.fit(xtrain, ytrain)

#Phương thức predict dùng để dự đoán giá trị đầu ra dựa trên dữ liệu đầu vào mới sau khi mô hình đã được huấn luyện
y_pred = linear_regression.predict(xtest)

Vậy, chúng ta đã đào tạo một mô hình học máy bằng cách sử dụng thuật toán hồi quy tuyến tính, dưới đây là cách chúng ta có thể tính toán độ lệch và phương sai của nó bằng Python:

In [4]:
mse, bias, variance = bias_variance_decomp(linear_regression, xtrain, ytrain, xtest, ytest, loss='mse', num_rounds=200, random_seed=123)
print("Average Bias : ", bias)
print("Average Variance : ", variance)

Average Bias :  3.451226149629213
Average Variance :  0.06975290787622372


Trong project 16, chúng ta đã sử dụng mô hình học máy Linear Regrerssion(Hồi quy tuyến tính) để đào tạo các dữ liệu huấn luyện(data training), tuy nhiên ngoài hồi quy tuyến tính, vẫn tồn tại những mô hình học máy khác với công dụng, ưu và nhược điểm riêng, và trong bài viết này, mình sẽ chia sẻ cho mọi người một số kiến thức cơ bản về mô hình học máy mà mình tìm hiểu được.


## 1. Khái niệm mô hình học máy
Mô hình học máy là một biểu hiện của một thuật toán quét qua hàng núi dữ liệu để tìm ra các mẫu hình hoặc đưa ra dự đoán, chúng có thể phát triển theo thời gian khi các dữ liệu mới được nhập vào hệ thống




## 2. Phân loại mô hình học máy
Mô hình học máy có thể được phân thành hai nhóm chính:
- Mô hình học có giám sát(Supervised learning)
- Mô hình học không giám sát(Unsupervise learning)

Sự khác biệt lớn nhất giữa hai mô hình này là mô hình có giám sát yêu cầu dữ liệu huấn luyện đầu vào và đầu ra được gắn nhãn, trong khi mô hình không được giám sát có thể xử lý các tập dữ liệu thô, không được gắn nhãn.

Trong đó, hai loại mô hình này lại có thể tiếp tục phân thành các nhóm khác:

### Mô hình học có giám sát
- Regression (Hồi quy): Dùng để dự đoán giá trị liên tục dựa trên dữ liệu huấn luyện.

- Classification (Phân loại): Dùng để dự đoán nhãn hoặc lớp của điểm dữ liệu.

- Time Series (Dòng thời gian): Dùng để dự đoán giá trị theo dòng thời gian.

### Mô hình học không giám sát
- Clustering (Gom cụm): Dùng để phân nhóm không có nhãn dữ liệu.

- Dimensionality Reduction (Giảm chiều dữ liệu): Dùng để giảm số chiều của dữ liệu.

- Anomaly Detection (Phát hiện ngoại lệ): Dùng để phát hiện các điểm ngoại lệ trong dữ liệu.

- Association (Liên kết): Dùng để khám phá các mối quan hệ tương quan giữa các biến trong dữ liệu.

## 3. Triển khai mô hình học máy sử dụng python

Vì trong project 16 chúng ta đã sử dụng mô hình hồi quy tuyến tính(Linear Regression) nên trong bài này, mình sẽ triển khai một số mô hình học máy hồi quy cơ bản sử dụng tập dữ liệu từ project 16

Trước khi đến với bước triển khai mô hình học máy, chúng ta cần một số thao tác tiền xử lý dữ liệu giúp cho tập dữ liệu được tối ưu cho việc đào tạo mô hình học máy

In [1]:
import numpy as np
import pandas as pd
from mlxtend.evaluate import bias_variance_decomp
from sklearn.utils import shuffle
from sklearn.metrics import mean_squared_error
#hàm dùng để tính chỉ số mae và r2
from sklearn.metrics import mean_absolute_error, r2_score

from sklearn.preprocessing import StandardScaler

data = pd.read_csv("https://raw.githubusercontent.com/amankharwal/Website-data/master/student-mat.csv")

data = data[["G1", "G2", "G3", "studytime", "failures", "absences"]]

predict = "G3"
x = np.array(data.drop([predict], axis = 1))
y = np.array(data[predict])

from sklearn.model_selection import train_test_split

x_train, x_test, ytrain, ytest = train_test_split(x, y, test_size=0.2, random_state = 1)

scaler = StandardScaler()
xtrain = scaler.fit_transform(x_train)
xtest = scaler.transform(x_test)

Vì sử dụng chung một tập dữ liệu trong project 16, nên bước tiền xử lý dữ liệu cũng được thực hiện như trong project 16 và giúp chúng ta thu được các tập
- xtrain, ytrain: các dữ liệu được dùng để đào tạo mô hình học máy
- xtest, ytest: các dữ liệu được dùng để kiểm tra độ chính xác của mô hình dữ liệu

Tiếp theo, chúng ta đến với bước đào tạo các mô hình học máy:


### 3.1 Mô hình hồi quy tuyến tính(Linear Regression)
Hồi quy tuyến tính là một loại mô hình học máy có giám sát để tính toán mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều tính năng độc lập. Khi số lượng của đặc điểm độc lập là 1 thì nó được gọi là hồi quy tuyến tính đơn biến và trong trường hợp có nhiều hơn một đặc điểm, nó được gọi là hồi quy tuyến tính đa biến.

In [2]:
from sklearn.linear_model import LinearRegression 

linear_regression = LinearRegression()

linear_regression.fit(xtrain, ytrain)

y_linear_pred = linear_regression.predict(xtest)

#Kiểm tra độ chính xác của mô hình
pd.DataFrame({"Thực tế": ytest, "Dự đoán": y_linear_pred})

Unnamed: 0,Thực tế,Dự đoán
0,0,5.206727
1,10,10.046494
2,8,6.878998
3,10,8.789340
4,10,9.834604
...,...,...
74,12,12.200739
75,11,9.325629
76,10,10.620337
77,13,13.134082


### 3.2 Mô hình hồi quy cây quyết định(Decision tree)

Cây quyết định là một thuật toán học máy có giám sát linh hoạt, được sử dụng cho cả các vấn đề phân loại và hồi quy. Đây là một trong những thuật toán rất mạnh mẽ. Và nó cũng được sử dụng trong mô hình hồi quy rừng ngẫu nhiên để huấn luyện trên các tập hợp con dữ liệu huấn luyện khác nhau, điều này khiến mô hình hồi quy rừng ngẫu nhiên trở thành một trong những thuật toán mạnh mẽ nhất trong học máy.

In [3]:
from sklearn.tree import DecisionTreeRegressor

Ds_regressor = DecisionTreeRegressor(max_depth = 3)

Ds_regressor.fit(xtrain, ytrain)

y_ds_pred = Ds_regressor.predict(xtest)

pd.DataFrame({"Thực tế": ytest, "Dự đoán": y_ds_pred})

Unnamed: 0,Thực tế,Dự đoán
0,0,5.750000
1,10,9.402778
2,8,9.402778
3,10,9.402778
4,10,5.750000
...,...,...
74,12,11.653846
75,11,9.402778
76,10,11.653846
77,13,13.031250


### 3.3 Mô hình hồi quy rừng ngẫu nhiên(Randomforest)

Hồi quy rừng ngẫu nhiên trong học máy là một kỹ thuật tổng hợp có khả năng thực hiện cả nhiệm vụ hồi quy và phân loại bằng cách sử dụng nhiều cây quyết định và một kỹ thuật gọi là Bootstrap và Aggregation, thường được gọi là đóng bao. Ý tưởng cơ bản của nó là kết hợp nhiều cây quyết định để xác định đầu ra cuối cùng thay vì dựa vào các cây quyết định riêng lẻ

In [4]:
from sklearn.ensemble import RandomForestRegressor

rf_regressor = RandomForestRegressor(random_state = 1)

rf_regressor.fit(xtrain, ytrain)

y_rf_pred = rf_regressor.predict(xtest)

pd.DataFrame({"Thực tế": ytest, "Dự đoán": y_rf_pred})

Unnamed: 0,Thực tế,Dự đoán
0,0,2.430000
1,10,9.625444
2,8,8.960000
3,10,9.560000
4,10,9.250000
...,...,...
74,12,12.742500
75,11,9.667611
76,10,11.533333
77,13,12.624667


## 4. Đánh giá chính xác của mô hình
Chúng ta có thể thông qua hai chỉ số độ lệch(bias) và phương sai(variance) để đánh giá độ hiệu quả của mô hình học máy với:
- Độ lệch: là trung bình của hiệu giữa giá trị thực tế và giá trị dự đoán, độ lệch càng nhỏ thì mô hình đưa ra dự đoán càng chính xác

- Phương sai: biểu thị cho việc giá trị dự đoán có dao động lớn nhưng thiếu tổng quát, phương sai cao cho thấy rằng mô hình đó có thể hoạt động tốt trên dữ liệu đã được huấn luyện nhưng sẽ không khái quát tốt trên tập dữ liệu mà nó chưa từng thấy trước đây.

Chúng ta đã nghiên cứu việc sử dụng python để tính toán hai chỉ số này trong project 16

In [5]:
linear_mse, linear_bias, linear_variance = bias_variance_decomp(linear_regression, xtrain, ytrain, xtest, ytest, loss='mse', num_rounds=200, random_seed=123)

ds_mse, ds_bias, ds_variance = bias_variance_decomp(Ds_regressor, xtrain, ytrain, xtest, ytest, loss='mse', num_rounds=200, random_seed=123)

rf_mse, rf_bias, rf_variance = bias_variance_decomp(rf_regressor, xtrain, ytrain, xtest, ytest, loss='mse', num_rounds=200, random_seed=123)

model = ["LinearRegression", "DecisionTreeRegressor", "RandomForestRegressor"]
bias = [linear_bias, ds_bias, rf_bias]
varience = [linear_variance, ds_variance, rf_variance]

pd.DataFrame({"bias": bias, "variance": varience}, index = model)

Unnamed: 0,bias,variance
LinearRegression,2.74831,0.071968
DecisionTreeRegressor,2.071818,0.749488
RandomForestRegressor,1.663603,0.415294


Ngoài ra, chúng ta còn rất nhiều các chỉ số có thể dùng để đánh giá độ chính xác của mô hình, tiêu biểu như:

- Mean Absolute Error (MAE): MAE cũng đo lường sai số trung bình của mô hình so với dữ liệu thực tế, tuy nhiên MAE tính toán trung bình giá trị tuyệt đối của sai số. Giá trị MAE càng nhỏ thì mô hình càng tốt

- R-square (R²): Chỉ số R-square đo lường mức độ giải thích của mô hình đối với biến phụ thuộc. Giá trị của R-square dao động từ 0 đến 1, trong đó giá trị càng gần 1 thì mô hình càng tốt. R-square được tính bằng tổng phương sai được giải thích bởi mô hình chia cho tổng phương sai của biến phụ thuộc.



In [6]:
linear_mae = mean_absolute_error(ytest, y_linear_pred)
linear_r2 = r2_score(ytest, y_linear_pred)

ds_mae = mean_absolute_error(ytest, y_ds_pred)
ds_r2 = r2_score(ytest, y_ds_pred)

rf_mae = mean_absolute_error(ytest, y_rf_pred)
rf_r2 = r2_score(ytest, y_rf_pred)

mae_list = [linear_mae, ds_mae, rf_mae]
r2_list = [linear_r2, ds_r2, rf_r2]

pd.DataFrame({"mae": mae_list, "r2": r2_list}, index = model)

Unnamed: 0,mae,r2
LinearRegression,1.064267,0.798171
DecisionTreeRegressor,1.201225,0.785754
RandomForestRegressor,0.954649,0.86696


## 5. Tổng Kết

Vậy, qua bài này mình đã giới thiệu đến mọi người về một số kiến thức cơ bản của mô hình học máy như khái niệm, phân loại, cách đánh giá qua đô lệch, phương sai, và một số ví dụ cơ bản trong cách triển khai mô hình học máy với python. Mong cho những kiến thức này sẽ giúp ích cho các bạn trong việc tìm hiểu về học máy và cảm ơn các bạn đã chú ý lắng nghe

Các nguồn được tham khảo cho bài viết:
- https://www.youtube.com/watch?v=wujyckteVYM&t=843s
- https://www.datacamp.com/blog/machine-learning-models-explained
- https://www.geeksforgeeks.org/ml-linear-regression/
- https://www.geeksforgeeks.org/decision-tree/
- https://www.geeksforgeeks.org/random-forest-regression-in-python/
- https://thecleverprogrammer.com/2024/02/19/compare-multiple-machine-learning-models/
- https://chaydinhluong.com/9-chi-tieu-danh-gia-do-chinh-xac-mo-hinh-hoi-quy/