# AdaBoost (Adaptive Boosting) là một trong những thuật toán boosting đầu tiên và có ảnh hưởng lớn, thuộc nhóm các thuật toán ensemble learning. Nó được sử dụng để cải thiện hiệu suất của các "bộ phân loại yếu" (weak classifiers) hoặc "bộ hồi quy yếu" (weak regressors) bằng cách kết hợp chúng lại với nhau thành một "bộ phân loại mạnh" (strong classifier) hoặc "bộ hồi quy mạnh" (strong regressor).
Trong scikit-learn (sklearn), AdaBoost được triển khai thông qua hai lớp:
AdaBoostClassifier: Dùng cho các bài toán phân loại (classification).
AdaBoostRegressor: Dùng cho các bài toán hồi quy (regression).
Cả hai đều nằm trong module sklearn.ensemble.
Giải thích cách hoạt động của AdaBoost:
Ý tưởng cốt lõi của AdaBoost là huấn luyện một chuỗi các mô hình "yếu" (base estimators) một cách tuần tự. Ở mỗi bước, thuật toán sẽ tập trung vào các mẫu dữ liệu mà các mô hình trước đó đã dự đoán sai, tăng trọng số của các mẫu này lên để mô hình tiếp theo học cách xử lý chúng tốt hơn. Cuối cùng, các dự đoán từ tất cả các mô hình yếu được kết hợp lại thành dự đoán cuối cùng, với mỗi mô hình yếu có trọng số dựa trên hiệu suất của nó.
Các bước hoạt động cơ bản (cho phân loại, hồi quy tương tự với việc giảm lỗi thay vì phân loại sai):
Khởi tạo trọng số mẫu: Gán trọng số ban đầu bằng nhau cho tất cả các mẫu dữ liệu trong tập huấn luyện.
Lặp lại cho một số lượng mô hình yếu xác định:
Huấn luyện mô hình yếu: Huấn luyện một mô hình yếu (thường là một cây quyết định nông, gọi là "decision stump" - cây quyết định có độ sâu bằng 1) trên tập dữ liệu huấn luyện với trọng số mẫu hiện tại. Mô hình yếu này sẽ cố gắng phân loại các mẫu dựa trên trọng số của chúng.
Tính toán lỗi: Tính toán lỗi của mô hình yếu này (tỷ lệ mẫu được phân loại sai, có tính đến trọng số của mẫu).
Tính toán trọng số mô hình yếu: Gán một trọng số (mức độ quan trọng) cho mô hình yếu dựa trên lỗi của nó. Mô hình yếu có lỗi thấp sẽ có trọng số cao hơn (đóng góp nhiều hơn vào dự đoán cuối cùng).
Cập nhật trọng số mẫu: Tăng trọng số của các mẫu mà mô hình yếu vừa rồi dự đoán sai. Giảm trọng số của các mẫu mà mô hình dự đoán đúng. Điều này đảm bảo rằng mô hình yếu tiếp theo sẽ tập trung học từ các mẫu "khó" hơn.
Kết hợp dự đoán: Dự đoán cuối cùng được đưa ra bằng cách lấy tổng có trọng số các dự đoán của tất cả các mô hình yếu. Các mô hình yếu "tốt" (có trọng số cao) sẽ có ảnh hưởng lớn hơn đến kết quả cuối cùng.
Bộ phân loại/Hồi quy yếu (Base Estimator):
Theo mặc định, cả AdaBoostClassifier và AdaBoostRegressor trong scikit-learn đều sử dụng:
DecisionTreeClassifier(max_depth=1) làm bộ phân loại yếu mặc định cho AdaBoostClassifier.
DecisionTreeRegressor(max_depth=1) làm bộ hồi quy yếu mặc định cho AdaBoostRegressor.
Bạn có thể thay đổi base_estimator thành các mô hình khác, nhưng chúng nên là các mô hình "yếu" và hỗ trợ việc huấn luyện với trọng số mẫu (sample_weight).
Các tham số chính trong scikit-learn:
Các tham số quan trọng nhất khi sử dụng AdaBoostClassifier hoặc AdaBoostRegressor bao gồm:
base_estimator: (mặc định: DecisionTreeClassifier(max_depth=1) cho classifier, DecisionTreeRegressor(max_depth=1) cho regressor) - Đối tượng mô hình yếu được sử dụng.
n_estimators: (mặc định: 50) - Số lượng mô hình yếu được huấn luyện trong chuỗi. Tăng số này có thể cải thiện hiệu suất nhưng cũng làm tăng thời gian huấn luyện và nguy cơ overfitting nếu quá cao.
learning_rate: (mặc định: 1.0) - Một yếu tố nhân với trọng số đóng góp của mỗi mô hình yếu. Giá trị nhỏ hơn 1.0 làm giảm đóng góp của mỗi mô hình, yêu cầu n_estimators lớn hơn để đạt hiệu suất tương đương, nhưng có thể giúp ổn định quá trình huấn luyện và cải thiện khả năng khái quát hóa.
algorithm (chỉ có trong AdaBoostClassifier): (mặc định: 'SAMME') - Thuật toán được sử dụng để cập nhật trọng số.
'SAMME' (Stagewise Additive Modeling using a Multi-class Exponential loss function) - Sử dụng dự đoán lớp rời rạc.
'SAMME.R' (SAMME with Real contribution) - Sử dụng xác suất lớp (nếu base_estimator hỗ trợ predict_proba). 'SAMME.R' thường được ưa chuộng hơn vì nó hội tụ nhanh hơn và thường cho kết quả tốt hơn.
random_state: (mặc định: None) - Seed cho bộ sinh số ngẫu nhiên, đảm bảo tính tái lập của kết quả (quan trọng khi base_estimator hoặc dữ liệu có yếu tố ngẫu nhiên, ví dụ: DecisionTreeClassifier với splitter='random').
Ưu điểm của AdaBoost:
Hiệu quả: Thường cải thiện đáng kể hiệu suất của các mô hình yếu.
Không yêu cầu nhiều tinh chỉnh: Với bộ phân loại yếu mặc định (decision stump), AdaBoost khá dễ sử dụng và thường cho kết quả tốt ngay từ đầu.
Không dễ bị overfitting như các boosting method khác (khi số lượng estimator không quá lớn).
Dễ hiểu về mặt khái niệm (thuật toán cập nhật trọng số).
Nhược điểm của AdaBoost:
Nhạy cảm với dữ liệu nhiễu và outliers: Do nó tập trung vào các mẫu bị phân loại sai, các mẫu nhiễu hoặc outliers có thể được gán trọng số rất cao, làm sai lệch quá trình huấn luyện.
Có thể chậm hơn so với các thuật toán boosting hiện đại hơn: Mặc dù thường nhanh hơn các phương pháp ensemble đơn giản, AdaBoost có thể chậm hơn Gradient Boosting hoặc XGBoost, LightGBM trong một số trường hợp, đặc biệt với tập dữ liệu lớn.
Thường không cho hiệu suất tốt nhất so với các thuật toán boosting hiện đại hơn trên nhiều bộ dữ liệu.
Khi nào nên sử dụng AdaBoost:
Khi bạn cần một mô hình boosting đơn giản và dễ hiểu.
Như một mô hình baseline để so sánh với các thuật toán boosting khác.
Khi dữ liệu không quá lớn hoặc có ít outliers.
Kết hợp với các base estimator yếu và nhanh (như decision stumps).

In [1]:
import pandas as pd
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=2000, n_features=10, n_informative=8, n_redundant=2, random_state=42)

In [2]:
X

array([[ 2.33954489,  1.4037014 , -2.40278243, ..., -1.69596599,
        -2.17030091, -0.31584678],
       [-2.25303289,  0.2218744 , -3.631354  , ...,  2.8707434 ,
         2.30952337, -1.15352719],
       [ 4.22070622,  0.45940228, -0.77435   , ..., -1.71494404,
        -1.0237951 , -2.38628718],
       ...,
       [-2.39978952,  1.77857527,  0.01178622, ...,  2.14784238,
         0.5053414 , -0.12831655],
       [-2.28779828, -2.12008847, -0.06616717, ...,  2.91736503,
        -2.2762945 ,  6.5974009 ],
       [ 1.86343487, -0.35027395,  2.7778456 , ..., -6.24963888,
        -1.37124551,  1.30662376]], shape=(2000, 10))

In [3]:
y

array([1, 0, 1, ..., 0, 0, 0], shape=(2000,))

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)

from sklearn.ensemble import AdaBoostClassifier
abc = AdaBoostClassifier()
abc.fit(X_train, y_train)

In [8]:
y_pred = abc.predict(X_test)

In [9]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


In [10]:
print(accuracy_score(y_test, y_pred))

0.74


In [11]:
print(confusion_matrix(y_test, y_pred))

[[136  52]
 [ 52 160]]


In [12]:
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.72      0.72      0.72       188
           1       0.75      0.75      0.75       212

    accuracy                           0.74       400
   macro avg       0.74      0.74      0.74       400
weighted avg       0.74      0.74      0.74       400



In [13]:
from sklearn.linear_model import LogisticRegression

abclog = AdaBoostClassifier(estimator=LogisticRegression())
abclog.fit(X_train, y_train)

In [14]:
y_pred2 = abclog.predict(X_test)
print(accuracy_score(y_test, y_pred2))

0.6775


In [16]:
from sklearn.svm import SVC

svc = SVC(kernel='linear', probability=True)
abcsvm = AdaBoostClassifier(estimator=svc, n_estimators=25, learning_rate=0.1)


In [17]:
abcsvm.fit(X_train, y_train)

y_pred3 = abcsvm.predict(X_test)

In [18]:
print(accuracy_score(y_test, y_pred3))

0.6875


In [19]:
#hyperparameter tunning 
param_grid = {
    'n_estimators': [1, 5, 10, 25, 50, 100, 500],
    'learning_rate': [0.0001, 0.001, 0.01, 0.1, 0.5, 1.0]
}

In [20]:
from sklearn.model_selection import GridSearchCV

abc_grid = GridSearchCV(abc, param_grid, cv=3, n_jobs=-1)
abc_grid.fit(X_train, y_train)

In [22]:
abc_grid.best_params_
# {'learning_rate': 0.1, 'n_estimators': 500}

abc2 = AdaBoostClassifier(learning_rate=0.2, n_estimators=500)
abc2.fit(X_train, y_train)

y_pred4 = abcsvm.predict(X_test)

In [23]:
print(accuracy_score(y_test, y_pred4))

0.6875
