# Gradient Boosting trong scikit-learn là một phương pháp ensemble learning mạnh mẽ, kết hợp nhiều mô hình yếu (thường là cây quyết định) để tạo ra một mô hình mạnh. Nó hoạt động bằng cách tuần tự xây dựng các mô hình, mỗi mô hình sau cố gắng sửa lỗi của mô hình trước đó. Dưới đây là giải thích chi tiết:

1. Cách hoạt động của Gradient Boosting
Quy trình cơ bản :
Khởi tạo : Bắt đầu với một mô hình đơn giản (ví dụ: giá trị trung bình của mục tiêu).
Tính residual (sai số) : Tính toán sai số giữa giá trị dự đoán và giá trị thực tế.
Huấn luyện mô hình mới : Xây dựng một mô hình yếu (ví dụ: cây quyết định) để dự đoán residual từ bước trước.
Cập nhật dự đoán : Thêm kết quả của mô hình mới vào dự đoán tổng thể, với hệ số learning rate để kiểm soát tốc độ học.
Lặp lại : Lặp lại bước 2–4 cho đến khi đạt số lượng mô hình tối đa (n_estimators).
Đặc điểm :
Tuần tự : Mỗi mô hình phụ thuộc vào mô hình trước đó.
Gradient Descent trong không gian hàm : Tối ưu hóa hàm mất mát (loss function) bằng cách sử dụng gradient descent.
2. Các lớp trong scikit-learn
GradientBoostingClassifier : Dùng cho bài toán phân loại.
GradientBoostingRegressor : Dùng cho bài toán hồi quy.
3. Các tham số quan trọng
a) Tham số cơ bản
n_estimators: Số lượng cây quyết định trong ensemble (mặc định: 100).
learning_rate: Hệ số điều chỉnh ảnh hưởng của từng cây (mặc định: 0.1). Giá trị nhỏ giúp giảm overfitting nhưng cần nhiều cây hơn.
max_depth: Độ sâu tối đa của mỗi cây (mặc định: 3). Độ sâu lớn có thể dẫn đến overfitting.
min_samples_split: Số lượng mẫu tối thiểu cần thiết để tách một nút (mặc định: 2).
subsample: Tỉ lệ mẫu được sử dụng để huấn luyện mỗi cây (mặc định: 1.0). Nếu < 1.0, gọi là Stochastic Gradient Boosting .
b) Tham số cho hàm mất mát (loss function)
Phân loại :
loss='deviance' (mặc định): Sử dụng log loss (cross-entropy).
loss='exponential': Sử dụng hàm mất mát của AdaBoost.
Hồi quy :
loss='squared_error' (mặc định): Hàm mất mát bình phương.
loss='absolute_error': Hàm mất mát tuyệt đối.
|

In [2]:
import pandas as pd
from sklearn import datasets

wine = datasets.load_wine(as_frame=True)
X = wine['data']
y = wine['target']

In [3]:
X

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [4]:
y

0      0
1      0
2      0
3      0
4      0
      ..
173    2
174    2
175    2
176    2
177    2
Name: target, Length: 178, dtype: int64

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=17)

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

In [7]:
gbr = GradientBoostingClassifier()
gbr.fit(X_train, y_train)

cross_val_score(gbr, X_train, y_train, cv=3, n_jobs=-1).mean()


np.float64(0.9221335697399526)

In [8]:
param_grid = {
    'n_estimators': [10, 50, 100, 500],
    'learning_rate': [0.0001, 0.001, 0.01, 0.1, 1.0],
    'max_depth': [3, 5, 7, 9]
}

In [9]:
from sklearn.model_selection import GridSearchCV

gbr2 = GridSearchCV(gbr, param_grid, cv=3, n_jobs=-1)
gbr2.fit(X_train, y_train)

In [10]:
gbr2.best_params_

{'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 500}

In [11]:
gbr2.best_score_

np.float64(0.9434101654846335)