# CÁC PHƯƠNG PHÁP BOOSTING VÀ ENSEMBLE

Trong notebook này, chúng ta sẽ tìm hiểu về các phương pháp không nằm trong bộ sklearn mà thường được sử dụng để thi các cuộc thi trên Kaggle và đạt được độ chính xác cao. Cụ thể, chúng ta sẽ tập trung vào các thuật toán Gradient Boosting như ***XGBoost***, ***LightGBM*** và ***CatBoost***. Chúng ta cũng sẽ tìm hiểu về cách kết hợp chúng bằng kỹ thuật Ensemble để cải thiện hiệu suất dự đoán.

### 1. Tải dữ liệu

Trong bài này ta sẽ sữ dụng dữ liệu về ung thư vú được tải từ hàm `load_breast_cancer()` của module `sklearn.datasets`.

In [1]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

# Tải dữ liệu
breast_cancer = load_breast_cancer()
X = breast_cancer.data
y = breast_cancer.target

# Tạo dataframe từ dữ liệu để dễ dàng quan sát
df = pd.DataFrame(data=X, columns=breast_cancer.feature_names)
df["target"] = y

In [2]:
# Xem qua một vài dòng dữ liệu
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [3]:
# Xem kiểu dữ liệu và số giá trị rỗng của mỗi cột
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

### 2. Tiền xử lí dữ liệu

Vì dữ liệu ở các cột là kiểu số và không có giá trị rỗng nên ta chỉ cần chuẩn hóa dữ liệu sử dụng lớp `MinMaxScaler` từ module `sklearn.preprocessing`.

In [4]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X = scaler.fit_transform(X)

Sau đó ta tiến hành chia tập dữ liệu thành 2 phần: tập train và tập test sử dụng hàm `train_test_split()` từ module `sklearn.model_selection` là xong phần chuẩn bị dữ liệu.

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 3. Xây dựng các mô hình boosting

Chúng ta sẽ sử dụng những mô hình boosting được dùng nhiều từ những cuộc thi về machine learning trên Kaggle vì chúng có độ chính xác cao trên những dữ liệu thuộc kiểu bảng (tabular data). Những mô hình đó không có sẵn trong thư viện `sklearn` mà từ những thư viện.

**Bài tập**: Hãy import 3 mô hình `XGBClassifier`, `LGBMClassifier`, `CatBoostClassifier` có sẵn lần lượt từ các thư viện `xgboost`, `lightgbm`, `catboost` (cài đặt trước đó bằng cách `pip install xgboost lightgbm catboost`) và gán vào những biến đã được khởi tạo bên dưới sao cho phù hợp. Lưu ý: Khởi tạo mỗi mô hình với tham số ***random_state=42*** đối với 2 mô hình `XGBClassifier` và `LGBMClassifier`.

In [6]:
xgboost_clf = None
lgbm_clf = None
catboost_clf = None

### BEGIN SOLUTION

%pip install xgboost lightgbm catboost

from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier

xgboost_clf = XGBClassifier(random_state=42)
lgbm_clf = LGBMClassifier(random_state=42)
catboost_clf = CatBoostClassifier()

### END SOLUTION

[0mNote: you may need to restart the kernel to use updated packages.


In [7]:
assert xgboost_clf is not None and lgbm_clf is not None and catboost_clf is not None

### <span style="color:red; font-size:small;">Part #1: {"attained_score": 1, "max_score": 1}</span>


### <span style="color:red; font-size:small;">Part #2: {"attained_score": 1, "max_score": 1}</span>


Ta tiến hành huấn luyện các mô hình trên trên tập train

In [10]:
xgboost_clf.fit(X_train, y_train)
lgbm_clf.fit(X_train, y_train)
catboost_clf.fit(X_train, y_train)

[LightGBM] [Info] Number of positive: 286, number of negative: 169
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000377 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4548
[LightGBM] [Info] Number of data points in the train set: 455, number of used features: 30
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.628571 -> initscore=0.526093
[LightGBM] [Info] Start training from score 0.526093
Learning rate set to 0.00736
0:	learn: 0.6812707	total: 216ms	remaining: 3m 35s
1:	learn: 0.6692554	total: 224ms	remaining: 1m 51s
2:	learn: 0.6584000	total: 231ms	remaining: 1m 16s
3:	learn: 0.6482154	total: 238ms	remaining: 59.3s
4:	learn: 0.6375285	total: 245ms	remaining: 48.8s
5:	learn: 0.6284122	total: 253ms	remaining: 41.9s
6:	learn: 0.6165950	total: 260ms	remaining: 36.8s
7:	learn: 0.6064602	total: 267ms	remaining: 33.1s
8:	learn: 0.5955532	total: 274ms	remaining: 30.2s
9:	learn: 0.5862556	total: 281ms

<catboost.core.CatBoostClassifier at 0x7f4a62346620>

Sau khi huấn luyện thành công, ta sẽ đánh giá lần lượt từng mô hình trên tập test với metric là accuracy.

**Bài tập**: Hãy sử dụng hàm `accuracy_score` từ module `sklearn.metrics` để tính toán độ chính xác của từng mô hình trên tập test và gán nó vào các biến đã tạo bên dưới sao cho phù hợp.

In [11]:
xgboost_clf_acc = None
lgbm_clf_acc = None
catboost_clf_acc = None

### BEGIN SOLUTION
from sklearn.metrics import accuracy_score
y_pred_xgb = xgboost_clf.predict(X_test)
y_pred_lgbm = lgbm_clf.predict(X_test)
y_pred_catboost = catboost_clf.predict(X_test)

xgboost_clf_acc = accuracy_score(y_test, y_pred_xgb)
lgbm_clf_acc = accuracy_score(y_test, y_pred_lgbm)
catboost_clf_acc = accuracy_score(y_test, y_pred_catboost)

### END SOLUTION

In [12]:
assert str(type(xgboost_clf_acc)) == "<class 'numpy.float64'>"
assert str(type(lgbm_clf_acc)) == "<class 'numpy.float64'>"
assert str(type(catboost_clf_acc)) == "<class 'numpy.float64'>"

AssertionError: 

### <span style="color:red; font-size:small;">Part #3: {"attained_score": 1, "max_score": 1}</span>


In độ chính xác của từng mô hình, ta thấy rằng độ chính xác của chúng là khá cao so với những mô hình phân loại mà ta sử dụng trước đó.

In [14]:
print("XGBClassifier Accuracy:     ", xgboost_clf_acc)
print("LGBMClassifier Accuracy:    ", lgbm_clf_acc)
print("CatBoostClassifier Accuracy:", catboost_clf_acc)

XGBClassifier Accuracy:      0.956140350877193
LGBMClassifier Accuracy:     0.9649122807017544
CatBoostClassifier Accuracy: 0.9736842105263158


### 4. Ensemble Methods

Trong Machine Learning, ***Ensemble Methods*** là một kỹ thuật mạnh mẽ được sử dụng để cải thiện hiệu suất của các mô hình dự đoán. Thay vì sử dụng một mô hình duy nhất để thực hiện dự đoán, Ensemble Methods kết hợp kết quả từ nhiều mô hình con để đưa ra dự đoán cuối cùng. Việc này có thể giúp giảm thiểu sai số và tăng tính ổn định của dự đoán.

Các phương pháp Ensemble được sử dụng rộng rãi trong các cuộc thi trên Kaggle và các ứng dụng thực tế trong thế giới thực. Dưới đây, chúng ta sẽ tìm hiểu về hai kỹ thuật Ensemble phổ biến: ***Voting Classifier*** và ***Stacking Classifier***.

#### 4.1. Voting Classifier

***Voting Classifier*** là một phương pháp Ensemble đơn giản nhưng hiệu quả. Nó làm việc bằng cách kết hợp kết quả dự đoán từ nhiều mô hình con khác nhau. Có hai loại chính của ***Voting Classifier***:

* ***Hard Voting***: Kết quả cuối cùng là kết quả của sự bỏ phiếu đa số giữa các mô hình con. Nếu hơn một nửa các mô hình dự đoán một lớp cụ thể, lớp đó sẽ được chọn là kết quả.

* ***Soft Voting***: Kết quả cuối cùng là kết quả của sự bỏ phiếu dựa trên xác suất dự đoán của các mô hình con. Nó thường làm tốt hơn so với hard voting và phù hợp khi các mô hình con có khả năng ước tính xác suất.

**Bài tập**: Hãy import lớp `VotingClassifier` từ module `sklearn.ensemble` và tạo một mô hình ensemble kết hợp từ 3 mô hình boosting phía trên và gán vào biến `voting_model` bên dưới. Lưu ý: Khởi tạo mô hình **voting** với tham số ***voting="soft"***, sử dụng lại các mô hình boosting đã tạo.

In [15]:
voting_model = None

### BEGIN SOLUTION
from sklearn.ensemble import VotingClassifier
voting_model = VotingClassifier(estimators=[
    ('xgb', xgboost_clf),
    ('lgbm', lgbm_clf),
    ('catboost', catboost_clf)
], voting="soft")

### END SOLUTION

In [16]:
assert voting_model.__class__.__name__ == "VotingClassifier"
assert len(voting_model.estimators) == 3

### <span style="color:red; font-size:small;">Part #4: {"attained_score": 1, "max_score": 1}</span>


Ta tiến hành huấn luyện và đánh giá mô hình voting thôi nào

In [18]:
from sklearn.metrics import accuracy_score

voting_model.fit(X_train, y_train)
print("Voting Model Accuracy:",
      accuracy_score(y_test, voting_model.predict(X_test)))

[LightGBM] [Info] Number of positive: 286, number of negative: 169
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000289 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 4548
[LightGBM] [Info] Number of data points in the train set: 455, number of used features: 30
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.628571 -> initscore=0.526093
[LightGBM] [Info] Start training from score 0.526093
Learning rate set to 0.00736
0:	learn: 0.6812707	total: 174ms	remaining: 2m 53s
1:	learn: 0.6692554	total: 181ms	remaining: 1m 30s
2:	learn: 0.6584000	total: 188ms	remaining: 1m 2s
3:	learn: 0.6482154	total: 195ms	remaining: 48.5s
4:	learn: 0.6375285	total: 204ms	remaining: 40.6s
5:	learn: 0.6284122	total: 212ms	remaining: 35.1s
6:	learn: 0.6165950	total: 220ms	remaining: 31.2s
7:	learn: 0.6064602	total: 227ms	remaining: 28.2s
8:	learn: 0.5955532	total: 234ms	remaining: 25.8s
9:	learn: 0.5862556	total: 241ms	

#### 4.2. Stacking Classifier

***Stacking Classifier*** là một phương pháp Ensemble phức tạp hơn so với ***Voting Classifier***. Trong Stacking, các mô hình con được chia thành hai hoặc nhiều tầng (layers). Ở tầng đầu tiên (base layer), các mô hình con được huấn luyện trên dữ liệu huấn luyện và dự đoán trên dữ liệu kiểm tra. Sau đó, dự đoán từ các mô hình con ở tầng đầu tiên được sử dụng như đầu vào cho mô hình cấp cao hơn (meta-model) ở tầng thứ hai (meta layer) để dự đoán kết quả cuối cùng.

Stacking thường cần nhiều tính toán hơn và sử dụng nhiều tài nguyên hơn so với Voting, nhưng nó có tiềm năng để tạo ra các ensemble mạnh hơn và cải thiện hiệu suất dự đoán.

Cả hai kỹ thuật này đều có thể giúp cải thiện hiệu suất dự đoán của mô hình bằng cách kết hợp sức mạnh của nhiều mô hình con, tuy nhiên, bạn cần lựa chọn một trong số họ dựa trên bộ dữ liệu cụ thể và mục tiêu của bạn.

**Bài tập**: Hãy import lớp `StackingClassifier` từ module `sklearn.ensemble` và tạo một mô hình ensemble kết hợp từ 3 mô hình boosting phía trên theo thứ tự: `XGBClassifier`, `LGBMClassifier`, `CatBoostClassifier` với mô hình cuối cùng để kếp hợp dự đoán (tham số final_estimator) là `XGBClassifier` và gán vào biến `stacking_model` bên dưới. Lưu ý: sử dụng lại các mô hình boosting đã tạo.

In [19]:
stacking_model = None

### BEGIN SOLUTION
from sklearn.ensemble import StackingClassifier

stacking_model = StackingClassifier(estimators=[
    ('xgb', xgboost_clf),
    ('lgbm', lgbm_clf),
    ('catboost', catboost_clf)
], final_estimator=XGBClassifier(random_state=42))

### END SOLUTION

In [20]:
assert stacking_model.__class__.__name__ == "StackingClassifier"
assert len(stacking_model.estimators) == 3

### <span style="color:red; font-size:small;">Part #5: {"attained_score": 1, "max_score": 1}</span>


Ta tiến hành huấn luyện và đánh giá mô hình stacking tương tự như trên.

In [22]:
stacking_model.fit(X_train, y_train)
print("Stacking Model Accuracy:",
      accuracy_score(y_test, stacking_model.predict(X_test)))

Truncated to 128 KB...
460:	learn: 0.0344562	total: 2.82s	remaining: 3.3s
461:	learn: 0.0343564	total: 2.83s	remaining: 3.29s
462:	learn: 0.0342872	total: 2.83s	remaining: 3.29s
463:	learn: 0.0341946	total: 2.84s	remaining: 3.28s
464:	learn: 0.0340763	total: 2.85s	remaining: 3.28s
465:	learn: 0.0339903	total: 2.85s	remaining: 3.27s
466:	learn: 0.0338906	total: 2.86s	remaining: 3.26s
467:	learn: 0.0337749	total: 2.86s	remaining: 3.26s
468:	learn: 0.0336905	total: 2.87s	remaining: 3.25s
469:	learn: 0.0335743	total: 2.88s	remaining: 3.24s
470:	learn: 0.0334646	total: 2.88s	remaining: 3.24s
471:	learn: 0.0333139	total: 2.89s	remaining: 3.23s
472:	learn: 0.0332125	total: 2.89s	remaining: 3.22s
473:	learn: 0.0331438	total: 2.9s	remaining: 3.22s
474:	learn: 0.0330255	total: 2.9s	remaining: 3.21s
475:	learn: 0.0329078	total: 2.91s	remaining: 3.2s
476:	learn: 0.0328035	total: 2.92s	remaining: 3.2s
477:	learn: 0.0327125	total: 2.92s	remaining: 3.19s
478:	learn: 0.0325967	total: 2.93s	remaining: 

### 5. Kết Luận

Trong notebook này, chúng ta đã tìm hiểu về các phương pháp không nằm trong bộ sklearn như XGBoost, LightGBM và CatBoost, những mô hình thông dụng trong các cuộc thi trên Kaggle để đạt được độ chính xác cao. Chúng ta đã thực hiện các bước cơ bản từ tiền xử lý dữ liệu, huấn luyện các mô hình, và đánh giá hiệu suất trên tập kiểm tra.

Một số điểm quan trọng cần lưu ý:
- XGBoost, LightGBM và CatBoost là các mô hình mạnh mẽ có thể mang lại kết quả tốt trên nhiều loại dữ liệu khác nhau.
- Lựa chọn mô hình thường dựa trên thử nghiệm và kiến thức về từng thuật toán. XGBoost thường là một lựa chọn tốt để bắt đầu, nhưng LightGBM và CatBoost có thể mang lại kết quả tốt hơn trong một số trường hợp.
- Kỹ thuật Ensemble, như sử dụng `VotingClassifier`, có thể cải thiện độ chính xác của mô hình bằng cách kết hợp sức mạnh của các mô hình khác nhau.

Hãy nhớ rằng để thành công trên Kaggle hoặc trong bất kỳ dự án Machine Learning nào, việc thử nghiệm và tinh chỉnh là quan trọng. Hãy luôn cân nhắc và tùy chỉnh phương pháp của mình để phù hợp với bài toán cụ thể và dữ liệu của bạn.

Chúc các bạn thành công trong việc tham gia các cuộc thi trên Kaggle và trong việc áp dụng Machine Learning vào thực tế!
