# Aula 6 - métodos de ensemble (bagging e boosting)

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Métodos de ensemble
- 2) Bagging & Random Forest
- 3) Boosting & AdaBoost
- 4) Gradient Boosting
- 5) XGBoost
- 6) LightGBM

_________________

No fim da aula de hoje, vamos conhecer duas novas bibliotecas. Vamos já instalá-las, pra adiantar:

`pip install xgboost`

`pip install lightgbm`

_______

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from ml_utils import *

____
____
____

## 1) Métodos de Ensemble


Há uma classe de algoritmos de Machine Learning, os chamados **métodos de ensemble** que têm como objetivo **combinar as predições de diversos estimadores mais simples** para gerar uma **predição final mais robusta**.

Os métodos de ensemble costuman ser divididos em duas classes:

- **Métodos de média**: têm como procedimento geral construir diversos estimadores independentes, e tomar a média de suas predições como a predição final. O principal objetivo do método é reduzir **variância**, de modo que o modelo final seja melhor que todos os modelos individuais. Ex.: **bagging & random forest.**
<br>

- **Métodos de boosting**: têm como procedimento geral a construção de estimadores de forma sequencial, de modo que estimadores posteriores tentam reduzir o **viés** do estimador conjunto, que leva em consideração estimadores anteriores. Ex.: **adaboost, gradient boosting**.

Há, ainda, uma terceira classe de método de ensemble, o chamado [stacking ensemble](https://machinelearningmastery.com/stacking-ensemble-machine-learning-with-python/), que consiste em "empilhar" modelos de modo a produzir a mistura. Não veremos esta modalidade em detalhes, mas deixo como sugestão para estudos posteriores! :)

Para mais detalhes sobre métodos de ensemble no contexto do sklearn, [clique aqui!](https://scikit-learn.org/stable/modules/ensemble.html)

Na aula de hoje, vamos conhecer em detalhes os procedimentos de bagging e boosting, ilustrados pelos métodos Random Forest e AdaBoost/Gradient Boosting, respectivamente. Vamos lá!

_________
_______
_________

## 2) Bagging & Random Forest

Uma técnica muito interessante (e muito performática!) baseada em árvores é o **Random Forest**.

Neste método, são criadas varias **árvores diferentes e independentes entre si**, através de um processo **aleatório**, e a predição final é tomada através da média das predições individuais!

<img src="https://i.ytimg.com/vi/goPiwckWE9M/maxresdefault.jpg" width=700>

O Random Forest utiliza os conceitos de **bootstrapping** e **aggregation** (ou então, o procedimento composto **bagging**) para criar um modelo composto que é melhor que uma única árvore!

<img src="https://c.mql5.com/2/33/image1__1.png" width=800>

Vamos entrender um pouco melhor cada componente do método!

### Bootstrapping

O procedimento de **bootstrapping** é utilizado no contexto do random forest para gerar os chamados **bootstrapped datasets**.

A ideia é bem simples! Para a criação de cada bootstrapped dataset, primeiro:

> Selecionamos **aleatoriamente com reposição** algumas linhas da base original. Isso gera um novo dataset (reamostrado), chamado de **bootstrapped dataset**. O número de linhas do dataset reamostrado é controlável.

Logo após, fazemos uma árvore de decisão **treinada neste dataset reamostrado**. Mas, com um detalhe:

> Usamos apenas um **subconjunto aleatório das features** em cada avaliação de quebras (isso equivale ao `splitter="random"`). A quantidade de features a serem consideradas é controlável.

Com isso, muitas árvores são geradas (a quantidade também é controlável), cada uma seguindo o procedimento de bootstrap!

Note que o o procedimento de bootstrapping introduz **duas fontes de aleatoriedade**, cujo objetivo é **diminuir a variância** (tendência a overfitting) do modelo.

De fato, árvores individuais são facilmente overfitadas, como discutimos em aula (lembre-se da grande flexibilidade da hipótese em encontrar condições favoráveis à aprendizagem dos ruídos!).

Com esta aleatorização introduzida pelo bootstrapping, o objetivo é que as árvores construídas sejam **independentes**, de modo que **os erros cometidos por cada uma sejam independentes**. 

Deste modo, se considerarmos as previsões isoladas e de alguma forma **agregar** as previsões, a expectativa é que o modelo final seja **menos propenso a overfitting**! Mas, uma pergunta natural é: o que é essa "agragação"? Aqui entra o segundo elemento do bagging...

### Aggregation

Entendemos como o bootstrap é utilizado para gerar várias árvores independentes. 

Então, quando temos uma nova observação para atribuir o target, passamos as features **por cada uma das árvores**, e, naturalmente, cada árvore produz **o seu target**, que pode muito bem não ser o mesmo!

A **agregação** é utilizada para tomar a decisão final:

> No caso de classificação, a classe final é atribuída como **a classe majoritária**, isso é, **a classe que foi o output $\hat{y}$ mais vezes dentre todas as árvores**;

> No caso de regressão, o valor final é atribuído como **a média dos valores preditos $\hat{y}$ por cada árvore**.

Note que em ambos os casos, o procedimento de agregação pode ser visto como uma **média**, e o sklearn deixa isso explícito: "*In contrast to the original publication, the scikit-learn implementation combines classifiers by averaging their probabilistic prediction, instead of letting each classifier vote for a single class.*"

Tomando a média como procedimento de agregação, a expectativa é que **alguns erros sejam anulados**, garantindo uma previsão final **mais estável e mais generalizável**, dado que os ruídos são eliminados.

Juntando o bootstrapping com o aggregation, temos então o...

### Bagging

> Bagging: **b**ootstrap **agg**regat**ing**

Esquematicamente:

<img src=https://media.geeksforgeeks.org/wp-content/uploads/20210707140912/Bagging.png width=500>

As classes do random forest são:

- [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)

- [RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn.ensemble.RandomForestRegressor)

Ambos os métodos têm hiperparâmetros similares aos hiperparâmetros das árvores convencionais, aplicados a cada uma das árvores independentes.

Além destes, há dois hiperparâmetros bem importantes, referentes ao método de ensemble em si:

- `n_estimators` : controla quantas árvores independentes serão construídas (i.e., o número de árvores na floresta). Em geral, quanto mais árvores melhor (mas mais tempo vai demorar). Além disso, depois de uma determinade quantidade de árvores, os resultados vão parar de melhorar, pois há um limite para o bootstrap: depois de uma certa quantidade, as árvores deixam de ser tão independentes assim...
<br>

- `max_features`: o número de features no subconjunto aleatório de candidata a serem utilizadas em cada quebra. Quanto menor for o valor, mais conseguimos reduzir o overfitting, mas o underfitting é favorecido. Uma boa heurística é `max_features=None` para regressão e `max_features="sqrt"`para classificação, embora estratégias diferentes podem (e devem) ser testadas com o CV.


___

Para uma explicação bem visual sobre o funcionamento deste método, sugiro os vídeos do canal [StatQuest](https://www.youtube.com/watch?v=J4Wdy0Wc_xQ). 

Obs.: toda a [playlist de machine learning](https://www.youtube.com/playlist?list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF) é muitíssimo interessante, com vídeos super claros e ilustrativos! Além disso, há outros vídeos de estatística que são muito bons! Este é um dos melhores canais no youtube para se aprender de forma clara e descontraída sobre estatística e machine learning!

_____________

Agora, vamos ver o Random Forest em ação, na base de risco de crédito!

In [3]:
df = pd.read_csv("../datasets/german_credit_data.csv", index_col=0)

X = df.select_dtypes(include=np.number)
y = df["Risk"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [5]:
y_train

675    good
703    good
12     good
845    good
795    good
       ... 
284    good
169     bad
856    good
655    good
695    good
Name: Risk, Length: 800, dtype: object

In [6]:
from sklearn.ensemble import RandomForestClassifier

In [16]:
rf = RandomForestClassifier(random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       1.00      1.00      1.00       240
        good       1.00      1.00      1.00       560

    accuracy                           1.00       800
   macro avg       1.00      1.00      1.00       800
weighted avg       1.00      1.00      1.00       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.42      0.25      0.31        60
        good       0.73      0.85      0.78       140

    accuracy                           0.67       200
   macro avg       0.57      0.55      0.55       200
weighted avg       0.63      0.67      0.64       200



In [13]:
# # caso queiramos acessar as árvores que compõem a floresta
# rf.estimators_

In [18]:
rf = RandomForestClassifier(n_estimators=5000, random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       1.00      1.00      1.00       240
        good       1.00      1.00      1.00       560

    accuracy                           1.00       800
   macro avg       1.00      1.00      1.00       800
weighted avg       1.00      1.00      1.00       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.42      0.25      0.31        60
        good       0.73      0.85      0.78       140

    accuracy                           0.67       200
   macro avg       0.57      0.55      0.55       200
weighted avg       0.63      0.67      0.64       200



> **DICA**: o random forest é altamente paralelizável! (afinal, as árvores são independentes).
> Por este motivo, vale a pena utilizar o argumento `n_jobs`, para paralelizar e acelerar os cálculos!

In [22]:
rf = RandomForestClassifier(n_estimators=5000, random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       1.00      1.00      1.00       240
        good       1.00      1.00      1.00       560

    accuracy                           1.00       800
   macro avg       1.00      1.00      1.00       800
weighted avg       1.00      1.00      1.00       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.42      0.25      0.31        60
        good       0.73      0.85      0.78       140

    accuracy                           0.67       200
   macro avg       0.57      0.55      0.55       200
weighted avg       0.63      0.67      0.64       200



Apesar da performance relativamente boa no teste, é evidente que nosso modelo ainda está overfitado!

Isso é algo muito interessante do random forest: apesar de ser possível overfitá-lo, **a variância do erro de generalização vai a zero, conforme mais árvores são adicionadas**:

<img src=https://i.stack.imgur.com/8GU8U.png width=500>

Ou seja, um modelo de random forest **tende a ser mais estável** no que diz respeito à generalização!

Para evitar o overfitting em si, podemos usar as mesmas técnicas de regularização das árvores individuais, e aumentar o número de árvores na floresta:

In [23]:
rf = RandomForestClassifier(n_estimators=1000, max_depth=5,
                            random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.92      0.24      0.38       240
        good       0.75      0.99      0.86       560

    accuracy                           0.77       800
   macro avg       0.84      0.61      0.62       800
weighted avg       0.80      0.77      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.55      0.18      0.27        60
        good       0.73      0.94      0.82       140

    accuracy                           0.71       200
   macro avg       0.64      0.56      0.55       200
weighted avg       0.67      0.71      0.66       200



In [25]:
rf = RandomForestClassifier(n_estimators=1000, max_depth=4,
                            random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.89      0.20      0.32       240
        good       0.74      0.99      0.85       560

    accuracy                           0.75       800
   macro avg       0.81      0.59      0.58       800
weighted avg       0.79      0.75      0.69       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.64      0.15      0.24        60
        good       0.73      0.96      0.83       140

    accuracy                           0.72       200
   macro avg       0.68      0.56      0.54       200
weighted avg       0.70      0.72      0.65       200



É interessante também ajustar os hiperparâmetros específicos do bootstraping:

In [26]:
X_train.shape

(800, 4)

In [27]:
rf = RandomForestClassifier(n_estimators=1000, max_samples=100,
                            random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.89      0.30      0.45       240
        good       0.77      0.98      0.86       560

    accuracy                           0.78       800
   macro avg       0.83      0.64      0.66       800
weighted avg       0.80      0.78      0.74       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.54      0.22      0.31        60
        good       0.73      0.92      0.82       140

    accuracy                           0.71       200
   macro avg       0.64      0.57      0.56       200
weighted avg       0.68      0.71      0.66       200



In [28]:
rf = RandomForestClassifier(n_estimators=1000, max_samples=0.1,
                            random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.81      0.25      0.38       240
        good       0.75      0.97      0.85       560

    accuracy                           0.76       800
   macro avg       0.78      0.61      0.62       800
weighted avg       0.77      0.76      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.55      0.18      0.27        60
        good       0.73      0.94      0.82       140

    accuracy                           0.71       200
   macro avg       0.64      0.56      0.55       200
weighted avg       0.67      0.71      0.66       200



In [29]:
rf = RandomForestClassifier(n_estimators=1000, max_samples=0.1, max_features=2,
                            random_state=42, n_jobs=-1).fit(X_train, y_train)

_ = clf_metrics_train_test(rf, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.81      0.25      0.38       240
        good       0.75      0.97      0.85       560

    accuracy                           0.76       800
   macro avg       0.78      0.61      0.62       800
weighted avg       0.77      0.76      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.55      0.18      0.27        60
        good       0.73      0.94      0.82       140

    accuracy                           0.71       200
   macro avg       0.64      0.56      0.55       200
weighted avg       0.67      0.71      0.66       200



Será que dá pra melhorar?? Podemos construir uma pipeline e fazer o grid/random search para buscar o melhor modelo!

In [None]:
# façam o gird/random search, pipeline completa...
# obs: cuidado com o parâmetro n_estimators! se a grade incluir muitas árvores, vai demorar!

_________
_______
_________

## 3) Boosting & AdaBoost

O AdaBoost significa **Adaptive Boosting**, e tem como procedimento geral **a criação sucessiva dos chamados weak learners**, que são modelos bem fracos de aprendizagem - geralmente, **árvores de um único nó (stumps)**:

<img src="https://miro.medium.com/max/1744/1*nJ5VrsiS1yaOR77d4h8gyw.png" width=300>

O AdaBoost utiliza os **erros da árvore anterior para melhorar a próxima árvore**. As predições finais são feitas com base **nos pesos de cada stump**, cuja determinação faz parte do algoritmo!

<img src="https://static.packt-cdn.com/products/9781788295758/graphics/image_04_046-1.png" width=700>

Vamos entender um pouco melhor...

Aqui, o bootstrapping não é utilizado: o método começa treinando um classificador fraco **no dataset original**, e depois treina diversas cópias adicionais do classificador **no mesmo dataset**, mas dando **um peso maior às observações que foram classificadas erroneamente** (ou, no caso de regressões, a observações **com o maior erro**).

Assim, após diversas iterações, classificadores/regressores vão sequencialmente "focando nos casos mais difíceis", e construindo um classificador encadeado que seja forte, apesar de utilizar diversos classificadores fracos em como elementos fundamentais.

<img src="https://www.researchgate.net/profile/Zhuo_Wang8/publication/288699540/figure/fig9/AS:668373486686246@1536364065786/Illustration-of-AdaBoost-algorithm-for-creating-a-strong-classifier-based-on-multiple.png" width=500>


De forma resumida, as principais ideias por trás deste algoritmo são:

- O algoritmo cria e combina um conjunto de **modelos fracos** (em geral, stumps);
- Cada stump é criado **levando em consideração os erros do stump anterior**;
- Alguns dos stumps têm **maior peso de decisão** do que outros na predição final;

As classes no sklearn são:

- [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html)

- [AdaBoostRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostRegressor.html#sklearn.ensemble.AdaBoostRegressor)

Note que não há muitos hiperparâmetros. O mais importante, que deve ser tunado com o grid/random search, é:

- `n_estimators` : o número de weak learners encadeados;

Além disso, pode também ser interessante tunar os hiperparâmetros dos weak learners. Isso é possível de ser feito, como veremos a seguir!


Primeiro, vamos começar com nosso baseline:

In [31]:
from sklearn.ensemble import AdaBoostClassifier

In [32]:
ab = AdaBoostClassifier(random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(ab, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.65      0.32      0.43       240
        good       0.76      0.93      0.84       560

    accuracy                           0.74       800
   macro avg       0.71      0.62      0.63       800
weighted avg       0.73      0.74      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.44      0.27      0.33        60
        good       0.73      0.86      0.79       140

    accuracy                           0.68       200
   macro avg       0.59      0.56      0.56       200
weighted avg       0.65      0.68      0.65       200



Vamos deixar o `base_estimator` explícito

In [34]:
from sklearn.tree import DecisionTreeClassifier

In [39]:
basal = DecisionTreeClassifier(max_depth=1, random_state=42)

ab = AdaBoostClassifier(base_estimator=basal,
                        random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(ab, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.65      0.32      0.43       240
        good       0.76      0.93      0.84       560

    accuracy                           0.74       800
   macro avg       0.71      0.62      0.63       800
weighted avg       0.73      0.74      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.44      0.27      0.33        60
        good       0.73      0.86      0.79       140

    accuracy                           0.68       200
   macro avg       0.59      0.56      0.56       200
weighted avg       0.65      0.68      0.65       200



Podemos, também, mudar o estimador basal. Por exemplo, uma regressão logística fortemente regularizada.

In [40]:
from sklearn.linear_model import LogisticRegression

In [47]:
basal = LogisticRegression(C=5000, random_state=42)

ab = AdaBoostClassifier(base_estimator=basal,
                        random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(ab, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.61      0.13      0.21       240
        good       0.72      0.96      0.83       560

    accuracy                           0.71       800
   macro avg       0.66      0.55      0.52       800
weighted avg       0.69      0.71      0.64       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.42      0.08      0.14        60
        good       0.71      0.95      0.81       140

    accuracy                           0.69       200
   macro avg       0.56      0.52      0.47       200
weighted avg       0.62      0.69      0.61       200



Não ficou muito legal. Por isso que, apesar de ser possível usar outros estimadores basais, é comum usarmos stumps mesmo (árvores com uma única quebra).

Vamos agora fazer o gridsearch para mostrar algo bem legal: é possível tunarmos os hiperparâmetros do estimador basal!

In [48]:
basal = DecisionTreeClassifier(random_state=42)

pipe = Pipeline([("ab", AdaBoostClassifier(base_estimator=basal, random_state=42))])

param_grid_ab = {"ab__n_estimators" : [25, 50, 100, 125],
                 "ab__base_estimator__max_depth" : [1, 2],
                 "ab__base_estimator__min_samples_split" : [5, 10, 15]}

splitter = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

grid_ab = GridSearchCV(pipe,
                       param_grid_ab,
                       cv=splitter,
                       scoring="f1_weighted",
                       verbose=10,
                       n_jobs=-1,
                       return_train_score=True)

grid_ab.fit(X_train, y_train)

Fitting 5 folds for each of 24 candidates, totalling 120 fits


GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=42, shuffle=True),
             estimator=Pipeline(steps=[('ab',
                                        AdaBoostClassifier(base_estimator=DecisionTreeClassifier(random_state=42),
                                                           random_state=42))]),
             n_jobs=-1,
             param_grid={'ab__base_estimator__max_depth': [1, 2],
                         'ab__base_estimator__min_samples_split': [5, 10, 15],
                         'ab__n_estimators': [25, 50, 100, 125]},
             return_train_score=True, scoring='f1_weighted', verbose=10)

In [49]:
grid_ab.best_params_

{'ab__base_estimator__max_depth': 2,
 'ab__base_estimator__min_samples_split': 15,
 'ab__n_estimators': 25}

In [51]:
grid_ab.best_score_

0.6594673023864148

In [50]:
_ = clf_metrics_train_test(grid_ab, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.78      0.46      0.58       240
        good       0.80      0.94      0.87       560

    accuracy                           0.80       800
   macro avg       0.79      0.70      0.72       800
weighted avg       0.80      0.80      0.78       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.37      0.23      0.29        60
        good       0.72      0.83      0.77       140

    accuracy                           0.65       200
   macro avg       0.54      0.53      0.53       200
weighted avg       0.61      0.65      0.62       200



Usando nossa função:

In [52]:
best_params_delta = calc_best_params_delta(grid_ab, peso_delta=0.5, print_deltas=True)

Unnamed: 0,mean_train_score,mean_test_score,delta,mean_train_score_norm,mean_test_score_norm,delta_norm,metrica_criterio_final
0,0.697986,0.65652,0.041466,0.1,0.829934,0.1,0.864967
4,0.697986,0.65652,0.041466,0.1,0.829934,0.1,0.864967
8,0.697986,0.65652,0.041466,0.1,0.829934,0.1,0.864967
5,0.712629,0.651661,0.060968,0.141137,0.714404,0.149509,0.782448
9,0.712629,0.651661,0.060968,0.141137,0.714404,0.149509,0.782448
1,0.712629,0.651661,0.060968,0.141137,0.714404,0.149509,0.782448
2,0.740284,0.653865,0.086419,0.218829,0.766791,0.214121,0.776335
6,0.740284,0.653865,0.086419,0.218829,0.766791,0.214121,0.776335
10,0.740284,0.653865,0.086419,0.218829,0.766791,0.214121,0.776335
3,0.747468,0.654503,0.092965,0.239014,0.781979,0.23074,0.77562


In [53]:
best_params_delta

{'ab__base_estimator__max_depth': 1,
 'ab__base_estimator__min_samples_split': 5,
 'ab__n_estimators': 25}

In [54]:
basal = DecisionTreeClassifier(random_state=42)

pipe_best_delta = Pipeline([("ab", AdaBoostClassifier(base_estimator=basal, random_state=42))]).set_params(**best_params_delta)

pipe_best_delta.fit(X_train, y_train)

_ = clf_metrics_train_test(pipe_best_delta, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.61      0.28      0.39       240
        good       0.75      0.92      0.83       560

    accuracy                           0.73       800
   macro avg       0.68      0.60      0.61       800
weighted avg       0.71      0.73      0.70       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.50      0.28      0.36        60
        good       0.74      0.88      0.80       140

    accuracy                           0.70       200
   macro avg       0.62      0.58      0.58       200
weighted avg       0.67      0.70      0.67       200



In [None]:
# pra casa: continuar explorando o grid/random search!

______

### Bagging vs Boosting

Pra lembrar as principais diferenças entre os dois métodos de ensemble que estudamos:

<img src=https://pluralsight2.imgix.net/guides/81232a78-2e99-4ccc-ba8e-8cd873625fdf_2.jpg width=600>

_________
_______
_________

## 4) Gradient boosting

Além dos métodos que estudamos, há, ainda dentro do boosting, outras classes de métodos de ensemble!

Em particular, a classe de modelos que se utilizam do procedimento de **gradient boosting**.

O gradient boosting também é baseado no princípio de boosting (utilização de weak learners sequencialmente adicionados de modo a **sequencialmente minimizar os erros cometidos**).

<img src=https://miro.medium.com/max/788/1*pEu2LNmxf9ttXHIALPcEBw.png width=600>

Mas este método implementa o boosting através de um **gradiente** explícito.

A ideia é que caminhemos na direção do **erro mínimo** de maneira iterativa **passo a passo**.

Este caminho se dá justamente pelo **gradiente** da **função de custo/perda**, que mede justamente os erros cometidos.

<img src=https://upload.wikimedia.org/wikipedia/commons/a/a3/Gradient_descent.gif width=400>

Este método é conhecido como:

### Gradiente descendente

Deixei em ênfase porque este será um método de **enorme importância** no estudo de redes neurais (e é, em geral, um método de otimização muito utilizado).

O objetivo geral do método é bem simples: determinar quais são os **parâmetros** da hipótese que minimizam a função de custo/perda. Para isso, o método "percorre" a função de erro, indo em direção ao seu mínimo (e este "caminho" feito na função se dá justamente pela **determinação iterativa dos parâmetros**, isto é, **a cada passo, chegamos mais perto dos parâmetros finais da hipótese**, conforme eles são ajustados aos dados.

> **Pequeno interlúdio matemático:** o gradiente descendente implementado pelo gradient boosting é, na verdade, um **gradiente descendente funcional**, isto é, desejamos encontrar não um conjunto de parâmetros que minimiza o erro, mas sim **introduzir sequencialmente weak learners (hipótese simples) que minimizam o erro**. Desta forma, o gradient boosting minimiza a função de custo ao ecolher iterativamente hipóteses simples que apontam na direção do mínimo, neste espaço funcional.

Apesar do interlúdio acima, não precisamos nos preocupar muito com os detalhes matemáticos: o que importa é entender que no caso do gradient boosting, há alguns pontos importantes:

- Uma **função de custo/perda (loss)** é explicitamente minimizada por um procedimento de gradiente;

- O gradiente está relacionado com o procedimento de **encadeamento progressivo entre weak learners**, seguindo a ideia do boosting.

Pra quem quiser saber um pouco mais de detalhes (e se aventurar na matemática), sugiro [este post](https://www.gormanalysis.com/blog/gradient-boosting-explained/) ou então [este site](https://explained.ai/gradient-boosting/), que contém vários materiais ótimos para entender o método com todos os detalhes matemáticos.

Os [vídeos do StatQuest](https://www.youtube.com/playlist?list=PLblh5JKOoLUJjeXUvUE0maghNuY2_5fY6) também são uma boa referência!

As classes do sklearn são:

- [GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)

- [GradientBoostingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html#sklearn.ensemble.GradientBoostingRegressor)

E os principais hiperparâmetros a serem ajustados são:

- `n_estimators` : novamente, o número de weak learners encadeados.

- `learning_rate` : a constante que multiplica o gradiente no gradiente descendente. Essencialmente, controla o "tamanho do passo" a ser dado em direção ao mínimo.

Segundo o próprio [User Guide](https://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting): "*Empirical evidence suggests that small values of `learning_rate` favor better test error. The lireature recommends to set the learning rate to a small constant (e.g. `learning_rate <= 0.1`) and choose `n_estimators` by early stopping.*"

Ainda sobre a learning rate, as ilustrações a seguir ajudam a entender sua importância:

<img src=https://www.jeremyjordan.me/content/images/2018/02/Screen-Shot-2018-02-24-at-11.47.09-AM.png width=700>

<img src=https://cdn-images-1.medium.com/max/1440/0*A351v9EkS6Ps2zIg.gif width=500>

Vamos treinar nosso classificador baseline de gradient boosting:

In [56]:
from sklearn.ensemble import GradientBoostingClassifier

In [55]:
gb = GradientBoostingClassifier(random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(gb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.94      0.48      0.64       240
        good       0.82      0.99      0.89       560

    accuracy                           0.83       800
   macro avg       0.88      0.73      0.76       800
weighted avg       0.85      0.83      0.82       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.45      0.25      0.32        60
        good       0.73      0.87      0.79       140

    accuracy                           0.69       200
   macro avg       0.59      0.56      0.56       200
weighted avg       0.65      0.69      0.65       200



Restringindo a complexidade do weak learner:

In [59]:
gb = GradientBoostingClassifier(max_depth=1,
                                random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(gb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.67      0.12      0.20       240
        good       0.72      0.97      0.83       560

    accuracy                           0.72       800
   macro avg       0.70      0.55      0.52       800
weighted avg       0.71      0.72      0.64       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.50      0.13      0.21        60
        good       0.72      0.94      0.81       140

    accuracy                           0.70       200
   macro avg       0.61      0.54      0.51       200
weighted avg       0.65      0.70      0.63       200



In [62]:
gb = GradientBoostingClassifier(max_depth=1, n_estimators=500, loss="exponential",
                                random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(gb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.67      0.19      0.29       240
        good       0.73      0.96      0.83       560

    accuracy                           0.73       800
   macro avg       0.70      0.57      0.56       800
weighted avg       0.72      0.73      0.67       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.43      0.17      0.24        60
        good       0.72      0.91      0.80       140

    accuracy                           0.69       200
   macro avg       0.58      0.54      0.52       200
weighted avg       0.63      0.69      0.63       200



Pra casa: grid search para otimizar os hiperparâmetros!

In [None]:
# grid search (siga a dica do sklearn!)

_________
_______
_________

## 5) XGBoost

Vamos conhecer agora mais um método de ensemble (e de boosting), o XGBoost (e**X**treme **G**radient **Boost**ing).

Este método nada mais é que um gradient boosting, mas com algumas importantes modificações que lhe conferem o título de "extreme"! Em particular, duas alterações merecem destaque:

- A adição de procedimentos de regularização (L1 e L2!), o que melhora consideravelmente sua capacidade de generalização;

- A utilização de derivadas de segunda ordem (Hessiano) para o procedimento de gradiente.

Para quem quiser se aventurar mais, sugiro algumas boas leituras:

- [Este](https://shirinsplayground.netlify.app/2018/11/ml_basics_gbm/), explica bem as particularidades do XGBoost, além de dar uma boa introdução ao gradient boosting (o código é em R, então pode ignorar essa parte hehe);

- [Este](https://medium.com/analytics-vidhya/what-makes-xgboost-so-extreme-e1544a4433bb), introduz bem o método, enquanto enfativa suas particularidades, com alguns detalhes matemáticos;

- [Este](https://xgboost.readthedocs.io/en/latest/tutorials/model.html), da própria documentação da biblioteca, traz uma explicação legal, e com alguns detalhes matemáticos;

- [Este](https://towardsdatascience.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d), com uma discussão mais alto-nível (sem tantos detalhes) sobre o XGBoost e os motivos de seu sucesso.

Infelizmente, o sklearn não tem o XGBoost implementado :(

Mas, felizmente, existe uma biblioteca que o implementou, de maneira totalmente integrada ao sklearn!!

A biblioteca é a [XGBoost](https://xgboost.readthedocs.io/en/latest/).

Além das vantagens metodológicas supracitadas, o algoritmo de aprendizagem implementado nesta biblioteca conta com diversas medidas de otimização computacional (e permite [o uso de GPU](https://xgboost.readthedocs.io/en/stable/gpu/index.html), algo que não é nativamente possível com o sklearn!)

In [63]:
from xgboost import XGBClassifier

In [64]:
xgb = XGBClassifier(random_state=42).fit(X_train, y_train)

_ = clf_metrics_train_test(xgb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")



Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       1.00      0.96      0.98       240
        good       0.98      1.00      0.99       560

    accuracy                           0.99       800
   macro avg       0.99      0.98      0.99       800
weighted avg       0.99      0.99      0.99       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.39      0.28      0.33        60
        good       0.72      0.81      0.76       140

    accuracy                           0.65       200
   macro avg       0.56      0.55      0.55       200
weighted avg       0.62      0.65      0.63       200



In [65]:
xgb

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
              gamma=0, gpu_id=-1, importance_type=None,
              interaction_constraints='', learning_rate=0.300000012,
              max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=4,
              num_parallel_tree=1, predictor='auto', random_state=42,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=None)

Aumentando um pouco a regularização:

In [67]:
xgb = XGBClassifier(random_state=42, reg_alpha=5).fit(X_train, y_train)

_ = clf_metrics_train_test(xgb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")



Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.76      0.35      0.48       240
        good       0.77      0.95      0.85       560

    accuracy                           0.77       800
   macro avg       0.77      0.65      0.67       800
weighted avg       0.77      0.77      0.74       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.56      0.25      0.34        60
        good       0.74      0.91      0.82       140

    accuracy                           0.71       200
   macro avg       0.65      0.58      0.58       200
weighted avg       0.68      0.71      0.68       200



In [72]:
xgb = XGBClassifier(random_state=42, reg_alpha=5, reg_lambda=100).fit(X_train, y_train)

_ = clf_metrics_train_test(xgb, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")



Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.72      0.26      0.39       240
        good       0.75      0.96      0.84       560

    accuracy                           0.75       800
   macro avg       0.74      0.61      0.61       800
weighted avg       0.74      0.75      0.71       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.48      0.20      0.28        60
        good       0.73      0.91      0.81       140

    accuracy                           0.69       200
   macro avg       0.60      0.55      0.54       200
weighted avg       0.65      0.69      0.65       200



Pra casa: gridsearch completo!

In [None]:
# gridsearch do xgboost

_________
_______
_________

## 6) LightGBM

Por fim, o último método de boosting que vamos conhecer: o **LightGBM** (Light Gradient Boosting).

Este método implementa algumas alterações na forma como o boosting é realizado, que faz com que ele seja mais eficiente em alguns aspectos, quando comparado ao XGBoost.

<img src=https://i.imgur.com/VBVvOdC.png width=600>

Bem como o xgboost, a lgbm disponibiliza também [suporte para GPU](https://lightgbm.readthedocs.io/en/latest/GPU-Tutorial.html). A documentação da biblioteca está [aqui](https://lightgbm.readthedocs.io/en/latest/). Vale a leitura!

Para quem quiser se aventurar mais, sugiro algumas boas leituras:

- [Este](https://proceedings.neurips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf) é o artigo original do LightGBM;

- [Este artigo](https://neptune.ai/blog/xgboost-vs-lightgbm) compara o lgbm com o xgboost;

- [Este post](https://towardsdatascience.com/lightgbm-vs-xgboost-which-algorithm-win-the-race-1ff7dd4917d) estende as comparações, e discute em detalhes os hiperparâmetros do lgbm.

Boa notícia: o lightgbm também é [completamente integrado](https://lightgbm.readthedocs.io/en/latest/Python-API.html#scikit-learn-api) ao scikit-learn!

In [73]:
from lightgbm import LGBMClassifier

In [79]:
lgbm = LGBMClassifier(random_state=42, reg_alpha=3).fit(X_train, y_train)

_ = clf_metrics_train_test(lgbm, X_train, y_train, X_test, y_test, cutoff=0.5, 
                           print_plot=True, plot_conf_matrix=False, print_cr=True, pos_label="bad")

Métricas de avaliação de treino - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.79      0.40      0.53       240
        good       0.79      0.95      0.86       560

    accuracy                           0.79       800
   macro avg       0.79      0.67      0.69       800
weighted avg       0.79      0.79      0.76       800


################################################################################

Métricas de avaliação de teste - com cutoff = 0.50
              precision    recall  f1-score   support

         bad       0.53      0.27      0.36        60
        good       0.74      0.90      0.81       140

    accuracy                           0.71       200
   macro avg       0.64      0.58      0.58       200
weighted avg       0.68      0.71      0.68       200



Dentre nossos melhores resultados, e com bem "pouco esforço"!

Esse é o grande poder dos métodos de boosting!

Pra casa: gridsearch completo!

In [None]:
# gridsearch do xgboost