# PRÁTICA GUIADA 2: Classificadores Ada Boost e Gradient Boosting


## 1. Introdução

O objetivo desta prática é começar a nos aproximar do uso e da avaliação dos métodos do algoritmo de Boosting.

Lembrem: 

* A ideia fundamental dos algoritmos baseados na noção de boosting é tentar combinar muitos classificadores fracos em um classificador forte. 

* A principal diferença em relação aos métodos de Bagging é a forma com que o ensemble é construído: Boosting tenta melhorar o desempenho concentrando-se de alguma forma nos casos com o maior erro de treinamento.

### `AdaBoostClassifier()`

A ideia central de AdaBoost é construir um ensemble de week learners e, em cada iteração, aumentar o peso dos casos classificados incorretamente. A implementação do Scikit-Learn usa os seguintes parâmetros:

* `base_estimator`: análogo ao caso de `BaggingClassifier()`, o estimador sobre o qual o ensemble será construído. Por padrão, são árvores de decisão.
* `n_estimators`: o máximo de iterações
* `learning_rate`: o peso que a previsão de cada árvore terá no ensemble final


### `GradientBoostingClassifier()`

É uma generalização do algoritmo geral de Boosting para qualquer tipo de função de perda diferenciavel. Em cada estágio, uma árvore de decisão é ajustada, mas isso é realizado sobre os resíduos da árvore anterior. Ou seja, procuramos corrigir as estimativas treinando novos classificadores sobre os "resíduos" (a diferença entre o valor observado e o valor previsto ($y - \hat{y}$)

Os argumentos usados como entrada já são conhecidos:

* `learning_rate`: o peso que a previsão de cada árvore terá no ensemble final

* `n_estimators`: o máximo de iterações
* `criterion`: define o critério de impureza para avaliar a qualidade das partições
* `max_features`: a quantidade de recursos extraídos para treinar cada `base_estimator`. Por padrão, é igual a `sqrt(X.shape[1])`
* `bootstrap` e `bootstrap_features`: controla se tanto os n_samples como os recursos são extraídos com reposição.
* `max_depth`: a profundidade máxima da árvore
* `min_samples_leaf`: o número mínimo de n_samples para constituir uma folha da árvore (nó terminal)
* `min_samples_split`: o número mínimo de n_samples para realizar um split.

Como ponto de partida, usaremos o mesmo código utilizado anteriormente:

In [2]:
import pandas as pd

df = pd.read_csv('cars.csv')

In [3]:
from sklearn.preprocessing import LabelEncoder
y = LabelEncoder().fit_transform(df['acceptability'])
X = pd.get_dummies(df.drop('acceptability', axis=1), drop_first=True)

In [4]:
from sklearn.model_selection import cross_val_score,StratifiedKFold
cv = StratifiedKFold(n_splits=3, random_state=41, shuffle=True)

Agora vamos inicializar o classificador da árvore de decisão e avaliar seu desempenho:

In [5]:
from sklearn.tree import DecisionTreeClassifier

def avaliar_desempenho(modelo, nome):
    s = cross_val_score(modelo, X, y, cv=cv, n_jobs=-1)
    print("Desempenho de {}:\t{:0.3} ± {:0.3}".format( \
        nome, s.mean().round(3), s.std().round(3)))
    
    
dt = DecisionTreeClassifier(class_weight='balanced')

avaliar_desempenho(dt,"Árvore de decisão")

Desempenho de Árvore de decisão:	0.899 ± 0.01


Agora, avaliar os seguintes classificadores:
 * AdaBoostClassifier
 * GradientBoostingClassifier

In [6]:
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier
ab = AdaBoostClassifier()
gb = GradientBoostingClassifier()
avaliar_desempenho(ab, "AdaBoostClassifier")
avaliar_desempenho(gb, "GradientBoostingClassifier")

Desempenho de AdaBoostClassifier:	0.845 ± 0.01
Desempenho de GradientBoostingClassifier:	0.955 ± 0.011


Portanto, é possível ver que AdaBoost tem um desempenho muito pior (pelo menos usando os parâmetros padrão). Desse modo, poderíamos tentar otimizar os hiperparâmetros para fazer com que funcionem melhor.