### **Módulo 24** | Combinação de modelos II | Exercício 2
---

### Tarefa 02

**1.** Cite 5 diferenças entre o AdaBoost e o GBM.

O AdaBoost (Adaptive Boosting) e o Gradient Boosting Machine (GBM) são ambos algoritmos de boosting populares em aprendizado de máquina, que criam um modelo forte a partir de uma série de modelos fracos. Apesar de compartilharem algumas semelhanças conceituais, eles têm diferenças significativas em sua implementação e funcionamento. Aqui estão cinco diferenças principais entre AdaBoost e GBM:

1. Abordagem de Ponderação de Erros:
AdaBoost: Ajusta os pesos dos exemplos no conjunto de dados com base nos erros do modelo anterior. Os exemplos mal classificados recebem mais peso, fazendo com que o modelo subsequente foque mais neles.
GBM: Utiliza o gradiente do erro da função de perda para ajustar os modelos subsequentes. A ideia é minimizar a função de perda ao ajustar os modelos para prever o gradiente de erro do modelo anterior.


2. Função de Perda:
AdaBoost: Geralmente usa uma função de perda exponencial, embora seja restrito a problemas de classificação e regressão binária em suas implementações mais comuns.
GBM: É mais flexível em relação à função de perda e pode ser usado com diferentes funções de perda, tornando-o aplicável a uma gama mais ampla de problemas, incluindo regressão e classificação multiclasse.


3. Tratamento de Dados Ruidosos e Outliers:
AdaBoost: É bastante sensível a dados ruidosos e outliers porque dá mais peso aos exemplos difíceis de classificar, o que pode levar a um desempenho pior se esses dados não forem representativos.
GBM: Embora também possa ser afetado por dados ruidosos e outliers, sua flexibilidade na escolha da função de perda permite uma certa adaptação a esses desafios, potencialmente oferecendo um melhor desempenho em conjuntos de dados com essas características.


4. Velocidade e Eficiência Computacional:
AdaBoost: Pode ser mais rápido de treinar do que GBM porque simplesmente ajusta os pesos dos exemplos ao invés de calcular gradientes, o que pode ser computacionalmente menos intensivo.
GBM: Pode ser mais demorado e exigir mais recursos computacionais devido ao cálculo dos gradientes e à necessidade de otimizar a função de perda a cada iteração.


5. Complexidade dos Modelos Base:
AdaBoost: Tradicionalmente, utiliza aprendizes muito simples (como árvores de decisão de um nível, também conhecidas como 'stumps') como modelos base.
GBM: Permite o uso de modelos base mais complexos e é comum utilizar árvores de decisão com profundidade maior do que um, proporcionando uma modelagem mais detalhada dos dados.

**2.** Acesse o link [Scikit-learn – GBM](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

> [1.11. Ensemble methods — scikit-learn 1.2.2 documentation](https://scikit-learn.org/stable/modules/ensemble.html#)
>> [1.11.4.1. Classification](https://scikit-learn.org/stable/modules/ensemble.html#classification)

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [2]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, 
                                 learning_rate=1.0, 
                                 max_depth=1, 
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

> [1.11. Ensemble methods — scikit-learn 1.2.2 documentation](https://scikit-learn.org/stable/modules/ensemble.html#)
>> [1.11.4.2. Regression](https://scikit-learn.org/stable/modules/ensemble.html#regression)

In [3]:
import numpy as np

from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

In [4]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, 
                                learning_rate=0.1, 
                                max_depth=1, 
                                random_state=0, 
                                loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960319

**3.** Cite 5 hiperparâmetros importantes no GBM.

No Gradient Boosting Machine (GBM), cinco hiperparâmetros desempenham papéis cruciais na definição da estrutura e na eficácia do modelo:

1. **n_estimators:** Esse hiperparâmetro fundamental determina o número de árvores sequenciais a serem construídas no modelo. Aumentar esse valor pode melhorar a precisão do modelo, mas também eleva o tempo necessário para o treinamento e a complexidade do modelo, podendo levar a um risco maior de overfitting.


2. **learning_rate:** Representa a contribuição de cada árvore para a previsão final e é um fator crítico que influencia diretamente a performance do modelo. Valores menores necessitam de mais árvores (um `n_estimators` maior) para manter uma performance robusta, estabelecendo um equilíbrio delicado entre a taxa de aprendizado e o número de estimadores.


3. **max_depth:** Esse parâmetro define a profundidade máxima permitida para cada árvore, controlando assim a complexidade das árvores geradas. Profundidades maiores possibilitam que o modelo capture relações mais complexas, mas aumentam o risco de overfitting ao ajustar demais aos dados de treinamento.


4. **max_features:** Determina o número máximo de recursos considerados para a divisão de cada nó das árvores, afetando a diversidade das árvores geradas. Ajustar esse parâmetro pode ajudar a prevenir overfitting, garantindo que cada árvore tenha uma perspectiva única dos dados ao limitar o número de recursos avaliados.


5. **warm_start:** Essa opção permite a incrementação do modelo existente com novas árvores sem iniciar o treinamento do zero, mantendo as árvores já treinadas e adicionando novas para aprimorar o modelo. É particularmente útil para ajustes finos ou quando mais dados se tornam disponíveis.

A otimização desses hiperparâmetros é essencial para maximizar a eficácia do GBM, adaptando o modelo às especificidades do conjunto de dados e às exigências do problema. Experimentar com diferentes configurações desses parâmetros pode levar a melhorias significativas no desempenho do modelo.

>> Exemplo:
>>```python
>>>>> _ = est.set_params(n_estimators=200, warm_start=True)  # set warm_start and new nr of trees
>>>>> _ = est.fit(X_train, y_train)  # fit additional 100 trees to est
>>>>> mean_squared_error(y_test, est.predict(X_test))
>>3.84...
>>```

**4.** (**Opcional**) Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo.

In [5]:
import pandas as pd

In [6]:
%%time

estimators     = [10, 100, 1000, 10000]
learning_rates = [0.01, 0.03, 0.06, 0.1]
max_depths     = [1, 3, 6, 9]

grid_search = []

for n in estimators:
    for rate in learning_rates:
        for depth in max_depths:
            est = GradientBoostingRegressor(n_estimators=n, 
                                            learning_rate=rate, 
                                            max_depth=depth, 
                                            random_state=0, 
                                            loss='squared_error').fit(X_train, y_train)
            grid_search.append([n, rate, depth, mean_squared_error(y_test, est.predict(X_test))])
            
(pd.DataFrame(data=grid_search, 
              columns=['n_estimators', 'learning_rate', 'max_depth', 'mean_squared_error'])
   .sort_values(by='mean_squared_error', 
                ascending=True, 
                ignore_index=True))

CPU times: user 1min 25s, sys: 783 ms, total: 1min 25s
Wall time: 1min 29s


Unnamed: 0,n_estimators,learning_rate,max_depth,mean_squared_error
0,1000,0.03,1,3.625209
1,1000,0.06,1,3.667692
2,10000,0.10,3,3.733205
3,1000,0.10,3,3.733272
4,100,0.10,3,3.774987
...,...,...,...,...
59,10,0.03,1,21.909960
60,10,0.01,9,22.400111
61,10,0.01,6,22.472923
62,10,0.01,3,22.902975


**5.** Acessando o artigo do Jerome Friedman ([Stochastic](https://jerryfriedman.su.domains/ftp/stobst.pdf)) e pensando no nome dado ao **Stochastic GBM**, qual é a maior diferença entre os dois algoritmos?

Refletindo sobre o artigo de Jerome Friedman a respeito do Gradient Boosting estocástico e considerando o termo "Stochastic GBM", podemos identificar a principal distinção entre este e o GBM tradicional. O Stochastic GBM se destaca por sua abordagem que integra elementos de aleatoriedade no processo de treinamento, uma característica inspirada na teoria probabilística.

O Stochastic GBM representa uma evolução dos métodos de Gradient Boosting, incorporando princípios do Bootstrap Aggregating (Bagging), o que o caracteriza como uma fusão inovadora das estratégias de Bagging e Boosting. Essencialmente, em cada etapa do treinamento, ele seleciona um subconjunto aleatório dos dados, sem reposição, geralmente usando cerca de metade do conjunto total de treinamento. Esta seleção aleatória de dados para treinar os classificadores base em cada iteração amplia a precisão do método de Gradient Boosting e confere ao modelo uma robustez superior em comparação com o GBM convencional.

A injeção de aleatoriedade na seleção de amostras para cada iteração contribui significativamente para mitigar o risco de overfitting. Ao fazer isso, o Stochastic GBM promove uma melhor capacidade de generalização, adaptando-se de forma mais eficiente a dados não vistos. Portanto, essa principal diferença - a introdução de aleatoriedade na escolha das amostras - não apenas aprimora a performance do modelo mas também o torna mais resiliente contra a sobreajuste dos dados de treinamento.

---