---

### **Combinação de modelos II | Exercício 2**

**Aluno:** Guilherme Rhein

---

# Tarefa 02

**1.** Cite 5 diferenças entre o AdaBoost e o GBM.

| AdaBoost | GBM |
| -------- | --- |
| Utiliza árvores simples, chamados de **Stumps**. | Utiliza árvores completas e complexas. |
| As **Stumps** são simples com 2 folhas e 1 de profundidade. | As árvores complexas exigem tratamento utilizando parâmetros específicos. |
| O primeiro passo do modelo é a determinação de um peso para suas linhas e assim fazer a seleção da melhor **Stump** com o melhor desempenho. | O primeiro passo do modelo é o cálculo da média do Y. |
| Cada linha tem um peso diferente para a agregação de um novo conjunto de dados, que força as linhas com maior erro a se repetirem mais vezes, melhorando o treinamento do modelo. | As árvores são calculadas através de um multiplicador em comum chamado **ETA**. |
| A predição final é definida por votação ponderada das respostas de acordo com a performance de cada **Stump**. | A predição final é definida através do ajuste do modelo através do cálculo de resíduos. |

**2.** Acesse o link [– GBM](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

## <br> **GBM - Classifier:**

In [12]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [13]:
X, y = make_hastie_10_2(random_state=0)

X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, 
                                 max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

## <br> **GBM - Regressor:**

In [5]:
from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

In [7]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, 
                                max_depth=1, random_state=0, 
                                loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

**3.** Cite 5 hiperparâmetros importantes no GBM.

> **1. n_estimators**: Número de árvores (estimadores) a serem ajustados. Geralmente, um valor maior leva a um modelo mais robusto, mas também aumenta o tempo de treinamento.
>
> **2. learning_rate**: Taxa de aprendizado entre 0.0 e 1.0, que controla a contribuição de cada estimador. Valores menores geralmente requerem mais estimadores para atingir a mesma performance.
>
> **3. max_depth**: Profundidade máxima dos estimadores individuais. Ajustar este parâmetro pode ajudar a evitar overfitting.
>
> **4. max_features**: O número de variáveis a serem consideradas ao procurar a melhor divisão. Pode ser um valor inteiro, uma fração (0.5 para considerar metade das features), 'sqrt' (raiz quadrada do número total de features), 'log2' (logaritmo base 2 do número total de features) ou None para considerar todas as features.
>
> **5. warm_start**: Permite adicionar mais estimadores a um modelo já existente. Pode ser útil quando é necessário ajustar o modelo com mais árvores sem perder o progresso anterior ou atualizar suas necessidades.

**4.** Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo.

In [20]:
%%time
from sklearn.model_selection import GridSearchCV

gbr = GradientBoostingClassifier()

parametros = {
    'n_estimators': [10, 100, 500, 1000],
    'max_depth': [2, 5, 7, 11],
    'learning_rate': [0.04, 0.06, 0.1, 0.3]
}

grid = GridSearchCV(estimator=gbr,
                    param_grid=parametros,
                    scoring='r2',
                    verbose=False,
                    cv=2)

grid.fit(X_train, y_train)

CPU times: total: 11min 39s
Wall time: 11min 49s


In [21]:
grid.best_params_

{'learning_rate': 0.3, 'max_depth': 2, 'n_estimators': 1000}

In [24]:
results = grid.cv_results_
df_results = pd.DataFrame(results)
df_results.sort_values(by='rank_test_score').head(5)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_learning_rate,param_max_depth,param_n_estimators,params,split0_test_score,split1_test_score,mean_test_score,std_test_score,rank_test_score
51,5.554647,0.009656,0.007814,0.007814,0.3,2,1000,"{'learning_rate': 0.3, 'max_depth': 2, 'n_esti...",0.587866,0.635854,0.61186,0.023994,1
50,2.778261,0.032149,0.007812,0.007812,0.3,2,500,"{'learning_rate': 0.3, 'max_depth': 2, 'n_esti...",0.59987,0.62385,0.61186,0.01199,2
35,5.547439,0.03081,0.013888,0.013888,0.1,2,1000,"{'learning_rate': 0.1, 'max_depth': 2, 'n_esti...",0.59987,0.591837,0.595854,0.004017,3
19,5.972728,0.122756,0.012195,0.000193,0.06,2,1000,"{'learning_rate': 0.06, 'max_depth': 2, 'n_est...",0.551855,0.57583,0.563843,0.011988,4
34,2.749467,0.000216,0.007813,0.007813,0.1,2,500,"{'learning_rate': 0.1, 'max_depth': 2, 'n_esti...",0.547854,0.555822,0.551838,0.003984,5


**5.** Acessando o artigo do Jerome Friedman ([Stochastic](https://jerryfriedman.su.domains/ftp/stobst.pdf)) e pensando no nome dado ao **Stochastic GBM**, qual é a maior diferença entre os dois algoritmos?

> A maior diferença entre o Gradient Boosting Machine (GBM) padrão e o artigo do Jerome Friedman está na introdução de aleatoriedade no processo de treinamento. Enquanto o GBM utiliza o conjunto de treinamento completo para ajustar cada árvore de decisão, o artigo de Jerome Friedman introduz estocasticidade amostrando aleatoriamente subconjuntos do conjunto de treinamento para ajustar cada árvore. O Stochastic GBM é uma combinação dos métodos de Gradient Boosting e Bootstrap Aggregating, sendo considerado um híbrido das técnicas Bagging e Boosting. Essa aleatoriedade na amostragem do conjunto de dados em cada iteração de treino melhora significativamente a precisão do Gradient Boosting e torna o modelo mais robusto em comparação com o GBM tradicional. Isso ocorre porque a aleatoriedade ajuda a evitar o overfitting e promove uma melhor generalização do modelo.