# Tarefa 02

**1.** Cite 5 diferenças entre o AdaBoost e o GBM.

| Diferenças | AdaBoost | GBM |
| ---------- | -------- | --- |
| 1 | Utiliza um conjunto de classificadores fracos (*Stumps*), também conhecidos como *weak/base learners*. | Utiliza árvores mais complexas do que o *AdaBoost*. |
| 2 | As árvores de decisão são extremamente simples com apenas 1 de profundidade e 2 folhas. | As árvores complexas podem ser podadas ou não. |
| 3 | O primeiro passo do modelo é a seleção de um *Stump* com o melhor desempenho. | O primeiro passo do modelo é o cálculo da média do Y (resposta/*target*). |
| 4 | Cada resposta tem um peso diferente para a agregação final da predição. | A predição das respostas das árvores é calculada através de um multiplicador em comum chamado *learning_rate* (eta). |
| 5 | A predição final é definida com uma votação majoritária ponderada das respostas de acordo com a performance de cada *Stump*. | A predição é baseada no ajuste do modelo através da redução dos erros residuais. |

**2.** Acesse o link [Scikit-learn – GBM](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

> [1.11. Ensemble methods — scikit-learn 1.2.2 documentation](https://scikit-learn.org/stable/modules/ensemble.html#)
>> [1.11.4.1. Classification](https://scikit-learn.org/stable/modules/ensemble.html#classification)

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [2]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, 
                                 learning_rate=1.0, 
                                 max_depth=1, 
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

> [1.11. Ensemble methods — scikit-learn 1.2.2 documentation](https://scikit-learn.org/stable/modules/ensemble.html#)
>> [1.11.4.2. Regression](https://scikit-learn.org/stable/modules/ensemble.html#regression)

In [3]:
import numpy as np

from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

In [4]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, 
                                learning_rate=0.1, 
                                max_depth=1, 
                                random_state=0, 
                                loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960319

**3.** Cite 5 hiperparâmetros importantes no GBM.

> **1. `n_estimators`**: Este importante parâmetro controla o número de árvores no modelo. Um valor maior pode aumentar tanto o tempo de treinamento quanto a capacidade de aprendizado do modelo.
>
> **2. `learning_rate`**: É um importante hiperparâmetro no intervalo de 0.0 a 1.0 que controla a taxa de aprendizado do modelo. Interage fortemente com o número de estimadores (*n_estimators*). O valor ideal pode variar dependendo do problema e dos dados.
>
> **3. `max_depth`**: Controla a profundidade máxima de cada árvore no modelo, especificando o número máximo de nós. Uma profundidade maior permite que as árvores sejam mais complexas e tenham maior capacidade de aprendizado, mas também aumenta o risco de *overfitting*.
>
> **4. `max_features`**: Controla o número de variáveis consideradas ao fazer uma divisão em cada nó das árvores. Quanto menor o valor, menor é o risco de *overfitting*.
>
> **5. `warm_start`**: Permite adicionar mais estimadores a um modelo já ajustado. Pode ser útil quando é necessário ajustar o modelo com mais árvores sem perder o progresso anterior.
>> Exemplo:
>>```python
>>>>> _ = est.set_params(n_estimators=200, warm_start=True)  # set warm_start and new nr of trees
>>>>> _ = est.fit(X_train, y_train)  # fit additional 100 trees to est
>>>>> mean_squared_error(y_test, est.predict(X_test))
>>3.84...
>>```

**5.** Acessando o artigo do Jerome Friedman ([Stochastic](https://jerryfriedman.su.domains/ftp/stobst.pdf)) e pensando no nome dado ao **Stochastic GBM**, qual é a maior diferença entre os dois algoritmos?

> Pensando no nome dado ao *Stochastic GBM* e com referência à teoria probabilística, podemos descrevê-lo como um algoritmo que incorpora variáveis aleatórias. O *Stochastic GBM* é uma combinação dos métodos de *Gradient Boosting* e *Bootstrap Aggregating*, sendo considerado um híbrido das técnicas *Bagging* e *Boosting*. Em cada iteração, o classificador base é treinado em um subconjunto aleatório e não repetitivo dos dados de treinamento, utilizando em média metade da amostra. Essa aleatoriedade na amostragem do conjunto de dados em cada iteração de treino melhora significativamente a precisão do *Gradient Boosting* e torna o modelo mais robusto em comparação com o GBM tradicional. Isso ocorre porque a aleatoriedade ajuda a evitar o *overfitting* e promove uma melhor generalização do modelo.

---