## 1. Cite 5 diferenças entre o o AdaBoost e o GBM

*   Modelo Base:

AdaBoost (AB): Os modelos são treinados em cima de "stumps" (árvores de decisão com apenas um nível).

Gradient Boosting Machine (GBM): Utiliza árvores de decisão completas, embora geralmente sejam rasas para evitar overfitting.

*   Variáveis Explicativas:

AB: Os stumps são criados para cada variável explicativa de forma independente.

GBM: As variáveis explicativas permanecem as mesmas em cada iteração, enquanto a variável alvo é ajustada através dos resíduos.

*   Início do Processo:

AB: Começa com um "weak learner", que é um modelo simples com desempenho ligeiramente melhor que o acaso.

GBM: Começa com uma árvore de decisão inicial e melhora a performance ajustando os resíduos.

*   Método de Atualização:

AB: Utiliza um esquema de reamostragem onde cada observação recebe um peso, que é atualizado com base no desempenho do modelo anterior.

GBM: Ajusta a variável alvo em cada iteração somando os resíduos multiplicados por uma taxa de aprendizado, que controla o impacto de cada árvore na previsão final.

*   Influência entre Modelos:

AB: Cada modelo treinado influencia no próximo, pois os pesos das observações são ajustados.

GBM: Cada modelo é treinado para corrigir os erros do modelo anterior ajustando os resíduos.



## 2. Acesse o link [Scikit-learn – GBM](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [None]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

## 3. Cite 5 Hyperparametros importantes no AdaBoost.

- n_estimators (Quantidade de modelos)
- learning_rate (Taxa de aprendizado)
- max_features (Quantidade máxima de variáveis explicativas)
- max_depth (Profundidade da árvore dos modelos)
- min_samples_leaf (Mínimo de amostras por folha)


## 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [None]:
%%time

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

params = {
    "n_estimators": [10, 50, 100],
    "learning_rate": [0.001, 0.01, 0.1],
    "max_depth": [3, 5, 8],
    "min_samples_leaf": [5, 10, 20, 50],
    "max_features": [1, 5]
}

clf = GradientBoostingClassifier()

grid_search = GridSearchCV(
    estimator = clf,
    param_grid=params,
    n_jobs=-1,
    cv=2,
    scoring='accuracy'
)

grid_result = grid_search.fit(X, y)
grid_result.best_score_
grid_result.best_params_

CPU times: total: 5.81 s
Wall time: 3min 18s


{'learning_rate': 0.1,
 'max_depth': 8,
 'max_features': 1,
 'min_samples_leaf': 50,
 'n_estimators': 100}

# 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

Enquanto o GMB utiliza a mesma base de dados para todos os modelos,  o Stochastic GBM utiliza um subconjuntos com uma amostra aleatória sem repetição