# Tarefa 1
---

## 1. Cite 5 diferenças entre o Adaboost e o GBM.

1. **Peso nas Instâncias:**
   - **AdaBoost:** Atribui pesos às instâncias de treinamento, dando mais peso às instâncias mal classificadas em iterações anteriores. O foco é corrigir os erros cometidos pelos modelos anteriores.
   - **GBM:** Atualiza os pesos das instâncias de treinamento, mas em vez de se concentrar apenas nos erros, o GBM ajusta os pesos para minimizar o gradiente da função de perda em relação às previsões do modelo atual.

2. **Modelos Base:**
   - **AdaBoost:** Geralmente utiliza modelos mais simples (por exemplo, árvores de decisão rasas) como modelos base.
   - **GBM:** Pode usar uma variedade de modelos base, geralmente árvores de decisão profundas, e o treinamento é realizado de maneira sequencial.

3. **Ponderação dos Modelos:**
   - **AdaBoost:** Pondera os votos dos modelos base com base em seu desempenho, dando mais peso aos modelos que têm melhor desempenho.
   - **GBM:** Pondera os modelos base de acordo com a contribuição de cada modelo para a redução do gradiente da função de perda.

4. **Treinamento Sequencial vs. Paralelo:**
   - **AdaBoost:** Treina modelos sequencialmente, ajustando os pesos das instâncias em cada iteração.
   - **GBM:** Também treina modelos sequencialmente, mas cada novo modelo é treinado para corrigir os resíduos do modelo anterior, resultando em um treinamento mais iterativo e sequencial.

5. **Sensibilidade a Outliers:**
   - **AdaBoost:** Pode ser sensível a outliers, pois os modelos subsequentes focam em corrigir erros, incluindo outliers.
   - **GBM:** Menos sensível a outliers devido à abordagem de minimização de gradientes, mas ainda pode ser influenciado por eles, especialmente em estágios iniciais.

AdaBoost é frequentemente usado para classificação binária, enquanto GBM é mais versátil e pode ser aplicado a problemas de classificação e regressão.

---

## 2. Acesse o link Scikit-learn–adaboost, leia a explicação (traduza se for preciso) e crie um jupyternotebook contendo o exemplo do AdaBoost.



In [1]:
import numpy as np

from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [4]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100,
                                 learning_rate=1.0,
                                 max_depth=1,
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [5]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state= 42, loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.00915485996032

---

## Cite 5 hiperparâmetros importantes no GBM.

1. **Número de Estimadores (n_estimators):**
   - Este hiperparâmetro determina o número total de modelos (geralmente árvores de decisão) que serão treinados no processo de boosting. Aumentar o número de estimadores pode aumentar o desempenho do modelo, mas também pode levar a um aumento no tempo de treinamento.

2. **Taxa de Aprendizado (learning_rate):**
   - A taxa de aprendizado controla a contribuição de cada modelo para a atualização do peso das instâncias. Valores mais baixos tornam o treinamento mais robusto, mas geralmente exigem um aumento correspondente no número de estimadores para manter o desempenho.

3. **Profundidade Máxima das Árvores (max_depth):**
   - Este hiperparâmetro define a profundidade máxima das árvores de decisão individuais no GBM. Limitar a profundidade pode ajudar a evitar overfitting, especialmente quando o número de estimadores é alto.

4. **Subamostragem de Características (subsample):**
   - A subamostragem de características controla a fração de características que são amostradas aleatoriamente para treinar cada árvore. Um valor menor pode introduzir mais diversidade e melhorar o desempenho em conjuntos de dados com muitas características.

5. **Número Mínimo de Amostras em Folhas (min_samples_leaf):**
   - Define o número mínimo de amostras exigidas em uma folha de árvore. Aumentar este valor pode ajudar a regularizar o modelo, evitando folhas com muito poucas amostras e, assim, reduzindo o risco de overfitting.


---

## 4. (Opcional) Utilize o GridSearch para encontrar os melhores hiperparâmetros para o conjunto de dados do exemplo (load_iris).

In [8]:
import pandas as pd

In [9]:
%%time

estimators     = [10, 100, 1000, 10000]
learning_rates = [0.01, 0.03, 0.06, 0.1]
max_depths     = [1, 3, 6, 9]

grid_search = []

for n in estimators:
    for rate in learning_rates:
        for depth in max_depths:
            est = GradientBoostingRegressor(n_estimators=n, learning_rate=rate, max_depth=depth, random_state=0, loss='squared_error').fit(X_train, y_train)
            grid_search.append([n, rate, depth, mean_squared_error(y_test, est.predict(X_test))])

(pd.DataFrame(data=grid_search, columns=['n_estimators', 'learning_rate', 'max_depth', 'mean_squared_error'])
   .sort_values(by='mean_squared_error', ascending=True, ignore_index=True))

CPU times: user 2min 22s, sys: 405 ms, total: 2min 22s
Wall time: 2min 32s


Unnamed: 0,n_estimators,learning_rate,max_depth,mean_squared_error
0,1000,0.03,1,3.625209
1,1000,0.06,1,3.667692
2,10000,0.10,3,3.749941
3,1000,0.10,3,3.750008
4,100,0.10,3,3.790073
...,...,...,...,...
59,10,0.03,1,21.909960
60,10,0.01,9,22.402269
61,10,0.01,6,22.472923
62,10,0.01,3,22.902975


---
## 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

O Stochastic GBM é um algoritmo com referencia à teoria probabilistica, ele incorpora variáveis aleatórias em seu funcionamento, sendo uma combinação dos métodos Gradient Boosting e Bootstrap Aggregating, o que diminui a chance de overfitting e melhora a generalização do modelo.

---