# Tarefa 2

### 1. Cite 5 diferenças entre o Adaboost e o GBM.

#### 1. Peso nas Instâncias:
- ##### **AdaBoost** :
  Atribui pesos às instâncias de treinamento, dando mais peso às instâncias mal classificadas em iterações anteriores.
O foco é corrigir os erros cometidos pelos modelos anteriores, aumentando a importância das instâncias difíceis de classificar.
- ##### **GBM** :
  Atualiza os pesos das instâncias de treinamento, mas o foco é minimizar o gradiente da função de perda em relação às previsões do modelo atual.
Ajusta os resíduos do modelo anterior, em vez de apenas aumentar o peso das instâncias mal classificadas.

#### 2. Flexibilidade:
- ##### **AdaBoost**:
   É mais restrito a problemas de classificação binária, embora existam extensões para classificação multiclasse.
- ##### **GBM** :
   É mais flexível, podendo ser aplicado a problemas de regressão, classificação binária e multiclasse, dependendo da função de perda escolhida.

#### 3.Modelos Base:
- ##### **AdaBoost** :
  Geralmente utiliza modelos mais simples, como árvores de decisão rasas.
- ##### **GBM** :
  Pode usar uma variedade de modelos base, mas geralmente utiliza árvores de decisão mais profundas.

#### 4.Sensibilidade a Outliers:
- ##### **AdaBoost** :
  Pode ser sensível a outliers, pois os modelos subsequentes focam em corrigir erros, incluindo outliers.
Outliers podem receber pesos excessivos, prejudicando o desempenho do modelo.
- ##### **GBM** :
  Menos sensível a outliers devido à abordagem de minimização de gradientes, mas ainda pode ser influenciado por eles, especialmente em estágios iniciais.

#### 5.Treinamento Sequencial vs. Paralelo:
- ##### **AdaBoost** :
  Treina modelos sequencialmente, ajustando os pesos das instâncias em cada iteração.
- ##### **GBM** :
  Também treina modelos sequencialmente, mas cada novo modelo é treinado para corrigir os resíduos do modelo anterior, resultando em um treinamento mais iterativo e sequencial.

### 2. Acesse o link Scikit-learn–adaboost, leia a explicação (traduza se for preciso) e crie um jupyternotebook contendo o exemplo do AdaBoost.

In [8]:
import numpy as np

from sklearn.metrics  import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [10]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100,
                                 learning_rate=1.0,
                                 max_depth=1,
                                 random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [12]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state= 42, loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960318

### 3. Cite 5 Hyperparametros importantes no GBM.

#### 1.Número de Estimadores (`n_estimators`) :
- Define quantas árvores (ou modelos base) serão treinados.
Aumentar o número de estimadores pode aumentar o desempenho do modelo, mas também pode levar a um aumento no tempo de treinamento.

#### 2.Número Mínimo de Amostras em Folhas (`min_samples_leaf`) :
- Define o número mínimo de amostras necessárias para criar uma folha. Valores maiores ajudam a evitar folhas com poucas amostras, o que pode reduzir o overfitting e melhorar a generalização.

#### 3.Subamostragem de Características (`subsample`) :
- controla a fração dos dados de treinamento usada para treinar cada árvore do modelo.

#### 4.Profundidade Máxima das Árvores (`max_depth`) :
- Controla a profundidade máxima de cada árvore. Árvores mais profundas capturam padrões mais complexos, mas aumentam o risco de overfitting.

#### 5.Taxa de Aprendizado (`learning_rate`) :
- Define o peso de cada árvore no modelo. Valores menores exigem mais árvores para convergir, mas podem melhorar a generalização. Valores maiores aceleram o treinamento, mas podem levar a overfitting.

### 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [14]:
import pandas as pd

In [16]:
%%time

estimators     = [10, 100, 1000, 10000]
learning_rates = [0.01, 0.03, 0.06, 0.1]
max_depths     = [1, 3, 6, 9]

grid_search = []

for n in estimators:
    for rate in learning_rates:
        for depth in max_depths:
            est = GradientBoostingRegressor(n_estimators=n, learning_rate=rate, max_depth=depth, random_state=0, loss='squared_error').fit(X_train, y_train)
            grid_search.append([n, rate, depth, mean_squared_error(y_test, est.predict(X_test))])

(pd.DataFrame(data=grid_search, columns=['n_estimators', 'learning_rate', 'max_depth', 'mean_squared_error'])
   .sort_values(by='mean_squared_error', ascending=True, ignore_index=True))

CPU times: user 37.2 s, sys: 110 ms, total: 37.4 s
Wall time: 37.4 s


Unnamed: 0,n_estimators,learning_rate,max_depth,mean_squared_error
0,1000,0.03,1,3.625209
1,1000,0.06,1,3.667692
2,10000,0.10,3,3.754018
3,1000,0.10,3,3.754086
4,100,0.10,3,3.794056
...,...,...,...,...
59,10,0.03,1,21.909960
60,10,0.01,9,22.398583
61,10,0.01,6,22.471035
62,10,0.01,3,22.902975


### 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

A maior diferença é que o Stochastic GBM adiciona aleatoriedade ao treinamento, usando subamostragem de amostras ou características, enquanto o GBM tradicional usa todos os dados disponíveis. Essa aleatoriedade melhora a generalização e reduz o overfitting. 