### Tarefa 2

#### 1. Cite 5 diferenças entre o AdaBoost e o GBM.


<span style="color:limegreen">
1. Enquanto no AdaBoost, os "aprendizes fracos" são representados por árvores de decisão de profundidade 1, no GBM, esses aprendizes podem ser árvores complexas de qualquer profundidade.<br><br>
2. O processo inicial no GBM envolve o cálculo da média de Y, enquanto no AdaBoost, é a criação de um stump (árvore rasa).<br><br>
3. No AdaBoost, as respostas de cada estimador têm pesos diferentes com base em suas performances, mas no GBM, as estimativas são multiplicadas por uma constante igual para todos.<br><br>
4. O AdaBoost treina cada estimador com um conjunto de dados diferente, ao contrário do GBM, que usa todo o conjunto de dados para treinamento de cada árvore.<br><br>
5. Enquanto o AdaBoost ensina cada estimador a prever diretamente a variável resposta, o GBM treina cada árvore para estimar o resíduo.
</span>


#### 2. Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

In [10]:
# Exemplo de classificação
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier as gbc

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = gbc(n_estimators=100, learning_rate=1.0, 
                                 max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [11]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor as gbr

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = gbr(n_estimators=100, learning_rate=0.1, 
          max_depth=1, random_state=0, 
          loss='squared_error').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960319

#### 3. Cite 5 Hyperparametros importantes no GBM.

<span style="color:limegreen">
<strong>1. n_estimators:</strong> O número de árvores a serem construídas no modelo. Quanto maior, mais complexo o modelo, porém pode levar a overfitting.<br><br>
<strong>2. learning_rate:</strong> Taxa de aprendizado que controla a contribuição de cada árvore ao modelo. Um valor menor requer mais árvores para o mesmo desempenho, mas pode aumentar a robustez.<br><br>
<strong>3. max_depth:</strong> A profundidade máxima das árvores de decisão construídas. Controla a complexidade do modelo e pode afetar o overfitting.<br><br>
<strong>4. subsample:</strong> A fração dos dados de treinamento usada para construir cada árvore. Pode ajudar a evitar overfitting, mas valores muito baixos podem levar a um viés elevado.<br><br>
<strong>5. min_samples_split:</strong> O número mínimo de amostras necessárias para dividir um nó interno da árvore. Controla a quantidade de divisões e pode afetar o overfitting.
</span>


#### 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [14]:
%%time
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV

# Carregando os dados
X, y = load_iris(return_X_y=True)

# Definindo os hiperparâmetros para testar
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'subsample': [0.8, 1.0],
    'min_samples_split': [2, 3, 4]
}

# Criando o modelo
model = gbc()

# Criando o GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)

# Treinando o modelo usando o GridSearchCV
grid_search.fit(X, y)

# Imprimindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros:")
print(grid_search.best_params_)

Melhores hiperparâmetros:
{'learning_rate': 0.01, 'max_depth': 3, 'min_samples_split': 2, 'n_estimators': 100, 'subsample': 0.8}
CPU times: user 4min 15s, sys: 131 ms, total: 4min 15s
Wall time: 4min 15s


#### 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

<span style="color:limegreen">A maior diferença entre o Gradient Boosting (GBM) e o Stochastic Gradient Boosting (Stochastic GBM) está na forma como eles constroem as árvores. No GBM, todas as observações são usadas para construir cada árvore. Já no Stochastic GBM, a cada iteração, é selecionada uma amostra aleatória das observações para criar a árvore. Isso adiciona um toque de aleatoriedade ao processo, o que ajuda a evitar overfitting e a tornar o modelo mais robusto. Em resumo, o Stochastic GBM introduz um elemento de variação nas árvores, o que pode ser vantajoso para lidar com dados ruidosos ou conjuntos de treinamento grandes.</span>