Tarefa 2
1. Cite 5 diferenças entre o AdaBoost e o GBM.
2. Acesse o link Scikit-learn – GBM, leia a explicação
(traduza se for preciso) e crie um jupyter notebook
contendo o exemplo de classificação e de regressão
do GBM.
3. Cite 5 Hyperparametros importantes no GBM.
4. (Opcional) Utilize o GridSearch para encontrar os
melhores hyperparametros para o conjunto de dados
do exemplo
5. Acessando o artigo do Jerome Friedman (Stochastic) e
pensando no nome dado ao Stochastic GBM, qual é a
maior diferença entre os dois algoritmos?

### 1. Cite 5 diferenças entre o AdaBoost e o GBM.

> ADABOOST
>> - Em cada iteração, ele ajusta os pesos das amostras mal classificadas, forçando o próximo modelo a focar nessas instâncias problemáticas.
>> - Mais simples e mais rápido de treinar, pois usa um único modelo fraco em cada passo.
>> - Sensível a outliers, pois as instâncias mal classificadas recebem pesos altos e podem dominar o treinamento.
>> - Focado em problemas de classificação binária ou multi-classe.
>> - Mais interpretável devido à simplicidade do modelo e ao uso de estimadores fracos como árvores rasas.


> GBM
>> - Em vez de reponderar amostras, ele minimiza o residual do erro de predições anteriores, adicionando modelos que corrigem gradualmente os erros.
>> -  Mais complexo e mais lento, pois cada modelo é treinado com base no gradiente dos erros anteriores, aumentando o custo computacional.
>> -  Menos sensível, já que ele minimiza o erro ao longo de várias iterações, diluindo o impacto de pontos atípicos.
>> -  Flexível para classificação e regressão, usando diferentes funções de perda (como erro quadrático para regressão e log-loss para classificação).
>> -  Pode produzir resultados mais precisos, mas é mais difícil de interpretar devido à complexidade dos ajustes baseados em gradiente.


### 2. Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

In [10]:
### classificação
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [8]:
### regressão
from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)
reg.predict(X_test[1:2])
reg.score(X_test, y_test)

0.4379326910967305

### 3. Cite 5 Hyperparametros importantes no GBM.

1. n_estimators:
> - Define o número total de árvores (ou modelos fracos) que serão treinados.

2. learning_rate:
> - Controla a contribuição de cada árvore para a previsão final, reduzindo o impacto de cada estimador.

3. max_depth:
> - Controla a complexidade de cada árvore individual.

4. subsample:
> - Define a proporção dos dados de treino a ser usada para cada árvore.

5. loss:
> - Especifica a função de perda a ser minimizada. Por exemplo, squared_error é usada para regressão e deviance (log-loss) para classificação.

### 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [15]:
%%time
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

# Carregar o conjunto de dados Iris
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Instanciar o modelo base
gbm = GradientBoostingClassifier(random_state=42)

# Definir a grade de hiperparâmetros para testar
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [1, 3, 5],
    'subsample': [0.8, 1.0],
    'min_samples_split': [2, 5, 10]
}

# Instanciar o GridSearchCV
grid_search = GridSearchCV(
    estimator=gbm, 
    param_grid=param_grid, 
    cv=3,  # Validação cruzada com 3 divisões
    n_jobs=-1,  # Paralelização
    verbose=2
)

# Executar a busca pelos melhores parâmetros
grid_search.fit(X_train, y_train)

# Exibir os melhores parâmetros e a acurácia correspondente
print(f"Melhores parâmetros: {grid_search.best_params_}")
print(f"Acurácia com os melhores parâmetros: {grid_search.best_score_:.4f}")

# Avaliar o desempenho no conjunto de teste
best_model = grid_search.best_estimator_
test_score = best_model.score(X_test, y_test)
print(f"Acurácia no conjunto de teste: {test_score:.4f}")


Fitting 3 folds for each of 162 candidates, totalling 486 fits
Melhores parâmetros: {'learning_rate': 0.01, 'max_depth': 3, 'min_samples_split': 10, 'n_estimators': 50, 'subsample': 0.8}
Acurácia com os melhores parâmetros: 0.9429
Acurácia no conjunto de teste: 1.0000
Wall time: 12.5 s


### 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?
> A maior diferença entre o Stochastic Gradient Boosting (SGB) e o Gradient Boosting Machine (GBM) convencional está na introdução da aleatoriedade durante o treinamento.