In [None]:
# CARREGANDO BIBLIOTECAS NECESSÁRIAS

import numpy as np  # Biblioteca para operações numéricas eficientes e arrays multidimensionais.
from sklearn.metrics import mean_squared_error  # Métrica para calcular o erro médio quadrático.
from sklearn.datasets import make_friedman1  # Função para gerar o conjunto de dados sintético Friedman 1.
from sklearn.datasets import make_hastie_10_2  # Função para gerar o conjunto de dados sintético Hastie 10-2.
from sklearn.ensemble import GradientBoostingRegressor  # Algoritmo de boosting para regressão.
from sklearn.ensemble import GradientBoostingClassifier  # Algoritmo de boosting para classificação.
from sklearn.model_selection import GridSearchCV  # Ferramenta para busca em grade e validação cruzada.

<font size="4">**TAREFA 2**</font>

<font size="3">**1. Cite 5 diferenças entre o AdaBoost e o GBM.**</font>

> 1 - **ABORDAGEM**

<font size="2"> No **AdaBoost** pondera os erros anteriores para focar nos exemplos mais complexos, já no **GBM** os erros anteriores são corrigidos ao ajustar os modelos seguintes. </font>

> 2 - **MODELOS BASE**

<font size="2"> No **AdaBoost** são utilizados modelos simples, como as árvores de decisão com apenas um nó, já no **GBM** são utilizados modelos mais complexos, geralmente árvores de decisão completas. </font>

> 3 - **TREINAMENTO**

<font size="2"> No **AdaBoost** são atribuídos pesos aos exemplos e iteração para melhorar a classificação dos mal classificados, já no **GBM** os modelos sucessicivos são ajustados para os resíduos (diferenças) do modelo anterior. </font>

> 4 - **PARALELISMO**

<font size="2"> No **AdaBoost** os modelos são treinados sequencialmente, um após o outro, já no **GBM** o paralelismo pode ser explorado, treinando árvores independentemente. </font>

> 5 - **SENSIBILIDADE A OUTLIERS**

<font size="2"> No **AdaBoost** há uma maior sensibilidade, pois o método foca em exemplos difíceis e pode ser afetado por outliers, já no **GBM** devido ao ajuste gradativo e à capacidade das árvores de lidar com outliers, o método é menos sensível. </font>

<font size="3">**2. Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.**</font>

<font size="4"><u>CLASSIFICAÇÃO </u></font>

In [21]:
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
                                 max_depth=1, random_state=0).fit(X_train, y_train)

score = clf.score(X_test, y_test)
formatted_score = round(score, 3)

print("Score:", formatted_score)

Score: 0.913


<font size="4"><b>4. UTILIZANDO GRIDSEARCH PARA ENCONTRAR MELHORES PARÂMETROS DO EXEMPLO ACIMA</b></font>

In [22]:
# Carregando o conjunto de dados
X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Definindo os hiperparâmetros que deseja testar
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [1, 2, 3]
}

# Criando o classificador
clf = GradientBoostingClassifier(random_state=0)

# Criando o GridSearchCV
grid_search = GridSearchCV(clf, param_grid, cv=3)
grid_search.fit(X_train, y_train)

# Obtendo o melhor classificador a partir do GridSearchCV
best_clf = grid_search.best_estimator_

# Calculando e formatando a pontuação do melhor classificador
score = best_clf.score(X_test, y_test)
formatted_score = round(score, 3)

print("Best Parameters:", grid_search.best_params_)
print("Best Score:", formatted_score)


Best Parameters: {'learning_rate': 0.2, 'max_depth': 2, 'n_estimators': 200}
Best Score: 0.911


<font size="4"><u>REGRESSÃO</u></font>

In [23]:
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error').fit(X_train, y_train)

mse = mean_squared_error(y_test, est.predict(X_test))
formatted_mse = round(mse, 3)

print("Mean Squared Error:", formatted_mse)


Mean Squared Error: 5.009


<font size="4"><b>4. UTILIZANDO GRIDSEARCH PARA ENCONTRAR MELHORES PARÂMETROS DO EXEMPLO ACIMA</b></font>

In [25]:
# Gerando o conjunto de dados
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

# Definindo os hiperparâmetros que deseja testar
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [1, 2, 3]
}

# Criando o regressor
est = GradientBoostingRegressor(random_state=0)

# Criando o GridSearchCV
grid_search = GridSearchCV(est, param_grid, cv=3)
grid_search.fit(X_train, y_train)

# Obtendo o melhor regressor a partir do GridSearchCV
best_est = grid_search.best_estimator_

# Calculando e formatando o Mean Squared Error do melhor regressor
mse = mean_squared_error(y_test, best_est.predict(X_test))
formatted_mse = round(mse, 3)

print("Best Parameters:", grid_search.best_params_)
print("Best Mean Squared Error:", formatted_mse)


Best Parameters: {'learning_rate': 0.2, 'max_depth': 2, 'n_estimators': 200}
Best Mean Squared Error: 3.654


<font size="3">**3. Cite 5 Hyperparametros importantes no GBM.**</font>

> 1 - **n_estimators**

<font size="2"> Número de árvores no ensemble (combinação de modelos para melhoria). </font>

> 2 - **learning_rate**

<font size="2"> Taxa de aprendizado para ajustar as previsões. </font>

> 3 - **max_depth**

<font size="2"> Profundidade máxima das árvores. </font>

> 4 - **subsample**

<font size="2"> Fração de amostrass usadas para treinar cada árvore. </font>

> 5 - **loss**

<font size="2"> Função de perde a ser otimizada durante o treinamento.</font>

<font size="3">**5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?**</font>

> <font size="2"> A maior diferença entre os dois algoritmos, Gradient Boosting e Stochastic Gradient Boosting, é que no primeiro são ajustados sequencialmente os modelos fracos para corrigir os erros cometidos pelos modelos anteriores, snedo que a cada novo modelo é ajustado aos resíduos entre as previsões do modelo anterior e os valores reais, com foco em melhorar os erros persistentes e tornando-o mais preciso à medida que mais modelos são adicionados, sendo de extrema importância que o modelo seja cuidadosamente ajustado para evitar o overfitting, já no segundo algoritmo é introduzido um componente de aleatoriedade durante o treinamento, ou seja, ao inves de ajustar a cada iteração o modelo a todos os dados de treinamento, ele seleciona aleatoriamente uma subamostra (amostra parcial de dados) para treinamento a cada iteração (passo repetido no processo), isso introduz uma variação adicional ao processo de ajuste, tornando  o modelo mais robusto (resistente a variações) e reduzindo a sensibilidade ao overfitting (superajuste aos dados). </font>