# EBAC - Profissão Cientista de Dados
## Módulo 23: Combinação de Modelos I
## Exercício 2


**1) Cite 5 diferenças entre o AdaBoost e o GBM**

- O primeiro passo do AdaBoost é criar um stump que fará a primeira predição, já no GBM a primeira predição é uma previsão simples, geralmente a média da variável e com isso calcula-se os resíduos.

- Os classificadores fracos do Adaboost são stumps enquanto no GBM são árvores

- No AdaBoost cada resposta das árvores tem um peso diferente, já no GBM todas as respostas das árvores possui um multiplicador em comum chamado learning_rate

- Os classificadores fracos do Adaboost vão predizer a variável dependente Y, já no GBM eles irão predizer os resíduos

- No Adaboost a resposta final de uma regressão é a média dos valores preditos de cada classificador fraco poderada pelos seus pesos, já no GBM, como os  classificaodres, a resposta final dos classificadores fracos multiplicados pela taxa de aprendizado somada a previsão incial que gerealmente é a média da variável que se quer prever.


**2) Acesse o link Scikit-learn – GBM, leia a explicação
(traduza se for preciso) e crie um jupyter notebook
contendo o exemplo de classificação e de regressão
do GBM.**
https://scikit-learn.org/stable/modules/ensemble.html

**Classificação**

In [1]:
%%time
# Importando as bibliotecas necessárias
from sklearn.datasets import make_hastie_10_2 # Função para gerar dados sintéticos de classificação binária
from sklearn.ensemble import GradientBoostingClassifier # Implementação do classificador de Gradient Boosting do scikit-learn

# Gerando um conjunto de dados sintéticos com 10 características e 2 classes (-1 e +1)
X, y = make_hastie_10_2(random_state=0)

# Separando o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Criando um modelo de classificação de Gradient Boosting com hiperparâmetros específicos e treinando o classificador de Gradient Boosting nos dados de treinamento
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X_train, y_train)

# Avaliando o desempenho do modelo nos dados de teste e calculando a pontuação de acurácia
clf.score(X_test, y_test)


CPU times: total: 359 ms
Wall time: 2.43 s


0.913

**Regressão**

In [2]:
%%time
# Importando as bibliotecas necessárias
import numpy as np
from sklearn.metrics import mean_squared_error # Função para calcular o erro quadrático médio
from sklearn.datasets import make_friedman1 # Função para gerar dados sintéticos do conjunto de Friedman
from sklearn.ensemble import GradientBoostingRegressor # Implementação do regressor de Gradient Boosting do scikit-learn

# Gerando um conjunto de dados sintéticos do conjunto de Friedman com 1200 amostras e ruido adicional de 1.0
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)

# Separando o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

# Criando um regressor de Gradient Boosting com hiperparâmetros específicos e
# treinando o regressor de Gradient Boosting com os dados de treinamento
est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,loss='squared_error').fit(X_train, y_train)

# Calculando o erro quadrático médio (Mean Squared Error - MSE) do modelo nos dados de teste
mean_squared_error(y_test, est.predict(X_test))


CPU times: total: 15.6 ms
Wall time: 40.9 ms


5.009154859960321

**3) Cite 5 Hyperparametros importantes no GBM.**

- **n_estimators:** O número de etapas de boosting (ou árvores) que serão ajustadas. Esse parâmetro controla o número de árvores de decisão individuais no ensemble.


- **learning_rate:** Taxa de aprendizado (ou passo) que controla a contribuição de cada árvore no ensemble. Uma taxa de aprendizado menor significa que cada árvore contribuirá menos para o modelo final, tornando o processo de ajuste mais lento, mas geralmente resultando em um modelo mais preciso.


- **max_depth:** A profundidade máxima das árvores de decisão individuais. Define o número máximo de níveis de divisão que cada árvore pode ter. Controlar a profundidade pode ajudar a evitar overfitting, já que árvores mais rasas tendem a ser menos complexas.
 
 
- **min_samples_split:** O número mínimo de amostras necessárias para dividir um nó interno em uma árvore de decisão. Isso controla o tamanho mínimo dos grupos de amostras que ainda podem ser divididos. Um valor maior reduzirá a complexidade do modelo e pode evitar overfitting.


- **loss:** A função de perda (loss function) a ser otimizada durante o ajuste do modelo. Essa função de perda mede a qualidade do ajuste do modelo em cada etapa de boosting. No scikit-learn, alguns exemplos comuns são 'ls' para regressão de mínimos quadrados (Least Squares) e 'deviance' para classificação de perda logística (Logistic Regression). Para regressão, pode-se usar 'lad' para regressão de mediana absoluta (Least Absolute Deviations).<br>O hiperparâmetro de loss pode variar de acordo com o problema específico em questão e as necessidades do modelo, e é importante escolher a função de perda adequada para o tipo de tarefa sendo resolvida.



**4) (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo**

**Classificação**

In [3]:
%%time
# Importando as bibliotecas necessárias
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import make_hastie_10_2 # Função para gerar dados sintéticos de classificação binária
from sklearn.ensemble import GradientBoostingClassifier # Implementação do classificador de Gradient Boosting do scikit-learn

# Gerando um conjunto de dados sintéticos com 10 características e 2 classes (-1 e +1)
X, y = make_hastie_10_2(random_state=0)

# Separando o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]


# Criando um modelo de classificação de Gradient Boosting 
clf = GradientBoostingClassifier(random_state=0)

# Definindo os hiperparâmetros a serem testados no GridSearch
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.1, 0.5, 1.0],
    'max_depth': [1,5]
    }

# Criando o objeto GridSearchCV
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1)

# Realizando o GridSearch para encontrar os melhores hiperparâmetros
grid_search.fit(X_train, y_train)

# Obtendo os hiperparâmetros que tiveram o melhor resultado
melhores_hparam = grid_search.best_params_

# Imprimindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros encontrados:")
print(melhores_hparam )



Melhores hiperparâmetros encontrados:
{'learning_rate': 1.0, 'max_depth': 1, 'n_estimators': 150}
CPU times: total: 359 ms
Wall time: 16.1 s


In [4]:
#Criando arvore com melhores parâmetros e avaliando
# Importando as bibliotecas necessárias
from sklearn.model_selection import cross_val_score

#Criando o classificador Gradient Boost com os melhores hiperparâmetros encontrados utilizando o grid_Search.best_params 
clf = GradientBoostingClassifier(**melhores_hparam) # o operador ** é utilizado para passar um dicionário como argumento para uma função ou construtor, descompactando-o em pares chave-valor.
# Realiza a validação cruzada (k-fold) com 5 folds usando o clf
scores = cross_val_score(clf, X_train, y_train, cv=5)
print('Score para cada fold: ', scores)

#Calcula a média das pontuações obtidas durante a validação cruzada
print('Média dos scores: ' , scores.mean())


Score para cada fold:  [0.92   0.9375 0.9375 0.925  0.92  ]
Média dos scores:  0.9279999999999999


In [8]:
#Outra forma utilizando best_estimator
#Recebe o classificador Gradiente Boost "fitado" com os dados de treino e com os melhores hiperparâmetros encontrados
clf = grid_search.best_estimator_
# Realiza a validação cruzada (k-fold) com 5 folds usando o Gradient Boost
scores = cross_val_score(clf, X_train, y_train, cv=5)
print('Score para cada fold: ', scores)
#Calcula a média das pontuações obtidas durante a validação cruzada
scores.mean()
print('Média dos scores: ' , scores.mean())

Score para cada fold:  [0.92   0.9375 0.9375 0.925  0.92  ]
Média dos scores:  0.9279999999999999


In [7]:
# Avaliando o desempenho do modelo nos dados de teste
clf.score(X_test, y_test)

0.9279

**Regressão**

In [10]:
%%time
# Importando as bibliotecas necessárias
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error # Função para calcular o erro quadrático médio
from sklearn.datasets import make_friedman1 # Função para gerar dados sintéticos do conjunto de Friedman
from sklearn.ensemble import GradientBoostingRegressor # Implementação do regressor de Gradient Boosting do scikit-learn

# Gerando um conjunto de dados sintéticos do conjunto de Friedman com 1200 amostras e ruido adicional de 1.0
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)

# Separando o conjunto de dados em conjuntos de treinamento e teste
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

# Criando um regressor de Gradient Boosting 
est = GradientBoostingRegressor(random_state=0,loss='squared_error')

# Definindo os hiperparâmetros a serem testados no GridSearch
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.1, 0.5, 1.0],
    'max_depth': [1,5]
    }

# Criando o objeto GridSearchCV
grid_search = GridSearchCV(estimator=est, param_grid=param_grid, cv=5, n_jobs = -1)

# Realizando o GridSearch para encontrar os melhores hiperparâmetros
grid_search.fit(X_train, y_train)

# Obtendo os hiperparâmetros que tiveram o melhor resultado
melhores_hparam = grid_search.best_params_

# Imprimindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros encontrados:")
print(melhores_hparam )


Melhores hiperparâmetros encontrados:
{'learning_rate': 0.1, 'max_depth': 1, 'n_estimators': 150}
CPU times: total: 141 ms
Wall time: 974 ms


In [11]:
#Criando o regressor com melhores parâmetros e avaliando
est = grid_search.best_estimator_
# Realiza a validação cruzada (k-fold) com 5 folds usando o Gradient Boost
scores = cross_val_score(est, X_train, y_train, cv=5)
print('Score para cada fold: ', scores)
#Calcula a média das pontuações obtidas durante a validação cruzada
scores.mean()
print('Média dos scores: ' , scores.mean())


Score para cada fold:  [0.73658007 0.74687921 0.77092803 0.75671773 0.80889851]
Média dos scores:  0.7640007092913994


In [12]:
# Avaliando o desempenho do modelo nos dados de teste
#clf.fit(X_train,y_train)
est.score(X_test, y_test)

0.838832232098804

**5) Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?**

A maior diferença entre o GBM e o Stochastic GBM é a forma como as amostras são selecionadas para o ajuste das árvores de decisão. No Gradient Boosting tradicional (GBM), todas as amostras do conjunto de treinamento são usadas para ajustar cada árvore de decisão individual. Já no Stochastic GBM, a seleção das amostras é feita de forma estocástica (aleatória). Em vez de usar todas as amostras para ajustar cada árvore, uma fração (subconjunto) aleatória das amostras sem repetição é usada.