<a href="https://colab.research.google.com/github/suelen-prs/EBAC/blob/main/Exercicio2__Modulo24.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [10]:
# Importações necessárias
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.datasets import fetch_california_housing

#1. Cite 5 diferenças entre o AdaBoost e o GBM.


***Abordagem de Ponderação:***

**AdaBoost:** Aumenta o peso das instâncias mal classificadas pelos modelos anteriores, fazendo com que o modelo subsequente se concentre mais nessas instâncias.

**GBM:** Usa o gradiente do erro de perda para guiar o processo de boosting, focando em reduzir o erro máximo ao invés de corrigir classificações incorretas.

***Função de Perda:***

**AdaBoost:** Usa uma função de perda exponencial por padrão.

**GBM:** É flexível e pode utilizar várias funções de perda, tornando-o adequado para uma ampla gama de problemas, incluindo regressão e classificação.

***Complexidade do Modelo Base:***

**AdaBoost:** Tipicamente usa árvores de decisão de um único nível (stumps) como modelos base.
**GBM:** Pode usar árvores de decisão mais profundas, permitindo uma modelagem mais complexa dos dados.

***Regularização:***

**AdaBoost:** Tem poucas opções de regularização inerentes ao algoritmo.

**GBM:** Inclui várias opções de regularização, como o shrinkage (taxa de aprendizagem) e a poda das árvores, o que pode ajudar a prevenir overfitting.

***Sensibilidade a Dados Ruidosos e Outliers:***

**AdaBoost:** É bastante sensível a dados ruidosos e outliers devido à sua função de perda exponencial.

**GBM:** Dependendo da função de perda escolhida, pode ser mais robusto a outliers.

# 2. Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.


In [7]:
# classificação com GBM

# Carregar dados
iris = load_iris()
X, y = iris.data, iris.target

# Dividir os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciar e treinar o modelo
gb_clf = GradientBoostingClassifier(random_state=42)
gb_clf.fit(X_train, y_train)

# Avaliar o modelo
print("Classificação - Score no conjunto de teste:", gb_clf.score(X_test, y_test))


Classificação - Score no conjunto de teste: 1.0


In [8]:
# regressão com GBM

# Carregar o conjunto de dados de habitação da Califórnia
housing = fetch_california_housing()
X, y = housing.data, housing.target

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciar e treinar o modelo Gradient Boosting Regressor
gb_reg = GradientBoostingRegressor(random_state=42)
gb_reg.fit(X_train, y_train)

# Avaliar o modelo no conjunto de teste
score = gb_reg.score(X_test, y_test)
print("Regressão - Score no conjunto de teste:", score)

Regressão - Score no conjunto de teste: 0.7756446042829697


# 3. Cite 5 Hyperparametros importantes no GBM.


**n_estimators:** Número de árvores de boosting a serem criadas.

**learning_rate:** Taxa de aprendizagem, que encolhe a contribuição de cada árvore. Há um trade-off entre learning_rate e n_estimators.

**max_depth:** Profundidade máxima das árvores de regressão. Controla a complexidade do modelo.

**min_samples_split:** Número mínimo de amostras necessárias para dividir um nó interno.

**loss:** A função de perda a ser otimizada. Varia dependendo do tipo de problema (por exemplo, regressão vs. classificação).

# 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

In [11]:
# Carregar o conjunto de dados e dividir
housing = fetch_california_housing()
X, y = housing.data, housing.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurar o espaço de hiperparâmetros para testar
param_grid = {
    'n_estimators': [100, 200],
    'learning_rate': [0.01, 0.1, 0.5],
    'max_depth': [3, 4, 5]
}

# Instanciar o GridSearchCV com um GradientBoostingRegressor
grid_search = GridSearchCV(GradientBoostingRegressor(random_state=42), param_grid, cv=5, scoring='neg_mean_squared_error')

# Executar o GridSearchCV
grid_search.fit(X_train, y_train)

# Melhores parâmetros e score
print("Melhores Parâmetros:", grid_search.best_params_)
print("Melhor Score de Cross-Validation (neg_mean_squared_error):", grid_search.best_score_)

# Avaliar no conjunto de teste usando os melhores parâmetros
best_model = grid_search.best_estimator_
test_score = best_model.score(X_test, y_test)
print("Score no Conjunto de Teste (R^2):", test_score)



Melhores Parâmetros: {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 200}
Melhor Score de Cross-Validation (neg_mean_squared_error): -0.22553386249746515
Score no Conjunto de Teste (R^2): 0.8288266356513045


# 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

A maior diferença entre o Gradient Boosting Machine (GBM) tradicional e o Stochastic Gradient Boosting Machine (SGBM), conforme introduzido por Jerome Friedman, reside no processo de amostragem utilizado durante o treinamento das árvores.

No GBM tradicional, todas as árvores são treinadas usando todo o conjunto de dados de treinamento. Cada árvore tenta corrigir os erros da árvore anterior, focando nas instâncias mais difíceis de prever corretamente.

No Stochastic Gradient Boosting Machine (SGBM), por outro lado, cada árvore é treinada em uma amostra aleatória do conjunto de dados de treinamento. Esta amostra é tirada com reposição (bootstrap sample), semelhante ao que é feito no Bagging. A principal diferença é que, em vez de construir árvores em paralelo como no Bagging, o SGBM constrói as árvores sequencialmente, onde cada nova árvore é construída para corrigir os erros deixados pelas árvores anteriores.

Essa abordagem estocástica introduz mais diversidade nas árvores construídas, o que pode ajudar a reduzir o risco de overfitting e melhorar a generalização do modelo em dados não vistos. Além disso, treinar em subconjuntos dos dados torna o processo mais eficiente computacionalmente, permitindo que o SGBM lidere com grandes conjuntos de dados de forma mais eficaz.