## GBM

# 1. ***Cite 5 diferenças entre o AdaBoost e o GBM***

AdaBoost e Gradient Boosting Machine (GBM) são ambos métodos de ensemble learning que combinam vários modelos base para melhorar o desempenho preditivo. Aqui estão cinco diferenças principais entre eles:

###      1. Estratégia de Combinação dos Modelos:

AdaBoost: Combina modelos de forma sequencial, atribuindo pesos maiores aos exemplos mal classificados em cada iteração. Cada novo modelo é treinado com foco nos exemplos que foram difíceis de classificar corretamente pelas iterações anteriores.
GBM: Também combina modelos de forma sequencial, mas a combinação é baseada na minimização de uma função de perda. Cada novo modelo é treinado para corrigir os erros residuais dos modelos anteriores.

###      2. Algoritmo de Treinamento:

AdaBoost: Utiliza um processo de reponderação dos exemplos de treinamento. Os exemplos mal classificados recebem pesos mais altos para que o próximo modelo se concentre mais nesses exemplos.
GBM: Utiliza o método de gradiente descendente para otimizar a função de perda. Cada modelo subsequente tenta minimizar o gradiente dos erros cometidos pelo modelo anterior.

###     3. Sensibilidade a Ruído:

AdaBoost: Pode ser bastante sensível a ruído nos dados, pois os exemplos difíceis (que podem ser ruído) recebem pesos maiores, o que pode levar o modelo a superajustar aos exemplos ruidosos.
GBM: Também pode ser sensível a ruído, mas os métodos de regularização como o shrinkage (taxa de aprendizado) e a limitação da profundidade das árvores ajudam a mitigar o problema de overfitting.

###     4. Complexidade Computacional:

AdaBoost: Geralmente, é mais simples e rápido de treinar comparado ao GBM, especialmente quando usado com modelos base simples como árvores de decisão de um único nível (stumps).
GBM: É mais complexo e computacionalmente intensivo, pois envolve a construção de árvores de decisão mais profundas e a otimização iterativa dos erros residuais.

###     5. Parâmetros de Controle:

AdaBoost: Tem menos parâmetros para ajustar. Os principais são o número de estimadores e o tipo de modelo base.
GBM: Possui mais parâmetros para ajuste, como o número de estimadores, a taxa de aprendizado (shrinkage), a profundidade das árvores, o número mínimo de amostras por folha, entre outros, permitindo maior controle e potencial para melhor desempenho, mas também maior complexidade na modelagem.

# 2. Acesse o link Scikit-learn– GBM , leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regress

In [3]:
# Classificação

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

In [4]:
# Regressão

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error'
).fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

5.009154859960321

# 3. Cite 5 Hyperparametros importantes no GBM.

### 1. n_estimators (Número de Estimadores):

Define o número de árvores a serem construídas no modelo. Um número maior pode melhorar a performance até certo ponto, mas também pode levar ao sobreajuste.

### 2. learning_rate (Taxa de Aprendizado):

Controla o peso de cada árvore individualmente. Valores menores geralmente requerem mais árvores (n_estimators) para uma boa performance, mas podem resultar em um modelo mais robusto.

### 3. max_depth (Profundidade Máxima):

Limita a profundidade de cada árvore. Árvores mais profundas podem capturar relações mais complexas nos dados, mas também aumentam o risco de sobreajuste.

### 4. subsample (Amostragem Subconjunto):

A fração das amostras usadas para treinar cada árvore. Valores menores podem introduzir mais variabilidade e ajudar a prevenir o sobreajuste.

### 5. min_samples_split e min_samples_leaf (Mínimo de Amostras para Divisão e Folha):

min_samples_split especifica o número mínimo de amostras necessárias para dividir um nó.
min_samples_leaf define o número mínimo de amostras que devem estar presentes em uma folha. Ambos ajudam a controlar o crescimento das árvores e prevenir o sobreajuste.

# 4. Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# Carregando os dados
iris = load_iris()
X, y = iris.data, iris.target

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definindo o modelo
gb_clf = GradientBoostingClassifier(random_state=42)

# Definindo a grade de hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.2, 0.5],
    'max_depth': [1, 3, 5],
    'subsample': [0.6, 0.8, 1.0],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Configurando o GridSearchCV
grid_search = GridSearchCV(estimator=gb_clf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

# Ajustando o modelo
grid_search.fit(X_train, y_train)

# Encontrando os melhores hiperparâmetros
best_params = grid_search.best_params_
print("Melhores hiperparâmetros encontrados:")
print(best_params)

# Avaliando o modelo com os melhores hiperparâmetros
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy:.4f}")


# 5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

A maior diferença entre o Gradient Boosting Machine (GBM) tradicional e o Stochastic Gradient Boosting Machine (Stochastic GBM) está na maneira como os dados são amostrados durante o treinamento de cada árvore.
No GBM tradicional a amostragem é completa, em cada iteração, todas as amostras do conjunto de dados são utilizadas para treinar cada árvore. O modelo ajusta cada árvore para corrigir os erros das árvores anteriores usando todo o conjunto de dados disponível. Enquanto no Stochastic GBM a amostragem é aleatória (subsample), em cada iteração, apenas uma amostra aleatória do conjunto de dados é usada para treinar cada árvore. Essa amostra é uma fração do total de dados, controlada pelo hiperparâmetro subsample. Por exemplo, se subsample=0.5, apenas 50% dos dados são usados para treinar cada árvore.

Sendo assim, as maiores vantagens do Stochastic GBM consistem na *redução do overfittting* (ao usar uma fração dos dados, o Stochastic GBM introduz mais variabilidade e pode ajudar a reduzir o risco de overfitting. As árvores são menos correlacionadas, o que melhora a generalização do modelo) e *eficiência computacional* (treinar cada árvore com uma amostra menor de dados pode reduzir o tempo de treinamento, especialmente em conjuntos de dados muito grandes.)