### Cite 5 diferenças entre o AdaBoost e o GBM

1. Mecanismo de Atualização dos Pesos:

AdaBoosting: Ajusta os pesos das instâncias do conjunto de treinamento com base no desempenho do modelo anterior. A cada iteração, as instâncias mal classificadas recebem um peso maior, incentivando o próximo modelo a se concentrar mais nesses exemplos difíceis.

GBM: Utiliza uma abordagem de gradiente descendente para minimizar a função de perda. Em vez de ajustar os pesos das instâncias, o GBM ajusta os valores preditos diretamente, somando novos modelos que corrigem os erros residuais dos modelos anteriores.

2. Função de Perda:

AdaBoosting: Originalmente, AdaBoost foi desenvolvido para minimizar o erro de classificação binária, mas variantes podem ser usadas para regressão. Utiliza uma função de perda exponencial para ajustar os pesos.

GBM: Pode usar várias funções de perda, como erro quadrático (para regressão), entropia cruzada (para classificação) e muitas outras, tornando-o mais flexível em termos de tipos de problemas que pode abordar.

3. Tipo de Modelos de Base:

AdaBoosting: Comumente utiliza árvores de decisão de profundidade 1 (stumps) como modelos de base, mas pode usar outros modelos simples.

GBM: Geralmente usa árvores de decisão de maior profundidade (não limitadas a stumps) como modelos de base, o que permite capturar interações mais complexas entre as características.

4. Construção Sequencial:

AdaBoosting: Os modelos são treinados sequencialmente, e cada modelo novo tenta corrigir os erros dos modelos anteriores aumentando os pesos das instâncias mal classificadas.

GBM: Cada modelo novo é ajustado para minimizar os erros residuais dos modelos anteriores usando um procedimento de gradiente descendente, ajustando a função de perda de forma direta.

5. Robustez a Ruídos e Outliers:

AdaBoosting: Pode ser sensível a ruídos e outliers no conjunto de dados, pois aumenta os pesos das instâncias mal classificadas, o que pode incluir outliers.

GBM: Tende a ser mais robusto a ruídos e outliers, pois o ajuste é feito para minimizar uma função de perda escolhida, que pode ser menos afetada por outliers dependendo da função de perda utilizada.

### Acesse o link Scikit-learn - GBM, leia a explicação (traduza se preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM

In [1]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

# Regressão
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error'
)
est = est.fit(X_train, y_train)  # fit with 100 trees
mean_squared_error(y_test, est.predict(X_test))
_ = est.set_params(n_estimators=200, warm_start=True)  # set warm_start and increase num of trees
_ = est.fit(X_train, y_train) # fit additional 100 trees to est
mean_squared_error(y_test, est.predict(X_test))

3.840234741105356

In [2]:
# Classificação
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.913

### Cite 5 Hyperparâmetros importantes do GBM

* Número de Árvores (n_estimators): Define o número de árvores que serão construídas pelo GBM. Um valor maior geralmente resulta em um modelo mais robusto, mas pode aumentar o tempo de treinamento e o risco de overfitting.
* Taxa de Aprendizado (learning_rate): Controla a contribuição de cada árvore no processo de aprendizado. Reduzir a taxa de aprendizado geralmente requer aumentar o número de árvores para manter o desempenho do modelo, mas pode melhorar a generalização.
* Profundidade Máxima das Árvores (max_depth): Especifica a profundidade máxima das árvores de decisão individuais no GBM. Árvores mais profundas podem capturar interações mais complexas nos dados de treinamento, mas aumentam o risco de overfitting.
* Número Mínimo de Amostras em Folhas (min_samples_leaf): Define o número mínimo de amostras necessárias em uma folha para continuar dividindo um nó. Isso ajuda a controlar o tamanho das árvores e, consequentemente, a complexidade do modelo.
* Subamostragem de Características (subsample): Especifica a fração de amostras a serem usadas para treinar cada árvore. Valores menores resultam em uma maior variância, mas também podem ajudar a reduzir o overfitting.

### Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [3]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV

# Carregar Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Definindo a grade de hiperparâmetros a serem testados
param_grid = {
    'n_estimators': [25, 50, 100, 200],
    'learning_rate': [0.01, 0.1, 0.5, 1.0],
    'max_depth': [1, 3, 5],
    'min_samples_leaf': [0.01, 0.5, 1]
}

# Criando o modelo
gbm = GradientBoostingRegressor(random_state=5)

# Configurando o GridSearchCV
grid_search = GridSearchCV(estimator=gbm, param_grid=param_grid, cv=5, n_jobs=-1, scoring='accuracy')


# Executando o GridSearchCV
grid_search.fit(X_train, y_train)

# Obtendo os melhores hiperparâmetros
best_params = grid_search.best_params_
print("Melhores hiperparâmetros:", best_params)


Melhores hiperparâmetros: {'learning_rate': 0.01, 'max_depth': 1, 'min_samples_leaf': 0.01, 'n_estimators': 25}


 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan]


### Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

A maior diferença entre o Gradient Boosting Machine (GBM) padrão e o Stochastic Gradient Boosting (SGB) está na forma como são construídos os conjuntos de dados usados para treinar cada árvore individual no ensemble.

* No GBM padrão:

Cada árvore é treinada usando o conjunto de dados completo.
A cada iteração, todas as amostras são utilizadas para construir a árvore, e a atualização é feita para reduzir o erro global.

* No Stochastic Gradient Boosting (SGB):

Cada árvore é treinada em uma subamostra aleatória do conjunto de dados completo.
A subamostra é geralmente criada utilizando uma abordagem de amostragem aleatória com reposição (bootstrap), onde cada árvore vê apenas uma fração dos dados, selecionada aleatoriamente.
Esta técnica introduz uma aleatoriedade controlada no processo de treinamento, o que pode ajudar a reduzir o overfitting e melhorar a generalização do modelo.

A principal diferença entre GBM padrão e Stochastic GBM (SGB) reside na introdução de aleatoriedade no SGB através do uso de subamostras para treinar cada árvore, enquanto o GBM padrão utiliza o conjunto de dados completo em cada iteração.