## **Cite 5 diferenças entre o AdaBoost e o GBM.**

1. **Método de Construção dos Modelos:**
   - **AdaBoost (Adaptive Boosting):** AdaBoost começa com um modelo base simples e melhora iterativamente, ajustando os pesos das instâncias com base nos erros do modelo anterior. Cada novo modelo concentra-se mais nas instâncias que foram mal classificadas anteriormente.
   - **Gradient Boosting Machine (GBM):** GBM também constrói modelos de forma iterativa, mas em vez de ajustar os pesos das instâncias, ele ajusta o próprio modelo, tentando corrigir os erros dos modelos anteriores. Ele faz isso minimizando a função de perda do modelo, usando o gradiente descendente.

2. **Ponderação das Instâncias vs. Resíduos:**
   - **AdaBoost:** Ajusta os pesos das instâncias no conjunto de dados. Instâncias mal classificadas ganham mais peso para que o modelo subsequente se concentre nelas.
   - **GBM:** Trabalha com os resíduos (erros) do modelo anterior. Em vez de dar mais peso às instâncias, ele tenta reduzir os resíduos (a diferença entre a previsão e o valor real).

3. **Função de Perda:**
   - **AdaBoost:** Utiliza uma função de perda exponencial, que é mais sensível a classificações incorretas.
   - **GBM:** É mais flexível em relação à função de perda e pode ser adaptado para diferentes tipos de problemas, como regressão e classificação, usando funções de perda específicas.

4. **Sensibilidade a Dados Ruidosos e Outliers:**
   - **AdaBoost:** É mais sensível a outliers e ruídos, pois dá mais peso às instâncias difíceis, que podem incluir outliers.
   - **GBM:** É relativamente mais robusto a outliers e ruídos, pois se concentra em reduzir os erros (resíduos) de forma mais geral.

5. **Complexidade Computacional:**
   - **AdaBoost:** Geralmente tem uma complexidade computacional menor, pois os modelos base são frequentemente simples (como stumps de decisão).
   - **GBM:** Pode ter uma complexidade computacional maior, especialmente com grandes conjuntos de dados e muitas iterações, devido ao uso de gradiente descendente e à necessidade de otimizar a função de perda.


## **Acesse o link Scikit-learn – GBM, e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.**

In [1]:
# GBM Classificação
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Generate data
X, y = make_hastie_10_2(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Create and fit the model
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)
clf.fit(X_train, y_train)

# Predict and evaluate
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Classification Accuracy: {accuracy:.2f}')


Classification Accuracy: 0.91


In [2]:
# GBM Regressão
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split

# Generate data
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Create and fit the model
est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0, loss='squared_error')
est.fit(X_train, y_train)

# Predict and evaluate
y_pred = est.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')


Mean Squared Error: 5.12


## **Cite 5 Hyperparametros importantes no GBM**

**n_estimators:**

Descrição: Representa o número de árvores de reforço a serem construídas. Em GBM, isso equivale ao número de iterações de reforço.
Impacto: Um número maior de árvores pode melhorar a precisão do modelo, mas também pode levar a overfitting. Além disso, aumenta o tempo de treinamento e a complexidade do modelo.

**learning_rate:**

Descrição: Também conhecido como taxa de encolhimento, este parâmetro escala a contribuição de cada árvore. Se definido como um valor baixo, será necessário um número maior de árvores para construir um modelo de complexidade semelhante.
Impacto: Valores menores de learning_rate são geralmente usados em conjunto com um maior número de árvores, o que pode levar a um modelo mais generalizado, mas também aumenta o tempo de treinamento.

**max_depth:**

Descrição: Define a profundidade máxima de cada árvore de decisão.
Impacto: Árvores mais profundas podem capturar padrões mais complexos nos dados, mas também podem causar overfitting. Limitar a profundidade da árvore ajuda a prevenir overfitting e reduz a complexidade computacional.

**min_samples_split:**

Descrição: O número mínimo de amostras necessárias para dividir um nó interno.
Impacto: Valores maiores previnem a criação de nós que representam padrões muito específicos, ajudando na generalização. Valores muito altos, no entanto, podem levar a um modelo subajustado.

**subsample:**

Descrição: A fração de amostras a serem usadas para ajustar cada árvore de decisão individual. Valores menores que 1.0 resultam em um procedimento de boosting estocástico.
Impacto: Usar uma fração das amostras (menos de 1.0) pode levar a um modelo mais robusto e menos propenso a overfitting, mas também pode aumentar a variância do modelo.

## **Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo**

In [4]:
from sklearn.datasets import make_hastie_10_2
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

# Gerar dados
X, y = make_hastie_10_2(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Modelo base
gbm = GradientBoostingClassifier()

# Espaço de hiperparâmetros
param_grid = {
    'n_estimators': [100, 150, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 4, 5],
    'min_samples_split': [2, 4, 6],
    'subsample': [0.8, 0.9, 1.0]
}

# Configurar GridSearchCV
grid_search = GridSearchCV(estimator=gbm, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Executar busca
grid_search.fit(X_train, y_train)

# Melhores hiperparâmetros
best_params = grid_search.best_params_
print("Melhores hiperparâmetros:", best_params)

# Avaliar no conjunto de teste
best_model = grid_search.best_estimator_
accuracy = best_model.score(X_test, y_test)
print(f'Acurácia no conjunto de teste: {accuracy:.2f}')


Melhores hiperparâmetros: {'learning_rate': 0.2, 'max_depth': 4, 'min_samples_split': 4, 'n_estimators': 200, 'subsample': 0.8}
Acurácia no conjunto de teste: 0.94
