# Módulo 24 exercício 2 

### 1 Diferenças entre AdaBoost e GBM

1. **Foco nos Erros**: AdaBoost ajusta pesos das amostras com base nos erros das iterações anteriores, enquanto GBM otimiza uma função de perda, corrigindo os erros residuais diretamente.
2. **Combinação de Modelos**: AdaBoost atribui pesos aos modelos base com base em sua precisão, enquanto GBM soma os outputs dos modelos para minimizar o erro global.
3. **Velocidade**: AdaBoost é mais rápido devido à sua simplicidade, enquanto GBM é mais lento, pois envolve cálculos de gradiente.
4. **Sensibilidade a Outliers**: AdaBoost é mais sensível a outliers, pois tenta corrigir cada erro, enquanto GBM é menos sensível devido ao uso de funções de perda robustas.
5. **Flexibilidade**: GBM é mais flexível, permitindo personalização da função de perda, enquanto AdaBoost tem menos opções de personalização.

### 2- Cinco Hiperparâmetros Importantes no Gradient Boosting Machine (GBM)

1. **n_estimators**: Número de árvores (ou modelos) a serem construídas. Um valor maior pode melhorar a performance, mas aumenta o tempo de treino e pode causar overfitting.
2. **learning_rate**: Controla o impacto de cada árvore no modelo final. Valores menores tornam o aprendizado mais lento, mas podem melhorar a generalização.
3. **max_depth**: Profundidade máxima das árvores. Limita a complexidade das árvores para evitar overfitting.
4. **min_samples_split**: Número mínimo de amostras necessário para dividir um nó. Valores maiores ajudam a prevenir overfitting.
5. **subsample**: Proporção de amostras usadas para treinar cada árvore. Usar menos de 1.0 pode introduzir aleatoriedade e ajudar na generalização.

### 3- exemplo de classificação e de regressão do GBM.

In [8]:
# Importando as bibliotecas necessárias
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_hastie_10_2 
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

### 3.1 Explicação do Código

Este código demonstra como utilizar o **Gradient Boosting Classifier** para classificação em dados gerados com `make_hastie_10_2`. 

1. **Gerando Dados**:
   - `make_hastie_10_2` cria um conjunto de dados artificial com 10 variáveis independentes (X) e uma variável dependente binária (y).
   - O parâmetro `random_state` garante que os dados gerados sejam reproduzíveis.

2. **Divisão dos Dados**:
   - O conjunto de dados é dividido em **treino** (primeiros 2000 exemplos) e **teste** (os 2000 exemplos restantes).

3. **Definição do Classificador**:
   - O `GradientBoostingClassifier` é configurado com:
     - `n_estimators=100`: Número de árvores a serem treinadas.
     - `learning_rate=1.0`: Taxa de aprendizado que controla o impacto de cada árvore no modelo final.
     - `max_depth=1`: Profundidade máxima de cada árvore, limitando sua complexidade.
     - `random_state=0`: Para garantir reprodutibilidade.

4. **Treinamento e Avaliação**:
   - O modelo é ajustado nos dados de treino usando `fit(X_train, y_train)`.
   - O desempenho do modelo é avaliado no conjunto de teste com `score(X_test, y_test)`, retornando a pontuação de acurácia.

Esse código exemplifica o uso básico do Gradient Boosting para classificação e como avaliar seu desempenho em um conjunto de dados de teste.


In [4]:
# Gerando os dados com make_hastie_10_2
X, y = make_hastie_10_2(random_state=0)

# Dividindo os dados em treino e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Definindo e treinando o classificador Gradient Boosting
clf = GradientBoostingClassifier(
    n_estimators=100, 
    learning_rate=1.0, 
    max_depth=1, 
    random_state=0
).fit(X_train, y_train)

# Avaliando o modelo
score = clf.score(X_test, y_test)
print("Pontuação no conjunto de teste:", score)

Pontuação no conjunto de teste: 0.913


### 3.2 Explicação do Resultado

A **pontuação no conjunto de teste** é **0.913**, o que significa que o modelo obteve uma acurácia de **91,3%** ao classificar corretamente os dados de teste. Isso indica que o modelo foi capaz de generalizar bem para dados não vistos, sugerindo um bom ajuste durante o treinamento e validação.


### 4- Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo

### Explicação do Código

Este código utiliza o **GridSearchCV** para encontrar os melhores hiperparâmetros do modelo **Gradient Boosting Classifier** no conjunto de dados gerado pelo `make_hastie_10_2`.

1. **Gerando Dados**:
   - `make_hastie_10_2` gera um conjunto de dados artificial para classificação binária.
   - O conjunto é dividido em **treino** (2000 amostras) e **teste** (2000 amostras restantes).

2. **Definição do Modelo**:
   - Um modelo básico de `GradientBoostingClassifier` é criado sem especificar os hiperparâmetros, pois estes serão ajustados pelo **GridSearchCV**.

3. **Grade de Hiperparâmetros**:
   - Testam-se diferentes combinações de hiperparâmetros, como:
     - `n_estimators`: Número de árvores no modelo.
     - `learning_rate`: Taxa de aprendizado que controla o impacto de cada árvore.
     - `max_depth`: Profundidade máxima de cada árvore.
     - `min_samples_split`: Mínimo de amostras necessárias para dividir um nó.
     - `subsample`: Proporção de amostras usadas para cada árvore.

4. **Validação Cruzada com GridSearchCV**:
   - O **GridSearchCV** realiza validação cruzada (5 folds) para testar todas as combinações de hiperparâmetros definidos na grade.
   - O melhor conjunto de hiperparâmetros é armazenado em `grid_search.best_params_`.

5. **Avaliação do Modelo**:
   - O modelo com os melhores hiperparâmetros (`grid_search.best_estimator_`) é avaliado no conjunto de teste.
   - A pontuação (acurácia) do modelo no conjunto de teste é exibida.

Este processo otimiza o desempenho do modelo ajustando seus hiperparâmetros, garantindo uma melhor generalização nos dados de teste.


In [7]:
# Gerando os dados com make_hastie_10_2
X, y = make_hastie_10_2(random_state=0)

# Dividindo os dados em treino e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Definindo o classificador Gradient Boosting
clf = GradientBoostingClassifier(random_state=0)

# Configurando a grade de hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 150],  # Número de árvores
    'learning_rate': [0.01, 0.1, 0.5, 1.0],  # Taxa de aprendizado
    'max_depth': [1, 3, 5],  # Profundidade máxima das árvores
    'min_samples_split': [2, 5, 10],  # Mínimo de amostras para dividir um nó
    'subsample': [0.6, 0.8, 1.0]  # Proporção de amostras para cada árvore
}

# Configurando o GridSearchCV com validação cruzada
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, scoring='accuracy')

# Ajustando o modelo para encontrar os melhores hiperparâmetros
grid_search.fit(X_train, y_train)

# Exibindo os melhores hiperparâmetros encontrados
print("Melhores hiperparâmetros:", grid_search.best_params_)

# Avaliando o modelo com os melhores hiperparâmetros no conjunto de teste
best_model = grid_search.best_estimator_
score = best_model.score(X_test, y_test)
print("Pontuação no conjunto de teste com os melhores hiperparâmetros:", score)


Melhores hiperparâmetros: {'learning_rate': 1.0, 'max_depth': 1, 'min_samples_split': 2, 'n_estimators': 150, 'subsample': 1.0}
Pontuação no conjunto de teste com os melhores hiperparâmetros: 0.9279


### Explicação dos Resultados

- **Melhores Hiperparâmetros**:
  - `learning_rate`: 1.0 — Cada árvore contribui com sua previsão total, maximizando o impacto individual.
  - `max_depth`: 1 — Árvores rasas (stumps), reduzindo o risco de overfitting e garantindo simplicidade.
  - `min_samples_split`: 2 — Nós podem ser divididos com o menor número possível de amostras.
  - `n_estimators`: 150 — Um maior número de árvores, fornecendo melhor desempenho sem overfitting.
  - `subsample`: 1.0 — Utiliza todo o conjunto de dados em cada iteração, mantendo estabilidade.

- **Pontuação no Conjunto de Teste**:
  - A acurácia obtida foi **92,79%**, indicando que o modelo otimizado com esses hiperparâmetros generalizou bem e teve um desempenho ligeiramente melhor em comparação ao modelo inicial, que obteve 91,3%.


### Diferença entre Gradient Boosting e Stochastic Gradient Boosting

A principal diferença entre o **Gradient Boosting** e o **Stochastic Gradient Boosting** está na introdução da **aleatoriedade** no processo de treinamento do Stochastic Gradient Boosting:

- **Gradient Boosting**: Utiliza todo o conjunto de dados de treino para ajustar cada árvore de decisão. É um processo determinístico, onde o modelo minimiza o erro gradualmente em cada iteração, sem incorporar variabilidade.

- **Stochastic Gradient Boosting**: Introduz uma camada de aleatoriedade ao selecionar uma **subamostra aleatória** do conjunto de dados em cada iteração (sem reposição). Isso reduz a correlação entre as árvores, melhora a generalização do modelo e aumenta a robustez contra overfitting.

Essa aleatoriedade torna o Stochastic Gradient Boosting mais eficiente em termos de tempo computacional e mais robusto ao lidar com conjuntos de dados grandes ou ruidosos.
