### 1. Cite 5 diferenças entre o AdaBoost e o GBM.

### Diferenças entre AdaBoost e Gradient Boosting Machine (GBM)

### 1. Método de Combinação dos Modelos

- **AdaBoost**:
  - Combina modelos fracos atribuindo pesos maiores aos exemplos mal classificados nas iterações anteriores.
  - Cada modelo fraco é treinado de forma independente, ajustando-se para corrigir os erros dos modelos anteriores.

- **GBM**:
  - Utiliza uma abordagem de gradiente para combinar os modelos fracos.
  - Cada modelo fraco é treinado para corrigir os erros residuais do modelo anterior, minimizando a função de perda.

### 2. Função de Perda

- **AdaBoost**:
  - Utiliza uma função de perda exponencial para ajustar os pesos dos exemplos de treinamento.
  - A função de perda é baseada na precisão da classificação dos exemplos.

- **GBM**:
  - Permite a utilização de diferentes funções de perda, como a de erro quadrático para regressão e a log-loss para classificação.
  - A flexibilidade na escolha da função de perda permite adaptar o modelo a diferentes tipos de problemas.

### 3. Ajuste de Pesos

- **AdaBoost**:
  - Atribui pesos maiores aos exemplos mal classificados, aumentando a importância desses exemplos nas iterações subsequentes.
  - Cada modelo fraco tem um peso associado baseado na sua precisão, influenciando a decisão final.

- **GBM**:
  - Foca em corrigir os erros residuais, ajustando diretamente a predição do modelo anterior.
  - Não utiliza pesos explícitos para os exemplos, mas ajusta os modelos baseados nos gradientes dos erros.

### 4. Complexidade Computacional

- **AdaBoost**:
  - Geralmente mais rápido para treinar, especialmente com modelos fracos simples como stumps de árvores de decisão.
  - Menos flexível em termos de otimização e ajuste fino comparado ao GBM.

- **GBM**:
  - Pode ser mais lento para treinar devido ao cálculo dos gradientes e à otimização contínua.
  - Oferece mais controle e ajuste fino através de hiperparâmetros como o número de estágios, profundidade das árvores e taxa de aprendizado.

### 5. Robustez ao Overfitting

- **AdaBoost**:
  - Pode ser mais suscetível ao overfitting, especialmente com um número muito grande de estimadores ou com dados ruidosos.
  - Menos flexível na escolha da função de perda e dos ajustes de regularização.

- **GBM**:
  - Inclui técnicas de regularização como shrinkage (taxa de aprendizado) e subsampling para combater o overfitting.
  - Maior controle sobre a estrutura do modelo através de parâmetros como a profundidade das árvores, permitindo um ajuste mais granular.




#### 2. Acesse o link Scikit-learn – GBM, leia a explicação(traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressãodo GBM.

**Modelo GBR:** Modelo para problemas de Regressão

In [1]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

# Geração dos dados
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)

# Divisão dos dados em conjunto de treinamento e teste
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]

# Criação e ajuste do modelo GBM para regressão
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0, loss='squared_error'
)
est = est.fit(X_train, y_train)

# Avaliação do modelo
mse = mean_squared_error(y_test, est.predict(X_test))
print(f"Mean Squared Error com 100 árvores: {mse}")

# Ajuste do modelo para adicionar mais 100 árvores
est.set_params(n_estimators=200, warm_start=True)
est = est.fit(X_train, y_train)

# Avaliação do modelo ajustado
mse = mean_squared_error(y_test, est.predict(X_test))
print(f"Mean Squared Error com 200 árvores: {mse}")

Mean Squared Error com 100 árvores: 5.009154859960321
Mean Squared Error com 200 árvores: 3.840234741105356


# Explicação Teórica do Código de Regressão com GBM

## Objetivo

O objetivo deste código é demonstrar como utilizar o `GradientBoostingRegressor` do scikit-learn para ajustar um modelo de regressão em um conjunto de dados sintético, avaliar sua performance e ajustar o modelo para melhorar a acurácia.

## Passos do Código

1. **Geração dos Dados**:
   - Utilizamos a função `make_friedman1` para gerar um conjunto de dados de regressão sintético com 1200 amostras, adicionando ruído aos dados para torná-los mais realistas.
   - Os dados são divididos em características (X) e rótulos (y).

2. **Divisão dos Dados**:
   - Dividimos os dados gerados em conjuntos de treinamento e teste. Os primeiros 200 exemplos são usados para treinamento (`X_train`, `y_train`), e os restantes para teste (`X_test`, `y_test`).

3. **Criação e Ajuste do Modelo**:
   - Criamos um `GradientBoostingRegressor` com 100 estimadores (`n_estimators=100`), taxa de aprendizado de 0.1 (`learning_rate=0.1`), profundidade máxima de 1 (`max_depth=1`), e utilizamos a função de perda de erro quadrático (`loss='squared_error'`).
   - Ajustamos o modelo aos dados de treinamento.

4. **Avaliação do Modelo**:
   - Avaliamos a performance do modelo ajustado utilizando o erro quadrático médio (`mean_squared_error`) nos dados de teste.
   - O erro quadrático médio com 100 árvores foi de 5.009154859960321.

5. **Ajuste Adicional do Modelo**:
   - Utilizamos a técnica `warm_start` para adicionar mais 100 árvores ao modelo existente, ajustando o modelo novamente aos dados de treinamento.

6. **Avaliação do Modelo Ajustado**:
   - Reavaliamos a performance do modelo ajustado com 200 árvores para verificar a melhoria na acurácia.
   - O erro quadrático médio com 200 árvores foi de 3.840234741105356.

## Principais Informações

- **GradientBoostingRegressor**: Um modelo de aprendizado de máquina que utiliza boosting para combinar múltiplos modelos fracos (árvores de decisão) em um modelo forte.
- **n_estimators**: Número de árvores na floresta. Aumentar esse número pode melhorar a performance, mas também aumenta o risco de overfitting.
- **learning_rate**: Controla a contribuição de cada árvore. Valores menores exigem mais árvores, mas podem resultar em melhor generalização.
- **max_depth**: Profundidade máxima de cada árvore. Árvores mais profundas podem modelar relações mais complexas, mas também aumentam o risco de overfitting.
- **warm_start**: Permite ajustar mais árvores ao modelo existente sem perder o que já foi aprendido.

## Resultados e Interpretação

Os resultados mostram que o erro quadrático médio (MSE) diminuiu ao adicionar mais árvores ao modelo:
- **Mean Squared Error com 100 árvores**: 5.009154859960321
- **Mean Squared Error com 200 árvores**: 3.840234741105356

A redução do MSE indica que o modelo melhorou sua capacidade de prever corretamente os valores do conjunto de teste ao adicionar mais árvores. Isso demonstra que o ajuste adicional de árvores ajudou o modelo a capturar melhor as relações subjacentes nos dados. No entanto, é importante monitorar o risco de overfitting ao continuar adicionando mais árvores.


**Modelo GBC:** Modelo para problemas de Classificação

In [4]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

# Geração dos dados
X, y = make_hastie_10_2(random_state=0)

# Divisão dos dados em conjunto de treinamento e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Criação e ajuste do modelo GBM para classificação
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)
clf.fit(X_train, y_train)

# Avaliação do modelo
score = clf.score(X_test, y_test)
print(f"Accuracy: {score}")


Accuracy: 0.913


# Explicação Teórica do Código de Classificação com GBM

## Objetivo

O objetivo deste código é demonstrar como utilizar o `GradientBoostingClassifier` do scikit-learn para ajustar um modelo de classificação em um conjunto de dados sintético e avaliar sua performance em termos de acurácia.

## Passos do Código

1. **Geração dos Dados**:
   - Utilizamos a função `make_hastie_10_2` para gerar um conjunto de dados de classificação sintético. Este dataset contém 10 características e é frequentemente utilizado para testar algoritmos de classificação.
   - Os dados são divididos em características (X) e rótulos (y).

2. **Divisão dos Dados**:
   - Dividimos os dados gerados em conjuntos de treinamento e teste. Os primeiros 2000 exemplos são usados para treinamento (`X_train`, `y_train`), e os restantes para teste (`X_test`, `y_test`).

3. **Criação e Ajuste do Modelo**:
   - Criamos um `GradientBoostingClassifier` com 100 estimadores (`n_estimators=100`), taxa de aprendizado de 1.0 (`learning_rate=1.0`), profundidade máxima de 1 (`max_depth=1`), e uma semente aleatória (`random_state=0`).
   - Ajustamos o modelo aos dados de treinamento.

4. **Avaliação do Modelo**:
   - Avaliamos a performance do modelo ajustado utilizando a acurácia (`score`) nos dados de teste.
   - A acurácia é a proporção de previsões corretas feitas pelo modelo em relação ao total de previsões.

## Principais Informações

- **GradientBoostingClassifier**: Um modelo de aprendizado de máquina que utiliza boosting para combinar múltiplos modelos fracos (árvores de decisão) em um modelo forte para tarefas de classificação.
- **n_estimators**: Número de árvores na floresta. Aumentar esse número pode melhorar a performance, mas também aumenta o risco de overfitting.
- **learning_rate**: Controla a contribuição de cada árvore. Valores menores exigem mais árvores, mas podem resultar em melhor generalização.
- **max_depth**: Profundidade máxima de cada árvore. Árvores mais profundas podem modelar relações mais complexas, mas também aumentam o risco de overfitting.
- **score**: A acurácia do modelo nos dados de teste, indicando a proporção de previsões corretas.

## Resultados e Interpretação

Os resultados mostram que a acurácia do modelo nos dados de teste foi de:

- **Accuracy**: 0.913

Uma acurácia de 91.3% indica que o modelo foi capaz de classificar corretamente 91.3% dos exemplos no conjunto de teste. Este é um bom resultado, indicando que o `GradientBoostingClassifier` conseguiu capturar bem os padrões subjacentes nos dados de treinamento e generalizar essas informações para dados novos. É importante monitorar o desempenho do modelo em diferentes subconjuntos de dados para garantir que ele não esteja overfitting.


#### 4 - Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo


In [5]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

# Geração dos dados
X, y = make_hastie_10_2(random_state=0)

# Divisão dos dados em conjunto de treinamento e teste
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

# Definição da grade de hiperparâmetros para busca
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1.0],
    'max_depth': [1, 3, 5]
}

# Criação do modelo base
clf = GradientBoostingClassifier(random_state=0)

# Criação do GridSearchCV com validação cruzada
grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='accuracy')

# Ajuste do modelo aos dados
grid_search.fit(X_train, y_train)

# Imprime os melhores hiperparâmetros encontrados
print(f"Melhores parâmetros: {grid_search.best_params_}")
print(f"Melhor score: {grid_search.best_score_}")

# Avaliação do modelo com os melhores hiperparâmetros
best_clf = grid_search.best_estimator_
accuracy = best_clf.score(X_test, y_test)
print(f"Accuracy com os melhores hiperparâmetros: {accuracy}")


Melhores parâmetros: {'learning_rate': 1.0, 'max_depth': 1, 'n_estimators': 200}
Melhor score: 0.9339999999999999
Accuracy com os melhores hiperparâmetros: 0.9305


# Explicação Teórica do Código de Classificação com GBM Utilizando GridSearchCV

## Objetivo

O objetivo deste código é demonstrar como utilizar o `GridSearchCV` do scikit-learn para encontrar os melhores hiperparâmetros do `GradientBoostingClassifier` em um conjunto de dados sintético e avaliar a performance do modelo otimizado.

## Passos do Código

1. **Geração dos Dados**:
   - Utilizamos a função `make_hastie_10_2` para gerar um conjunto de dados de classificação sintético. Este dataset contém 10 características e é frequentemente utilizado para testar algoritmos de classificação.
   - Os dados são divididos em características (X) e rótulos (y).

2. **Divisão dos Dados**:
   - Dividimos os dados gerados em conjuntos de treinamento e teste. Os primeiros 2000 exemplos são usados para treinamento (`X_train`, `y_train`), e os restantes para teste (`X_test`, `y_test`).

3. **Definição da Grade de Hiperparâmetros**:
   - Definimos uma grade de hiperparâmetros (`param_grid`) para buscar os melhores valores:
     - `n_estimators`: [50, 100, 200]
     - `learning_rate`: [0.01, 0.1, 1.0]
     - `max_depth`: [1, 3, 5]

4. **Criação do Modelo Base**:
   - Criamos um `GradientBoostingClassifier` com a semente aleatória (`random_state=0`).

5. **Criação e Ajuste do GridSearchCV**:
   - Utilizamos o `GridSearchCV` com validação cruzada de 5 folds para encontrar a melhor combinação de hiperparâmetros.
   - Ajustamos o modelo aos dados de treinamento utilizando a grade de hiperparâmetros definida.

6. **Impressão dos Melhores Hiperparâmetros**:
   - Imprimimos os melhores hiperparâmetros encontrados e o melhor score obtido durante a validação cruzada.

7. **Avaliação do Modelo Otimizado**:
   - Avaliamos a performance do modelo otimizado utilizando a acurácia (`score`) nos dados de teste.
   - A acurácia é a proporção de previsões corretas feitas pelo modelo em relação ao total de previsões.

## Principais Informações

- **GridSearchCV**: Uma técnica para automatizar a busca dos melhores hiperparâmetros em um modelo, realizando uma busca exaustiva através de uma grade de parâmetros especificada.
- **GradientBoostingClassifier**: Um modelo de aprendizado de máquina que utiliza boosting para combinar múltiplos modelos fracos (árvores de decisão) em um modelo forte para tarefas de classificação.
- **n_estimators**: Número de árvores na floresta. Aumentar esse número pode melhorar a performance, mas também aumenta o risco de overfitting.
- **learning_rate**: Controla a contribuição de cada árvore. Valores menores exigem mais árvores, mas podem resultar em melhor generalização.
- **max_depth**: Profundidade máxima de cada árvore. Árvores mais profundas podem modelar relações mais complexas, mas também aumentam o risco de overfitting.
- **score**: A acurácia do modelo nos dados de teste, indicando a proporção de previsões corretas.

## Resultados e Interpretação

Os melhores hiperparâmetros encontrados foram:
- `n_estimators`: 200
- `learning_rate`: 1.0
- `max_depth`: 1

O melhor score durante a validação cruzada foi de aproximadamente 0.934.

A acurácia do modelo otimizado nos dados de teste foi de:
- **Accuracy com os melhores hiperparâmetros**: 0.9305

## Análise Comparativa

Comparando com os resultados anteriores, onde utilizamos `n_estimators=100`, `learning_rate=1.0` e `max_depth=1`:
- **Accuracy anterior**: 0.913

A otimização dos hiperparâmetros com o GridSearchCV resultou em uma melhoria na performance do modelo:
- A acurácia aumentou de 91.3% para 93.05%, indicando que a combinação otimizada de hiperparâmetros proporcionou uma classificação mais precisa no conjunto de dados de teste.
- O aumento no número de estimadores (de 100 para 200) ajudou a melhorar a capacidade do modelo de capturar padrões subjacentes nos dados, resultando em uma melhor generalização para novos dados.

Este aumento na performance demonstra a importância da otimização dos hiperparâmetros para maximizar a acurácia e a robustez do modelo de aprendizado de máquina.


#### 5 - Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

# Diferença entre Gradient Boosting e Stochastic Gradient Boosting

## Introdução

Acessando o artigo de Jerome Friedman sobre "Stochastic Gradient Boosting" e considerando o nome dado ao Stochastic GBM, a maior diferença entre os dois algoritmos é a introdução de um componente estocástico no processo de construção das árvores.

## Diferenças principais

1. **Subamostragem dos dados (Stochastic Gradient Boosting):**
   - No Stochastic Gradient Boosting, cada árvore é treinada em uma subamostra dos dados de treinamento em vez de usar todo o conjunto de dados.
   - Esta subamostragem é feita aleatoriamente, o que adiciona um elemento de aleatoriedade ao processo de construção das árvores.
   - A proporção de amostras usadas para treinar cada árvore é controlada por um hiperparâmetro chamado `subsample`.

2. **Gradient Boosting tradicional:**
   - No Gradient Boosting tradicional, cada árvore é treinada usando todo o conjunto de dados de treinamento.
   - Não há subamostragem, e cada árvore tenta corrigir os erros cometidos pelas árvores anteriores utilizando todos os dados disponíveis.

## Benefícios do componente estocástico

- **Redução do Overfitting:**
  - A introdução da aleatoriedade através da subamostragem ajuda a reduzir o overfitting, pois as árvores individuais são treinadas em diferentes subamostras dos dados.
  - Isso leva a um modelo mais robusto e generalizável.

- **Melhora na diversidade das árvores:**
  - Treinar árvores em diferentes subamostras aumenta a diversidade entre as árvores, o que pode levar a um melhor desempenho do ensemble como um todo.

## Conclusão

A maior diferença entre Gradient Boosting e Stochastic Gradient Boosting é a subamostragem aleatória dos dados para treinar cada árvore no Stochastic Gradient Boosting. Isso introduz um elemento de aleatoriedade que pode ajudar a reduzir o overfitting e melhorar a generalização do modelo.
