### 1. Cite 5 diferenças entre o AdaBoost e o GBM

AdaBoost (Adaptive Boosting) e GBM (Gradient Boosting Machine) são métodos de aprendizado de
ensemble baseados em boosting, mas possuem diferenças importantes. Aqui estão cinco principais
diferenças entre eles:

### 1.Método de Ajuste dos Erros
* ``AdaBoost:`` Dá mais peso às observações que foram classificadas incorretamente na iteração anterior, ajustando os pesos dos exemplos de treinamento.
* ``GBM:`` Reduz o erro residual minimizando uma função de perda através da descida do gradiente

### 2.Tipo de Combinação dos Modelos

* ``AdaBoost:`` Soma ponderada dos modelos fracos, onde cada modelo recebe um peso com base em seu desempenho.
* ``GBM:`` Soma os modelos fracos ajustando-se aos resíduos do modelo anterior de maneira aditiva.

### 3.Sensibilidade a Ruídos

   * ``AdaBoost:`` Mais sensível a outliers, pois dá pesos maiores para amostras mal classificadas, incluindo outliers.
   * ``GBM:`` Menos sensível a outliers, pois minimiza a função de perda de forma mais robusta.

### 4.Uso de Função de Perda

  * ``AdaBoost:`` Usa funções de erro exponencial para reponderação dos exemplos mal classificados.
  * ``GBM:`` Pode usar diferentes funções de perda, como erro quadrático médio, erro absoluto, log-loss, entre outras.

### 5.Paralelização

  * ``AdaBoost:`` Difícil de paralelizar porque a reponderação dos exemplos depende das classificações anteriores.
  * ``GBM:`` Também é sequencial, mas implementações modernas (como XGBoost e LightGBM) otimizam o processo para melhor paralelização.


### 2. Acesse o link Scikit-learn – GBM, leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM




### Gradient-boosted trees

Gradiente de aumento de árvore ou árvores de decisão aumentadas de gradiente (GBDT) é uma generalização de aumentar para funções de perda diferenciável arbitrária, consulte o trabalho seminal de [Friedman2001] . GBDT é um excelente modelo para regressão e Classificação, em particular para dados tabulares

### Histogram-Based Gradient Boosting

Scikit-Learn 0,21 introduziu duas novas implementações de Gradiente impulsionou árvores, ou seja, HistGradientBoostingClassifier e HistGradientBoostingRegressor, inspirado por LightGBM (ver [LightGBM] ).

Esses estimadores baseados em histograma podem ser ordens de magnitude mais rápida que GradientBoostingClassifier e GradientBoostingRegressor Quando o número de amostras é maior do que dezenas de milhares de amostras.

Eles também têm suporte interno para valores ausentes, o que evita a necessidade para um impuner.

### Usage

A maioria dos parâmetros permanece inalterada de GradientBoostingClassifier e GradientBoostingRegressor. Uma exceção é o max_iter parâmetro que substitui n_estimators, e Controla o número de iterações do processo de reforço:

In [1]:
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.datasets import make_hastie_10_2

X, y = make_hastie_10_2(random_state=0)
X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = HistGradientBoostingClassifier(max_iter=100).fit(X_train, y_train)
clf.score(X_test, y_test)

0.8965

### 3. Cite 5 Hyperparametros importantes no GBM.

1.``n_estimators`` – Define o número de árvores na floresta. Valores muito altos podem levar ao overfitting, enquanto valores muito baixos podem resultar em underfitting.

2.``learning_rate`` – Controla o tamanho do passo de atualização do modelo. Um valor menor geralmente melhora a generalização, mas exige mais árvores (n_estimators) para convergir.

3.``max_depth`` – Determina a profundidade máxima de cada árvore. Valores maiores aumentam a complexidade do modelo, podendo levar ao overfitting.

4.``subsample`` – Controla a fração dos dados de treinamento usados para treinar cada árvore. Valores menores que 1 reduzem a variância e ajudam a evitar overfitting.

5.``colsample_bytree`` – Define a fração de colunas (features) a serem usadas ao construir cada árvore. Reduz a correlação entre as árvores e melhora a generalização.

In [117]:
import pandas as pd
import numpy as np

In [118]:
credit = pd.read_csv('credit_scoring.csv')
credit.head()

Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda,mau
0,2015-01-01,1,F,True,True,0,Assalariado,Secundário,Casado,Casa,49,8.605479,2.0,1916.54,0
1,2015-01-01,2,M,True,False,0,Empresário,Secundário,União,Casa,60,6.953425,2.0,2967.25,0
2,2015-01-01,3,F,True,False,0,Empresário,Secundário,Casado,Casa,28,0.682192,2.0,340.96,0
3,2015-01-01,4,F,False,True,0,Assalariado,Superior completo,Casado,Casa,60,1.879452,2.0,4903.16,0
4,2015-01-01,5,F,False,False,0,Empresário,Secundário,Casado,Casa,47,8.438356,2.0,3012.6,0


In [119]:
credit.dtypes

data_ref                  object
id_cliente                 int64
sexo                      object
posse_de_veiculo            bool
posse_de_imovel             bool
qtd_filhos                 int64
tipo_renda                object
educacao                  object
estado_civil              object
tipo_residencia           object
idade                      int64
tempo_emprego            float64
qt_pessoas_residencia    float64
renda                    float64
mau                        int64
dtype: object

In [131]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

In [136]:
#1. Carregar os dados (exemplo: iris datasets)
data = load_iris()
X, y = data.data, data.target

# Dividindo o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Definir o modelo
model = GradientBoostingClassifier()

#3. Definir os hiperparametros para o GridSearch
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 0,2],
    'max_depth': [3, 4, 5],
    'subsample': [0.8, 1.0]
}

#4. configurar p GridSearch
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy', verbose=2)

#5. Ajustar o modelo aos dados de treino
grid_search.fit(X_train, y_train)

#6. Obter os melhores hiperparametros
print("Melhores hiperparametros:", grid_search.best_params_)

#7. Avaliar o modelo com os hiperparametros ideias no conjunto de tests
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
print("Acuraria no conjunto de test:", accuracy_score(y_test, y_pred))


Fitting 5 folds for each of 72 candidates, totalling 360 fits
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=0.8; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=0.8; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=0.8; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=0.8; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=0.8; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=1.0; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=1.0; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=1.0; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=1.0; total time=   0.1s
[CV] END learning_rate=0.01, max_depth=3, n_estimators=50, subsample=1.0; total time=   0.1s
[CV] END

no conjunto de dados acima tivemos um otimo resultado
uma accuracia de 1.0

A maior diferença entre o Stochastic Gradient Boosting Machine (Stochastic GBM) e o Gradient Boosting Machine (GBM) tradicional está na forma como os dados são amostrados durante o treinamento de cada árvore do modelo.
### GBM Tradicional

 * Em cada iteração, o GBM ajusta uma nova árvore para reduzir os erros do modelo anterior.
 * Usa todos os dados disponíveis para treinar cada nova árvore.
 * Pode levar a overfitting, pois cada árvore tenta ajustar ao máximo os dados de treinamento.

### Stochastic GBM

* Introduz um elemento de aleatoriedade no treinamento.
* Em cada iteração, em vez de usar todos os dados, ele usa apenas uma amostra aleatória (subconjunto) dos dados.
* Essa amostragem pode ser feita:
* Sobre as linhas (amostras) → Exemplo: usar apenas 50% dos dados em cada iteração.
* Sobre as colunas (features) → Exemplo: usar apenas um subconjunto aleatório das variáveis para treinar cada árvore.
* Ou uma combinação de ambos.
* Ajuda a reduzir overfitting e pode acelerar o treinamento, pois cada árvore processa menos dados.