# EBAC 
## Módulo 24: Combinação de modelos II
### Tarefa 02

1. Cite 5 diferenças entre o AdaBooste o GBM.
2. Acesse o link [Scikit-learn–GBM](https://scikit-learn.org/stable/modules/ensemble.html), leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.
3. Cite 5 Hyperparametros importantes no GBM.
4. (Opcional) Utilize o GridSearchpara encontrar os melhores hyperparametros para o conjunto de dados do exemplo.
5. Acessando o artigo do [Jerome Friedman](https://jerryfriedman.su.domains/ftp/stobst.pdf) (Stochastic) e pensando no nome dado ao StochasticGBM, qual é a maior diferença entre os dois algoritmos?

<table>
    <tr>
        <th> </th>
        <th>GBM</th>
        <th>AdaBoost</th>
    </tr>
    <tr>
        <th>Imagem</th>
        <td><img src =  https://www.deepchecks.com/wp-content/uploads/2025/02/img-gbm-algorithm-and-llms.jpg width="400"></td>
        <td><img src = https://miro.medium.com/v2/da:true/resize:fit:1200/0*sC4kUKp9Wtmi920u width="500"></td>
    </tr>
    <tr>
        <th>Modelo Aditivo</th>
        <td>Gradiente em relação aos resíduos.</td>
        <td>Ajuste de pesos.</td>
    </tr>
    <tr>
        <th>Profundidade das Árvores</th>
        <td>Árvores complexas e inteiras, profundidade, geralmente, de 8 à 32 .</td>
        <td>Parte da árveore, com baixa profundidade.</td>
    </tr>
    <tr>
        <th>Classificadores</th>
        <td>Os classificadores são pesados igualmente, e a capacidade preditiva é restrita com a taxa de aprendizado.</td>
        <td>Cada classificador tem pesos diferentes atribuidos à previsão final, baseado em desempenho.</td>
    </tr>
    <tr>
        <th>Variável Estudada</th>
        <td>Captura a variação nos dados.</td>
        <td>Captura a Variância máxima.</td>
    </tr>
    <tr>
        <th>Aprendizado</th>
        <td>Gradiente descendente para minimizar a função de perda. </td>
        <td>Média ponderada das árvores fracas, sendo o resultado final uma soma ponderada das previsões.</td>
    </tr>
    <tr>
        <th>Outliers</th>
        <td>Modelo mais flexível, com diferentes funções de perda.</td>
        <td>Mais sensível a ruidos, pois se concentra em instências classificadas incorretamentes.</td>
    </tr>
    <tr>
        <th>Ajuste</th>
        <td>Maior controle sobre o modelo, permitindo ajustes finos.</td>
        <td>Requer menos ajustes.</td>
    </tr>
</table>

In [1]:
print("Exemplo: Classificação do GBM")
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

X, y = make_hastie_10_2(random_state=0)
X_train_c, X_test_c = X[:2000], X[2000:]
y_train_c, y_test_c = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
    max_depth=1, random_state=0).fit(X_train_c, y_train_c)
clf.score(X_test_c, y_test_c)

Exemplo: Classificação do GBM


0.913

In [2]:
print("Exemplo: Regressão do GBM")
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train_r, X_test_r = X[:200], X[200:]
y_train_r, y_test_r = y[:200], y[200:]
est = GradientBoostingRegressor(
    n_estimators=100, learning_rate=0.1, max_depth=1, random_state=0,
    loss='squared_error'
).fit(X_train_r, y_train_r)
mean_squared_error(y_test_r, est.predict(X_test_r))

Exemplo: Regressão do GBM


5.009154859960321

Hyperparâmetros do GBM:
<table>
    <tr>
        <th>Hyperparâmetros</th>
        <th>Variável</th>
        <th>Tipo</th>
        <th>Explicação</th>
        <th>Valores Frequêntes para Classificação</th>
        <th>Valores Frequêntes para Regressão</th>
    </tr>
    <tr>
        <th>Perdas</th>
        <td>loss</td>
        <td>object</td>
        <td>Função otimizada que se refere a binomios e desvios.</td>
        <td>- default: log_loss<br>- comuns: exponencial</td>
        <td>- default: squared_error<br>- comuns: huber, quantile</td>        
    </tr>
    <tr>
        <th>Número de Estimativas</th>
        <td>n_estimators</td>
        <td>int</td>
        <td>O número máximo de etapas em que cada boosting é determinado.</td>
        <td>- default: 100<br>- comuns: [100, 200, 300, 500]</td>
        <td>- default: 100<br>- comuns: [200, 300, 500, 1000]</td>
    </tr>
    <tr>
        <th>Taxa de Aprendizado</th>
        <td>learning_rate</td>
        <td>float</td>
        <td>Taxa de aprendizado que pondera a contibuição de cada estimador.</td>
        <td>- default: 0.1<br>- comuns: [0.01, 0.05, 0.1]</td>
        <td>- default: 0.1<br>- comuns: [0.01, 0.05, 0.1]</td>
    </tr>
    <tr>
        <th>Flutuação de subamostra</th>
        <td>subsample</td>
        <td>int</td>
        <td>Fração de amostras a utilizar para ajustar a base individual.</td>
        <td>- default: 1.0<br>- comuns: [0.6, 0.8, 1.0]</td>
        <td>- default: 1.0<br>- comuns: [0.7, 0.8, 1.0]</td>
    </tr>
    <tr>
        <th>Função</th>
        <td>criterion</td>
        <td>object</td>
        <td>Função para medir a qualidade de uma divisão</td>
        <td>- default: friedman_mse<br>- comuns: squared_error</td>
        <td>- default: friedman_mse<br>- comuns: squared_error</td>
    </tr>
    <tr>
        <th>Profundidade Máxima</th>
        <td>max_depth</td>
        <td>int</td>
        <td>Profundidade máxima da árvores, quantidade de níveis de divisão do desenvolvimento da árvore.</td>
        <td>- default: 3<br>-comuns: [3, 4, 5, 6]</td>
        <td>- default: 3<br>-comuns: [3, 5, 7, 10]</td>
    </tr>
    <tr>
        <th>Qtd. de Amostras para Dividir um Nó</th>
        <td>min_samples_split</td>
        <td>int</td>
        <td>Número mínimo de amostragens de dvivisão entre os desenvolvimentos dos nós.</td>
        <td>- default: 2<br>- comuns: [2, 4, 5, 10]</td>
        <td>- default: 2<br>- comuns: [2, 5, 10]</td>
    </tr>
</table>

In [3]:
%%time
print("GridSearch no exemplo de Classificação")

from sklearn.model_selection import GridSearchCV

cla = GradientBoostingClassifier()

# Hiperparâmetros para testar
parameters_cla = {
    'loss': ['log_loss', 'exponential'],
    'n_estimators': [100, 200, 300, 500],
    'learning_rate': [0.01, 0.05, 0.1],
    'subsample': [0.6, 0.8, 1.0],
    'criterion':['squared_error', 'friedman_mse'],
    'max_depth': [3, 4, 5, 6],
    'min_samples_split': [2, 4, 5, 10]
}

# GridSearch
clf = GridSearchCV(cla, parameters_cla, cv=5, n_jobs=-1, verbose=1)
clf.fit(X_train_c, y_train_c)

# Resultados 
print(f"\nMelhores parâmetros: {clf.best_params_}")
print(f"Melhor score (validação cruzada): {clf.best_score_:.4f}")


GridSearch no exemplo de Classificação
Fitting 5 folds for each of 2304 candidates, totalling 11520 fits

Melhores parâmetros: {'criterion': 'squared_error', 'learning_rate': 0.1, 'loss': 'log_loss', 'max_depth': 3, 'min_samples_split': 10, 'n_estimators': 500, 'subsample': 0.6}
Melhor score (validação cruzada): 0.9285
CPU times: total: 28.5 s
Wall time: 37min 27s


Nota-se com esse estudo que os valores que alcançam melhor resulatado 'criterion': 'squared_error', 'min_samples_split': 10, 'n_estimators': 500 e 'subsample': 0.6 não são os valores default da função.

In [4]:
%%time
print("GridSearch no exemplo de Regressão")

reg = GradientBoostingRegressor()

# Hiperparâmetros para testar
parameters_reg = {
    'loss': ['squared_error', 'huber', 'quantile'],
    'n_estimators': [100, 200, 300, 500, 1000],
    'learning_rate': [0.01, 0.05, 0.1],
    'subsample': [0.7, 0.8, 1.0],
    'criterion':['squared_error', 'friedman_mse'],
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10]
}

# GridSearch
clf = GridSearchCV(reg, parameters_reg, cv=5, n_jobs=-1, verbose=1)
clf.fit(X_train_r, y_train_r)

# Resultados 
print(f"\nMelhores parâmetros: {clf.best_params_}")
print(f"Melhor score (validação cruzada): {clf.best_score_:.4f}")

GridSearch no exemplo de Regressão
Fitting 5 folds for each of 3240 candidates, totalling 16200 fits

Melhores parâmetros: {'criterion': 'squared_error', 'learning_rate': 0.05, 'loss': 'huber', 'max_depth': 3, 'min_samples_split': 10, 'n_estimators': 1000, 'subsample': 0.7}
Melhor score (validação cruzada): 0.8373
CPU times: total: 37.3 s
Wall time: 32min 35s


Nota-se com esse estudo que os valores que alcançam melhor resulatado learning_rate': 0.05, 'loss': 'huber', 'min_samples_split': 10, 'n_estimators': 1000, 'subsample': 0.7 não são os valores default da função.

#### Diferença entre AdaBoots e GBM segundo o artigo
A introdução de aleatoriedade no processo de treinamento, mais especificamente na seleção dos dados usados para treinar cada árvore.<br>
- Diferença-chave:<br>
  - AdaBoots:
     - Cada nova árvore é treinada usando todo o conjunto de dados (ou seja, todos os exemplos de treinamento).<br>
     - Pode levar ao overfitting, especialmente em datasets ruidosos ou pequenos.
  - GBM:
     - A cada iteração (ou seja, a cada nova árvore do modelo), é usada apenas uma amostra aleatória dos dados de treino (por exemplo, 50% ou 80% dos dados, sem reposição).<br>
     - Isso é semelhante ao conceito de bagging, mas aplicado dentro do boosting