![https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png](https://raw.githubusercontent.com/marciolws/Curso_EBAC_Cientista_de_Dados/refs/heads/main/EBAC-media-utils/logo/ebac_logo-data_science.png)

<!-- # **Profissão: Cientista de Dados** -->
### **Módulo 24** | Combinação de modelos II | Exercício 2

**Aluno:** [Marcio da Silva](https://www.linkedin.com/in/marciolws/)<br>
**Data:** 04 de outubro de 2024.


## Tarefa II

1. Cite 5 diferenças entre o AdaBoost e o GBM.:

| Diferenças | GBM | AdaBoost|
| --- | --- | --- |
| 1. Foco | Foca em minimizar a função de perda global, ajustando os modelos subsequentes para reduzir o erro residual do modelo anterior. | Concentra-se em corrigir os erros dos modelos anteriores, dando mais peso aos exemplos classificados incorretamente nas iterações subsequentes. |
| 2. Atualização dos pesos | Utiliza um gradiente descendente para ajustar os modelos subsequentes, minimizando a função de perda. | Atualiza os pesos dos exemplos de treinamento de forma adaptativa, dando mais importância aos exemplos que são difíceis de classificar. |
| 3. Flexibilidade | É mais flexível, permitindo a utilização de diferentes funções de perda e modelos base.| É mais restrito em termos de funções de perda e tipos de modelos base. |
| 4. Complexidade | Pode ser mais complexo de implementar devido ao cálculo do gradiente. | É considerado um algoritmo mais simples de implementar. |
| 5. Interpretabilidade | A interpretação pode ser mais desafiadora devido à natureza do gradiente descendente. | Geralmente é mais fácil de interpretar do que o GBM, pois a lógica de atualização dos pesos é mais intuitiva. |

2. Crie um jupyter notebook contendo o exemplo de classificação e de regressão do GBM.

In [1]:
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier

In [14]:
X, y = make_hastie_10_2(random_state=0)

X_train, X_test = X[:2000], X[2000:]
y_train, y_test = y[:2000], y[2000:]

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1,
    max_depth=1, random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.8189

1. Cite 5 Hyperparametros importantes no GBM.

> **1. `n_estimators`**: Este importante parâmetro controla o número de árvores no modelo. Um valor maior pode aumentar tanto o tempo de treinamento quanto a capacidade de aprendizado do modelo.
>
>**2. `learning_rate`**: É um importante hiperparâmetro no intervalo de 0.0 a 1.0 que controla a taxa de aprendizado do modelo. Interage fortemente com o número de estimadores (n_estimators). O valor ideal pode variar dependendo do problema e dos dados..
>
> **3. `max_depth`**: Controla a profundidade máxima de cada árvore no modelo, especificando o número máximo de nós. Uma profundidade maior permite que as árvores sejam mais complexas e tenham maior capacidade de aprendizado, mas também aumenta o risco de overfitting.
>
> **4. `max_features`**: Controla o número de variáveis consideradas ao fazer uma divisão em cada nó das árvores. Quanto menor o valor, menor é o risco de overfitting.
>
> **5. `warm_start`**: Permite adicionar mais estimadores a um modelo já ajustado. Pode ser útil quando é necessário ajustar o modelo com mais árvores sem perder o progresso anterior.

4. Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [30]:
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor 
from sklearn.metrics import mean_squared_error 
from sklearn.model_selection import train_test_split

In [33]:
%time

estimators     = [10, 100, 1000, 10000]
learning_rates = [0.01, 0.03, 0.06, 0.1]
max_depths     = [1, 3, 6, 9]

grid_search = []

for n in estimators:
    for rate in learning_rates:
        for depth in max_depths:
            est = GradientBoostingRegressor(n_estimators=n, 
                                            learning_rate=rate, 
                                            max_depth=depth, 
                                            random_state=0, 
                                            loss='squared_error').fit(X_train, y_train)
            grid_search.append([n, rate, depth, mean_squared_error(y_test, est.predict(X_test))])
            
(pd.DataFrame(data=grid_search, 
              columns=['n_estimators', 'learning_rate', 'max_depth', 'mean_squared_error'])
   .sort_values(by='mean_squared_error', 
                ascending=True, 
                ignore_index=True))

CPU times: user 2 μs, sys: 0 ns, total: 2 μs
Wall time: 6.2 μs


Unnamed: 0,n_estimators,learning_rate,max_depth,mean_squared_error
0,10,0.06,1,0.005525
1,10,0.06,9,0.010467
2,10,0.06,3,0.010467
3,10,0.06,6,0.010467
4,10,0.03,9,0.052459
...,...,...,...,...
59,10000,0.10,3,1.000000
60,10000,0.06,1,1.000000
61,1000,0.06,1,1.000000
62,1000,0.10,1,1.000000


5. Acessando o artigo do Jerome Friedman (Stochastic) e pensando no nome dado ao Stochastic GBM, qual é a maior diferença entre os dois algoritmos?

> Pensando no nome dado ao Stochastic GBM e com referência à teoria probabilística, podemos descrevê-lo como um algoritmo que incorpora variáveis aleatórias. O Stochastic GBM é uma combinação dos métodos de Gradient Boosting e Bootstrap Aggregating, sendo considerado um híbrido das técnicas Bagging e Boosting. Em cada iteração, o classificador base é treinado em um subconjunto aleatório e não repetitivo dos dados de treinamento, utilizando em média metade da amostra. Essa aleatoriedade na amostragem do conjunto de dados em cada iteração de treino melhora significativamente a precisão do Gradient Boosting e torna o modelo mais robusto em comparação com o GBM tradicional. Isso ocorre porque a aleatoriedade ajuda a evitar o overfitting e promove uma melhor generalização do modelo.