In [123]:
import pandas as pd
import numpy as np

from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# Atividade 1 - Módulo 24
---
### 1. Cite 5 diferenças entre o Random Forest e o AdaBoost

#### I) Treinamento das árvores
O **Random Forest** treina várias árvores de decisão independentes, já no **AdaBoot** o treinamento utiliza ```stumps``` (árvores com profundidade e ramificação baixas) de modo sequencial.

#### II) Lidando com os erros
No **Random Forest** o tratamento de erros é igualitário, estes não influenciam diretamente a próxima árvore; diferentemente do **AdaBoost**, onde cada árvore tenta corrigir os erros cometidos pelas anteriores.

#### III) Tamanho e profundidade
O **Random Forest** usa árvores profundas e variadas, a **AdaBoost** utiliza de ```stumps``´.

#### IV) Outliers e Overfitting
De modo geral, o **Random Forest** é mais resistente a ```overfitting``` graças à aleatoridade na selação de variáveis e amostras, porém é mais sensível aos ```outliers```, visto que as árvores são treinadas de forma independente.
Já o **AdaBoost** pode sofrer mais com ```overfitting``` se houver muito ruído nos dados, além disso, são sensíveis aos ```outlier```, porque dá mais peso aos erros.

#### V) Velocidade
Pela independência das árvores, a **Random Forest** se torna mais rápida que o **AdaBoost**, com seu treino sequencial.

### 2. Acesse o link Scikit-learn– adaboost , leia a explicação (traduza se for preciso) e crie um jupyter notebook contendo o exemplo do AdaBoost. 



In [63]:
X, y = load_iris(return_X_y=True)
clf = AdaBoostClassifier(n_estimators=100,
                        algorithm = 'SAMME')
scores = cross_val_score(clf, X, y, cv=5)

percento = scores.mean() * 100

print(f'Isso significa que o modelo acertará {percento:.1f}% das vezes.')

Isso significa que o modelo acertará 95.3% das vezes.


### 3. Cite 5 Hyperparametros importantes no AdaBoost.

1. ```n_estimators```: estimador em que o boosting será encerrado
2. ```learning_rate```: peso aplicado à contribuição de cada estimador, por padrão será 1.0
3. ```base_estimator```: modelo fraco usado em cada iteração, por padrão, tem o stump (max_depth = 1)
4. ```algorithm```: algoritmo original, usa classes preditas, por padrão **SAMME**
5. ```random_state```: controla a aleatoriedade em partes do processo, garante a reprodutibilidade.

### 4. (Opcional) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [129]:
%%time

# Carregar dados
X, y = load_iris(return_X_y=True)

# Grade de parâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.1, 0.5, 1.0],
    'algorithm': ['SAMME', 'SAMME.R'],
    'estimator': [
        DecisionTreeClassifier(max_depth=1),
        DecisionTreeClassifier(max_depth=2)
    ]
}

# Configuração do GridSearch
grid = GridSearchCV(
    AdaBoostClassifier(random_state=42),
    param_grid,
    cv=5
)

# Rodar busca
grid.fit(X, y)

melhor_param = grid.best_params_
melhor_score = grid.best_score_



CPU times: total: 22.3 s
Wall time: 22.4 s


In [185]:
dic = {
    '% sem GridSearch': [f'{percento.round()}%'],
    '% com GridSearch': [f'{melhor_score * 100:.1f}%']}

comparacao = pd.DataFrame(dic)
comparacao

Unnamed: 0,% sem GridSearch,% com GridSearch
0,95.0%,96.0%


## Conclusão

Houve uma melhora de 1%, sendo que o melhor parâmetro foi:
- ```algorithm```´: SAMME,
- ```estimator```: DecisionTreeClassifier(max_depth=2),
- ```learning_rate```: 0.5,
- ```n_estimators```: 200