## 5 Diferenças entre Random Forest e AdaBoost

1.  **Tipo de Ensemble:**
    * **Random Forest:** Usa o método de "bagging", onde árvores independentes são construídas em paralelo a partir de amostras bootstrap do conjunto de dados.
    * **AdaBoost:** Usa o método de "boosting", onde modelos fracos são construídos sequencialmente, com cada modelo tentando corrigir os erros do modelo anterior.

2.  **Foco nos Erros:**
    * **Random Forest:** Foca em reduzir a variância do modelo, criando árvores diversas e não correlacionadas.
    * **AdaBoost:** Foca em reduzir o viés do modelo, dando mais peso às amostras que foram classificadas incorretamente pelos modelos anteriores.

3.  **Construção das Árvores:**
    * **Random Forest:** Cada árvore é construída de forma independente e geralmente é profunda, buscando capturar padrões complexos nos dados.
    * **AdaBoost:** Os modelos fracos são construídos sequencialmente e geralmente são rasos (conhecidos como "stumps"), focando em aprender padrões simples e corrigir erros gradualmente.

4.  **Peso dos Modelos:**
    * **Random Forest:** Todas as árvores têm o mesmo peso na votação final.
    * **AdaBoost:** Cada modelo fraco tem um peso diferente na votação final, com modelos mais precisos recebendo pesos maiores.

5.  **Sensibilidade a Outliers:**
    * **Random Forest:** É relativamente robusto a outliers, pois a combinação de várias árvores tende a suavizar o efeito de outliers individuais.
    * **AdaBoost:** Pode ser sensível a outliers, pois eles podem receber pesos elevados e influenciar significativamente os modelos subsequentes.


In [None]:
#2
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                           random_state=0, shuffle=False)
clf = AdaBoostClassifier(n_estimators=100, random_state=0)
clf.fit(X, y)
clf.predict([[0, 0, 0, 0]])
clf.score(X, y)

0.983



## Hiperparâmetros do AdaBoostClassifier
```python
AdaBoostClassifier(
    estimator=None,
    n_estimators=50,
    learning_rate=1.0,
    algorithm='deprecated',
    random_state=None
)
```

* **`estimator=None`**:
    * O modelo base (modelo fraco) a ser usado.
    * Se `None`, usa `DecisionTreeClassifier` com `max_depth=1` (um "stump").
    * Você pode especificar outros modelos base, como árvores de decisão mais profundas ou outros classificadores.

* **`n_estimators=50`**:
    * O número máximo de modelos fracos a serem treinados.
    * Aumentar `n_estimators` pode melhorar a precisão, mas também aumentar o tempo de treinamento e o risco de overfitting.

* **`learning_rate=1.0`**:
    * A contribuição de cada modelo fraco para o modelo final.
    * Valores menores de `learning_rate` requerem mais modelos fracos (`n_estimators`) para alcançar um bom desempenho, mas podem melhorar a generalização.

* **`algorithm='deprecated'`**:
    * Usa o algoritmo SAMME, que é o algoritmo padrão do Adaboost.

* **`random_state=None`**:
    * Semente para o gerador de números aleatórios.
    * Garante a reprodutibilidade dos resultados.
    * Definir um valor fixo para `random_state` garante que o modelo seja treinado da mesma forma toda vez que o código for executado.


In [16]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV

In [3]:
# Carregar o conjunto de dados Iris
iris = load_iris()
X, y = iris.data, iris.target

In [4]:
# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [18]:
# fazendo o grid search
rf = AdaBoostClassifier()
params = {
    'estimator': [None],
    'n_estimators': list(range(50, 1001, 50)),
    'learning_rate': [0.01, 0.1, 1],
    'random_state': [42]
}

grid_rf = GridSearchCV(estimator = rf,
                        param_grid = params,
                        scoring = 'accuracy',
                        n_jobs=-1
                        )

grid_rf.fit(X_train, y_train)

In [20]:
#print os melhores parametros
print(grid_rf.best_estimator_)
print(grid_rf.score(X_test, y_test))

AdaBoostClassifier(learning_rate=1, n_estimators=100, random_state=42)
1.0
