### Diferenças entre Random Forest e AdaBoost

1. **Estratégia de Treinamento:**
   - **Random Forest:** Treina várias árvores de decisão independentemente umas das outras e combina seus resultados usando um processo de votação (para classificação) ou média (para regressão).
   - **AdaBoost:** Treina modelos sequencialmente, onde cada modelo foca em corrigir os erros do modelo anterior.

2. **Peso dos Modelos:**
   - **Random Forest:** Todas as árvores têm peso igual no momento da combinação dos resultados.
   - **AdaBoost:** Dá pesos diferentes para cada modelo, dependendo de seu desempenho no conjunto de treinamento.

3. **Robustez a Dados Ruídosos:**
   - **Random Forest:** É mais robusto a dados ruidosos e outliers devido à natureza independente das árvores e uso de amostras bootstrap.
   - **AdaBoost:** Pode ser mais sensível a outliers, já que dá mais peso a instâncias mal classificadas, incluindo possíveis outliers.

4. **Complexidade:**
   - **Random Forest:** É mais simples de implementar e ajustar, já que cada árvore é treinada de forma independente.
   - **AdaBoost:** Pode ser mais complexo devido ao treinamento iterativo e ajuste dos pesos das instâncias.

5. **Capacidade de Evitar Overfitting:**
   - **Random Forest:** Geralmente menos propenso a overfitting devido à agregação de resultados de múltiplas árvores e amostragem aleatória.
   - **AdaBoost:** Pode ser mais propenso a overfitting, especialmente em datasets pequenos e ruidosos.

---
**Conclusão:**
Random Forest e AdaBoost são ambos métodos de ensemble learning, mas possuem abordagens bem distintas. Random Forest prioriza a independência das árvores, enquanto o AdaBoost foca no aprendizado sequencial. A escolha entre eles depende do tipo de problema, dados disponíveis e requisitos de desempenho.


### Exemplo do AdaBoost

In [4]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier

# Carregar o dataset
X, y = load_iris(return_X_y=True)

# Definir o modelo AdaBoost com o algoritmo SAMME
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME")

# Realizar a validação cruzada
scores = cross_val_score(clf, X, y, cv=5)

# Exibir a média das pontuações
print(scores.mean())

0.9533333333333334


### Hiperparâmetros importantes no AdaBoost

1. **`n_estimators`**:
   - Define o número de estimadores fracos (como árvores de decisão) a serem treinados. Um valor maior pode aumentar a performance, mas também o tempo de treinamento.

2. **`learning_rate`**:
   - Controla o peso de cada estimador fraco na combinação final. Valores menores podem exigir mais estimadores para alcançar uma boa performance.

3. **`base_estimator`**:
   - Especifica o modelo base usado como estimador fraco. Por padrão, é uma árvore de decisão `DecisionTreeClassifier`.

4. **`algorithm`**:
   - Escolhe entre os algoritmos `SAMME` e `SAMME.R`. `SAMME.R` utiliza probabilidades para atualizar os pesos e geralmente é mais rápido.

5. **`random_state`**:
   - Controla a aleatoriedade do treinamento para garantir reprodutibilidade dos resultados.

---
**Conclusão:**
Esses hiperparâmetros são cruciais para ajustar o desempenho do AdaBoost e podem ser otimizados usando técnicas como `GridSearchCV` ou `RandomizedSearchCV`. A escolha dos valores depende do dataset e do problema específico.


### Encontrar os melhores hyperparametros

In [15]:
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

# Carregar o dataset
X, y = load_iris(return_X_y=True)

# Definir o modelo base
estimator = DecisionTreeClassifier()

# Configurar os hiperparâmetros a serem testados
param_grid = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 1],
    'estimator__max_depth': [1, 2, 3],
    'algorithm': ['SAMME']  # Força o uso do algoritmo SAMME
}

# Configurar o AdaBoost com o estimator
clf = AdaBoostClassifier(estimator=estimator, algorithm='SAMME')  # Define explicitamente o algoritmo

# Configurar o GridSearchCV
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, scoring='accuracy')

# Executar o GridSearch
grid_search.fit(X, y)

# Exibir os melhores hiperparâmetros
print("Melhores hiperparâmetros:", grid_search.best_params_)

# Exibir a melhor pontuação
print("Melhor pontuação:", grid_search.best_score_)


Melhores hiperparâmetros: {'algorithm': 'SAMME', 'estimator__max_depth': 3, 'learning_rate': 0.1, 'n_estimators': 150}
Melhor pontuação: 0.9733333333333334
