# Diferenças entre RandomForest e AdaBoost

1. **Método de Agregação**:
   - **RandomForest**: Baseia-se em bagging. Cada árvore é treinada independentemente em uma amostra bootstrap do conjunto de dados.
   - **AdaBoost**: Baseia-se em boosting. Treina modelos sequencialmente.<br><br>

2. **Ponderação**:
   - **RandomForest**: Todas as árvores têm igual importância.
   - **AdaBoost**: Dá mais peso aos modelos que têm melhor desempenho.
<br><br>
3. **Diversidade**:
   - **RandomForest**: Diversidade introduzida por amostragem bootstrap.
   - **AdaBoost**: Diversidade é introduzida pelos pesos ajustados das observações.
<br><br>
4. **Profundidade da Árvore**:
   - **RandomForest**: Normalmente usa árvores profundas.
   - **AdaBoost**: Geralmente usa árvores de decisão curtas.
<br><br>
5. **Sensibilidade a Outliers**:
   - **RandomForest**: Menos sensível devido ao método de votação.
   - **AdaBoost**: Mais sensível, pois os pontos mal classificados ganham mais peso.

# Exemplo de AdaBoost do Scikit-learn

In [4]:
# Importando as bibliotecas necessárias
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Carregando o dataset
data = load_iris()
X, y = data.data, data.target

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Treinando o AdaBoost
clf = AdaBoostClassifier(n_estimators=50)
clf.fit(X_train, y_train)

# Fazendo previsões
y_pred = clf.predict(X_test)

# Avaliando o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 0.96


# Cinco Hyperparâmetros Importantes no AdaBoost

1. **`n_estimators`**: Número de modelos fracos a serem treinados.
2. **`learning_rate`**: Afeta a contribuição de cada modelo.
3. **`base_estimator`**: O modelo fraco a ser usado (por padrão é a árvore de decisão).
4. **`algorithm`**: O algoritmo a ser usado ('SAMME' ou 'SAMME.R').
5. **`random_state`**: Controla a aleatoriedade.

# Utilizando GridSearch para encontrar os melhores hyperparâmetros

In [6]:
from sklearn.model_selection import GridSearchCV

# Definindo os parâmetros a serem testados
param_grid = {
    'n_estimators': [30, 50, 70, 100],
    'learning_rate': [0.01, 0.05, 0.1, 0.5, 1],
    'algorithm': ['SAMME', 'SAMME.R']
}

# Criando o GridSearchCV
grid_search = GridSearchCV(AdaBoostClassifier(), param_grid, cv=5)

# Treinando
grid_search.fit(X_train, y_train)

# Mostrando os melhores parâmetros
print("Melhores parâmetros encontrados:", grid_search.best_params_)

Melhores parâmetros encontrados: {'algorithm': 'SAMME.R', 'learning_rate': 1, 'n_estimators': 100}
