1. Cinco Diferenças entre Random Forest e AdaBoost:
- Método de Ensemble:
    - Random Forest: Utiliza o método de bagging, criando múltiplas árvores de decisão com amostras aleatórias do conjunto de dados e tomando a média para melhorar a precisão e controlar o overfitting.
    - AdaBoost: Emprega o método de boosting, onde sequencialmente adiciona modelos (geralmente árvores de decisão de um nó) que corrigem os erros dos modelos anteriores, atribuindo pesos maiores às instâncias mal classificadas.
- Ponderação das Árvores:
    - Random Forest: Todas as árvores têm igual peso na decisão final.
    - AdaBoost: As árvores têm pesos diferentes baseados na sua precisão, com árvores mais precisas tendo maior influência.
- Tratamento de Erros:
    - Random Forest: Lida com erros por meio da diversidade das árvores.
    - AdaBoost: Foca em corrigir os erros, dando mais atenção às instâncias que foram classificadas incorretamente.
- Complexidade do Modelo:
    - Random Forest: Geralmente usa árvores mais profundas, resultando em um modelo mais complexo.
    - AdaBoost: Frequentemente usa árvores mais simples (stumps), tornando o modelo menos complexo.
- Sensibilidade a Dados Ruidosos e Outliers:
    - Random Forest: É relativamente robusto a outliers e dados ruidosos.
    - AdaBoost: Pode ser sensível a outliers, pois tenta ajustar cada ponto de dados, incluindo os outliers.    

In [12]:
# 2. Script AdaBoost com Scikit-Learn

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# Load the Iris dataset
iris = load_iris()
X, y = iris.data, iris.target

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create AdaBoost classifier instance
ada_clf = AdaBoostClassifier(n_estimators=200)

# Train AdaBoost Classifier
ada_clf.fit(X_train, y_train)

# Make predictions
y_pred = ada_clf.predict(X_test)

# Evaluate the model
accuracy = accuracy_score(y_test, y_pred, normalize=True, sample_weight=None)
print(f'Acurácia: {accuracy}')
cm = confusion_matrix(y_test, y_pred)
print(f'Matriz de Confusão:\n{cm}')


Acurácia: 1.0
Matriz de Confusão:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


3. Cinco Hiperparâmetros Importantes no AdaBoost:
- n_estimators: Número de modelos a serem construídos sequencialmente.
- learning_rate: Taxa de aprendizado que pondera a contribuição de cada modelo. Valores menores requerem mais modelos (n_estimators).
- base_estimator: O modelo base a ser utilizado (por padrão, é uma árvore de decisão).
- algorithm: Pode ser 'SAMME' ou 'SAMME.R', influenciando a forma como os pesos são atualizados.
- random_state: Controla a aleatoriedade do processo de boosting.

In [13]:
# 4. Utilizando GridSearch para Otimizar Hiperparâmetros no AdaBoost com o Conjunto de Dados Iris
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# Carregar dados
iris = load_iris()
X, y = iris.data, iris.target

# Definir o modelo base
base_estimator = DecisionTreeClassifier()

# Configurar o AdaBoostClassifier
ada = AdaBoostClassifier(base_estimator=base_estimator)

# Definir o espaço de busca dos hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1],
    'base_estimator__max_depth': [1, 2, 3]
}

# Configurar o GridSearchCV
grid_search = GridSearchCV(ada, param_grid, cv=5, scoring='accuracy')

# Executar o GridSearch
grid_search.fit(X, y)

# Melhores parâmetros e pontuação
print("Melhores parâmetros:", grid_search.best_params_)
print("Melhor pontuação:", grid_search.best_score_)



Melhores parâmetros: {'base_estimator__max_depth': 3, 'learning_rate': 0.01, 'n_estimators': 50}
Melhor pontuação: 0.9666666666666668
