# Atividade 01

## 1) Cite 5 diferenças entre o Random Forest e o AdaBoost

- Método de Construção: O Random Forest usa árvores de decisão independentes, enquanto o AdaBoost usa modelos fracos sequenciais.

- Peso das Instâncias: No AdaBoost, as instâncias mal classificadas têm mais peso, enquanto no Random Forest todas têm o mesmo peso.

- Forma de Combinação: O Random Forest usa votação majoritária, enquanto o AdaBoost usa pesos de precisão.

- Sensibilidade a Outliers: O AdaBoost é mais sensível, enquanto o Random Forest é mais robusto.

- Complexidade do Modelo Final: O Random Forest produz modelos mais complexos, enquanto o AdaBoost produz modelos mais simples.

## 2) Acesse o link Scikit-learn–adaboost, leia a explicação e crie um jupyter notebook contendo o exemplo do AdaBoost.

In [4]:
from sklearn import datasets
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target

clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
clf3 = GaussianNB()

eclf = VotingClassifier(
    estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
    voting='hard')

for clf, label in zip([clf1, clf2, clf3, eclf], ['Logistic Regression', 'Random Forest', 'naive Bayes', 'Ensemble']):
    scores = cross_val_score(clf, X, y, scoring='accuracy', cv=5)
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

Accuracy: 0.95 (+/- 0.04) [Logistic Regression]
Accuracy: 0.94 (+/- 0.04) [Random Forest]
Accuracy: 0.91 (+/- 0.04) [naive Bayes]
Accuracy: 0.95 (+/- 0.04) [Ensemble]


## 3) Cite 5 Hyperparametros importantes no AdaBoost.

- n_estimators: Quantidade de modelos fracos.

- learning_rate: Peso de cada modelo.

- base_estimator: Tipo de modelo fraco.

- algorithm: Método de cálculo dos pesos.

- random_state: Semente aleatória.

## 4) Utilize o GridSearch para encontrar os melhores hyperparametros para o conjunto de dados do exemplo (load_iris)

In [5]:
from sklearn.model_selection import GridSearchCV
from prettytable import PrettyTable

# Definindo os hyperparâmetros a serem testados
params = {
    'lr__C': [0.1, 1.0, 10.0],
    'rf__n_estimators': [10, 50, 100],
    'voting': ['hard']
}

# Criando o objeto GridSearchCV
grid = GridSearchCV(estimator=eclf, param_grid=params, cv=5)

# Realizando a busca dos melhores hyperparâmetros
grid.fit(X, y)

# Obtendo os resultados
best_params = grid.best_params_

# Criando a tabela
table = PrettyTable(["Hyperparâmetro", "Melhor Valor"])
for param_name, param_value in best_params.items():
    table.add_row([param_name, param_value])

# Imprimindo os resultados
print("Melhores hyperparâmetros encontrados:")
print(table)

Melhores hyperparâmetros encontrados:
+------------------+--------------+
|  Hyperparâmetro  | Melhor Valor |
+------------------+--------------+
|      lr__C       |     1.0      |
| rf__n_estimators |      10      |
|      voting      |     hard     |
+------------------+--------------+
