In [2]:
# Importando bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from tpot import TPOTClassifier

# Carregando o conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

# Dividindo o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ------------------------
# Modelos Tradicionais
# ------------------------

# Regressão Logística
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)
y_pred_logreg = logreg.predict(X_test)
logreg_accuracy = accuracy_score(y_test, y_pred_logreg)
print(f"Regressão Logística - Acurácia: {logreg_accuracy:.4f}")

# Árvore de Decisão
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)
dt_accuracy = accuracy_score(y_test, y_pred_dt)
print(f"Árvore de Decisão - Acurácia: {dt_accuracy:.4f}")

# ------------------------
# AutoML com TPOT
# ------------------------

# Inicializando o classificador TPOT com o número de gerações e população
tpot = TPOTClassifier(generations=5, population_size=20, random_state=42, verbosity=2)

# Treinando o modelo AutoML
tpot.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred_tpot = tpot.predict(X_test)
tpot_accuracy = accuracy_score(y_test, y_pred_tpot)
print(f"TPOT - Acurácia: {tpot_accuracy:.4f}")

# Comparando os modelos
print("\nComparação de Modelos:")
print(f"Regressão Logística - Acurácia: {logreg_accuracy:.4f}")
print(f"Árvore de Decisão - Acurácia: {dt_accuracy:.4f}")
print(f"TPOT (AutoML) - Acurácia: {tpot_accuracy:.4f}")

# Salvando o modelo gerado pelo TPOT
tpot.export('best_model_pipeline.py')

print("\nO modelo otimizado foi salvo como 'best_model_pipeline.py'.")


Regressão Logística - Acurácia: 1.0000
Árvore de Decisão - Acurácia: 1.0000
                                                                             
Generation 1 - Current best internal CV score: 0.9833333333333334
                                                                             
Generation 2 - Current best internal CV score: 0.9833333333333334
                                                                             
Generation 3 - Current best internal CV score: 0.9833333333333334
                                                                             
Generation 4 - Current best internal CV score: 0.9833333333333334
                                                                              
Generation 5 - Current best internal CV score: 0.9833333333333334
                                                                              
Best pipeline: LogisticRegression(MultinomialNB(input_matrix, alpha=10.0, fit_prior=False), C=25.0, dual=False, penalty=l2)
