###Usaremos a biblioteca "tpot" que vai usar algoritmos de classificação genéticos (agoritmos evolutivos)

In [1]:
!pip install tpot



In [2]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from tpot import TPOTClassifier



In [3]:
data = load_iris()
X = data.data
y = data.target
X_treinamento, X_teste, y_treinamento, y_teste =  train_test_split(X,y, test_size=0.3, random_state=0)

In [5]:
# 1 - A carga de processamento do "tpot" é considerada muito grande. É importante ter em mente que aqui nós não estamos criando
#     um único modelo e sim uma grande quantidade de modelos.

# 2 - Utilizo aqui alguns hiper parametros básicos para reduzir o tempo de processamento dozando assim o tempo máximo 
#     de processamento do AutoML.


tpot = TPOTClassifier(
    generations = 10, #numero de geracoes que ele vai criar
    population_size = 100, # numero de configuracoes vai gerar para cada algoritomo gerado (valor padrão)
    offspring_size = 100, # numeros de dencendentes que vai ser gerado (valor padrão)
    mutation_rate =0.9, # taxa de mutação (valor padrão. É a probabilidade de algum elemento receber um valor aleatório)
    crossover_rate=0.1, # valor padrão. é a probabilidade de mistar as soluções
    scoring='accuracy', # metrica de avaliacao dos modelos
    max_time_mins=2, # tempo maximo em minutos por processo de avaliação. definido em 2 min.
    random_state=0, #
    early_stop=False, #interrompe de forma prematura o processo de avaliação
    verbosity=2
)

tpot.fit(X_treinamento, y_treinamento)
print("Melhor Modelo: ", tpot.fitted_pipeline_)

Optimization Progress:   0%|          | 0/100 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: 0.980952380952381

The optimized pipeline was not improved after evaluating False more generations. Will end the optimization process.

TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: RandomForestClassifier(MultinomialNB(input_matrix, alpha=0.001, fit_prior=True), bootstrap=False, criterion=entropy, max_features=0.55, min_samples_leaf=10, min_samples_split=12, n_estimators=100)
Melhor Modelo:  Pipeline(steps=[('stackingestimator',
                 StackingEstimator(estimator=MultinomialNB(alpha=0.001))),
                ('randomforestclassifier',
                 RandomForestClassifier(bootstrap=False, criterion='entropy',
                                        max_features=0.55, min_samples_leaf=10,
                                        min_samples_split=12,
                                        random_state=0))])


In [6]:
tpot.evaluated_individuals_

{'BernoulliNB(input_matrix, BernoulliNB__alpha=0.001, BernoulliNB__fit_prior=False)': {'generation': 0,
  'mutation_count': 0,
  'crossover_count': 0,
  'predecessor': ('ROOT',),
  'operator_count': 1,
  'internal_cv_score': 0.3714285714285714},
 'GaussianNB(PolynomialFeatures(input_matrix, PolynomialFeatures__degree=2, PolynomialFeatures__include_bias=False, PolynomialFeatures__interaction_only=False))': {'generation': 0,
  'mutation_count': 0,
  'crossover_count': 0,
  'predecessor': ('ROOT',),
  'operator_count': 2,
  'internal_cv_score': 0.9428571428571428},
 'XGBClassifier(input_matrix, XGBClassifier__learning_rate=0.1, XGBClassifier__max_depth=2, XGBClassifier__min_child_weight=7, XGBClassifier__n_estimators=100, XGBClassifier__n_jobs=1, XGBClassifier__subsample=0.4, XGBClassifier__verbosity=0)': {'generation': 0,
  'mutation_count': 0,
  'crossover_count': 0,
  'predecessor': ('ROOT',),
  'operator_count': 1,
  'internal_cv_score': 0.9238095238095239},
 'KNeighborsClassifier(Mul

In [7]:
previsao = tpot.predict(X_teste)
acuracia = accuracy_score(previsao, y_teste)
print(f"Acurácia: {acuracia}")

Acurácia: 0.9777777777777777
