# Programação Genética - Trabalho Final
## Leonardo Augusto Ferreira
### leauferreira@cpdee.ufmg.br

## Alunos:
### Gabriel Camatta Zanotelli - 2018020140
### Lucas de Almeida Martins - 2018020328

In [None]:
# Anaconda
# !conda install gplearn
# !conda install eckity
# !conda install pmlb

# python - jupyter nootebook - colab
# !pip install gplearn
# !pip install eckity
# !pip install pmlb


# documentation:
# https://docs.sympy.org/latest/install.html
# https://github.com/EC-KitY/EC-KitY
# https://epistasislab.github.io/pmlb/

In [1]:
from pmlb import fetch_data
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
from eckity.algorithms.simple_evolution import SimpleEvolution
from eckity.sklearn_compatible.sk_classifier import SKClassifier
from eckity.breeders.simple_breeder import SimpleBreeder
from eckity.creators.gp_creators.ramped_hh import RampedHalfAndHalfCreator
from eckity.genetic_encodings.gp.tree.functions import f_add, f_mul, f_sub, f_div, f_neg, f_sqrt, f_log, f_abs, f_inv, f_max, \
    f_min
from eckity.genetic_encodings.gp.tree.utils import create_terminal_set
from eckity.genetic_operators.crossovers.subtree_crossover import SubtreeCrossover
from eckity.genetic_operators.mutations.subtree_mutation import SubtreeMutation
from eckity.genetic_operators.selections.tournament_selection import TournamentSelection
from eckity.statistics.best_avg_worst_size_tree_statistics import BestAverageWorstSizeTreeStatistics
from eckity.subpopulation import Subpopulation
from eckity.termination_checkers.threshold_from_target_termination_checker import ThresholdFromTargetTerminationChecker

# Adding your own functions
from eckity.sklearn_compatible.classification_evaluator import ClassificationEvaluator


In [3]:
x, y = fetch_data('breast', return_X_y=True)

In [4]:
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=.7)

In [5]:
terminal_set = create_terminal_set(x_train)
# function_set = [f_add, f_mul, f_sub, f_div, f_sqrt, f_log, f_abs, f_neg, f_inv, f_max, f_min]

function_set = [f_add, f_mul, f_sub, f_div]

algo = SimpleEvolution(
    Subpopulation(creators=RampedHalfAndHalfCreator(init_depth=(2, 4),
                                                    terminal_set=terminal_set,
                                                    function_set=function_set,
                                                    bloat_weight=0.0001),
                  population_size=1000,
                  evaluator=ClassificationEvaluator(),
                   higher_is_better=True,
                  elitism_rate=0.05,
                  operators_sequence=[
                      SubtreeCrossover(probability=0.9, arity=2),
                      SubtreeMutation(probability=0.2, arity=1)
                  ],
                  selection_methods=[
                      # (selection method, selection probability) tuple
                      (TournamentSelection(tournament_size=4, higher_is_better=True), 1)
                  ]
                  ),
    breeder=SimpleBreeder(),
    max_workers=1,
    max_generation=100,
    
    termination_checker=ThresholdFromTargetTerminationChecker(optimal=1, threshold=0.03),
    statistics=BestAverageWorstSizeTreeStatistics()
)

classifier = SKClassifier(algo)

classifier.fit(x_train, y_train)

debug: random seed = 1685496225.0348513
generation #0
subpopulation #0
best fitness 0.9284253578732107
worst fitness 0.12065439672801637
average fitness 0.6435930470347648
average size 15.602

generation #1
subpopulation #0
best fitness 0.9284253578732107
worst fitness 0.130879345603272
average fitness 0.7201104294478528
average size 15.676

generation #2
subpopulation #0
best fitness 0.9284253578732107
worst fitness 0.07157464212678936
average fitness 0.7538916155419222
average size 15.54

generation #3
subpopulation #0
best fitness 0.934560327198364
worst fitness 0.13701431492842536
average fitness 0.7703844580777097
average size 18.918

generation #4
subpopulation #0
best fitness 0.934560327198364
worst fitness 0.07157464212678936
average fitness 0.7999120654396726
average size 24.87

generation #5
subpopulation #0
best fitness 0.9406952965235174
worst fitness 0.07157464212678936
average fitness 0.812079754601227
average size 28.398

generation #6
subpopulation #0
best fitness 0.940

<eckity.sklearn_compatible.sk_classifier.SKClassifier at 0x1e9f0bcb070>

In [6]:
acc = accuracy_score(y_test, classifier.predict(x_test))
print(acc)

0.9666666666666667


## Comparação de Desempenho entre as Bibliotecas de Programação Genética EC-KitY e GPlearn utilizando Datasets de Regressão e Classificação

Para o trabalho final, você deverá utilizar as bibliotecas de programação Genética EC-KitY e GPlearn, juntamente com a biblioteca Penn Machine Learning Benchmarks, a fim de gerar um código Python que realizará testes em três conjuntos de dados para regressão e três conjuntos de dados para classificação. Seu objetivo é comparar as métricas obtidas e determinar qual biblioteca apresenta os melhores resultados.

Durante o estudo, você deverá variar as probabilidades de mutação e cruzamento, a fim de identificar a melhor configuração para cada uma das bibliotecas. Registre cuidadosamente os resultados obtidos em relação às métricas avaliadas, considerando medidas como acurácia, precisão, recall, F1-score, erro médio quadrático (RMSE) ou outras relevantes para o problema em questão.

Ao final do estudo, apresente uma análise comparativa dos resultados para cada biblioteca, destacando as probabilidades de mutação e cruzamento que produziram os melhores desempenhos. Utilize gráficos, tabelas ou outras visualizações que considerar pertinentes para ilustrar seus resultados e facilitar a compreensão.

### Anotações

Bases de dados de classificação tem que ser binaria
As de regressão tem que ser mono objetivo

Usar a biblioteca "pmlb" pra pegar um banco de dados

Variar as probabilidades ditas no enunciado

Relatorio no markdown

Rodar umas 30 (ou 3) vezes pra cada resultado (uma quantidade que de uma certa segurnaça) uma vez que o resultado é probabilistico

Pegar uns 3 ou 4 valores diferentes para cada