# Análise de Desempenho dos Parâmetros do Algoritmo Genético

In [1]:
import pandas as pd
import numpy as np

# Importação do matplotlib e seaborn para visualizações
from matplotlib import pyplot as plt
%matplotlib notebook
import seaborn as sns

Depois de fazer a importação das bibliotecas, irei carregar um arquivo csv, que é resultante da concatenação de todos os logs do experimento fatorial

In [4]:
dataset = pd.read_csv("dados/fatorial_test.csv")[
    ['nger',
    'npop',
    'cp',
    'mp',
    'xmaxc',
    'xmax_edge',
    'exec',
    'g',
    'worstFit',
    'fit_avg',
    'bestFit',
    'desvPad',
    'c',
    'weights']]

Abaixo são exibidos os primeiros 10 registros do dataframe

In [5]:
dataset.head(10)

Unnamed: 0,nger,npop,cp,mp,xmaxc,xmax_edge,exec,g,worstFit,fit_avg,bestFit,desvPad,c,weights
0,70,20,0.8,0.05,2.0,70,0,0,2.50138e+59,1.25109e+58,86976.939489,5.45154e+58,0.402565,[65.49630549 27.31316383 21.54222713 32.219060...
1,70,20,0.8,0.05,2.0,70,0,1,2.357079e+19,1.17854e+18,72415.502931,5.137135e+18,0.248171,[60.10362091 9.91467989 20.99895689 43.391833...
2,70,20,0.8,0.05,2.0,70,0,2,918845800.0,86123420.0,49336.278535,237951100.0,0.143951,[52.3446769 52.529954 63.67801993 18.398998...
3,70,20,0.8,0.05,2.0,70,0,3,508649700.0,29512040.0,49336.278535,110847700.0,0.143951,[52.3446769 52.529954 63.67801993 18.398998...
4,70,20,0.8,0.05,2.0,70,0,4,11638760.0,1112920.0,20641.040039,2555421.0,0.245692,[65.5453812 59.27413392 62.61302668 33.628854...
5,70,20,0.8,0.05,2.0,70,0,5,2.3338749999999998e+35,1.166938e+34,13424.451937,5.086563e+34,0.049801,[38.66679466 59.0232398 41.80664848 34.283506...
6,70,20,0.8,0.05,2.0,70,0,6,3.4685189999999994e+29,1.734259e+28,13424.451937,7.559461e+28,0.049801,[38.66679466 59.0232398 41.80664848 34.283506...
7,70,20,0.8,0.05,2.0,70,0,7,4611368.0,787549.0,13424.451937,1197285.0,0.049801,[38.66679466 59.0232398 41.80664848 34.283506...
8,70,20,0.8,0.05,2.0,70,0,8,4716402.0,568387.1,13424.451937,1022081.0,0.049801,[38.66679466 59.0232398 41.80664848 34.283506...
9,70,20,0.8,0.05,2.0,70,0,9,395441.8,170555.9,13424.451937,106134.1,0.049801,[38.66679466 59.0232398 41.80664848 34.283506...


Nos testes, para cada combinação de parâmetros o AG foi executado 10 vezes. Isso foi feito para diminuir a probabilidade de uma determinada combinação de parâmetros se destacar por sorte da aleatoriedade. Sendo assim irei agregar os dados de todas as execuções pela média, tornando o conjunto de dados 10 vezes menor.

In [6]:
datasetAgrupado = dataset.drop(['c', 'weights'], axis=1).groupby(['nger', 'npop', 'cp', 'mp', 'xmaxc', 'xmax_edge', 'g']).mean().reset_index().drop('exec', axis=1)

datasetAgrupado.head(10)

Unnamed: 0,nger,npop,cp,mp,xmaxc,xmax_edge,g,worstFit,fit_avg,bestFit,desvPad
0,70,20,0.8,0.01,2.0,70,0,2.651472e+59,1.326199e+58,81180.933731,5.778643e+58
1,70,20,0.8,0.01,2.0,70,1,5.416586e+51,2.803882e+50,55928.612045,1.1794459999999999e+51
2,70,20,0.8,0.01,2.0,70,2,2.759415e+40,1.37973e+39,36796.190126,6.014001999999999e+39
3,70,20,0.8,0.01,2.0,70,3,110956900000.0,8921121000.0,25274.837594,25832930000.0
4,70,20,0.8,0.01,2.0,70,4,8539776000.0,499890200.0,25274.837594,1851647000.0
5,70,20,0.8,0.01,2.0,70,5,7764818000.0,411571200.0,24215.467446,1689812000.0
6,70,20,0.8,0.01,2.0,70,6,4365087.0,533041.7,24215.467446,1023363.0
7,70,20,0.8,0.01,2.0,70,7,1085710.0,316496.6,24215.467446,345100.1
8,70,20,0.8,0.01,2.0,70,8,1019969.0,234427.3,24044.15665,285431.7
9,70,20,0.8,0.01,2.0,70,9,819147.1,164611.8,24044.15665,176213.0


Agora, para uma análise inicial, irei selecionar apenas a última geração de cada combinação e exibir os dados ordenados em ordem crescente pela média da média das execuções

In [7]:
datasetFinal = datasetAgrupado[datasetAgrupado['g'] == datasetAgrupado['nger']-1]
datasetFinal.sort_values(by=['fit_avg']).head(10)

Unnamed: 0,nger,npop,cp,mp,xmaxc,xmax_edge,g,worstFit,fit_avg,bestFit,desvPad
10835,150,20,0.8,0.01,2.0,110,149,2277.545765,1417.476028,724.708754,352.159826
5402,100,20,0.8,0.01,2.0,110,99,2663.84719,1450.22453,798.586191,407.135702
8489,100,30,1.0,0.01,2.0,110,99,3131.530549,1585.752753,817.126587,493.969153
6199,100,20,1.0,0.01,2.0,100,99,3186.595401,1602.65663,867.764607,576.907494
1181,70,20,1.0,0.01,2.0,110,69,4037.376006,1609.648247,860.295585,680.851572
11735,150,20,1.0,0.01,2.0,110,149,4412.589781,1617.903595,767.267498,791.522976
7295,100,30,0.8,0.01,2.0,110,99,3665.822324,1634.643841,763.430908,613.529092
10685,150,20,0.8,0.01,2.0,90,149,3101.318818,1713.4268,827.939968,594.805518
11585,150,20,1.0,0.01,2.0,90,149,5068.700072,1746.053968,845.480093,905.611813
2015,70,30,0.8,0.01,2.0,110,69,5062.954086,1774.465985,833.770943,893.180832


Ao analisar pela média, vemos que a melhor combinação é a que faz o uso de uma população com 20 elementos, 150 gerações, probabilidade de cruzamento de 80%, probabilidade de mutação de 1% e valor máximo da aresta de 110. Além da menor média, essa combinação também gerou um desvio padrão baixo. Abaixo é exibido a evolução da média com as outras medidas estatística por geração.

No gráfico abaixo, em escala logaritmica, a média está traçada em linha preta. Na linha vermelha estão representados os piores indivíduos de cada geração e na linha azul os melhores. Vale ressaltar mais uma vez que todos esses valores se referem às médias das 10 execuções.

In [8]:
dsMenorMedia = datasetAgrupado.loc[(datasetAgrupado.nger == 150) & (datasetAgrupado.npop == 20) & (datasetAgrupado.cp == 0.8) & (datasetAgrupado.mp == 0.01) & (datasetAgrupado.xmax_edge == 110)]

plt.figure(figsize=(6,4))

ax = plt.axes()

ax.plot(dsMenorMedia.g, dsMenorMedia.fit_avg, color='black', label='Média')
ax.plot(dsMenorMedia.g, dsMenorMedia.worstFit, color='red', label='PiorElemento')#, linestyle="dashdot")
ax.plot(dsMenorMedia.g, dsMenorMedia.bestFit, color='blue', label='Melhor Elemento')#, linestyle="dotted")

ax.set_xlabel('Gerações', fontsize=14)
ax.set_ylabel('Função de Aptidão', fontsize=14)#, title='Evolução das populações que fazem o uso do conjunto de parâmetros que produziu a menor média final')
plt.yscale('log')

plt.legend()

plt.savefig('plots/melhor_pior_media.pdf')


<IPython.core.display.Javascript object>

Observamos pelo gráfico que existe uma tendência de queda na curva, mais acentuada nas primeiras gerações. É notável no gráfico também várias oscilações no pior indivíduo, que acabam influenciando a média de maneira significante. Essas oscilações podem ser causadas, por exemplo, pela mutação dos indivíduos. A curva do melhor indivíduo aparentemene apenas decresce no início, mas analisando o gráfico abaixo, que plota apenas o melhor indivíduo, é possível observar uma tendência de queda até a última geração.

In [9]:
plt.figure(figsize=(6,4))

ax = plt.axes()

ax.plot(dsMenorMedia.g, dsMenorMedia.bestFit, color='blue', label='Melhor Elemento')

ax.set_xlabel('Geração', fontsize=14)
ax.set_ylabel('Função de Aptidão', fontsize=14)
#, title='Evolução do melhor Indivíduo')
plt.yscale('log')

plt.legend()

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7fd10e8aaee0>

Agora irei realizar a mesma análise, mas voltada para o conjunto de parâmetros que levou ao melhor fit na última geração

In [10]:
datasetFinal.sort_values(by=['bestFit']).head(7)

Unnamed: 0,nger,npop,cp,mp,xmaxc,xmax_edge,g,worstFit,fit_avg,bestFit,desvPad
10835,150,20,0.8,0.01,2.0,110,149,2277.545765,1417.476028,724.708754,352.159826
7295,100,30,0.8,0.01,2.0,110,99,3665.822324,1634.643841,763.430908,613.529092
13535,150,30,1.0,0.01,2.0,110,149,9129.003922,1872.041647,766.234418,1587.902116
11735,150,20,1.0,0.01,2.0,110,149,4412.589781,1617.903595,767.267498,791.522976
12635,150,30,0.8,0.01,2.0,110,149,7802.504146,1990.8713,773.424913,1530.026515
9485,100,50,0.8,0.01,2.0,110,99,10653.874405,2282.914367,773.517885,1804.703661
14435,150,50,0.8,0.01,2.0,110,149,22376.461643,2479.17025,776.129428,3823.191463


O conjunto que produziu o menor fit na última geração é também o que produziu a menor média. Por isso os gráficos não serão plotados novamente

Em todas essas análises foi realizado a média das 10 execuções. Agora irei utilizar o dataset não agrupado para descobrir quais foram os parâmetros gerados e assim de fato realizar a previsão com esses parâmetros.

In [15]:
dataset.loc[(dataset.nger == dataset.g+1) & (dataset.nger == 150) & (dataset.npop == 20) & (dataset.cp == 0.8) & (dataset.mp == 0.01) & (dataset.xmax_edge == 110)]

Unnamed: 0,nger,npop,cp,mp,xmaxc,xmax_edge,exec,g,worstFit,fit_avg,bestFit,desvPad,c,weights
39299,150,20,0.8,0.01,2.0,110,0,149,3336.096206,1427.234279,767.776908,542.630524,0.009109,[93.15825215 46.14055859 60.97649326 97.794565...
39449,150,20,0.8,0.01,2.0,110,1,149,2178.708209,1528.985029,700.148793,351.442481,0.130438,[102.81481296 62.90478457 88.70555765 64.07...
39599,150,20,0.8,0.01,2.0,110,2,149,2266.649636,1352.59269,653.02864,375.161734,0.033018,[ 77.14900164 54.17845871 96.5162088 75.91...
39749,150,20,0.8,0.01,2.0,110,3,149,1788.071862,1385.78503,784.070458,239.484596,0.061589,[106.10960075 66.76936349 43.29507434 89.49...
39899,150,20,0.8,0.01,2.0,110,4,149,1818.202911,1392.783113,718.518973,252.079797,0.052094,[ 98.22249657 103.02787151 82.80213164 59.78...
