Algoritmo genético
==================



<hr>

## Introdução



`Algoritmos genéticos` são algoritmos inspirados na teoria da evolução de Darwin e são ferramentas poderosas para resolver problemas de otimização. De maneira simples, a estratégia consiste em gerar uma população inicial aleatória e através de seleção, cruzamento e mutação sucessivas, gerar populações seguintes. Se feito de maneira correta, as populações seguintes tendem a ser melhores candidatos para a solução do problema do que as populações anteriores.

Um algoritmo genético pode parecer um tanto complexo, porém é possível dividi-lo em partes relativamente simples:

1.  Criação da população inicial (aleatória)

2.  Cálculo da função objetivo para todos os membros da população inicial e atualização do hall da fama

3.  Seleção dos indivíduos (quais seguem pra próxima geração)

4.  Cruzamento dos indivíduos selecionados (troca de material genético)

5.  Mutação dos indivíduos da população recém-criada (possibilidade de trazer informação nova ao sistema)

6.  Cálculo da função objetivo para todos os membros da população recém-criada e atualização do hall da fama

7.  Checar os critérios de parada. Caso os critérios não tenham sido atendidos, retornar ao passo 3

8.  Retornar para o usuário o hall da fama



## Glossário



-   `Indivíduo`: um candidato para a solução do problema

-   `População`: um conjunto de candidatos para a solução do problema

-   `Gene`: um parâmetro que pertence a um indivíduo

-   `Cromossomo` ou `genótipo`: um conjunto de genes

-   `Geração`: cada população em uma busca genética faz parte de uma geração. A primeira geração é geralmente formada por indivíduos aleatórios (sorteados dentro do espaço de busca). As gerações seguintes são formadas por seleção, cruzamento e mutação da geração anterior. Um dos critérios de parada possíveis para um algoritmo genético é o número máximo de gerações

-   `Função de aptidão` ou `função objetivo` ou `função fitness`: uma função que recebe um indivíduo e retorna o seu valor de aptidão. Em um problema de otimização, nós buscamos encontrar soluções que minimizam ou maximizam o valor de aptidão

-   `Seleção`: processo onde utilizamos o valor de aptidão dos indivíduos para selecionar quais irão passar seus genes para a geração seguinte

-   `Cruzamento`: processo onde o material genético de indivíduos selecionados é misturado

-   `Mutação`: processo onde os genes dos indivíduos selecionados têm uma chance de alterar seu valor. A mutação é o único processo capaz de introduzir informação nova ao pool genético após o sorteio aleatório da primeira geração

-   `Hall da fama`: conjunto dos $n$ indivíduos que obtiveram os melhores valores de aptidão durante o processo de busca



## Reflexões



Você diria que o algoritmo genético é determinístico ou probabilístico?

Será que um algoritmo genético é capaz de encontrar mínimos (ou máximos) da função objetivo?

O que será que acontece quando não realizamos a etapa de mutação do algoritmo genético?

O que será que acontece quando usamos uma chance de mutação muito alta?



## Objetivo



Encontrar uma solução para o problema das caixas binárias usando o algoritmo genético. Considere 4 caixas.



## Descrição do problema



O problema das caixas binárias é simples: nós temos um certo número de caixas e cada uma pode conter um valor do conjunto $\{0, 1\}$. O objetivo é encontrar uma combinação de caixas onde a soma dos valores contidos dentro delas é máximo.



<hr>

## Importações



In [1]:
# primeira coisa a ser feita!
# código não roda se você precisar de algo externo mas não tiver importado

#from funcoes import gene_cb

from funcoes import populacao_cb as cria_pop_ini 
#estamos chamando X função, mas aqui ela chamará Y
#a renomeação acontece na hora de importar, então aqui dentro precisamos chamar "cria_pop_ini"
from funcoes import selecao_roleta_maxima as roleta_max # função da roleta
from funcoes import funcao_objetivo_populacao_cb as fobj_populacao_cb # função objetivo 

# nomes no notebook são mais genéricas
# nomes no arquivo são mais descritivos (lá, quanto mais descritivos, melhor)

import random # já está nas funções de seleção, mas agora são as funções de cruzamento

from funcoes import cruzamento_ponto_simples as f_cruzamento

from funcoes import mutacao_cb as f_mutacao

## Códigos e Discussão



<br>

<div style=' text-align: justify; text-justify: inter-word;'>
    Nesse experimento, estamos, enfim, conhecendo os algoritmos genéticos e iremos resolver o mesmo problema já visto anteriormente: caixas binárias. Então, a informação mais relevante que precisamos ter acesso logo de início para entender a progressão do código é entender que um algoritmo genético funciona em etapas, sendo elas: seleção, cruzamneto, mutação, criação de uma nova geração. A seleção é a etapa na qual os melhores (ou a maioria deles) dos indivíduos é escolhida para originar a próxima geração, seleção é sobre escolher quais indivíduos serão cruzados para formar uma nova geração. Posteriormente, a mutação acontece sobre os indivíduo resultantes do cruzamento. Diferentes metodologias podem ser utilizadas para cada uma dessas etapas, a escolha depende do seu tipo de problema e do seu tipo de dados.
</div>

In [1]:
# Código Prof. Dr. Daniel Cassar
# funções serão escritas diretamente no funcao.py
# só operadores de seleção para começar

#constantes
TAMANHO_POP = 6
NUM_GENES = 4
NUM_GERACOES = 57
CHANCE_CRUZAMENTO = 0.5 
CHANCE_MUTACAO = 0.05
# valor baixo, mas não tão baixo, as repostas das reflexões (disponíveis na conclusão) justificam bem essa escolha

# dica de ouro do Dani: antes, descrever o que o código precisa fazer e, depois, traduzir computacionalmente 

<div style=' text-align: justify; text-justify: inter-word;'>
    As constantes são definidas logo no início do problema. As constantes relacionadas com chance (CHANCE_CRUZAMENTO, CHANCE_MUTACAO) são importantes pois nos contam que condições reais podem ser consideradas na manipulação dos algoritmos genéticos, evidenciando a flexibilidade deles (variações podem ser levadas em conta). Dessa forma, a existência dessas duas constantes nos mostram que nem todos os indivíduos de uma população cruzarão e que nem todos os indivíduos gerados sofrerão mutação.

In [3]:
# definidas as constantes, vamos em busca da população a ser selecionada
populacao = cria_pop_ini(TAMANHO_POP, NUM_GENES) # função importada com seus parâmetros
print("População Inicial:")
print(populacao)

# tendo a população inicial, agora faremos a seleção e o cruzamento
for n in range(NUM_GERACOES):
    fitness = fobj_populacao_cb(populacao) # seleção dos melhores candidatos de acordo com fitness calculado para a população
    populacao = roleta_max(populacao, fitness) # selecionando de acordo com os melhores e a proporção na roleta
    pais = populacao[0::2] # corte da população: do elemento 0 até o final, com salto de 2 em dois
    maes = populacao[1::2] # corte da população: do elemento 1 até o final, com intervalo de 2 em 2 
# lembrando que população é uma lista e listas podem ser cortadas
    contador = 0 
    
    for pai, mae in zip(pais, maes):# o zip para de funcionar quando ela chega no último elemento comum da quant. de itens da lista
        if random.random() <= CHANCE_CRUZAMENTO: 
            #vai ter cruzamento
            filho1, filho2 = f_cruzamento(pai, mae)
            # o problema é que precisamos saber a posição desses indivíduos na população
            populacao[contador] = filho1
            populacao[contador + 1] = filho2
            
        contador = contador + 2
         
    for n in range(len(populacao)):
        if random.random() <= CHANCE_MUTACAO: # se ficar só aqui, não se aplica a mutação na população de fato
            individuo = populacao[n]
            print()
            print(individuo) # print o individuo a ser mutado
            populacao[n] = f_mutacao(individuo)
            print(populacao[n]) # print o individuo mutado
            print()
       
        
print()
print("População Final:")
print(populacao)

População Inicial:
[[0, 1, 0, 1], [1, 0, 1, 1], [0, 1, 0, 1], [1, 0, 1, 1], [1, 1, 1, 1], [0, 0, 0, 1]]

[0, 1, 0, 1]
[0, 1, 0, 1]


[0, 1, 0, 1]
[1, 1, 0, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


[1, 1, 0, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


[1, 1, 0, 1]
[1, 1, 0, 0]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 0]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


População Final:
[[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 0, 1]]


<br>

### DISCUSSÃO

<div style=' text-align: justify; text-justify: inter-word;'>
    A população inicial é criada logo no início, sem passar por qualquer processo de seleção, cruzamento e mutação. Ela é criada com base em um função que reebeu como argumento o número total de indivíduos que uma população pode ter e o número de genes que cada indivíduo que compõe a população deve receber. Depois disso, a partir dessa população inicial seleciona-se os indivíduos que serão cruzados para formar a próxima geração. Eles são selecionados de acordo com os valores de fitness (valores específicos de cada um, calculados para cada indivíduo da população) de acordo com a função 'funcao_objetivo_populacao_cb'. A seleção é feita pelo método da roleta, considerando os indivíduos da população e os seus fitness calculados (pesos), sendo que a roleta funciona de maneira randômica. Os indivíduos selecionados são separados de maneira alternada em duas listas, compondo os pais e as mães. Depois disso, os indivíduos selecionados são cruzados de acordo com a constante 'chance_cruzamento' e a função  'f_cruzamento'. Os indivíduos cruzados passam pela mutação, mas só serão mutados aqueles que apresentarem valor aleatório inferior ao valor definido pela constante 'chance_mutacao'.
    <br>Gostaria de destacar a característica dessa ferramenta que eu achei mais útil: flexibilidade. Adorei que podemos considerar aspectos da vida real e como considerá-los faz diferença no código, como nos momentos em que colocamos as chances de reprodução e de mutação, afinal, de fato nem todo indivíduo de uma espécie se reproduz e nem toda multiplicação de DNA envolve mutações. Me parece até que essas interpretações poderiam ser ampliadas considerando inclusive fatores sócio-culturais, algo que não se apresentou tão fortemente no início de outras disciplinas. No caso de uma aplicação real, para alguma pesquisa na saúde, observações do tipo seriam essenciais para se ter uma amostra mais representativa, por exemplo. 
    <br> Como resultado, podemos observar a população inicial de indivíduos novamente para o problema das caixas binárias. Observa-se também, individualmente, cada um dos indivíduos e se eles sofrem ou não a mutação. Por fim, vemos a população final.
    
    
</div>

<hr>

## Conclusão
#### Questões para reflexão
> O Algoritmo Genético apresenta um "probabilistic behavior". Digo isso já com antecedência porque estava na leitura recomendada pelo professor. Além disso, teve a pergunta da aluna Danielle, sobre algortimos genéticos parecerem bem mais também sobre a questão da aleatoriedade e agora sabemos que ela é fundamental para o próprio conceito de Algoritmos Genéticos.

> Além disso, ele também é sim capaz de encontrar os valores máximos de uma função objetivo. É justamente isso que ele busca fazer ao dar origem a diferentes gerações: ele quer o melhor valor possível. Caso o problema queira encontrar o valor mínimo, é necessário então multiplicar os valores encontrados para a função objetivo de cada um dos indivíduos por menos 1. Ou seja, ele também consegue enconrar os mínimos.

> A etapa de mutação (o último operador do ciclo) permite que se não realizamos a mutação, corre-se o risco de que as gerações seguintes fiquem estagnadas em um mesmo valor 'ótimo' (o fitness). Isso é um problema porque o objetivo de testar diferentes gerações é justamente maximizar os resultados com diversidade de indivíduos.

> Contudo, se a chance de acontecer mutação for muito alta e mutações demais acontecerem, é perigoso que um bom indivíduo seja alterado e, consequentemente, sua performance acaba sendo influenciada negativamente. Além disso, o algoritmo acaba adquirindo também um caráter de aleatoriedade.

#### Sobre o experimento
> O experimento de número três foi muito importante para exemplificar de maneira prática os diferentes conceitos explorados na leitura prévia. Ao ler a parte mais teórica, fiquei bem curiosa para ver como seria a aplicação e, então, a aula foi muito interessante. Fiquei positivamente surpresa com como a escrita em linguagem computacional (pelo menos por enquanto) não é tão complexa quanto eu imaginava que seria. Por meio da atividade, consolidou-se a ideia de que os algoritmos genéticos funcionam por etapas e todas elas são fundamentais para alcançar o resultado mais satisfatório. O que o programa me entegou, desde que escrevi a primeira etapa (seleção) até a última (mutação) mudou bastante, principalmente em questão de tamanho, já que tinhamos mais informação no final. É interessante ver também, no print, quantos indivíduos sofreram mutações e quais foram elas, reforçando que nem sempre mutações acontecem principalmente quando um indivíduo já apresenta um fitness maximizado. 

<hr>

## Playground



- the art of solving problems using genetic algorithms: "Genetic algorithms provide us with a powerful and versatile tool that can be used to solve a wide array of problems and tasks."

In [2]:
# lembrar das funções com strings
# essa proposta me lembra das atividades da aula passada

#### Anotações
Lembrar de fazer funções com strings
<br>Essa proposta me lembra das atividades da aula passada, e é isso mesmo, mas aqui resolvemos a questão utilizando algoritmos genéticos
<br>Não conseguimos definir o que é bom ou ruim antes de rodar o código
<br>Mas conseguimos limitar quantas vezes uma coisa vai acontecer (tipo quantas vezes vai acontecer mutação)
<br>Aleatoriedade está no coração dos algoritmos genéticos (pergunta da Dani!!!! coisa mais linda)
<br>Lembrar de definir os critérios de parada
<br>Gostaria que ficasse claro que AG são muito muito versáteis: cabe explorar a criatividade e criar situações, mesmo que na genética 
<br>Se o valor usado em for não for importante no código, você não coloca uma letra, você coloca '_' e isso indica para o usuário que não é uma informação importante
<br>Focar em cada função, desenvolvê-las e depois se preocupar com os elementos externos