Algoritmo genético
==================



## Introdução



`Algoritmos genéticos` são algoritmos inspirados na teoria da evolução de Darwin e são ferramentas poderosas para resolver problemas de otimização. De maneira simples, a estratégia consiste em gerar uma população inicial aleatória e através de seleção, cruzamento e mutação sucessivas, gerar populações seguintes. Se feito de maneira correta, as populações seguintes tendem a ser melhores candidatos para a solução do problema do que as populações anteriores.

Um algoritmo genético pode parecer um tanto complexo, porém é possível dividi-lo em partes relativamente simples:

1.  Criação da população inicial (aleatória)

2.  Cálculo da função objetivo para todos os membros da população inicial e atualização do hall da fama

3.  Seleção dos indivíduos (quais seguem pra próxima geração)

4.  Cruzamento dos indivíduos selecionados (troca de material genético)

5.  Mutação dos indivíduos da população recém-criada (possibilidade de trazer informação nova ao sistema)

6.  Cálculo da função objetivo para todos os membros da população recém-criada e atualização do hall da fama

7.  Checar os critérios de parada. Caso os critérios não tenham sido atendidos, retornar ao passo 3

8.  Retornar para o usuário o hall da fama



## Glossário



-   `Indivíduo`: um candidato para a solução do problema

-   `População`: um conjunto de candidatos para a solução do problema

-   `Gene`: um parâmetro que pertence a um indivíduo

-   `Cromossomo` ou `genótipo`: um conjunto de genes

-   `Geração`: cada população em uma busca genética faz parte de uma geração. A primeira geração é geralmente formada por indivíduos aleatórios (sorteados dentro do espaço de busca). As gerações seguintes são formadas por seleção, cruzamento e mutação da geração anterior. Um dos critérios de parada possíveis para um algoritmo genético é o número máximo de gerações

-   `Função de aptidão` ou `função objetivo` ou `função fitness`: uma função que recebe um indivíduo e retorna o seu valor de aptidão. Em um problema de otimização, nós buscamos encontrar soluções que minimizam ou maximizam o valor de aptidão

-   `Seleção`: processo onde utilizamos o valor de aptidão dos indivíduos para selecionar quais irão passar seus genes para a geração seguinte

-   `Cruzamento`: processo onde o material genético de indivíduos selecionados é misturado

-   `Mutação`: processo onde os genes dos indivíduos selecionados têm uma chance de alterar seu valor. A mutação é o único processo capaz de introduzir informação nova ao pool genético após o sorteio aleatório da primeira geração

-   `Hall da fama`: conjunto dos $n$ indivíduos que obtiveram os melhores valores de aptidão durante o processo de busca



## Reflexões



Você diria que o algoritmo genético é determinístico ou probabilístico?

Será que um algoritmo genético é capaz de encontrar mínimos (ou máximos) da função objetivo?

O que será que acontece quando não realizamos a etapa de mutação do algoritmo genético?

O que será que acontece quando usamos uma chance de mutação muito alta?



## Objetivo



Encontrar uma solução para o problema das caixas binárias usando o algoritmo genético. Considere 4 caixas.



## Descrição do problema



O problema das caixas binárias é simples: nós temos um certo número de caixas e cada uma pode conter um valor do conjunto $\{0, 1\}$. O objetivo é encontrar uma combinação de caixas onde a soma dos valores contidos dentro delas é máximo.



## Importações



In [1]:
# importando 'random' e algumas funções criadas, do arquivo 'funcoes.py', a serem usadas no algoritmo 
# e as renomeando de maneira "auto-explicativa"

from funcoes import populacao_cb as cria_populacao_inicial
from funcoes import funcao_objetivo_pop_cb as funcao_objetivo_pop
from funcoes import selecao_roleta_max as funcao_selecao
from funcoes import cruzamento_ponto_simples as funcao_cruzamento
from funcoes import mutacao_cb as funcao_mutacao
import random

## Códigos e discussão



In [2]:
# constantes

TAMANHO_POP = 6
NUM_GENES = 4
NUM_GERACOES = 1000
CHANCE_CRUZAMENTO = 0.5
CHANCE_MUTACAO = 0.05

In [3]:
# estabelece uma população inicial aleatória
populacao = cria_populacao_inicial(TAMANHO_POP, NUM_GENES)

print("População inicial:")
print(populacao)

# Para cada geração desejada até o número máximo especificado:
# - calcula o fitness da população
# - faz a seleção dentre os indivíduos da antiga população, a partir dos dados obtidos de fitness de cada um,
#   reestabelecendo a formação da população
# - separa os indívuos pais (a partir do elemento de index 0, indo de 2 em 2) e as mães (a partir do elemento de
#   index 1, indo de 2 em 2)
# - para cada dupla de pai e mãe, considerando o conjunto das duas lista, caso seja sorteado um número (float) de 
#   0 a 1 menor ou igual ao valor estabelecido de chance de cruzamento, ocorre o cruzamento dos respectivos pai e
#   mãe, gerando 2 filhos com a combinação dos dois. Com isso, também, os pais são substituídos pelos filhos na
#   população
# - e, para cada posição da nova população formada, se um número sorteado entre 0 e 1 for menor ou igual ao valor
#   de chance de mutação, o indivíduo de respectivo index nos será apresentado e é aplicada a função de mutação 
#   nele e nos é apresentado o resultado
# Por fim, toda a população final é printada

for n in range(NUM_GERACOES):
    fitness = funcao_objetivo_pop(populacao)         
    populacao = funcao_selecao(populacao, fitness)    
                                                      
    pais = populacao[0::2]
    maes = populacao[1::2]
    
    contador = 0
    
    for pai, mae in zip(pais, maes):
        if random.random() <= CHANCE_CRUZAMENTO:
            filho1, filho2 = funcao_cruzamento(pai, mae)
            populacao[contador] = filho1
            populacao[contador + 1] = filho2
        
        contador = contador + 2
        
    for n in range(len(populacao)):
        if random.random() <= CHANCE_MUTACAO:
            individuo = populacao[n]
            print()
            print(individuo)
            populacao[n] = funcao_mutacao(individuo)
            print(populacao[n])
            print()
    
print()
print("População final:")
print(populacao)

População inicial:
[[0, 1, 0, 0], [1, 1, 0, 0], [1, 0, 1, 0], [1, 1, 0, 0], [1, 1, 0, 1], [1, 1, 0, 1]]

[1, 1, 0, 1]
[1, 0, 0, 1]


[1, 1, 0, 0]
[1, 1, 1, 0]


[1, 1, 1, 0]
[1, 1, 1, 0]


[1, 1, 0, 1]
[1, 0, 0, 1]


[1, 1, 0, 1]
[1, 1, 0, 1]


[1, 1, 0, 1]
[1, 1, 0, 1]


[1, 1, 0, 1]
[1, 1, 0, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


[1, 1, 1, 1]
[1, 1, 1, 0]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 0]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]


[1, 1, 1, 1]
[1, 1, 1, 0]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 0]


[1, 1, 1, 0]
[1, 0, 1, 0]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 1, 1]


[1, 1, 1, 1]
[1, 0, 1, 1]


[1, 1, 1, 1]
[0, 1, 1, 1]


[1, 1, 1, 1]
[1, 1, 0, 1]



## Conclusão

O problema das caixas binárias foi resolvido nesse experimento 3 com o nosso primeiro algoritmo genético. Ele foi capaz de encontrar o máximo, no caso, da função objetivo. Basicamente, nos fundamentamos em funções (armazenadas no arquivo 'funcoes.py') e na estruturação de um código com loop for e if. A funções foram utilizadas nos papéis de: criar uma população, na quantidade estabelecida, de indivíduos com 4 genes binários aleatórios; calcular o fitness para cada um dos indivíduos da população (soma dos genes); selecioná-los, pelo método roleta, com influência do fitness; fazer, se a probabilidade permitir, o cruzamento de pai e mãe para gerar novos filhos (crossing-over pelo método do ponto simples), evitando que esses indivíduos se propaguem inalterados para a próxima geração, aumentando a variabilidade genética; e a mutação, que é alterar um gene do indíviduo dentro da probabilidade para 0 ou 1 aleatoriamente.

Esse método se caracteriza como probabilístico, visto que não apresenta resultados equivalentes a cada nova rodada, assim, pessoas diferentes também poderiam ter resultados diferentes.

Apesar de ser somente o primeiro algoritmo visto, ele se mostrou muito interessante para resolver esse tipo de problema, pois, com a inserção de seleção, crossing-over e mutação, pôde-se ir aprimorando o código para que conseguisse filtrar apenas os melhores indivíduos, realmente, e para permitir variabilidade genética e inserção de novos genes, tendendo a facilitar o processo de encontrar o melhor resultado. Nesse sentido, se não tivesse a mutação, por exemplo não haveria a possibilidade de introduzir novo material genético nessa população, ou seja, os indivíduos apenas iriam sendo formados com o que for escolhido inicialmente.

Com as diversas tentativas, foi possível observar que, mesmo após permitir um número grande de gereações, nem sempre um conjunto só com o melhor indivíduo possível (no caso, [1, 1, 1, 1]) é encontrado. Isso porque, muitas vezes, as combinações de pais que vão sendo pegas não permitem nesse resultado e seus filhos vão se aparentando cada vez mais com eles, diminuindo a variabilidade, ou, ainda, o crossing-over e/ou a mutação podem "estragar" um indivíduo que já era classificado como melhor, ainda mais se essas funções forem feitas de maneira exarcebada. Por isso, por exemplo, que a chance de ocorrer mutação deve ser bem baixinha, caso contrário, corre-se o risco do algoritmo se assemelhar a busca aleatória.

Uma observação é que as funções tiveram seus nomes redefinidos, pois, além de ficar "auto-explicativo", caso deseja fazer algo similar, apenas mudando a função importada, mas que realiza a mesma função, basta mudar o nome naquela célula.

## Playground

