# Algoritmos Genéticos

## O que são:

São algoritmos de busca heurística\* que também podem ser usados para resolver problemas de otimização e são inspirados na teoria da evolução das espécies e na genética.

Sempre que formos trabalhar com algoritmos genéticos (AGs) trabalharemos com uma população de indivíduos, isso significa que em vez de termos uma única solução por iteração, teremos possivelmente um conjunto de soluções correspondente ao número de individuos, e como os individuos interagem entre si durante entre as passagens por gerações, teremos uma convergência mais rápida para um resultado ideal ou próximo ao ideal.

\* *heurística* é uma forma de descartar as opções mais improváveis tornando a busca mais objetiva, isto quer dizer que os Algoritmos Genéticos não irão testar todas as possibilidades até encontrar a ideal, mas partirão de um escopo de soluções possíveis e depois vão refinando a sua direção até ser o mais próximo possível da solução ideal.

*obs: Algoritmos Genéticos fazem parte de um grupo especial de algoritmos chamados algoritmos evolutivos, eles tem em comum o uso de características do neodarwinismo, não apenas na questão da evolução, mas também nas questões de adaptação e seleção de indivíduos.*

## Bases biológicas:

### Considerações iniciais:

Como em computação tratamos de abstração e sistematização, e como já foi citada a origem dos AGs em relação à evolução das espécies, copiamos da natureza alguns métodos e atributos que usaremos nestes algoritmos para isso precisamos ter em mente algumas considerações:

* **População:** um ou mais conjuntos de indivíduos que buscarão uma solução (valor máximo ou mínimo).

* **Adaptação/evolução:** precisamos ter em mente que as melhores soluções passarão adiante, isso significa que as caracteríscas encontradas pelos indivíduos mais aptos serão passadas para as próximas gerações enquanto os menos aptos morrerão ao longo do desenvolvimento da população.

* **Variabilidade:** assim como na natureza os filhos herdam os genes dos pais mas com pequenas variações simulamos este comportamento nos AGs por diversos motivos como a garantia que todos os indivíduos sejam diferentes entre si e que se tenha uma maior variedade no comportamento de cada indivíduo.

* ***Fitness:*** é a forma que usaremos para medir ou estimar a aptidão de cada indivíduo.

Tais considerações são fortemente inspiradas no neodarwinismo, que considera como alguns pilares para a evolução das espécies a *mutação*, a *recombinação gênica* e a *seleção natural.* Para nossos estudos isso significa:

1. **Mutação:** processo em que os dados passados entre gerações (genes) sofrem alterações para garantir a variabilidade da população.

2. **Recombinação gênica:** possibilitada através da reprodução sexuada, aqui misturaremos genes de pelo menos dois individuos, ampliando a gama de mutações mantendo o direcionamento da busca.

3. **Seleção natural:** os indivíduos mais aptos serão aqueles com uma combinação gênica mais adequada ao seu meio, desse modo, usamos calculos que se aproveitam desta informação para selecionar indivíduos que serão as bases para as futuras gerações.

### Representando um indivíduo:

Cada indivíduo carregará consigo uma característica principal:

* **Genótipo:** estas são as características genéticas contidas no cromossomo, podemos representa-las de acordo com a quantidade de genes que iremos trabalhar: 
    + **Haplóide:** apenas 1 gene
    + **Diplóide:** 2 genes
    + **Poliplóide:** 2 ou mais genes

Em aplicações multi-objetivo trabalharemos com um conjunto de genes, em um cromossomo poliplóide ou vários cromossomos (dependendo de como a solução para o nosso problema for modelado), de toda forma sempre trabalharemos pensando sobre a aptidão do indivíduo.

## Manipulando uma população:

Partindo da percepção de cada indíviduo que compõe a população e tendo em mente que no primeiro momento eles nada sabem sobre o meio, a população será iniciada com seus indivíduos portando valores aleatórios no seus genes, em seguida calculamos o *fitness* de cada indivíduo, dessa forma buscamos garantir que de início levaremos em consideração o máximo de possibilidades possíveis mas já identificaremos a melhores até então.

Com base no fitness começaremos o processo de preparar a próxima geração, e aqui entra a seleção natural, já que se não descartarmos ao menos uma parcela de nossa população, o número de indivíduos crescerá tanto que tornará a execução de nosso algoritmo inviável, assim descartamos os menos aptos e escolhemos os que se manterão por ao menos mais uma geração, para isto existem métodos como o da roleta e o da amostragem estocástica, esses e alguns outros serão melhor analisados mais adiante.

Depois de termos os indivíduos selecionados, chega a hora de criarmos a geração seguinte, para isso cruzamos indivíduos que chamaremos de pais, este é o momento em que realizamos a *recombinação gênica* (também chamda de *crossover*) e usamos uma taxa de *mutação*, assim como no início do algoritmo, também calculamos o *fitness* para os novos indivíduos.

Dessa forma podemos pontuar os seguintes momentos da execução do algoritmo:

* **Criação da população inicial:**
    + Atribuição de valores aleatórios aos genes
    + Calculo de *fitness*

* **Seleção de indivíduos/descarte dos menos aptos:**
    + Escolha de indivíduos pais
    + Seleção dos que se manterão na geração seguinte ou não
    
* **Cruzamento/nova geração:**
    + *Crossover* dos genes dos pais
    + Mutação gênica
    + Calculo de *fitness*
    
---

Algo que neste ponto podemos começar a pensar é quantas vezes precisaremos realizar todo este processo, e a resposta para este questionamento depende quase que exclusivamente do problema que tentaremos solucionar com ele, mas logo de início temos duas soluções: executar o algoritmos até que ele encontre a solução ou executar o algoritmo numa quantidade pré determinada de vezes, o que pode ser uma solução interessante quando não se tem uma solução ideal ou cuja possível resposta tende ao infinito.

## Finalmente escrevendo um código de exemplo:

Este é um simples exercício feito somente para ter uma noção da aplicação do coteúdo teórico num código de uma linguagem de programação, o objetivo será encontrar uma palavra escrita em letras maiúsculas que irei determinar na função que iniciará o funcionamento do algoritmo, isso significa que os recursos utilizados estarão adaptados à necessidade, ou seja: futuramente, quando precisar ou quiser usar AGs, este código nada mais será que um simples exemplo da tradução do conteúdo teórico para o prático, dessa forma também terás de refletir sobre como adaptar o conteúdo teórico visto até então às necessidades do uso que fará do algoritmo.

### "imports" que precisarei para o exemplo:

In [29]:
from random import choice as rand
from random import randint
from random import uniform
from string import ascii_uppercase as letters
from itertools import cycle

### Classe individuo:

Aqui pensamos nos requisitos mínimos que um individuo da nossa população precisa ter, aproveitei e já criei o método que será usado na criação da primeira população, aquela composta com genes aleatórios.

In [30]:
class Individuo(object):
    '''TODO: class Individuo
    
    :attrs: gene, fit
    :methods: __init__, __repr__
    
    '''
    def __init__(self,tam, fitness_calc,alvo, gene=None):
        '''TODO:
            
            :tam: tamanho da cadeira de caracteres alvo
            :fitness_calc: a funcao que calculara o fitness
            :alvo: unicamente para usar no calculo de fitness
            :gene: para a populacao inicial, e definido um valor aleatorio,
                    para as geracoes seguintes, e atribuido um valor
            
        '''
        self.gene = None
        if gene == None:
            self.gene = ''.join((rand(letters) for i in range(tam)))
        else:
            self.gene = gene
            
        self.fit = fitness_calc(self.gene, alvo)
        
    def __repr__(self):
        return self.gene

### Calculo de fitness:

Este calculo deve ser moldado com base no problema que será solucionado pelo algoritmo, o único padrão que ele segue é que o resultado deve ser um número positivo, o que faz com que comumente ele contenha somatório ou o produto entre alguns de seus elementos. Como pensar, avaliar e aplicar um fitness que represente bem o "ambiente" em que os indivíduos de nossa população terão que sobreviver, não é tão difícil encontrar pela internet exemplos de calculos de fitness acompanhados de gráficos que indicam que tipo de meio eles representam, também existem alguns softwares que geram estes calculos.

In [31]:
def fitness(gene, alvo):
    dif = 0
    
    for i in range(len(alvo)): 
        dif += abs(ord(gene[i]) - ord(alvo[i]))
    
    return dif

### Seleção de indivíduos

Existem vários métodos de seleção e nada impede que possamos criar os nossos prórpios métodos, mas aqui representarei três entre os mais conhecidos: **roleta**, **amostragem universal estocástica** e **disputa**.

Algo que precisamos ter em mente é que nem sempre escolher um método de seleção que privilegie unica e exclusivamente os melhores indivíduos leva a um desempenho melhor durante a execução do algoritmo, em muitos casos isso pode levar a um falso positivo, por isso o mais comum é buscarmos um equilíbrio que tende para para os melhores resultados mas sem esquecer a diversidade da população, afinal é isto que faz com que se tenha um bom horizonte de busca e se teste de maneira adequada as possibilidades dentro da heurística.

#### Roleta:

Vamos imaginar um sorteio: a roda gira e seleciona aleatoriamente um valor, é mais ou menos assim que funciona o método de roleta, aqui usaremos uma roleta "viciada" já que daremos prioridade às melhores soluções encontradas até então, isto significa que o espaço disponibilizado para cada indivíduo ser selecionado, ou seja, a possibilidade de escolha de um indivíduo é proporcional a sua aptidão.

In [32]:
def roleta(popl, num):
    '''TODO: function roleta
    :popl: type::list
    :num: quantidade de individuos a serem selecionados
    :return: individuos selecionados
    '''
    
    selecionados = []
    add_select = selecionados.append
    
    soma_aptidao = 0
    for individuo in popl:
        soma_aptidao += individuo.fit

    for i in range(num):
        r = uniform(0, soma_aptidao)
        S = 0 # somatorio da aptidão dos individuos percorridos até entao
        for i in popl:
            if len(selecionados) == num: break
            S += i.fit
            if S >= r:
                add_select(i)
                
    return selecionados

#### Amostragem universal estocástica:

Funciona mais ou menos como o método da roleta, mas segue um padrão na seleção, em vez de ter apenas uma agulha que seleciona um "indivíduo", neste método teremos algumas agulhas equidistantes ou não que selecionarão alguns indivíduos numa única rodada

Mesmo diminuindo o número de iterações usados na seleção, este método tende a ter uma menor diversidade que o método da roleta.

#### Disputa/torneio:

Um dos métodos mais usados pela sua simplicidade e baixo custo computaional: escolhemos aleatoriamente dois (ou mais) indivíduos, criamos um critério que defina quem deve ser escolhido (tendendo sempre para o com maior aptidão)

In [33]:
def torneio(popl, num):
    '''TODO: function roleta
    :popl: type list
    :num: quantidade de individuos a serem selecionados
    :return: individuos selecionados
    '''
    selecionados = []
    add_select = selecionados.append
    
    k = 0.75 # constante que definirá a propabilidade de seleção
    popl_fight = popl[::]
    for _ in range(num):
        combatentes = (rand(popl_fight), rand(popl_fight)) # usar pop para remover da lista temporaria
        r = uniform(0, 1)
        if r < k:
            vencedor = max(combatentes, key=lambda x: x.fit)
            add_select(vencedor)
        else:
            vencedor = min(combatentes, key=lambda x: x.fit)
            add_select(vencedor)
    
    return selecionados

### Reprodução

Este é o momento que vamos preparar a nova geração de indivíduos. Agora que já temos os indivíduos pais, podemos iniciar o processo de combinação gênica, que junto com a taxa de mutação, formará os genes dos indivíduos filhos.

##### Pareamento

Mesmo que já tenhamos selecionado apenas os mais aptos, ainda assim precisamos escolher os pais (um ou mais) cuja combinação de suas características dará origem à próxima geração, alguns dos métodos mais conhecidos para fazer isso são:

###### Escolhas aleatórias:

O nome já indica como é o seu funcionamento, inidivíduos aleatórios serão escolhidos. o problema é que não há certeza que isso gerará pares cujos filhos terão uma aptidão maior que a dos pais prejudicando a eficiência e até mesmo as chances do algoritmo chegar a bons resultados

In [34]:
def par_aleatorio(escolhidos):
    pais = escolhidos[::]
    pares = []
    
    tam = len(escolhidos) -1
    for _ in range(tam):
        pai = pais[randint(0, tam)]
        mae = pais[randint(0, tam)]
        pares.append((pai, mae))
        
        
    return pares

###### Os melhores junto com os piores

Vamos pegar o melhor selecionado e juntar ao pior selecionado, o problema disso é que a quantidade de pares formados não seja adequada se formos substituir toda a população, mas é uma alternativa interessante se formos substituir apenas parte da população.

No exemplo abaixo usei a biblioteca *itertools* para criar um generator que faz um loop numa lista de tuplas que contém a metade melhor e a metade pior dentre os selecionados.

In [35]:
def melhor_com_pior(escolhidos, num):
    escolhidos = sorted(escolhidos, key=lambda x:x.fit)
    
    melhores =  escolhidos[:num//2]
    piores =  escolhidos[num//2:]
    
    pais = cycle(zip(melhores, piores))
    pares = []
    while len(pares) < num:
        pares.append(next(pais))
        
    return pares

##### Combinação gênica

A idéia aqui é unicamente misturar os genes do pai com o da mãe, normalmente este processo é demonstrado usando binários, e admito que esta é a forma mais simples, lógica e visualmente direta e simples de exemplificar o processo.

###### Usando pontos de quebra

Considerando um valor binário, vamos estipular uma posição nesta cadeia de 0 e 1 onde antes ou depois dela, vamos permutar os 0 e 1 entre os pais, exemplo porque sei que da forma reduzida que escrevi não dá para entender:

digamos que o pai é **01010101** e a mãe é **11001100**

dividimos ao meio, ou seja, adicionamos 1 ponto de quebra, de um lado mantemos os genes do pai ou da mãe, e alteramos a posição do restando, assim poderíamos obter:

|pais|**01010101**|**11001100**|
|--|--|--|
|**filhos**|**01011101** | **11000101**|

neste exemplo, o objetivo é tantarmos manter mais fortemente características de um dos pais, mas na prática, isso depende mais de como você analisa a situação, o problema e também vai de acordo com sua consciência escolher o que fazer neste momento, afinal o importante é tentar misturar os genes da melhor forma possível.

In [36]:
def comb_quebra(pais):
    
    '''
    Exemplo com apenas 1 ponto de quebra
    Mantendo a parte inicial do objeto com melhor fitness e o restante com o do pior fitness entre os pais
    '''
    filhos = []
 
    try:
        for p, m in pais:
        #    if type(pior.gene) == list:
            quebra = len(m.gene)//2
            novo0 = m.gene[:quebra] + p.gene[quebra:]
            novo1 = p.gene[:quebra] + m.gene[quebra:]
            if type(novo0)==list or type(novo1)==list:
                import ipdb; ipdb.set_trace()
            filhos.append(novo0)
            filhos.append(novo1)
    except:
        pass
    
    return filhos[::]
    

**É importante ressaltar que é neste momento que normalmente definimos a quantidade de filhos, ou seja, quantos membros terá a geração seguinte.**

### Mutação:

A taxa de mutação é um importante elemento que define parte considerável da dinâmica da evolução do algoritmo, tendo em vista que um valor maior nesta taxa significa que os filhos serão menos parecidos com os pais, o que permite uma maior dispersão/variabilidade entre eles mas também significa que aproveitarão menos do que foi acumulado entre as gerações. Da mesma forma uma taxa de mutação muito pequena também pode comprometer o algoritmo, pois se os indivíduos pouco se dispersam e apenas continuam os rumos definidos pelos pais, há um grande risco de haver uma convergência precipitada no nosso algoritmo, o que tem grandes chances de levar a um resultado falso positivo (percebemos isso geralmente quando os genes estancam num determinado valor ainda longe do ótimo esperado)

In [37]:
def mutacao(populacao, taxa=0.05):
    # mutação em 5% da população por padrão
    
    qnt = int(len(populacao)*taxa)
    
    for _ in range(qnt):
        posit = randint(0, qnt-1)
        mutante = populacao[posit]
        mutante.gene = [''.join((rand(letters) for i in range(len(mutante.gene))))]

## Concluindo a implementação:

Só para relembrar, o passo a passo pode ser representado por este grafo:

![](figures/ags/Algoritmos_Geneticos.svg)

Agora, finalmente vamos ao código!

In [38]:
from copy import deepcopy
def AG():
    
    # configuracoes
    qnt_popl = 400
    qnt_geracoes = 1000 # limite maximo de iteracoes
    alvo = 'integral'.upper()
    dim = len(alvo) # quantidade de dimensões, neste caso, quantidade de caracteres
    
    # população inicial
    popl = [Individuo(dim, fitness, alvo) for _ in range(qnt_popl)]
    # população ordenada
    popl = sorted(popl, key=lambda x:x.fit)
    # melhor resultado até o momento
    best = deepcopy(popl[0])
    
    # print das informações
    print('-' * 80)
    print('Alvo: ', alvo)
    print('-' * 80)
    print('best: ', best)
    #print('população inicial:', popl)
    print('-' * 80)
    
    i = 0 # contador
    while i < qnt_geracoes or best.gene == alvo:

        # seleção
        selecionados = torneio(popl, qnt_popl // 2)
                


        # pareamento
        pais = par_aleatorio(selecionados)

        
        # combinação gênica
        nova_popl = [Individuo(dim, fitness, alvo, i) for i in comb_quebra(pais)]
        
#        for n1, n2 in n:
#            # assumindo que cada par teve dois filhos
#            f0 = Individuo(dim, fitness, alvo, gene=n1)
#            f1 = Individuo(dim, fitness, alvo, gene=n2)
            
#            nova_popl.append(f0)
#            nova_popl.append(f1)
            
        # mutação
        mutacao(nova_popl)
        
        # nova população
        popl = sorted(nova_popl, key=lambda x: x.fit)[::]
        import ipdb; ipdb.set_trace()
        # novo melhor individuo
        best = deepcopy(popl[0])
        
        i += 1
        
        if i % 100 == 0:
            print(i)
            print('melhor:', best.fit, best)
            print(n[:3])
            print(popl[:5])
            
        
    
    print('-' * 80)
    print('Quantidade de iterações: ', i)
    print('-' * 80)
    print('Melhor individuo: ', best)
    print('Alvo: ', alvo)
    print('-' * 80)

In [39]:
AG()

--------------------------------------------------------------------------------
Alvo:  INTEGRAL
--------------------------------------------------------------------------------
best:  HNVEJKGM
--------------------------------------------------------------------------------
> [1;32m<ipython-input-38-861ac5ac5e11>[0m(55)[0;36mAG[1;34m()[0m
[1;32m     54 [1;33m        [1;31m# novo melhor individuo[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m---> 55 [1;33m        [0mbest[0m [1;33m=[0m [0mdeepcopy[0m[1;33m([0m[0mpopl[0m[1;33m[[0m[1;36m0[0m[1;33m][0m[1;33m)[0m[1;33m[0m[0m
[0m[1;32m     56 [1;33m[1;33m[0m[0m
[0m
ipdb> l
[0;32m     50 [0m[1;33m[0m[0m
[0;32m     51 [0m        [1;31m# nova população[0m[1;33m[0m[1;33m[0m[0m
[0;32m     52 [0m        [0mpopl[0m [1;33m=[0m [0msorted[0m[1;33m([0m[0mnova_popl[0m[1;33m,[0m [0mkey[0m[1;33m=[0m[1;32mlambda[0m [0mx[0m[1;33m:[0m [0mx[0m[1;33m.[0m[0mfit[0m[1;33m)[0m[1;33m[[0m

BdbQuit: 