# Programación para la Bioinformática

Unidad 5: ADN, ARN, secuencias y motivos (Parte 2)
--------------------------------------------------

### Instrucciones de uso
A continuación se presentará la teoría y algún ejemplo de algoritmo genético. Recordad que podéis ir ejecutando los ejemplos para obtener sus resultados.

### Algoritmos inspirados en la naturaleza
Existe una categoría de algoritmos que utilizan conceptos basados o inspirados en la naturaleza estableciendo una metáfora que los hace más comprensibles para los humanos. Muy populares en algoritmos de inteligencia artificial, empezaron a aparecer en la década de los 70 del siglo pasado y en la última década han explotado hasta convertirse en métodos casi estándares.

Una familia de algoritmos de inteligencia artificial inspirados en la naturaleza muy populares son los **algoritmos genéticos**. Los algoritmos genéticos utilizan conceptos de la genética, como son las mutaciones, los mecanismos de selección o los cruces. Los algoritmos genéticos se utilizan con el objetivo de optimizar valores de una función cualquiera en su espacio de valores. El funcionamiento básico del algoritmo está descrito en la siguiente figura (fuente Wikipedia - https://es.wikipedia.org/wiki/Algoritmo_gen%C3%A9tico):

<img src="files/media/alg_genetico.png">

* **Inicialización** (I). Se genera aleatoriamente una población inicial, constituida por un conjunto de cromosomas (o también llamados genes) que representan posibles soluciones del problema. Esta población deberá tener una diversidad inicial lo suficientemente rica para garantizar que el algoritmo no converja de forma prematura en soluciones no óptimas.
* **Evaluación** (?). Para cada uno de los cromosomas, lo evaluaremos en el espacio de búsqueda (aplicaremos la función que deseamos optimizar) y después calcularemos la distancia a la solución que queremos obtener. Esta solución objetivo es muy importante y está codificada en la función de *fitness* que dirigirá la evolución hacia esa solución óptima (podemos conocerla o no, en este segundo caso, la expresaremos en forma de función: cuán rápido es un coche, cuál es la cantidad monetaria más grande, etc.). Deberemos, además, definir las condiciones de parada del algoritmo para no entrar en bucle infinito: o bien acotando el número de pasos del algoritmo o bien cuando en la población ya no haya cambios. 
* **Selección** (Se). Si no se ha dado la condición de parada, se procede a elegir los cromosomas que serán cruzados en la siguiente generación, para ello, seleccionaremos los mejores cromosomas ordenándolos por su aptitud.
* **Cruce** (Cr). Representa en esta metáfora la reproducción sexual y opera sobre dos cromosomas a la vez para generar dos descendientes donde se combinan las características de ambos cromosomas padres.
* **Mutación** (Mu). Modifica de forma aleatoria parte del cromosoma de los individuos de la población para añadir diversidad y poder salir de pozos locales en el espacio de búsqueda.
* **Reemplazo** (Re). Una vez aplicados los operadores genéticos, se seleccionan los mejores individuos para conformar la población de la generación siguiente y continuar con otro paso de la simulación.

### Ejercicio 1
El siguiente código es una implementación de un algoritmo genético que optimiza la búsqueda de un string, es decir, dado un string **objetivo**, intentad encontrar esa cadena empezando desde diversas cadenas con caracteres aleatorios.

In [15]:
import random
import string     #importamos la libreria random y la libreria string


objetivo = "python"     #creamos la variable que señala al objeto de tipo string que queremos encontrar


GENES = 20              #establecemos el numero de genes y el valor maximo de generación aleatorio
MAX_GENERACION = 600


class Individuo(object):                   #se establece una clase individuo, que tendra las caracteristicas adn y fitness
    def __init__(self, adn, fitness):
        self.adn = adn
        self.fitness = fitness


def calcular_fitness(origen, valor_objetivo):                    #funcion que dado dos argumentos nos devuelve un objeto llamado fitness
    fitness = 0                                                   
    for i in range(0, len(origen)):                               
        fitness += (ord(valor_objetivo[i]) - ord(origen[i])) ** 2   
    return fitness


def mutacion(padre1, padre2):                                  #función que dado dos argumentos nos devuelve un objeto tipo clase individuo que                      
    adn_hijo = padre1.adn[:]                                   #tiene dos caracteristicas
                                                               
    start = random.randint(0, len(padre2.adn) - 1)             
    stop = random.randint(0, len(padre2.adn) - 1)              
    if start > stop:                                           
        stop, start = start, stop                              

    adn_hijo[start:stop] = padre2.adn[start:stop]              

    posicion = random.randint(0, len(adn_hijo) - 1)
    adn_hijo[posicion] = chr(ord(adn_hijo[posicion]) + random.randint(-1, 1))
    fitness_hijo = calcular_fitness(adn_hijo, objetivo)
    return Individuo(adn_hijo, fitness_hijo)


def padre_al_azar(poblacion):                                                 #función que dado un argumento nos devuelve un valor al azar
    return poblacion[int(random.random() * random.random() * (GENES - 1))]


def escribe_generacion(generacion, poblacion):           #función que dado dos argumentos nos devuelve el fitness y su correspondiente valor ADN
    print('Pasos de simulación: %d' % generacion)
    print()
    print('  Fitness         ADN')
    print('------------------------')
    for candidato in poblacion:
        print("%6i %15s" % (candidato.fitness, ''.join(candidato.adn)))
    print()


def inicializa_poblacion():              #esta función inicializa la poblazion aleatoria con las caracteristicas dadas
    poblacion = []
    for i in range(0, GENES):
        adn = [random.choice(string.printable[:-5]) for _ in range(0, len(objetivo))]
        fitness = calcular_fitness(adn, objetivo)
        candidate = Individuo(adn, fitness)
        poblacion.append(candidate)
    return poblacion


def simulacion():                       #función que inicializa la simulación con los datos y las caracteristicas elegidas
    poblacion = inicializa_poblacion()
    generacion = 0
    while True and generacion < MAX_GENERACION:
        generacion += 1
        poblacion.sort(key=lambda candidate: candidate.fitness)

        if poblacion[0].fitness == 0:
            break

        padre1 = padre_al_azar(poblacion)
        padre2 = padre_al_azar(poblacion)

        hijo = mutacion(padre1, padre2)
        if hijo.fitness < poblacion[-1].fitness:
            poblacion[-1] = hijo

    if generacion == MAX_GENERACION:
        print(u'Se ha alcanzado el máximo de generaciones')
    escribe_generacion(generacion, poblacion)


simulacion()


Pasos de simulación: 433

  Fitness         ADN
------------------------
     0          python
     1          pytion
     1          pythnn
     2          pytinn
     2          oytion
     2          pxthnn
     2          pxthnn
     2          oytion
     3          pxtinn
     3          oytinn
     3          pxtioo
     3          pztioo
     3          pxshnn
     3          pxtipn
     3          oytinn
     3          pxshnn
     3          oytioo
     4          pytjon
     4          pytjon
     4          pytjon



Es muy importante, tanto en bioinformática como en programación en general, leer e interpretar código de otros programadores. Por ello, en este ejercicio se os pide que comentéis el código anterior con comentarios en el propio código que expliquen las partes más importantes de este.

### Ejercicio 2

Escribe una función de fitness alternativa. Recuerda que fitness=0 indica que la cadena objetivo se ha conseguido. Explica en qué consiste tu función de fitness.

In [12]:
#He copiado el algoritmo desde "https://robologs.net/2015/09/01/como-programar-un-algoritmo-genetico-parte-ii-implementacion-en-python/"


import random
  
modelo = [1,1,1,1,1,1,1,1,1,1] #Objetivo a alcanzar
largo = 10 #La longitud del material genetico de cada individuo
num = 10 #La cantidad de individuos que habra en la poblacion
pressure = 3 #Cuantos individuos se seleccionan para reproduccion. Necesariamente mayor que 2
mutation_chance = 0.2 #La probabilidad de que un individuo mute
  
print("\n\nModelo: %s\n"%(modelo)) #Mostrar el modelo, con un poco de espaciado
  
def individual(min, max):
    """
        Crea un individual
    """
    return[random.randint(min, max) for i in range(largo)]
  
def crearPoblacion():
    """
        Crea una poblacion nueva de individuos
    """
    return [individual(1,9) for i in range(num)]
  
def calcularFitness(individual):
    """
        Calcula el fitness de un individuo concreto.
    """
    fitness = 0
    for i in range(len(individual)):
        if individual[i] == modelo[i]:
            fitness += 1
  
    return fitness
  
def selection_and_reproduction(population):
    """
        Puntua todos los elementos de la poblacion (population) y se queda con los mejores
        guardandolos dentro de 'selected'.
        Despues mezcla el material genetico de los elegidos para crear nuevos individuos y
        llenar la poblacion (guardando tambien una copia de los individuos seleccionados sin
        modificar).
  
        Por ultimo muta a los individuos.
    """
    puntuados = [ (calcularFitness(i), i) for i in population] #Calcula el fitness de cada individuo, y lo guarda en pares ordenados de la forma (5 , [1,2,1,1,4,1,8,9,4,1])
    puntuados = [i[1] for i in sorted(puntuados)] #Ordena los pares ordenados y se queda solo con el array de valores
    population = puntuados
  
  
  
    selected =  puntuados[(len(puntuados)-pressure):] #Esta linea selecciona los 'n' individuos del final, donde n viene dado por 'pressure'
    
    #Se mezcla el material genetico para crear nuevos individuos
    for i in range(len(population)-pressure):
        punto = random.randint(1,largo-1) #Se elige un punto para hacer el intercambio
        padre = random.sample(selected, 2) #Se eligen dos padres
          
        population[i][:punto] = padre[0][:punto] #Se mezcla el material genetico de los padres en cada nuevo individuo
        population[i][punto:] = padre[1][punto:]
  
    return population #El array 'population' tiene ahora una nueva poblacion de individuos, que se devuelven
  
def mutation(population):
    """
        Se mutan los individuos al azar. Sin la mutacion de nuevos genes nunca podria
        alcanzarse la solucion.
    """
    for i in range(len(population)-pressure):
        if random.random() <= mutation_chance: #Cada individuo de la poblacion (menos los padres) tienen una probabilidad de mutar
            punto = random.randint(0,largo-1) #Se elgie un punto al azar
            nuevo_valor = random.randint(1,9) #y un nuevo valor para este punto
  
            #Es importante mirar que el nuevo valor no sea igual al viejo
            while nuevo_valor == population[i][punto]:
                nuevo_valor = random.randint(1,9)
  
            #Se aplica la mutacion
            population[i][punto] = nuevo_valor
  
    return population
      
  
population = crearPoblacion()#Inicializar una poblacion
print("Poblacion Inicial:\n%s"%(population)) #Se muestra la poblacion inicial
  
  
#Se evoluciona la poblacion
for i in range(100):
    population = selection_and_reproduction(population)
    population = mutation(population)
  
  
print("\nPoblacion Final:\n%s"%(population)) #Se muestra la poblacion evolucionada
print("\n\n")






Modelo: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

Poblacion Inicial:
[[3, 6, 1, 7, 5, 1, 1, 8, 5, 7], [8, 6, 2, 9, 2, 9, 5, 5, 9, 4], [1, 3, 1, 4, 1, 1, 2, 7, 1, 5], [3, 2, 5, 7, 2, 9, 6, 5, 3, 2], [4, 4, 8, 4, 8, 9, 2, 4, 1, 4], [4, 9, 2, 8, 9, 4, 3, 6, 1, 1], [8, 1, 1, 8, 5, 9, 6, 8, 2, 5], [7, 8, 7, 9, 6, 2, 6, 8, 3, 2], [9, 7, 2, 9, 4, 8, 5, 1, 8, 2], [5, 2, 6, 1, 5, 4, 5, 5, 4, 8]]

Poblacion Final:
[[1, 1, 1, 1, 1, 3, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8], [1, 1, 1, 1, 1, 1, 1, 1, 1, 8]]





### Ejercicio 3

Representa utilizando matplotlib el máximo fitness, el mínimo y la media por paso de la simulación en un gráfico: