# Programación Dinámica

La programación dinámica es una técnica para resolver problemas de optimización que exhiben las siguientes propiedades:

    1 Puede ser descompuesto en sub-problemas traslapados.
    2 Contienen sub-estructuras óptimas
    3 El número de sub-problemas es relativamente bajo
    

# Secuenciamiento de ADN


El alineamiento de secuencias es una manera de analizar estructuras evolutivas entre genes o proteínas. Dadas dos secuencias de ADN $S_1=[A,C,G,T,C,A,T,C,A ]$ y $S_2=[T,A,G,T,G,T,C,A]$ nos interesa encontrar la sub-cadena común más larga. Podemos formalizar el problema de secuenciamiento como encontrar el alineamiento de sub-cadenas con el mínimo costo. 

La noción de similitud entre sub-cadenas se puede definir como encontrar una secuencia creciente de indices $I=[i_1,i_2,\ldots\,i_k]$ tal que $x_{i_j}=y_j$ para todo $x_{i_j} \in S_1$ y $y_j \in S_2$.

La solución de fuerza bruta consiste en enumerar todas las sub-cadenas posibles. Sin enbargo, este número crece exponencialmente con el tamaño de la cadena. 

In [39]:
from itertools import combinations as comb

S_1='ACGTCATCA'
S_2='TAGTGTCA'

def LCS_BF(X,Y):
    n=min(len(X),len(Y))
    sol={}
    for k in range(1,n):
        sub_str_1=set(comb(X, k))
        sub_str_2=set(comb(Y, k))
        sol_k={k:sub_str_1 & sub_str_2}
        sol.update(sol_k)
    return sol

print(LCS_BF(S_1,S_2))

{1: set([('C',), ('T',), ('A',), ('G',)]), 2: set([('A', 'A'), ('A', 'T'), ('T', 'T'), ('T', 'A'), ('C', 'A'), ('T', 'C'), ('G', 'A'), ('G', 'T'), ('A', 'G'), ('G', 'C'), ('A', 'C')]), 3: set([('T', 'T', 'C'), ('A', 'T', 'T'), ('G', 'C', 'A'), ('G', 'T', 'A'), ('A', 'T', 'A'), ('T', 'A', 'T'), ('A', 'G', 'T'), ('A', 'G', 'C'), ('T', 'A', 'A'), ('A', 'C', 'A'), ('A', 'T', 'C'), ('T', 'C', 'A'), ('G', 'T', 'C'), ('T', 'T', 'A'), ('A', 'G', 'A'), ('T', 'A', 'C'), ('G', 'T', 'T')]), 4: set([('A', 'T', 'C', 'A'), ('A', 'T', 'T', 'C'), ('T', 'A', 'C', 'A'), ('T', 'T', 'C', 'A'), ('A', 'G', 'T', 'C'), ('T', 'A', 'T', 'A'), ('G', 'T', 'T', 'C'), ('A', 'G', 'T', 'T'), ('T', 'A', 'T', 'C'), ('A', 'G', 'T', 'A'), ('G', 'T', 'T', 'A'), ('A', 'T', 'T', 'A'), ('G', 'T', 'C', 'A'), ('A', 'G', 'C', 'A')]), 5: set([('A', 'T', 'T', 'C', 'A'), ('A', 'G', 'T', 'T', 'A'), ('A', 'G', 'T', 'C', 'A'), ('T', 'A', 'T', 'C', 'A'), ('G', 'T', 'T', 'C', 'A'), ('A', 'G', 'T', 'T', 'C')]), 6: set([('A', 'G', 'T', 'T

In [42]:
def LCS_DP(X,Y):
    n=min(len(X),len(Y))
    sol={}
    diff={}
    for k in range(1,n):
        sub_str_1=set(comb(X, k))
        sub_str_2=set(comb(Y, k))
        diff_k={k:sub_str_1 - sub_str_2}
        diff.update(diff_k)
        sol_k={k:sub_str_1 & sub_str_2}
        sol.update(sol_k)
    return sol

In [43]:
print(LCS_DP(S_1,S_2))

{1: set([('C',), ('T',), ('A',), ('G',)]), 2: set([('A', 'A'), ('A', 'T'), ('T', 'T'), ('T', 'A'), ('C', 'A'), ('T', 'C'), ('G', 'A'), ('G', 'T'), ('A', 'G'), ('G', 'C'), ('A', 'C')]), 3: set([('T', 'T', 'C'), ('A', 'T', 'T'), ('G', 'C', 'A'), ('G', 'T', 'A'), ('A', 'T', 'A'), ('T', 'A', 'T'), ('A', 'G', 'T'), ('A', 'G', 'C'), ('T', 'A', 'A'), ('A', 'C', 'A'), ('A', 'T', 'C'), ('T', 'C', 'A'), ('G', 'T', 'C'), ('T', 'T', 'A'), ('A', 'G', 'A'), ('T', 'A', 'C'), ('G', 'T', 'T')]), 4: set([('A', 'T', 'C', 'A'), ('A', 'T', 'T', 'C'), ('T', 'A', 'C', 'A'), ('T', 'T', 'C', 'A'), ('A', 'G', 'T', 'C'), ('T', 'A', 'T', 'A'), ('G', 'T', 'T', 'C'), ('A', 'G', 'T', 'T'), ('T', 'A', 'T', 'C'), ('A', 'G', 'T', 'A'), ('G', 'T', 'T', 'A'), ('A', 'T', 'T', 'A'), ('G', 'T', 'C', 'A'), ('A', 'G', 'C', 'A')]), 5: set([('A', 'T', 'T', 'C', 'A'), ('A', 'G', 'T', 'T', 'A'), ('A', 'G', 'T', 'C', 'A'), ('T', 'A', 'T', 'C', 'A'), ('G', 'T', 'T', 'C', 'A'), ('A', 'G', 'T', 'T', 'C')]), 6: set([('A', 'G', 'T', 'T

In [27]:
print i1,i2

1 7


In [19]:
S_2[i1+1:]


'GTGTCA'