<p style="text-align:right;font-size:0.9em">
Grau d'Enginyeria Informàtica. Algorísmica
</p>

<h1 style="padding:0.5em 0;font:Garamond;font-size:1-5em;color:#F90;background-color:#005">
Problema: Levenshtein
</h1>

## Introducció

Una seqüència genètica és un string format per caràcters d’un alfabet de quatre lletres: ``A, T, G`` i ``C``, que corresponen a les macromolècules base de l’ADN. Un gen és una seqüència genètica que conté la informació necessària per construir una proteïna. La unió de tots els gens constitueixen el genoma. 

Cada cèl•lula produïda pel cos rep una còpia del genoma, però a vegades, aquesta còpia és lleugerament “defectuosa”. Els “defectes” van des de la substitució d’una base per una altra fins a la pèrdua d’un substring de la seqüència. 

+ Baixa't el fitxer HUMAN-DNA.txt al teu directori. 

Aquest fitxer conté una part del ADN del cromosoma 2 humà.

## Pregunta 1

+ Fes una funció, anomenada ``dna``, basada en l’algorisme de Levenshtein, que busqui dins de **cada una de les línies del fitxer anterior** les següents seqüències genètiques i digui a quina línia les ha trobat amb mínima distància i quina és aquesta distància (si està a varies línies, que indiqui la primera línia en la que apareix a distància mínima):

        AGATACATTAGAACAATAGAGATGTGGTC
        GTCAGTCTGGCACTTGCCATTGGTGCCACCA
        TACCGAGAAGCATGGATTACAGCATGTACCATCAT
        
Al fer-ho, has de tenir en compte que a les aplicacions bioinformàtiques, els costos de les operacions d’edició són lleugerament diferents de les que hem vist fins ara:

+ Per un salt/inserció (al patró o al text): 2; 
+ Per una substitució: 1; 
+ Quan hi ha correspondència: 0.

Adapta la funció ``dna`` a aquests costos. La funció no ha de tenir cap tipus d’entrada de part de l’usuari, i la sortida ha d'indicar la línia i distància mínimes per cada patró, i el temps de càlcul en milisegons.

In [1]:
def lev_distance(first, second):
    if len(first) > len(second):
        first, second = second, first
    if len(second) == 0:
        return len(first)
    first_length = len(first) + 1
    second_length = len(second) + 1
    distance_matrix =[[0] * second_length for x in range(first_length)]
    for i in range(first_length):
        distance_matrix[i][0] = i
    for j in range(second_length):
        distance_matrix[0][j] = 0
    for i in range(1, first_length):
        for j in range(1, second_length):
            deletion = distance_matrix[i-1][j] + 2
            insertion = distance_matrix[i][j-1] + 2
            substitution = distance_matrix[i-1][j-1]
            if first[i-1] != second[j-1]:
                substitution += 1
            distance_matrix[i][j] = min(insertion,deletion, substitution)
    num = distance_matrix[first_length-1][0]
    for i in range(second_length):
        if(num > distance_matrix[first_length-1][i]):
            num = distance_matrix[first_length-1][i]
    return(num)

In [2]:
import time
def dna():
    """
    Aquest programa cerca unes determinades seqüències al fitxer HUMAN-DNA.txt
    :return una llista, de tres llistes, un per cada seqüència a cercar. A cadascuna
            de les subllistes hi ha tres elements. El primer element és la seqüència, 
            el segon la línia en la que aquesta seqüència apareix en el fitxer 
            a distància mínima, i el tercer aquesta distància mínima.
    """
    cont = 0
    with open("HUMAN-DNA.txt","r") as file:
        dis1 = 150
        dis2 = 150
        dis3 = 150
        for i in file:
            cont += 1
            num1 = lev_distance("AGATACATTAGACAATAGAGATGTGGTC", i)
            num2 = lev_distance("GTCAGTCTGGCCTTGCCATTGGTGCCACCA", i)
            num3 = lev_distance("TACCGAGAAGCTGGATTACAGCATGTACCATCAT", i)
            
            if(num1 < dis1):
                dis1 = num1;
                line1 = cont
            if(num2 < dis2):
                dis2 = num2;
                line2 = cont
            if(num3 < dis3):
                dis3 = num3;
                line3 = cont
  
    return(['AGATACATTAGAACAATAGAGATGTGGTC',line1, dis1],
           ['GTCAGTCTGGCACTTGCCATTGGTGCCACCA',line2,dis2],
           ['TACCGAGAAGCATGGATTACAGCATGTACCATCAT',line3,dis3])
dna()

(['AGATACATTAGAACAATAGAGATGTGGTC', 32, 11],
 ['GTCAGTCTGGCACTTGCCATTGGTGCCACCA', 352, 11],
 ['TACCGAGAAGCATGGATTACAGCATGTACCATCAT', 233, 13])

In [3]:
%timeit dna()

6.76 s ± 71.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [12]:
# La solució correcta és aquesta, tot i que el temps pot variar
[['AGATACATTAGACAATAGAGATGTGGTC', 32, 11],
 ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 11],
 ['TACCGAGAAGCTGGATTACAGCATGTACCATCAT', 233, 13],
 2.7117291091393665]

[['AGATACATTAGACAATAGAGATGTGGTC', 32, 11],
 ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 11],
 ['TACCGAGAAGCTGGATTACAGCATGTACCATCAT', 233, 13],
 2.7117291091393665]

*Recordatori de teoria*: El càlcul de la distancia d’un patró al substring més semblant d’un text es pot fer amb l’algorisme de Levenshtein. L’única diferència és que s’ha d’inicialitzar la primera fila amb zeros (=considerar que podem inserir tants espais en blanc al davant del patró com sigui necessari)  i que la distancia d’edició serà el valor mínim de l’última fila de la matriu de costos. També heu de tenir en compte els costos en la inicialització de la primera columna.

<p style="text-align:right;font-size:0.9em">
&copy;Jordi Vitrià i Mireia Ribera
</p>