<p style="text-align:right;font-size:0.9em">
Grau d'Enginyeria Informàtica. Algorísmica
</p>

<h1 style="padding:0.5em 0;font:Garamond;font-size:1-5em;color:#F90;background-color:#005">
Problema: Levenshtein
</h1>

## Introducció

Una seqüència genètica és un string format per caràcters d’un alfabet de quatre lletres: ``A, T, G`` i ``C``, que corresponen a les macromolècules base de l’ADN. Un gen és una seqüència genètica que conté la informació necessària per construir una proteïna. La unió de tots els gens constitueixen el genoma. 

Cada cèl•lula produïda pel cos rep una còpia del genoma, però a vegades, aquesta còpia és lleugerament “defectuosa”. Els “defectes” van des de la substitució d’una base per una altra fins a la pèrdua d’un substring de la seqüència. 

+ Baixa't el fitxer HUMAN-DNA.txt al teu directori. 

Aquest fitxer conté una part del ADN del cromosoma 2 humà.

## Pregunta 1

+ Fes una funció, anomenada ``dna``, basada en l’algorisme de Levenshtein, que busqui dins de **cada una de les línies del fitxer anterior** les següents seqüències genètiques i digui a quina línia les ha trobat amb mínima distància i quina és aquesta distància (si està a varies línies, que indiqui la primera línia en la que apareix a distància mínima):

        AGATACATTAGAACAATAGAGATGTGGTC
        GTCAGTCTGGCACTTGCCATTGGTGCCACCA
        TACCGAGAAGCATGGATTACAGCATGTACCATCAT
        
Al fer-ho, has de tenir en compte que a les aplicacions bioinformàtiques, els costos de les operacions d’edició són lleugerament diferents de les que hem vist fins ara:

+ Per un salt/inserció (al patró o al text): 2; 
+ Per una substitució: 1; 
+ Quan hi ha correspondència: 0.

Adapta la funció ``dna`` a aquests costos. La funció no ha de tenir cap tipus d’entrada de part de l’usuari, i la sortida ha d'indicar la línia i distància mínimes per cada patró, i el temps de càlcul en milisegons.

In [7]:
import timeit

# Funció que retorna les línies del text ADN com a strings
def dnaList():
    f = open("HUMAN-DNA.txt","r")
    text = f.readlines()
    newLine = []
    for line in text:
            newLine.append((line[:-1]))
            
    f.close()
    return newLine


# Funció que retorna la distància d'edició mínima de cada string i patró introduit
def levenshteinLine(patro, string):
    if len(patro) > len(string):
        patro, string = string, patro 
    if len(string) == 0:
        return len(patro)
    first_length = len(patro) + 1
    second_length = len(string) + 1
    distance_matrix = [[0] * second_length for x in range(first_length)] 
    for i in range(first_length):
        distance_matrix[i][0] = i
    for j in range(second_length):
        distance_matrix[0][j] = 0 
    for i in range(1, first_length):
        for j in range(1, second_length):
            deletion = distance_matrix[i-1][j] + 2 
            insertion = distance_matrix[i][j-1] + 2 
            substitution = distance_matrix[i-1][j-1] 
            if patro[i-1] != string[j-1]:
                    substitution += 1
            distance_matrix[i][j] = min(insertion,deletion,substitution)
             
    
    return (min(distance_matrix[first_length-1]))


# Funció semblant a un main, crida a la funció dnaList i a la levenshteinLine per tal de calcular les distàncies
# d'edició mínimes de cada línia del txt
def totalLevenshtein():
    start_time = timeit.default_timer()
    listLinia = dnaList()
    listReturn = []
    listMinA = [10000]
    listMinB = [10000]
    listMinC = [10000]
    for i in range(len(listLinia)):
        a = levenshteinLine('AGATACATTAGACAATAGAGATGTGGTC', listLinia[i])
        b = levenshteinLine('GTCAGTCTGGCCTTGCCATTGGTGCCACCA', listLinia[i])
        c = levenshteinLine('TACCGAGAAGCTGGATTACAGCATGTACCATCAT', listLinia[i])
        if a < listMinA[-1]:
            listMinA.append(a)
            auxA = i + 1
        if b < listMinB[-1]:
            listMinB.append(b)
            auxB = i + 1
        if c < listMinC[-1]:
            listMinC.append(c)
            auxC = i + 1
    listMinA = [min(listMinA)]
    listMinAFront = ['AGATACATTAGACAATAGAGATGTGGTC', auxA]
    listMinB = [min(listMinB)]
    listMinBFront = ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', auxB]
    listMinC = [min(listMinC)]
    listMinCFront = ['TACCGAGAAGCTGGATTACAGCATGTACCATCAT', auxC]
    listMinA = listMinAFront + listMinA
    listMinB = listMinBFront + listMinB
    listMinC = listMinBFront + listMinB
    listReturn.append(listMinA)
    listReturn.append(listMinB)
    listReturn.append(listMinC)
    finalTime = timeit.default_timer() - start_time
    listReturn.append(finalTime)
    print(listReturn)
   

    
   

totalLevenshtein()

[['AGATACATTAGACAATAGAGATGTGGTC', 32, 11], ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 11], ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 'GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 11], 2.6570986790011375]


In [None]:
# La solució correcta és aquesta, tot i que el temps pot variar
[['AGATACATTAGACAATAGAGATGTGGTC', 32, 11],
 ['GTCAGTCTGGCCTTGCCATTGGTGCCACCA', 352, 11],
 ['TACCGAGAAGCTGGATTACAGCATGTACCATCAT', 233, 13],
 2.7117291091393665]

*Recordatori de teoria*: El càlcul de de la distancia d’un patró al substring més semblant d’un text es pot fer amb l’algorisme de Levenshtein. L’única diferència és que s’ha d’inicialitzar la primera fila amb zeros (=considerar que podem inserir tants espais en blanc al davant del patró com sigui necessari)  i que la distancia d’edició serà el valor mínim de l’última fila de la matriu de costos. També heu de tenir en compte els costos en la inicialització de la primera columna.

<p style="text-align:right;font-size:0.9em">
&copy;Jordi Vitrià i Mireia Ribera
</p>