# Capítol 4 - Algorismes i Text

### 4.5 Levensthein (amb la modificació en realitat usem l'algorisme de Smith-Waterman)

Una seqüència genètica és una cadena (string) formada per caràcters d'un alfabet de quatre lletres: A, T, G, C, anomenats **bases**, que corresponen a les macromolècules de l'**ADN**. Un **gen** és una seqüència ordenada de bases i el **genoma** és la concatenació de tots els gens.

Cada cèl·lula produïda pel cos rep una còpia del genoma, però sovint aquesta còpia és alterada. Les possibles alteracions que es poden produir són, entre d'altres, la substitució d'una base per una altra o la pèrdua d'una base.

Fes una funció, anomenada "dna", basada en l'algorisme de Levensthein, que busqui dins d'una seqüència genètica una cadena genètica passada per paràmetre.

Aquesta funció ha de retornar la línia del fitxer on comença la cadena més semblant i la distància entre la cadena d'entrada i la cadena més semblant.

<span style="color:DarkBlue">El càlcul  de la distància d'un patró al *substring* més semblant d'un text es pot fer amb l'algorisme de Levenshtein. L'única diferència és que s'ha d'inicialitzar la primera fila amb zeros i que la distància d'edició serà el valor mínim de l'última fila de la matriu de costos. També has de tenir en compte els costos en la inicialització de la primera columna.</span>


La seqüència genètica que farem servir és la del cromosoma 2 humà (fitxer HUMAN-DNA.txt a la secció de fitxers auxiliars).

Les primeres línies d'aquest fitxer tenen aquesta forma:

CCCATCTCTTTCTCATTCCTTGGTTGAGAACACGAACTTCAGGACTTGCCTCACACTAGGGCCCATTCTT
TGTTTCCCAGAAAGAAGAGGCTCTCCACACAGAGTCCCATGTACACCAGGCTGTCAACAAACATGAATTG
AATGAAGGAGTGGATGGTTGGGTGGAAGTGATTTAAGAAATCCTAACTGGGGAATTTCACTGGAAACTTA

En programar aquesta funció, cal que tinguis en compte que, en aplicacions bioinformàtiques, els costos de les operacions d'edició són lleugerament diferents dels que hem vist fins ara:

+ Per a un salt o inserció (al patró o al text), el cost és 2
+ Per a una substitució, el cost és 1
+ Quan hi ha correspondència, el cost és 0.


Adapta la teva funció anterior, "dna", a aquests costos. La funció ha de rebre com a entrada el patró que volem buscar i ha de retornar dos valors: la línia del fitxer on comença la cadena més semblant al patró i la distància mínima entre aquesta cadena i el patró.

In [2]:
"""
Aquesta funció implementa l'algorisme de Levenstheinsmithwaterman.

Parameters
----------
patro: string
text: sting

dlt: int (default)
insr: int (default)
subs: int (default)
Costos d'edició

Returns
-------
minDistance: int
"""                          
def levenstheinsmithwaterman(patro, text, dlt = 2, insr = 2, subs = 1): 
    "The cost is passed by parameter so its modificable"
    if len(patro) > len(text): 
        patro, text = text, patro       # el primer sempre més curt
    if len(text) == 0: 
        return len(patro)
    patro_length = len(patro) + 1
    text_length = len(text) + 1
    dist = [[0] * text_length for x in range(patro_length)] 
    for i in range(patro_length): 
          dist[i][0] = i*dlt
    for i in range(1, patro_length):   # recorregut resta caselles
        for j in range(1, text_length):
            deletion = dist[i-1][j] + dlt
            insertion = dist[i][j-1] + insr
            if patro[i-1] == text[j-1]: 
                  substitution = dist[i-1][j-1]
            else:
                substitution = dist[i-1][j-1] + subs     
    return dist[i][j] = min(insertion,deletion,substitution)


"""
Aquesta funció aplica l'algorisme de Levensthein sobre una seqüència del dna per trobar diferents patrons.

Parameters
----------
patro: string
fitxer: string (default)

Returns
-------
linia: int
distanciafinal: int
"""
def dna(patro, fitxer = 'HUMAN-DNA.txt'):
    f = open(fitxer)
    text = f.readlines()
    f.close()
#     min_dist =  levenstheinsmithwaterman(patro, text[0])
    min_dist = None
    min_line_num = 0
    
    for line_idx, line in enumerate(text):
        line = line.strip()
        dist = levenstheinsmithwaterman(patro, line)
        if min_dist is None or min_dist > dist:
            min_dist = dist
            min_line_num = line_idx + 1
    return min_line_num, min_dist
# print(line_idx  + 1, line, dist)
# for line_idx, line in enumerate(text):
# prints lines, from 0 to etc, idx is line + 1

dna('AGATACATTAGACAATAGAGATGTGGTC')

SyntaxError: invalid syntax (1515320236.py, line 37)

In [1]:
def levenstheinsmithwaterman(patro, text, dlt=2, insr=2, subs=1):
    if len(patro) > len(text):
        patro, text = text, patro  # el primer sempre més curt
    if len(text) == 0:
        return len(patro)
    patro_length = len(patro) + 1
    text_length = len(text) + 1
    dist = [[0] * text_length for x in range(patro_length)]
    for i in range(patro_length):
        dist[i][0] = i * dlt
    for i in range(1, patro_length):  # recorregut resta caselles
        for j in range(1, text_length):
            deletion = dist[i - 1][j] + dlt
            insertion = dist[i][j - 1] + insr
            if patro[i - 1] == text[j - 1]:
                substitution = dist[i - 1][j - 1]
            else:
                substitution = dist[i - 1][j - 1] + subs
            dist[i][j] = min(insertion, deletion, substitution)
    return dist[patro_length - 1][text_length - 1]

def dna(patro, fitxer='HUMAN-DNA.txt'):
    f = open(fitxer)
    text = f.readlines()
    f.close()

    min_dist = None
    min_line_num = 0

    for line_idx, line in enumerate(text):
        line = line.strip()
        dist = levenstheinsmithwaterman(patro, line)
        if min_dist is None or dist < min_dist:
            min_dist = dist
            min_line_num = line_idx + 1

    return min_line_num, min_dist

# Ejemplo de uso:
numero_linea, distancia_minima = dna("patron_a_buscar")
print(f"Número de línea: {numero_linea}, Distancia mínima: {distancia_minima}")


NameError: name 'levenstheinsmithwaterman' is not defined

In [10]:
assert dna('AGATACATTAGACAATAGAGATGTGGTC') == (32, 11)
assert dna('GTCAGTCTGGCCTTGCCATTGGTGCCACCA') == (352, 11)
assert dna('TACCGAGAAGCTGGATTACAGCATGTACCATCAT') == (233, 13)

AssertionError: 

Si a més de saber la distància volem saber quins canvis hi ha hagut haurem de modificar els anteriors algorismes per guardar els canvis a cada pas i un cop trobada la distància mínima desfer els passos i anar apuntant els canvis.

Recordem que hi pot haver 4 tipus de canvis

+ I: Insertion
+ D: Deletion
+ S: Substitution
+ C: Coincidence (no hi ha canvis)

Reescriu les anteriors funcions per registrar els canvis i per mostrar-los al final.

In [2]:
"""
Aquesta funció implementa l'algorisme de Levenstheinsmithwaterman. 
Però a més registra els canvis de cada pas

Parameters
----------
patro: string
text: sting

dlt: int (default)
insr: int (default)
subs: int (default)
Costos d'edició

Returns
-------
minDistance: int
ini,fi: int inici i final
movements: matrix of movements

"""                          

def levenstheinsmithwaterman(first, second, dlt = 2, insr = 2, subs = 1):
    if len(first) > len(second): 
        first, second = second, first
    if len(second) == 0: 
        return len(first)
    first_length = len(first) + 1
    second_length = len(second) + 1
    distance_matrix = [[0] * second_length for x in range(first_length)]
    for i in range(first_length): 
        distance_matrix[i][0] = i
    for j in range(second_length): 
        distance_matrix[0][j] = j
    for i in range(1, first_length):
        for j in range(1, second_length):
            deletion = distance_matrix[i-1][j] + 1
            insertion = distance_matrix[i][j-1] + 1
            substitution = distance_matrix[i-1][j-1]
            if first[i-1] != second[j-1]: 
                substitution += 1
            distance_matrix[i][j] = min(insertion,deletion,substitution)
    return distance_matrix[first_length-1][second_length-1]
# return (fi,ini),min(distance_matrix[max_row-1]),movements


def dna(patro, fitxer = 'HUMAN-DNA.txt'):
    
    return (linia,(ini, fi), distancialinia, movements)

IndentationError: expected an indented block after function definition on line 47 (782401544.py, line 48)

In [None]:
# Prova: si a la funció anterior li canvieu el return com s'indica
"""
Aquesta funció aplica l'algorisme de Levensthein sobre una seqüència del dna per trobar diferents patrons.
I a més ens diu quins canvis hi ha hagut

Parameters
----------
patro: string
fitxer: string (default)

Returns
-------
linia: int
ini,fi: int inici i final
distanciafinal: int
movements: matrix of movements
"""
"""
Aquesta funció implementa l'algorisme de Levenstheinsmithwaterman. 
Però a més registra els canvis de cada pas

Parameters
----------
patro: string
text: sting

dlt: int (default)
insr: int (default)
subs: int (default)
Costos d'edició

Returns
-------
minDistance: int
ini,fi: int inici i final
movements: matrix of movements

"""                          '''
i ho crideu amb els següents valors:

levenstheinsmithwaterman("VAR", "BERRVIPVA", dlt = 2, insr = 2, subs = 1)

Les matrius de resultats seran:
[['X', 'I', 'I', 'I', 'I', 'I', 'I', 'I', 'I', 'I'],
['D', 'S', 'S', 'S', 'S', 'C', 'S', 'S', 'C', 'S'],
['D', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'S', 'C'],
['D', 'S', 'S', 'C', 'C', 'S', 'S', 'S', 'S', 'D']]

i

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[2, 1, 1, 1, 1, 0, 1, 1, 0, 1],
[4, 3, 2, 2, 2, 2, 1, 2, 2, 0],
[6, 5, 4, 2, 2, 3, 3, 2, 3, 2]]

respectivament, 

per tant hi hauria diverses solucions:

BER 2,0 distancia 2 moviments S,S,C
ERR 3,1 distancia 2 moviments S,S,C
VIP 6,4 distancia 2 moviments C,S,S
VA 8,7 distancia 2 moviments C,C,D 
o qualsevol altre amb més caràcters del text al davant

Les solucions que us donem a l'assert correspondrien a BER 
però les altres són correctes
'''


def levenstheinsmithwaterman(patro, text, dlt = 2, insr = 2, subs = 1):

return (fi,l),min(distance_matrix[max_row-1]),movement_matrix, distance_matrix




In [None]:
assert dna("CTGGTACCAGCTGTATTAGC") == (729,(11, 30), 6, ['C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'S',  'S',  'S',  'C',  'C',  'S',  'C',  'C',  'C'])
assert dna("TCGTCATAAACCGCTGTGCC") == (213,(12, 31), 7, ['S',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'S',  'S',  'C',  'S'])
assert dna("TATACAAACGGAGTAGCTGT") == (286, (5, 24), 6, ['C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'S',  'C',  'C',  'C'])
assert dna("AGGCGTAAGTCTTACGTATA") == (6, (41, 60), 7, ['C',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'S',  'C',  'S',  'C',  'C',  'C'])
assert dna("AACGGCATAGCCTGCAAGAG") == (434, (41, 60), 5, ['C',  'C',  'S',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S'])
assert dna("GTGCGTCCACCCTTAATACA") == (197,  (41, 60), 6, ['C',  'C',  'C',  'S',  'S',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'S',  'C'])
assert dna("CCCTAAAACCAAAAGTGTTG") == (200, (30, 48), 6, ['S',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'D',  'C',  'C'])
assert dna("GTCAGCACCGGGATCTGTAT") == (241, (26, 45), 7, ['C',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'S',  'C'])
assert dna("GAGCCCCGACGTTTTAACGA") == (69, (6, 25), 7, ['S',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C', 'C',  'S',  'C',  'S',  'C',  'C',  'C',  'S',  'S',  'S',  'C'])
assert dna("CACACCTTTCAGTACGTGAA") == (41, (14, 31), 7, ['C',  'C',  'C',  'D',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'D',  'S',  'C',  'C'])
assert dna("CCTCGTAGACAGTACCGAAT") == (449, (30, 49), 6, ['C',  'S',  'C',  'C',  'S',  'C',  'C',  'S',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'C',  'S',  'S',  'C',  'C'])
assert dna("CGACCAAAGAGCCTGTATCT") == (321,  (35, 54), 7, ['S',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'S',  'C',  'C',  'C',  'C',  'C'])
assert dna("CGTGGTGTCCATACCCTAGC") == (836, (24, 42), 6, ['C',  'S',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'D',  'C',  'S',  'C'])
assert dna("GTGATAGACCTTTTAAGCTG") == (410, (18, 36), 6, ['S',  'C',  'C',  'C',  'C',  'C',  'D',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'S',  'S',  'C',  'C'])
assert dna("TAAGTCTTTGGTCACCCCCG") == (20, (10, 28), 7, ['C',  'S',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'D',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'S'])
assert dna("GACACACACTTGGATCTTCG") == (566, (16, 35), 6, ['C',  'S',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'C',  'S',  'S',  'S',  'C',  'C',  'C',  'C',  'C'])
assert dna("TCATAGCCTCGGGATAGTAT") == (307,  (27, 45), 7,  ['S',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'C',  'D',  'C',  'C',  'S'])
assert dna("CTGGACGTTCATACATAGAC") == (29, (21, 40), 7, ['C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'S',  'S',  'S',  'C',  'S',  'C',  'S',  'C',  'C',  'C',  'S'])
assert dna("ACGTTTTACCCCAAAGCCCG") == (754, (4, 23), 7, ['C',  'S',  'S',  'S',  'S',  'C',  'C',  'C',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C'])
assert dna("CGGGTAGAAATCTCCGCTTG") == (362, (30, 49), 6, ['S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'S',  'C',  'C',  'S',  'S',  'C',  'C',  'C'])
print("All tests passed!")