# üìñ Cap√≠tol 4 - Algorismes i Text

Una seq√º√®ncia gen√®tica √©s una cadena (string) formada per car√†cters d'un alfabet de quatre lletres: A, T, G, C, anomenats **bases**, que corresponen a les macromol√®cules de l'**ADN**. Un **gen** √©s una seq√º√®ncia ordenada de bases i el **genoma** √©s la concatenaci√≥ de tots els gens.

Cada c√®l¬∑lula produ√Øda pel cos rep una c√≤pia del genoma, per√≤ sovint aquesta c√≤pia √©s alterada. Les possibles alteracions que es poden produir s√≥n, entre d'altres, la substituci√≥ d'una base per una altra o la p√®rdua d'una base.

### ‚úçÔ∏è Exercici 1. Funci√≥ dna 

Fes una funci√≥, anomenada "dna", basada en l'algorisme de Levensthein, que busqui dins d'una seq√º√®ncia gen√®tica una cadena gen√®tica passada per par√†metre.

Aquesta funci√≥ ha de retornar la l√≠nia del fitxer on comen√ßa la cadena m√©s semblant i la dist√†ncia entre la cadena d'entrada i la cadena m√©s semblant.

<span style="color:Blue">El c√†lcul  de la dist√†ncia d'un patr√≥ al *substring* m√©s semblant d'un text es pot fer amb l'algorisme de Levenshtein. L'√∫nica difer√®ncia √©s que s'ha d'inicialitzar la primera fila amb zeros i que la dist√†ncia d'edici√≥ ser√† el valor m√≠nim de l'√∫ltima fila de la matriu de costos. Tamb√© has de tenir en compte els costos en la inicialitzaci√≥ de la primera columna.</span>


La seq√º√®ncia gen√®tica que farem servir √©s la del cromosoma 2 hum√† (fitxer HUMAN-DNA.txt).

Les primeres l√≠nies d'aquest fitxer tenen aquesta forma:

CCCATCTCTTTCTCATTCCTTGGTTGAGAACACGAACTTCAGGACTTGCCTCACACTAGGGCCCATTCTT
TGTTTCCCAGAAAGAAGAGGCTCTCCACACAGAGTCCCATGTACACCAGGCTGTCAACAAACATGAATTG
AATGAAGGAGTGGATGGTTGGGTGGAAGTGATTTAAGAAATCCTAACTGGGGAATTTCACTGGAAACTTA

En programar aquesta funci√≥, cal que tinguis en compte que, en aplicacions bioinform√†tiques, els costos de les operacions d'edici√≥ s√≥n lleugerament diferents dels que hem vist fins ara:

+ Per a un salt o inserci√≥ (al patr√≥ o al text), el cost √©s 2
+ Per a una substituci√≥, el cost √©s 1
+ Quan hi ha correspond√®ncia, el cost √©s 0.

Usa els seg√ºents patrons:

In [None]:
def levenstheinsmithwaterman(patro, text, dlt=2, insr=2, subs=1):

    m, n = len(patro), len(text)
    dp = [[0]*(n+1) for _ in range(m+1)]

   
    for i in range(1, m+1):
        dp[i][0] = dp[i-1][0] + dlt

   
    for i in range(1, m+1):
        for j in range(1, n+1):
            cost_subs = 0 if patro[i-1] == text[j-1] else subs
            dp[i][j] = min(
                dp[i-1][j] + dlt,         # eliminaci√≥
                dp[i][j-1] + insr,        # inserci√≥
                dp[i-1][j-1] + cost_subs  # sustituci√≥
            )

    # Distancia minima ultima fila
    min_distance = min(dp[m])
    return min_distance


def dna(patro, fitxer="HUMAN-DNA.txt"):
    
    best_line = -1
    best_distance = float("inf")

    with open(fitxer, "r") as f:
        for idx, line in enumerate(f, start=1):
            seq = line.strip()
            dist = levenstheinsmithwaterman(patro, seq)
            if dist < best_distance:
                best_distance = dist
                best_line = idx

    return best_line, best_distance


In [2]:
assert dna('AGATACATTAGACAATAGAGATGTGGTC') == (32, 11)
assert dna('GTCAGTCTGGCCTTGCCATTGGTGCCACCA') == (352, 11)
assert dna('TACCGAGAAGCTGGATTACAGCATGTACCATCAT') == (233, 13)

Si a m√©s de saber la dist√†ncia volem saber quins canvis hi ha hagut haurem de modificar els anteriors algorismes per guardar els canvis a cada pas i un cop trobada la dist√†ncia m√≠nima desfer els passos i anar apuntant els canvis.

Recordem que hi pot haver 4 tipus de canvis

+ I: Insertion
+ D: Deletion
+ S: Substitution
+ C: Coincidence (no hi ha canvis)



### ‚úçÔ∏è Reescriu les anteriors funcions per registrar els canvis i per mostrar-los al final.

In [20]:
def dna(patro, fitxer='HUMAN-DNA.txt'):
    """
    Cerca el patr√≥ en un fitxer de DNA amb l'algorisme Levenshtein/Smith-Waterman.
    
    Parameters
    ----------
    patro: string
        Patr√≥ de DNA que volem buscar.
    fitxer: string (default 'HUMAN-DNA.txt')
        Fitxer amb les seq√º√®ncies de DNA.
    
    Returns
    -------
    tuple: (millor_linia, (inici_text, final_text), distancia_minima, sequencia_moviments)
        Retorna la l√≠nia amb la millor coincid√®ncia, la posici√≥ inicial i final dins la seq√º√®ncia,
        la dist√†ncia m√≠nima i la seq√º√®ncia de moviments aplicats al patr√≥.
    """

    millor_linia = -1
    millor_resultat = None
    distancia_minima_global = float("inf")

    with open(fitxer, "r") as f:
        for linia, seq in enumerate(f, start=1):
            seq = seq.strip()  # Elimina espais o salts de l√≠nia
            (inici, final), dist, movs, mat, seq_mov = levenstheinsmithwaterman(patro, seq)
            
            # Comprovem si aquesta l√≠nia √©s millor
            if dist < distancia_minima_global:
                distancia_minima_global = dist
                millor_linia = linia
                millor_resultat = (inici, final, dist, movs, mat, seq_mov)

    # Desem les dades del millor resultat
    inici_text, final_text, distancia_minima, matriu_moviments, matriu_distancia, sequencia_moviments = millor_resultat


    return (millor_linia, (inici_text, final_text), distancia_minima, sequencia_moviments)


In [18]:
assert dna("CTGGTACCAGCTGTATTAGC") == (729,(11, 30), 6, ['C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'S',  'S',  'S',  'C',  'C',  'S',  'C',  'C',  'C'])
assert dna("TCGTCATAAACCGCTGTGCC") == (213,(12, 31), 7, ['S',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'S',  'C',  'C',  'S',  'S',  'C',  'S'])
assert dna("TATACAAACGGAGTAGCTGT") == (286, (5, 24), 6, ['C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'S',  'C',  'C',  'C'])
assert dna("AGGCGTAAGTCTTACGTATA") == (6, (41, 60), 7, ['C',  'S',  'C',  'S',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'S',  'C',  'S',  'C',  'C',  'C'])
assert dna("AACGGCATAGCCTGCAAGAG") == (434, (41, 60), 5, ['C',  'C',  'S',  'C',  'C',  'C',  'C',  'S',  'C',  'S',  'C',  'C',  'C',  'C',  'C',  'C',  'C',  'S',  'C',  'S'])


AssertionError: 