# Capítol 4 - Algorismes i Text

### 4.5 Levensthein

In [1]:
def levensthein(patro, text, dlt = 2, insr = 2, subs = 1):
    """
    Aquesta funció implementa l'algorisme de Levensthein.
    
    Parameters
    ----------
    patro: string
    text: sting
    
    dlt: int (default)
    insr: int (default)
    subs: int (default)
        Costos d'edició
        
    Returns
    -------
    minDistance: int
    """
    x = len(text) + 1
    y = len(patro) + 1
    matriu = [[0 for i in range(x)] for j in range(y)]
    for i in range(y):
        matriu [i][0] = i
    for j in range(x):
        matriu [0][j] = 0
        
    for i in range(1, y):
        for j in range(1, x):
            if patro[i-1] == text[j-1]:
                matriu [i][j] = min(
                    (matriu[i-1][j]) + insr,
                    (matriu[i-1][j-1]),
                    (matriu[i][j-1]) + dlt)
            else:
                matriu [i][j] = min(
                    (matriu[i-1][j]) + insr,
                    (matriu[i-1][j-1]) + subs,
                    (matriu[i][j-1]) + dlt)

    return (min(matriu[y-1]))



def dna(patro, fitxer = 'HUMAN-DNA.txt'):
    """""
    Aquesta funció aplica l'algorisme de Levensthein sobre una seqüència del dna per trobar diferents patrons.
    
    Parameters
    ----------
    patro: string
    fitxer: string (default)
    
    Returns
    -------
    linia: int
    distanciafinal: int
    """
    distanciafinal = None
    with open(fitxer) as file:  
        data = file.readlines()
        
    for i in range(len(data)):
        distancia = levensthein(patro, data[i])
        if (not distanciafinal or distancia < distanciafinal):
            linia = i+1
            distanciafinal = distancia
                
    return linia, distanciafinal

In [2]:
assert dna('AGATACATTAGACAATAGAGATGTGGTC') == (32, 11)
assert dna('GTCAGTCTGGCCTTGCCATTGGTGCCACCA') == (352, 11)
assert dna('TACCGAGAAGCTGGATTACAGCATGTACCATCAT') == (233, 13)