# Capítol 4 - Algorismes i Text

### 4.8 Subseqüència en comú més llarga

Escriu una funció **basada en la força bruta** tal que, donades dues cadenes de caràcters, identifiqui la longitud de la subseqüència compartida més llarga.

En aquest problema definim una subseqüència com una seqüència de caràcters en el mateix ordre que a la cadena original però **no necessàriament consecutiva**. Per exemle, de la paraula ACBA, podem treure'n les subseqüències AC, AB, AA, ACB, ACA, ABA, ACBA, CB, CA, CBA, BA, A, C, B, i de la paraula BRA podem treure'n les subseqüències B, R, A, BR, BA, RA, BRA, i la subseqüència comuna més llarga entre les dues seria BA, amb 2 caràcters.

Pots fer servir alguna funció del mòdul "itertools".

In [8]:
import itertools 
import math

def subsequencia_comu_v1(paraula1, paraula2):
    longitud = 0
    if paraula1 == "" or paraula2 == "":
        return 0
    if paraula1[-1]==paraula2[-1]:
        return 1 + (subsequencia_comu_v1(paraula1[0:-1], paraula2[0:-1]))
    else:
        s1 = subsequencia_comu_v1(paraula1[0:-1],paraula2)
        s2 = subsequencia_comu_v1(paraula1,paraula2[0:-1])
        if s1 > s2:
            return s1
        else:
            return s2

    """
    Aquesta funció identifica la longitud de la subseqüència mes llarga mitjançanat força bruta.
    
    Parameters
    ----------
    paraula1: string
    paraula2: string
    
    Returns
    -------
    numCaractersComuns: int
    """
    
    def extreure_sub_sequencies(paraula):
        n = len(paraula)
        llista = []
        for i in n:
            llista += list(itertools.combinations(paraula,i+1))
        return llista
  

In [19]:
# demostració itertools
# https://docs.python.org/3/library/itertools.html
import itertools
paraula="STUTVST"
llista=list(itertools.combinations(paraula, 3))
print(llista)

[('S', 'T', 'U'), ('S', 'T', 'T'), ('S', 'T', 'V'), ('S', 'T', 'S'), ('S', 'T', 'T'), ('S', 'U', 'T'), ('S', 'U', 'V'), ('S', 'U', 'S'), ('S', 'U', 'T'), ('S', 'T', 'V'), ('S', 'T', 'S'), ('S', 'T', 'T'), ('S', 'V', 'S'), ('S', 'V', 'T'), ('S', 'S', 'T'), ('T', 'U', 'T'), ('T', 'U', 'V'), ('T', 'U', 'S'), ('T', 'U', 'T'), ('T', 'T', 'V'), ('T', 'T', 'S'), ('T', 'T', 'T'), ('T', 'V', 'S'), ('T', 'V', 'T'), ('T', 'S', 'T'), ('U', 'T', 'V'), ('U', 'T', 'S'), ('U', 'T', 'T'), ('U', 'V', 'S'), ('U', 'V', 'T'), ('U', 'S', 'T'), ('T', 'V', 'S'), ('T', 'V', 'T'), ('T', 'S', 'T'), ('V', 'S', 'T')]


In [18]:
# demostració intersection
c1={1,2,3,4}
c2={7,4,1,5}
intersect = c1.intersection(c2)
print(intersect)

{1, 4}


In [7]:
assert subsequencia_comu_v1('STUTVST', 'TVUSTS') == 4

Si ens fixem en el codi, veurem que sovint es repeteixen càlculs. El que podem fer és usar un diccionari que vagi guardant les solucions parcials ja calculades i, cada cop que n'hagim de calcular una, mirar el diccionari per veure si ja s'ha calculat.

En el moment de calcular una solució parcial, si ja hi és, mirem el resultat en comptes de calcular-la de nou; altrament, la calculem i l'emmagatzemem al diccionari.

In [None]:
def subsequencia_comu_v2(paraula1, paraula2):
    # el teu codi
    return numCaractersComuns

També podem construir la solució usant una taula que vagi guardant els valors de la subseqüència més llarga. 

Per exemple, per a les paraules SUBCADENA i ABECEDARI, la taula seria la següent:

|       |   |   | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|-------|---|---|---|---|---|---|---|---|---|---|---|
|       |   |   | S | U | B | C | A | D | E | N | A |
|       |   | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| **0** | A | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
| **1** | B | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| **2** | E | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 2 | 2 | 2 |
| **3** | C | 0 | 0 | 0 | 1 | 2 | 2 | 2 | 2 | 2 | 2 |
| **4** | E | 0 | 0 | 0 | 1 | 2 | 2 | 2 | 3 | 3 | 3 |
| **5** | D | 0 | 0 | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 3 |
| **6** | A | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |
| **7** | R | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |
| **8** | I | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |

La casella [i][j] guarda el valor de longitud de la subseqüència més llarga entre la cadena1[0:j] i cadena2[0:i]

In [21]:
def subsequencia_comu_v3(cadena1, cadena2):
    llista = []
    for i in (range(len(cadena1)+1)):
        columna = []
        for j in range((len(cadena2)+1)):
            columna.append(0)
        llista.append(columna)
    
    for i in range(len(llista)):
        valor = 0
        for j in range(len(llista[i])):
            if llista[0][i] == llista [j][0]:
                valor += 1
            llista[i][j]=valor
    print (llista)
    return llista[-1][-1]

    """
    Aquesta funció identifica la longitud de la subseqüència
    compartida més llarga. 
    En aquest algorisme s'optimitzen els càlculs amb una taula on es guarden
    les solucions parcials
    Parameters
    ----------
    cadena1: string
    cadena2: string 
        Cadenes en les que buscar la subseqüència
        
    Returns
    -------
    numCaractersComuns: int
        Longitud de la subseqüència més llarga
    """

In [22]:
assert subsequencia_comu_v3('XMJYAUZ','MZJAWU') == 4

IndexError: list index out of range

In [20]:
subsequencia_comu_v3('XMJYAUZ','MZJAWU')

[[1, 1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0]]


0

 La complexitat de l'algorisme és O( ).