# Capítol 4 - Algorismes i Text

### 4.8 Subseqüència en comú més llarga

Escriu una funció **basada en la força bruta** tal que, donades dues cadenes de caràcters, identifiqui la longitud de la subseqüència compartida més llarga.

En aquest problema definim una subseqüència com una seqüència de caràcters en el mateix ordre que a la cadena original però **no necessàriament consecutiva**. Per exemle, de la paraula ACBA, podem treure'n les subseqüències AC, AB, AA, ACB, ACA, ABA, ACBA, CB, CA, CBA, BA, A, C, B, i de la paraula BRA podem treure'n les subseqüències B, R, A, BR, BA, RA, BRA, i la subseqüència comuna més llarga entre les dues seria BA, amb 2 caràcters.

Pots fer servir alguna funció del mòdul "itertools".

In [9]:
import itertools 

def subsequencia_comu_v1(paraula1, paraula2):
    """
    Aquesta funció identifica la longitud de la subseqüència mes llarga mitjançanat força bruta.
    
    Parameters
    ----------
    paraula1: string
    paraula2: string
    
    Returns
    -------
    numCaractersComuns: int
    """
    
    "def extreure_sub_sequencies(paraula):"
  

In [None]:
# demostració itertools
# https://docs.python.org/3/library/itertools.html
import itertools
paraula="STUTVST"
llista=list(itertools.combinations(paraula, 3))
print(llista)

In [None]:
# demostració intersection
c1={1,2,3,4}
c2={7,4,1,5}
intersect = c1.intersection(c2)
print(intersect)

In [None]:
assert subsequencia_comu_v1('STUTVST', 'TVUSTS') == 4

Si ens fixem en el codi, veurem que sovint es repeteixen càlculs. El que podem fer és usar un diccionari que vagi guardant les solucions parcials ja calculades i, cada cop que n'hagim de calcular una, mirar el diccionari per veure si ja s'ha calculat.

En el moment de calcular una solució parcial, si ja hi és, mirem el resultat en comptes de calcular-la de nou; altrament, la calculem i l'emmagatzemem al diccionari.

In [None]:
def subsequencia_comu_v2(paraula1, paraula2):
    # el teu codi
    
    return numCaractersComuns

També podem construir la solució usant una taula que vagi guardant els valors de la subseqüència més llarga. 

Per exemple, per a les paraules SUBCADENA i ABECEDARI, la taula seria la següent:

|       |   |   | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|-------|---|---|---|---|---|---|---|---|---|---|---|
|       |   |   | S | U | B | C | A | D | E | N | A |
|       |   | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| **0** | A | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
| **1** | B | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| **2** | E | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 2 | 2 | 2 |
| **3** | C | 0 | 0 | 0 | 1 | 2 | 2 | 2 | 2 | 2 | 2 |
| **4** | E | 0 | 0 | 0 | 1 | 2 | 2 | 2 | 3 | 3 | 3 |
| **5** | D | 0 | 0 | 0 | 1 | 2 | 2 | 3 | 3 | 3 | 3 |
| **6** | A | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |
| **7** | R | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |
| **8** | I | 0 | 0 | 0 | 1 | 2 | 3 | 3 | 3 | 3 | 4 |

La casella [i][j] guarda el valor de longitud de la subseqüència més llarga entre la cadena1[0:j] i cadena2[0:i]

In [12]:
"""
    Aquesta funció identifica la longitud de la subseqüència
    compartida més llarga. 
    En aquest algorisme s'optimitzen els càlculs amb una taula on es guarden
    les solucions parcials
    Parameters
    ----------
    cadena1: string
    cadena2: string 
        Cadenes en les que buscar la subseqüència
        
    Returns
    -------
    numCaractersComuns: int
        Longitud de la subseqüència més llarga
"""
def subsequencia_comu_v3(cadena1, cadena2):
    llista=list(itertools.combinations(cadena1, 1))
    c1 = set(itertools.combinations(cadena1, 1))
    c2 = set(itertools.combinations(cadena1, 2))    
    c3 = c1.intersection(c2)
    
    maxLen = 0
    for i in c3:
        if len(c3) > maxLen:
            maxLen = len(c3)
        
    return maxLen

In [14]:
def subsequencia_comu_v3(cadena1, cadena2):
    m = len(cadena1)
    n = len(cadena2)

    # Inicialitzar una taula per emmagatzemar les solucions parcials
    taula = [[0] * (n + 1) for _ in range(m + 1)]

    # Omplir la taula amb les solucions parcials
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if cadena1[i - 1] == cadena2[j - 1]:
                taula[i][j] = taula[i - 1][j - 1] + 1
            else:
                taula[i][j] = max(taula[i - 1][j], taula[i][j - 1])

    # La longitud de la subseqüència més llarga és a la casella inferior dreta de la taula
    numCaractersComuns = taula[m][n]

    return numCaractersComuns

# Exemple d'ús
cadena1 = "ABCBDAB"
cadena2 = "BDCAB"
resultat = subsequencia_comu_v3(cadena1, cadena2)
print("Longitud de la subseqüència més llarga:", resultat)

Longitud de la subseqüència més llarga: 4


In [15]:
assert subsequencia_comu_v3('XMJYAUZ','MZJAWU') == 4

 La complexitat de l'algorisme és O( ).