# Parte 2: Subsecuencia Común más Larga (LCS)
Se incluira los algoritmos con algunos comentarios adicionales para facilitar su comprensión. Además, vamos a preparar el código para medir tiempos de ejecución, lo cual será útil para la experimentación

In [1]:
import time
import random
import string

# Genera una secuencia aleatoria de letras mayúsculas de longitud dada
def generate_random_sequence(length):
    return ''.join(random.choices(string.ascii_uppercase, k=length))

# Función para calcular la longitud de la LCS usando programación dinámica
def lcs_length(X, Y):
    m, n = len(X), len(Y)
    # Crear matriz (m+1) x (n+1) para almacenar las longitudes
    L = [[0] * (n + 1) for _ in range(m + 1)]

    # Llenar la matriz L
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if X[i - 1] == Y[j - 1]:
                L[i][j] = L[i - 1][j - 1] + 1
            else:
                L[i][j] = max(L[i - 1][j], L[i][j - 1])

    # La longitud de la LCS se encuentra en L[m][n]
    return L, L[m][n]

# Función auxiliar para encontrar todas las LCS usando la matriz de longitudes
def find_all_lcs(X, Y, L, m, n):
    if m == 0 or n == 0:
        return {""}
    elif X[m - 1] == Y[n - 1]:
        lcs_set = find_all_lcs(X, Y, L, m - 1, n - 1)
        return {lcs + X[m - 1] for lcs in lcs_set}
    else:
        lcs_set = set()
        # Si podemos movernos hacia arriba
        if L[m - 1][n] >= L[m][n - 1]:
            lcs_set.update(find_all_lcs(X, Y, L, m - 1, n))
        # Si podemos movernos hacia la izquierda
        if L[m][n - 1] >= L[m - 1][n]:
            lcs_set.update(find_all_lcs(X, Y, L, m, n - 1))
        return lcs_set

# Función principal para encontrar todas las LCS
def lcs(X, Y):
    L, length = lcs_length(X, Y)
    lcs_sequences = find_all_lcs(X, Y, L, len(X), len(Y))
    return lcs_sequences, length

# Ejemplo de uso
X = "AGGTAB"
Y = "GXTXAYB"
lcs_sequences, lcs_length_value = lcs(X, Y)
print(f"Longitud de la LCS: {lcs_length_value}")
print("Todas las LCS encontradas:")
for seq in lcs_sequences:
    print(seq)


Longitud de la LCS: 4
Todas las LCS encontradas:
GTAB


## Escalabilidad del Algoritmo
Para verificar la escalabilidad del algoritmo, se medira el tiempo y el uso de memoria al ejecutarlo con secuencias de tamaños grandes, como 10.000 y 20.000 de caracteres.

In [2]:
# Función para medir el rendimiento de la LCS con secuencias grandes
def measure_lcs_performance(X, Y):
    start_time = time.time()
    _, lcs_length_value = lcs_length(X, Y)
    end_time = time.time()
    print(f"Tiempo de ejecución: {end_time - start_time:.4f} segundos")
    print(f"Longitud de la LCS: {lcs_length_value}")

# Prueba con secuencias de 100,000 caracteres
X_100k = generate_random_sequence(10_000)
Y_100k = generate_random_sequence(10_000)
print("Prueba con secuencias de 10.000 caracteres:")
measure_lcs_performance(X_100k, Y_100k)

# Prueba con secuencias de 1,000,000 caracteres
X_1M = generate_random_sequence(20_000)
Y_1M = generate_random_sequence(20_000)
print("\nPrueba con secuencias de 20.000 caracteres:")
measure_lcs_performance(X_1M, Y_1M)


Prueba con secuencias de 10.000 caracteres:
Tiempo de ejecución: 18.3385 segundos
Longitud de la LCS: 3234

Prueba con secuencias de 20.000 caracteres:
Tiempo de ejecución: 69.8184 segundos
Longitud de la LCS: 6512


## Conclusión
A partir de los resultados obtenidos en la ejecución de pruebas empíricas con secuencias de 10,000 y 20,000 caracteres, se puede concluir lo siguiente:

1. Crecimiento Exponencial del Tiempo de Ejecución:

    - El tiempo de ejecución para calcular la LCS creció de manera significativa al duplicar el tamaño de las secuencias. Mientras que para secuencias de 10,000 caracteres el tiempo fue de aproximadamente 18.3 segundos, para secuencias de 20,000 caracteres aumentó a 69.8 segundos.
    
    - Esto refleja la complejidad O(m * n) del algoritmo, donde el tiempo de ejecución depende del producto de las longitudes de las secuencias.

2. Impacto de la Complejidad Espacial:

    - A medida que crecen las secuencias, el uso de memoria también incrementa notablemente debido a la matriz L de tamaño (m+1) x (n+1). Esto limita la escalabilidad del algoritmo, ya que la matriz ocupa una gran cantidad de espacio en memoria, dificultando el cálculo para secuencias mucho más largas (e.g., 100,000 o 1,000,000 caracteres).

3. Longitud de la LCS:

    - La longitud de la LCS también aumentó con el tamaño de las secuencias, lo cual es consistente con la mayor probabilidad de encontrar subsecuencias comunes en conjuntos de mayor tamaño.

4. Limitaciones para Escalabilidad:

    - Los tiempos obtenidos para 10,000 y 20,000 caracteres sugieren que el algoritmo no es práctico para secuencias de tamaño muy grande (por ejemplo, de 100,000 caracteres en adelante). Tanto el tiempo de ejecución como el consumo de memoria aumentan a niveles poco manejables en entornos comunes.

### Recomendación
Para aplicaciones que requieran procesar secuencias de tamaño significativamente grande, se sugiere:

- Optimizar el algoritmo mediante técnicas avanzadas como divisiones de la matriz, estructuras de datos especializadas o algoritmos aproximados.
- Implementar en un entorno de alto rendimiento con mayor capacidad de memoria y procesamiento, si la precisión exacta es requerida.

En conclusión, el algoritmo de LCS basado en programación dinámica es adecuado para tamaños de secuencia medianos, pero su uso en secuencias de gran tamaño está limitado por su alta complejidad temporal y espacial.