<center>

# **Longest Common Substring Problem**

---

### **Descripción del Problema:**

El **Problema de la Subcadena Común Más Larga** (**Longest Common Substring Problem**) es un problema clásico en la ciencia de la computación y se **utiliza** en varios campos, como la **bioinformática** y la **compresión de datos**. El **objetivo** es **encontrar** la **subcadena más larga** que es **común** de **dos** o **más cadenas de texto**.

**Formalmente**, **dadas dos** o **más cadenas de texto**, el problema consiste en **encontrar** la **subcadena más larga** que aparece en **todas** las **cadenas** de **entrada** de **forma consecutiva**. Por ejemplo, si **tenemos** las **cadenas** "**abcdef**" y "**zabcdeft**", la **subcadena más larga común** sería "**abcde**".

---

### **Algoritmo de Smith-Waterman**

+ El **algoritmo de Smith-Waterman** es un **algoritmo** de **alineación local** utilizado para **encontrar** las **similitudes** entre **dos cadenas de texto**.

#### **Algoritmo de Smith-Waterman en Lenguaje Natural**

1. **Definir** una **matriz** de **dimensiones** (**m + 1**) **x** (**n + 1**), donde **m** y **n** son las **longitudes** de las dos **cadenas** de entrada.
2. **Inicializar** la **primera fila** y la **primera columna** con **ceros**.
3. **Recorrer cada posición** (**i, j**) de la **matriz** a partir de la **segunda fila** y la **segunda columna**.
4. **Calcular** el **puntaje** en la **posición** (**i, j**) **comparando** los **caracteres** en las **posiciones correspondientes** en las **secuencias** de entrada.
    1. **Si** los **caracteres coinciden**, **asignar** un **puntaje positivo** a la **posición** (**i, j**) **basado** en el **puntaje** de la **posición anterior** en **diagonal** (**i-1, j-1**) **más** un **puntaje de coincidencia**.
    2. **Si** los **caracteres no coinciden**, **asignar cero** al **puntaje** en la **posición** (**i, j**).
5. **Actualizar** la **posición** en las **i** y **j**  para **recorrer** las **filas** y **columnas** de la **matriz** según se desee hasta **recorrer todas** las **posibles posiciones**.
6. **Durante** el **proceso**, **mantener** un **registro** del **puntaje máximo encontrado** y su **posición correspondiente**.
7. Una vez **finalizado** el **recorrido**, **obtener** los **caractéres almacenados** en **cada celda** **desde** la **posición** con el **puntaje máximo** **hasta** **encontrar** un **puntaje cero** para **construir** la **subcadena común más larga**.


In [9]:
#Importamos el módulo numpy para manejar de manera fácil los elementos de las listas y crear matrices.
import numpy as np

#Cremamos la función para implementar el algoritmo de Smith-Waterman.
def subcadena_comun_mas_larga(subcadena1, subcadena2):
    m = len(subcadena1)
    n = len(subcadena2)

    # Creamos una matriz para almacenar los resultados intermedios.
    matriz = np.zeros((m+1, n+1), dtype=int)
    longitud_maxima = 0
    indice_final = 0

    # Llenamos la matriz con los resultados.
    for i in range(1, m+1):
        for j in range(1, n+1):
            if subcadena1[i-1] == subcadena2[j-1]:
                matriz[i][j] = matriz[i-1][j-1] + 1
                if matriz[i][j] > longitud_maxima:
                    longitud_maxima = matriz[i][j]
                    indice_final = i
            else:
                matriz[i][j] = 0

    # Extraemos la subcadena común más larga y la devolvemos como resultado de la función.
    subcadena = subcadena1[indice_final-longitud_maxima:indice_final]
    return subcadena

#Ejemplo de uso del algoritmo de Smith-Waterman para resolver el Longest Common Substring Problem.
cadena1 = """_Ejemplo de Subcadena Común Más Larga_abcdeOASJDKJNASKDJBASKuygasbdjchbshjadcbskldcj
buiyqevbwjhasdbcjhkbsamkjcbsajkxhbcjksahbcjsahbdjkchbsadjkhcbasjkdhcbasjkdhbckjashdbcjkhsdbjkchsa
bkjchbsdaLJBIOUBASKCJNKSAJBDNCKLASHDOPIASHDFKLJSJAHBSJBASKJXBASLKXJBASKLXJBJHBFJAHBSCJHABSCKLBJAS
CJKLHABSCKLBASJCHBAJSHCBAJKHSBCKJAHSBCJAHSBCJKAHBSCJKHABSCJKHABSKJHBCAJKSCHBAJKSHBCJKASHBCJKAHSBC
JKHASBDKJASHDBCKJSADHBKJKHBDSAJHASBDJjhbdjahsbdjahbsdjhabsJASHDBKJSDHBCACSSDADHFLKSJADfIAJSNDKLBS
DCKJABSKJBSDkahsbkjbJHBajkhbasdjhbaskajsndkjaaabsdkjabsdkjabsdkjkhdbauygqdhbjkchvakjbcsakjhvCg"""
cadena2 = """xyzabcdKLJABSNDKJHBKCMBNSAKJBCHLKDNCLKASBDCL,NKLNJCSKLANJLKSNJDCLÑNSDÑLCNLÑDSKCNIOUE
BKLASDJBFNKLHSJDBFLKSJDqweuyfgdsjcbsahgasdkugvfjndcvjvhsduyguishbhjasdvkjASUIFEDYUIJKFBVHJKBASDJH
KASDJNCSKDJHVjkhsdfbsdjajdasjkhfb dsjkasbhBANCKLASDBJFKLJSADHFLKSADJHFLÑASKDNCKSJADNCKLSJDCBJSDHB
FIUABSDJAHFBJKASDHBFKASJDHCBJKASHDBCJKSAHDBCJKSDBCJKSHDBCJKSHDBCJKAHSBDJKASHDBCKJSADHBCKJSAHDBCJK
SAHBCJKSHADBKJASHDBJKCHBAJKHKLuiashjhbslasjkhabsdlkjbaslkdmalsjndkajsndkjnaskdjnaskjdnjasjkhdbakl
jsbxasdlkjKJkjabsdkjbKJBNIIKFNDSKJNSDKFJNckjhsabdcJSABDC_Ejemplo de Subcadena Común Más Larga_"""

print(" Cadenas de Entrada ".center(125, "-"))
print(f"Cadena 1: \n{cadena1}")
print(f"Cadena 2: \n{cadena2}")
print(" Resultado ".center(125, "-"))
subcadena = subcadena_comun_mas_larga(cadena1, cadena2)
print("La subcadena común más larga es:", subcadena)



----------------------------------------------------- Cadenas de Entrada ----------------------------------------------------
Cadena 1: 
_Ejemplo de Subcadena Común Más Larga_abcdeOASJDKJNASKDJBASKuygasbdjchbshjadcbskldcj
buiyqevbwjhasdbcjhkbsamkjcbsajkxhbcjksahbcjsahbdjkchbsadjkhcbasjkdhcbasjkdhbckjashdbcjkhsdbjkchsa
bkjchbsdaLJBIOUBASKCJNKSAJBDNCKLASHDOPIASHDFKLJSJAHBSJBASKJXBASLKXJBASKLXJBJHBFJAHBSCJHABSCKLBJAS
CJKLHABSCKLBASJCHBAJSHCBAJKHSBCKJAHSBCJAHSBCJKAHBSCJKHABSCJKHABSKJHBCAJKSCHBAJKSHBCJKASHBCJKAHSBC
JKHASBDKJASHDBCKJSADHBKJKHBDSAJHASBDJjhbdjahsbdjahbsdjhabsJASHDBKJSDHBCACSSDADHFLKSJADfIAJSNDKLBS
DCKJABSKJBSDkahsbkjbJHBajkhbasdjhbaskajsndkjaaabsdkjabsdkjabsdkjkhdbauygqdhbjkchvakjbcsakjhvCg
Cadena 2: 
xyzabcdKLJABSNDKJHBKCMBNSAKJBCHLKDNCLKASBDCL,NKLNJCSKLANJLKSNJDCLÑNSDÑLCNLÑDSKCNIOUE
BKLASDJBFNKLHSJDBFLKSJDqweuyfgdsjcbsahgasdkugvfjndcvjvhsduyguishbhjasdvkjASUIFEDYUIJKFBVHJKBASDJH
KASDJNCSKDJHVjkhsdfbsdjajdasjkhfb dsjkasbhBANCKLASDBJFKLJSADHFLKSADJHFLÑASKDNCKSJADNCKLSJDCBJSDHB

---