### Normalización de palabras

La normalización de palabras es el proceso de estandarizar palabras o tokens para que sigan un formato uniforme. Un ejemplo común de normalización es el **case folding**, que consiste en convertir todas las letras a minúsculas. Este enfoque permite que términos como "Woodchuck" y "woodchuck" se traten como idénticos, lo cual es particularmente útil para generalizar en tareas como la recuperación de información o el reconocimiento de voz.

Sin embargo, en tareas como el análisis de sentimientos, la clasificación de textos, la extracción de información y la traducción automática, la distinción entre mayúsculas y minúsculas puede ser crucial. Por ejemplo, diferenciar entre "US" (Estados Unidos) y "us" (nosotros) puede ser más valioso que la simplificación que ofrecería el **case folding**. Por ello, en estos contextos, se suele optar por mantener las mayúsculas y minúsculas intactas. En algunos casos, se generan tanto versiones diferenciadas por el uso de mayúsculas como versiones uniformemente en minúsculas para modelos de lenguaje, dependiendo de la tarea específica.

Los sistemas que emplean **BPE** u otros métodos de tokenización bottom-up pueden prescindir de una normalización adicional de las palabras. Sin embargo, en otros sistemas de **NLP**, puede ser beneficioso aplicar normalizaciones más avanzadas, como unificar diferentes formas de una palabra, por ejemplo, "USA" y "US" o "uh-huh" y "uhhuh". Esta estandarización, aunque implica la pérdida de cierta información ortográfica, puede ser valiosa. 

Por ejemplo, en la recuperación o extracción de información relacionada con "US.", podríamos querer identificar datos relevantes tanto si el documento menciona "US" como "USA".



### Lematización

Para otras situaciones de procesamiento de lenguaje natural, también queremos que dos formas morfológicamente diferentes de una palabra se comporten de manera similar. Por ejemplo, en la búsqueda web, alguien puede escribir la cadena "woodchucks", pero un sistema útil podría querer devolver páginas que mencionen "woodchuck" sin la "s". Esto es especialmente común en idiomas morfológicamente complejos como el polaco, donde, por ejemplo, la palabra "Warsaw" tiene diferentes terminaciones cuando es el sujeto ("Warszawa"), o después de una preposición como "in Warsaw" ("w Warszawie"), o "to Warsaw" ("do Warszawy"), y así sucesivamente. 

La **lematización** es la tarea de determinar que dos palabras tienen la misma raíz, a pesar de sus diferencias superficiales. Las palabras "am", "are" y "is" tienen el lema compartido "be"; las palabras "dinner" y "dinners" tienen el lema "dinner". Lematizar cada una de estas formas al mismo lema nos permitirá encontrar todas las menciones de palabras en polaco como "Warsaw". La forma lematizada de una oración como "He is reading detective stories" sería "He be read detective story".

Los métodos más sofisticados para la lematización implican un análisis morfológico completo de la palabra. La morfología es el estudio de la forma en que las palabras se construyen a partir de unidades más pequeñas que llevan significado, llamadas **morfemas**. Se pueden distinguir dos grandes clases de morfemas: **stems**, el morfema central de la palabra, que proporciona el significado principal y **affixes**—que añaden significados "adicionales" de varios tipos. 

Por ejemplo, la palabra "fox" consiste en un morfema (el morfema "fox") y la palabra "cats" consiste en dos: el morfema "cat" y el morfema "-s". Un **morphological parser** toma una palabra como "cats" y la analiza en los dos morfemas "cat" y "s".


### Stemming: The Porter stemmer

Los algoritmos de lematización pueden ser complejos. Por esta razón, a veces utilizamos un método más simple pero que consiste principalmente en cortar los afijos finales de las palabras. Esta versión  del análisis morfológico se llama **stemming**. Por ejemplo, el clásico **Porter stemmer**, cuando se aplica al siguiente párrafo:

```plaintext
This was not the map we found in Billy Bones’s chest, but
an accurate copy, complete in all things-names and heights
and soundings-with the single exception of the red crosses
and the written notes.
```

produce la siguiente salida:

```plaintext
Thi wa not the map we found in Billi Bone s chest but an
accur copi complet in all thing name and height and sound
with the singl except of the red cross and the written note
```

El algoritmo se basa en reglas de reescritura que se ejecutan en serie, con la salida de cada paso alimentada como entrada al siguiente paso. 

Algunas reglas de muestra (más en [https://tartarus.org/martin/PorterStemmer/](https://tartarus.org/martin/PorterStemmer/)):

| **Regla**        | **Ejemplo**                        |
|------------------|------------------------------------|
| **ATIONAL → ATE**| (relational → relate)              |
| **SSES → SS**    | (grasses → grass)                  |

Los **stemmers** simples pueden ser útiles en casos donde necesitamos colapsar diferentes variantes del mismo lema. Sin embargo, son menos comúnmente usados en sistemas modernos ya que cometen errores tanto de sobregeneralización (lematizando "policy" a "police") como de subgeneralización (no lematizando "European" a "Europe").

---

### Segmentación de oraciones

La **segmentación de oraciones** es otro paso importante en el procesamiento de texto. Las señales más útiles para segmentar un texto en oraciones son la puntuación, como puntos, signos de interrogación y signos de exclamación. Los signos de interrogación y exclamación son marcadores relativamente inequívocos de los límites de las oraciones. Los puntos, por otro lado, son más ambiguos. El carácter punto "." es ambiguo entre un marcador de límite de oración y un marcador de abreviaciones como "Mr." o "Inc.". Por esta razón, la tokenización de oraciones y la tokenización de palabras pueden abordarse conjuntamente.

En general, los métodos de tokenización de oraciones funcionan primero decidiendo (basado en reglas o aprendizaje automático) si un punto es parte de la palabra o es un marcador de límite de oración. Un diccionario de abreviaturas puede ayudar a determinar si el punto es parte de una abreviatura de uso común; los diccionarios pueden ser construidos a mano o aprendidos por máquina, al igual que el divisor de oraciones final. 

En el **[Stanford CoreNLP toolkit](https://stanfordnlp.github.io/CoreNLP/)** , por ejemplo, la división de oraciones se basa en reglas, una consecuencia determinista de la tokenización; una oración termina cuando una puntuación final de oración (., !, o ?) no está ya agrupada con otros caracteres en un token (como para una abreviatura o número), opcionalmente seguida por comillas finales o corchetes adicionales.



Normalización de palabras

In [None]:
# Case Folding
def normalize_case(text):
    """Convierte todo el texto a minúsculas para la normalización."""
    return text.lower()

# Ejemplo de uso
text = "Woodchuck"
normalized_text = normalize_case(text)
print(normalized_text)  # Salida: "woodchuck"


In [None]:
def unify_terms(text):
    """Reemplaza diferentes variantes de un término por una versión estándar."""
    term_mapping = {
        "USA": "US",
        "uh-huh": "uhhuh"
    }
    words = text.split()
    unified_words = [term_mapping.get(word, word) for word in words]
    return ' '.join(unified_words)

# Ejemplo de uso
text = "The USA has many dialects. Uh-huh, that's true."
unified_text = unify_terms(text)
print(unified_text)  # Salida: "The US has many dialects. uhhuh, that's true."


Lematización usando nltk

In [None]:
import nltk
from nltk.stem import WordNetLemmatizer

# Descargar recursos necesarios
nltk.download('wordnet')
nltk.download('omw-1.4')

def lemmatize_text(text):
    lemmatizer = WordNetLemmatizer()
    words = text.split()
    lemmatized_words = [lemmatizer.lemmatize(word, pos='v') for word in words]
    return ' '.join(lemmatized_words)

# Ejemplo de uso
text = "He is reading detective stories"
lemmatized_text = lemmatize_text(text)
print(lemmatized_text)  # Salida: "He be read detective story"


Stemming usando el Porter Stemmer

In [None]:
import nltk
from nltk.stem import PorterStemmer

# Descargar recursos necesarios
nltk.download('punkt')

def stem_text(text):
    stemmer = PorterStemmer()
    words = nltk.word_tokenize(text)
    stemmed_words = [stemmer.stem(word) for word in words]
    return ' '.join(stemmed_words)

# Ejemplo de uso
text = """
This was not the map we found in Billy Bones’s chest, but
an accurate copy, complete in all things-names and heights
and soundings-with the single exception of the red crosses
and the written notes.
"""
stemmed_text = stem_text(text)
print(stemmed_text)


Segmentación de oraciones usando nltk


In [None]:
import nltk

def sentence_tokenize(text):
    return nltk.sent_tokenize(text)

# Ejemplo de uso
text = "This is a sentence. This is another sentence! Is this the third one?"
sentences = sentence_tokenize(text)
print(sentences)


**Ejercicio 1: Normalización de palabras en español y Quechua**

1. **Objetivo:** Implementar un programa en Python que convierta las palabras de un texto dado a minúsculas y unifique ciertas variantes de términos tanto en español como en quechua.
   
2. **Descripción:** 
   - Escribe una función que normalice el caso (convierta todo a minúsculas).
   - Implementa una función que unifique palabras comunes con variantes ortográficas en español y quechua. Por ejemplo, "Kusikuy" (alegrarse) y "Kusi" (alegría) podrían normalizarse a "kusikuy".
   - Procesa un texto que incluya palabras tanto en español como en quechua.

3. **Texto de ejemplo:**
   ```plaintext
   Soy muy Kusikuy de aprender Quechua. Kusi es muy importante en mi vida.
   ```

4. **Resultado esperado:**
   ```plaintext
   soy muy kusikuy de aprender quechua. kusikuy es muy importante en mi vida.
   ```

**Ejercicio 2: Lematización en Shipibo-Konibo y Ashaninka**

1. **Objetivo:** Crear un lematizador sencillo que identifique y reduzca diferentes formas morfológicas de palabras en Shipibo-Konibo y Ashaninka a su lema base.

2. **Descripción:**
   - Investiga algunas palabras comunes en Shipibo-Konibo y Ashaninka que tengan variaciones morfológicas.
   - Escribe un script en Python que lematice estas palabras en sus formas básicas.
   - Procesa un pequeño texto en Shipibo-Konibo y otro en Ashaninka.

3. **Texto de ejemplo:**
   - **Shipibo-Konibo:** `Metsa ikábo bakebo.`
   - **Ashaninka:** `Jokiro anampitsi onkenero.`
   
4. **Resultado esperado:**
   - **Shipibo-Konibo:** `Metsa iká bake.`
   - **Ashaninka:** `Jokiro anampi onke.`
   
**Ejercicio 3: Stemming en Yine**

1. **Objetivo:** Aplicar un algoritmo de stemming a un texto en Yine para reducir las palabras a sus raíces.

2. **Descripción:**
   - Crea una lista de palabras comunes en Yine con sus variantes.
   - Implementa un algoritmo simple de stemming que elimine sufijos comunes en Yine.
   - Aplica el algoritmo a un texto dado en Yine.

3. **Texto de ejemplo:**
   ```plaintext
   Ichikire irako jintika iya.
   ```

4. **Resultado esperado:**
   ```plaintext
   Ichikir irak jintik iya.
   ```

**Ejercicio 4: Segmentación de oraciones multilingües**

1. **Objetivo:** Implementar un segmentador de oraciones que funcione para textos en español, quechua, shipibo-konibo, ashaninka, y yine.

2. **Descripción:**
   - Escribe un programa en Python que pueda identificar y segmentar oraciones en los diferentes idiomas mencionados.
   - Considera las diferentes formas en que se pueden estructurar las oraciones en estos idiomas y cómo los signos de puntuación pueden variar.

3. **Texto de ejemplo:**
   ```plaintext
   Hablo español. Noqa rimani runasimita. Metsa iroake. Jokiro anampitsi.
   ```

4. **Resultado esperado:**
   ```plaintext
   ['Hablo español.', 'Noqa rimani runasimita.', 'Metsa iroake.', 'Jokiro anampitsi.']
   ```

**Ejercicio 5: Unificación de términos multilingües**

1. **Objetivo:** Desarrollar un sistema de unificación de términos que trabaje con textos multilingües, particularmente en español, quechua, shipibo-konibo, ashaninka, y yine.

2. **Descripción:**
   - Escribe una función que tome un texto y reemplace palabras y expresiones que sean variantes de un mismo concepto, independientemente del idioma.
   - Por ejemplo, unifica "Sol", "Inti" (quechua), y "Shiro" (shipibo-konibo) bajo un término común.

3. **Texto de ejemplo:**
   ```plaintext
   El Inti brilla en el cielo. Shiro es el dios del sol. El Sol es poderoso.
   ```

4. **Resultado esperado:**
   ```plaintext
   El Sol brilla en el cielo. Sol es el dios del sol. El Sol es poderoso.
   ```

Claro, aquí tienes algunos ejercicios adicionales que complementan los anteriores y profundizan en el procesamiento de textos en español, quechua, shipibo-konibo, ashaninka, y yine.


**Ejercicio 6: Traducción automática básica entre español y Quechua**

1. **Objetivo:** Desarrollar un sistema básico de traducción automática entre español y quechua utilizando reglas simples.

2. **Descripción:**
   - Implementa un diccionario bilingüe básico que contenga palabras y frases comunes en español y quechua.
   - Crea una función en Python que traduzca un texto en español a quechua utilizando este diccionario.
   - Considera reglas simples de concordancia y orden de palabras.

3. **Texto de ejemplo:**
   ```plaintext
   Mi nombre es Juan. Vivo en Cusco. Me gusta la comida.
   ```

4. **Resultado esperado:**
   ```plaintext
   Noqaq sutiyqa Juanmi. Cuscomanta kani. Mikhuyta munani.
   ```

**Ejercicio 7: Detección de lengua en textos multilingües**

1. **Objetivo:** Implementar un algoritmo para detectar el idioma de una oración o palabra en un texto que contenga español, quechua, shipibo-konibo, ashaninka, y yine.

2. **Descripción:**
   - Crea un script que tome como entrada un texto y determine en qué idioma está cada palabra u oración.
   - Puedes utilizar técnicas de frecuencia de palabras, características de ortografía, o un diccionario para la detección.

3. **Texto de ejemplo:**
   ```plaintext
   Runasimipi rimayta yachani. Me gusta aprender nuevas lenguas.
   ```

4. **Resultado esperado:**
   ```plaintext
   ["Runasimipi rimayta yachani." -> Quechua, "Me gusta aprender nuevas lenguas." -> Español]
   ```

**Ejercicio 8: Generación de palabras derivadas en Ashaninka y Shipibo-Konibo**

1. **Objetivo:** Crear un sistema que genere automáticamente formas derivadas de una palabra raíz en ashaninka y shipibo-konibo.

2. **Descripción:**
   - Investiga cómo se forman palabras derivadas en ashaninka y shipibo-konibo (por ejemplo, mediante la adición de sufijos).
   - Implementa un script en Python que genere formas derivadas a partir de una raíz dada.

3. **Raíces de ejemplo:**
   - **Ashaninka:** `ankotsi` (caminar) -> Derivados esperados: `ankotsineri` (caminará), `ankotsiki` (camino).
   - **Shipibo-Konibo:** `raoma` (comer) -> Derivados esperados: `raomake` (comiendo), `raomaoki` (comeré).

**Ejercicio 9: Tokenización y análisis de frecuencia de palabras en Yine**

1. **Objetivo:** Desarrollar un sistema de tokenización y análisis de frecuencia de palabras para textos en Yine.

2. **Descripción:**
   - Implementa un tokenizador que divida un texto en Yine en palabras individuales.
   - Crea una función que cuente la frecuencia de cada palabra en el texto.
   - Genera un listado de las palabras más frecuentes.

3. **Texto de ejemplo:**
   ```plaintext
   Ichikire irako jintika iya. Ichikire pokanka maik. Jintika jintika ichikire.
   ```

4. **Resultado esperado:**
   ```plaintext
   {'ichikire': 3, 'jintika': 3, 'irako': 1, 'iya': 1, 'pokanka': 1, 'maik': 1}
   ```

**Ejercicio 10: Análisis de sentimientos en textos en español y Quechua**

1. **Objetivo:** Implementar un análisis de sentimientos básico para textos en español y quechua.

2. **Descripción:**
   - Crea un diccionario de palabras con polaridad positiva y negativa tanto en español como en quechua.
   - Escribe un script en Python que tome un texto en cualquiera de los dos idiomas y determine si el sentimiento es positivo, negativo o neutral.
   - Considera solo palabras individuales para la polaridad.

3. **Texto de ejemplo:**
   ```plaintext
   Amo la naturaleza y su belleza. Ñuqaq sonqoyqa kusiwan phutiy.
   ```

4. **Resultado esperado:**
   ```plaintext
   ['Amo la naturaleza y su belleza.' -> Positivo, 'Ñuqaq sonqoyqa kusiwan phutiy.' -> Positivo]
   ```

**Ejercicio 11: Generación de oraciones aleatorias en Ashaninka**

1. **Objetivo:** Desarrollar un generador de oraciones aleatorias en ashaninka utilizando un conjunto de palabras predefinido.

2. **Descripción:**
   - Define conjuntos de sustantivos, verbos, y adjetivos en ashaninka.
   - Implementa un programa que genere oraciones simples combinando aleatoriamente estos elementos.
   - Asegúrate de que las oraciones sean gramaticalmente correctas dentro de las reglas de ashaninka.

3. **Conjunto de palabras:**
   - **Sustantivos:** `ona (persona)`, `mapori (jefe)`, `betiro (árbol)`
   - **Verbos:** `onketi (ver)`, `pikoti (correr)`
   - **Adjetivos:** `itsiri (grande)`, `inanti (rápido)`

4. **Ejemplo de oración generada:**
   ```plaintext
   Mapori itsiri pikoti.
   ```

**Ejercicio 12: Análisis morfológico en textos en Shipibo-Konibo**

1. **Objetivo:** Implementar un analizador morfológico para textos en shipibo-konibo que identifique las raíces y afijos.

2. **Descripción:**
   - Investiga la estructura morfológica de palabras en shipibo-konibo.
   - Escribe un script en Python que descomponga una palabra en sus componentes morfológicos.
   - Procesa un conjunto de palabras para analizar su estructura.

3. **Palabras de ejemplo:**
   ```plaintext
   Jakonmax (bueno), Raiokon (caminando)
   ```

4. **Resultado esperado:**
   ```plaintext
   {'Jakonmax': {'raíz': 'Jakon', 'afijo': 'max'}, 'Raiokon': {'raíz': 'Raio', 'afijo': 'kon'}}
   ```



In [None]:
## Tus respuestas

### Distancia de edición mínima

Gran parte del procesamiento del lenguaje natural se preocupa por medir cuán similares son dos cadenas. Por ejemplo, en la corrección ortográfica, el usuario escribió una cadena errónea—digamos **graffe** y queremos saber qué quiso decir el usuario. Probablemente el usuario pretendía una palabra que sea similar a **graffe**. Entre las palabras candidatas similares, la palabra **giraffe**, que difiere en solo una letra de **graffe**, parece intuitivamente más similar que, por ejemplo, **grail** o **graf**, que difieren en más letras. 

Otro ejemplo proviene de la **coreference**, la tarea de decidir si dos cadenas como las siguientes se refieren a la misma entidad:

```plaintext
Stanford President Marc Tessier-Lavigne
Stanford University President Marc Tessier-Lavigne
```

Nuevamente, el hecho de que estas dos cadenas sean muy similares (diferentes solo en una palabra) parece ser una evidencia útil para decidir que podrían ser co-referentes.

La **distancia de edición** nos da una forma de cuantificar ambas intuiciones sobre la similitud de cadenas. Más formalmente, la **distancia de mínima edición** entre dos cadenas se define como el número mínimo de operaciones de edición (operaciones como inserción, eliminación, sustitución) necesarias para transformar una cadena en otra.

El gap entre la "intention" y "execution", por ejemplo, es de 5 (eliminar una `i`, sustituir `e` por `n`, sustituir `x` por `t`, insertar `c`, sustituir `u` por `n`). 


También podemos asignar un costo o peso particular a cada una de estas operaciones. La **distancia de Levenshtein** entre dos secuencias es el factor de ponderación más simple en el que cada una de las tres operaciones tiene un costo de 1. 

Asumimos que la sustitución de una letra por sí misma, por ejemplo, `t` por `t`, tiene un costo de cero. La **distancia de Levenshtein** entre "intention" y "execution" es de 5. 

Levenshtein también propuso una versión alternativa de su métrica en la que cada inserción o eliminación tiene un costo de 1 y no se permiten sustituciones. (Esto es equivalente a permitir la sustitución, pero dando a cada sustitución un costo de 2, ya que cualquier sustitución puede representarse mediante una inserción y una eliminación). Usando esta versión, la  entre "intention" y "execution" es de 8.



In [None]:
def levenshtein_distance(s1, s2):
    """
    Calcula la distancia de Levenshtein estándar entre dos secuencias.
    """
    len_s1 = len(s1) + 1
    len_s2 = len(s2) + 1

    # Crear una matriz para almacenar los resultados parciales
    dp = [[0] * len_s2 for _ in range(len_s1)]

    # Inicializar la primera fila y columna
    for i in range(len_s1):
        dp[i][0] = i
    for j in range(len_s2):
        dp[0][j] = j

    # Llenar la matriz
    for i in range(1, len_s1):
        for j in range(1, len_s2):
            if s1[i - 1] == s2[j - 1]:
                cost = 0
            else:
                cost = 1

            dp[i][j] = min(dp[i - 1][j] + 1,       # Eliminación
                           dp[i][j - 1] + 1,       # Inserción
                           dp[i - 1][j - 1] + cost) # Sustitución

    return dp[-1][-1]

def levenshtein_distance_no_substitution(s1, s2):
    """
    Calcula la distancia de Levenshtein con un costo de sustitución de 2.
    """
    len_s1 = len(s1) + 1
    len_s2 = len(s2) + 1

    # Crear una matriz para almacenar los resultados parciales
    dp = [[0] * len_s2 for _ in range(len_s1)]

    # Inicializar la primera fila y columna
    for i in range(len_s1):
        dp[i][0] = i
    for j in range(len_s2):
        dp[0][j] = j

    # Llenar la matriz
    for i in range(1, len_s1):
        for j in range(1, len_s2):
            if s1[i - 1] == s2[j - 1]:
                cost = 0
            else:
                cost = 2  # Costo de sustitución como inserción + eliminación

            dp[i][j] = min(dp[i - 1][j] + 1,       # Eliminación
                           dp[i][j - 1] + 1,       # Inserción
                           dp[i - 1][j - 1] + cost) # Sustitución

    return dp[-1][-1]

# Ejemplos de uso
s1 = "intention"
s2 = "execution"

distancia_levenshtein = levenshtein_distance(s1, s2)
distancia_no_substitucion = levenshtein_distance_no_substitution(s1, s2)

print(f"Distancia de Levenshtein estándar entre '{s1}' y '{s2}': {distancia_levenshtein}")
print(f"Distancia de Levenshtein (sin sustituciones permitidas) entre '{s1}' y '{s2}': {distancia_no_substitucion}")



### El algoritmo de la distancia mínima

¿Cómo encontramos la **distancia de edición mínima**?  Primero definamos la **distancia de edición mínima** entre dos cadenas. 

Dadas dos cadenas, la cadena fuente **X** de longitud **n**, y la cadena objetivo **Y** de longitud **m**, definiremos **D[i, j]** como la **distancia de edición** entre **X[1..i]** y **Y[1..j]**, es decir, los primeros **i** caracteres de **X** y los primeros **j** caracteres de **Y**. La **distancia de edición** entre **X** y **Y** es, por lo tanto, **D[n, m]**. 

Usaremos **programación dinámica** para calcular **D[n, m]** de abajo hacia arriba, combinando soluciones a subproblemas. En el caso base, con una subcadena fuente de longitud **i** pero una cadena objetivo vacía, pasar de **i** caracteres a 0 requiere **i** eliminaciones. Con una subcadena objetivo de longitud **j** pero un objetivo vacío, pasar de 0 caracteres a **j** caracteres requiere **j** inserciones. Habiendo calculado **D[i, j]** para **i, j** pequeños, luego calculamos valores más grandes de **D[i, j]** basados en valores más pequeños calculados previamente. 
El valor de **D[i, j]** se calcula tomando el mínimo de los tres posibles caminos a través de la matriz que llegan allí:

```plaintext
D[i, j] = min {
    D[i - 1, j] + del-cost(source[i])
    D[i, j - 1] + ins-cost(target[j])
    D[i - 1, j - 1] + sub-cost(source[i], target[j])
}
```

Mencionamos anteriormente dos versiones de la  **distancia de Levenshtein**, una en la que las sustituciones cuestan 1 y otra en la que las sustituciones cuestan 2 (es decir, son equivalentes a una inserción más una eliminación). Utilicemos aquí esa segunda versión  en la que las inserciones y eliminaciones tienen un costo de 1 (**ins-cost(·) = del-cost(·) = 1**), y las sustituciones tienen un costo de 2 (excepto la sustitución de letras idénticas, que tiene un costo de cero). 

Según esta versión de **Levenshtein**, el cálculo para **D[i, j]** se convierte en:

```plaintext
D[i, j] = min {
    D[i - 1, j] + 1
    D[i, j − 1] + 1
    D[i - 1, j - 1] + {
        2; si source[i] ≠ target[j]
        0; si source[i] = target[j]
    }
}
```

El algoritmo se resume de la siguiente forma y el código muestra los resultados de aplicar el algoritmo a la distancia entre "intention" y "execution" con la versión de **Levenshtein** en la ecuación anterior.

```plaintext
function MIN-EDIT-DISTANCE (source, target) returns min-distance
n <- LENGTH (source)
m <- LENGTH (target)
Create a distance matrix D[n+1,m+1]
# Initialization: the zeroth row and column is the distance from the empty string
D[0,0] = 0
for each row i from 1 to n do
    D[i,0] <- D[i-1,0] + del-cost(source[i])
for each column j from 1 to m do
    D[0,j] <- D[0, j-1] + ins-cost(target[j])
# Recurrence relation:
for each row i from 1 to n do
    for each column j from 1 to m do
        D[i, j] ← MIN (
            D[i−1, j] + del-cost(source[i]),
            D[i−1, j−1] + sub-cost(source[i], target[j]),
            D[i, j−1] + ins-cost(target[j])
        )
# Termination
return D[n,m]
```

El texto anterior muestra el algoritmo de distancia de edición mínima, un ejemplo de la clase de algoritmos de programación dinámica. Los diversos costos pueden ser fijos (por ejemplo, **∀x, ins-cost(x) = 1**) o pueden ser específicos para la letra (para modelar el hecho de que algunas letras tienen más probabilidades de ser insertadas que otras). Asumimos que no hay costo por sustituir una letra por sí misma (es decir, **sub-cost(x, x) = 0**).



In [None]:
def min_edit_distance(source, target):
    """
    Calcula la distancia de edición mínima entre dos cadenas usando programación dinámica.
    También devuelve los pasos detallados para transformar la cadena fuente en la cadena objetivo.
    
    Parameters:
        source (str): La cadena fuente (X) que se quiere transformar.
        target (str): La cadena objetivo (Y) en la que se quiere transformar la fuente.
    
    Returns:
        int: La distancia mínima de edición entre la cadena fuente y la cadena objetivo.
        list: Los pasos detallados de las operaciones realizadas.
    """
    # n es la longitud de la cadena fuente
    n = len(source)
    # m es la longitud de la cadena objetivo
    m = len(target)
    
    # Crear una matriz de (n+1) x (m+1) para almacenar las distancias
    D = [[0 for _ in range(m + 1)] for _ in range(n + 1)]
    # Crear una matriz para almacenar las operaciones
    operations = [[None for _ in range(m + 1)] for _ in range(n + 1)]
    
    # Inicialización: la primera fila y la primera columna representan la distancia
    # desde la cadena vacía a la cadena parcial.
    for i in range(1, n + 1):
        D[i][0] = i  # Cada paso cuesta 1, que representa una eliminación
        operations[i][0] = "delete"
    for j in range(1, m + 1):
        D[0][j] = j  # Cada paso cuesta 1, que representa una inserción
        operations[0][j] = "insert"
    
    # Relación de recurrencia: llenar la matriz utilizando las distancias mínimas
    for i in range(1, n + 1):
        for j in range(1, m + 1):
            # Costo de eliminación
            del_cost = D[i - 1][j] + 1
            # Costo de inserción
            ins_cost = D[i][j - 1] + 1
            # Costo de sustitución (0 si son iguales, 2 si son diferentes)
            sub_cost = D[i - 1][j - 1] + (2 if source[i - 1] != target[j - 1] else 0)
            
            # Determinar el camino mínimo y guardar la operación realizada
            if sub_cost <= del_cost and sub_cost <= ins_cost:
                D[i][j] = sub_cost
                if source[i - 1] == target[j - 1]:
                    operations[i][j] = "match"
                else:
                    operations[i][j] = "substitute"
            elif del_cost < ins_cost:
                D[i][j] = del_cost
                operations[i][j] = "delete"
            else:
                D[i][j] = ins_cost
                operations[i][j] = "insert"
    
    # Realizar el backtrace para encontrar los pasos
    steps = []
    i, j = n, m
    while i > 0 or j > 0:
        current_op = operations[i][j]
        if current_op == "match" or current_op == "substitute":
            steps.append(f"{current_op} '{source[i-1]}' -> '{target[j-1]}'")
            i -= 1
            j -= 1
        elif current_op == "delete":
            steps.append(f"{current_op} '{source[i-1]}'")
            i -= 1
        elif current_op == "insert":
            steps.append(f"{current_op} '{target[j-1]}'")
            j -= 1
    
    steps.reverse()  # Para obtener los pasos en el orden correcto
    return D[n][m], steps

# Ejemplo de uso
source = "intention"
target = "execution"
distance, steps = min_edit_distance(source, target)

print(f"La mínima distancia de edición entre '{source}' y '{target}' es: {distance}")
print("Los pasos para transformar la cadena son:")
for step in steps:
    print(step)


#### Algunas definiciones


**Backtrace**

El **backtrace** es el proceso de rastrear hacia atrás a través de una estructura de datos, generalmente una matriz de programación dinámica, para reconstruir la solución óptima de un problema. En el contexto de la distancia de edición mínima, después de llenar la matriz con los costos de las operaciones de edición, el **backtrace** comienza en la celda final (que contiene el costo total mínimo para transformar una cadena en otra) y sigue los punteros hacia atrás a través de la matriz. Esto permite reconstruir la secuencia de operaciones (inserciones, eliminaciones, sustituciones) que condujeron a esa solución óptima.

**Backpointer**

Un **backpointer** es un puntero o referencia almacenado en una celda de la matriz de programación dinámica que indica la celda anterior desde la cual se llegó al valor actual. En otras palabras, un **backpointer** señala cuál de las posibles operaciones (inserción, eliminación, sustitución) fue la óptima para alcanzar el valor en esa celda. Durante el proceso de **backtrace**, estos **backpointers** se siguen para reconstruir el camino de la solución óptima. Cada celda puede tener uno o más **backpointers** si varias operaciones resultaron en el mismo costo mínimo.

Estas definiciones proporcionan un contexto más claro sobre cómo se utilizan estos conceptos en el algoritmo de **distancia de edición mínima** y en otros algoritmos basados en programación dinámica.



#### Ejemplo

Supongamos que tenemos dos cadenas:

- Cadena 1: **"kitten"**
- Cadena 2: **"sitting"**

El objetivo del algoritmo de distancia de edición mínima es calcular el número mínimo de operaciones necesarias (inserciones, eliminaciones y sustituciones) para transformar la primera cadena en la segunda.

**Paso 1: Inicialización de la matriz**

Primero, creamos una matriz donde las filas representan los caracteres de la primera cadena (incluyendo un espacio vacío al principio), y las columnas representan los caracteres de la segunda cadena (también comenzando con un espacio vacío).

|   |   | s | i | t | t | i | n | g |
|---|---|---|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| k | 1 |   |   |   |   |   |   |   |
| i | 2 |   |   |   |   |   |   |   |
| t | 3 |   |   |   |   |   |   |   |
| t | 4 |   |   |   |   |   |   |   |
| e | 5 |   |   |   |   |   |   |   |
| n | 6 |   |   |   |   |   |   |   |

Cada celda representa el costo mínimo de convertir una subcadena de "kitten" en una subcadena de "sitting". Inicialmente, rellenamos la primera fila y columna con números incrementales, ya que el costo de convertir una cadena vacía en otra requiere tantas operaciones como el número de caracteres.

**Paso 2: Llenado de la matriz**

Llenamos la matriz usando las siguientes reglas:

- Si los caracteres actuales de ambas cadenas son iguales, el costo es el mismo que el de la celda diagonalmente superior izquierda (no hay operación de edición necesaria).
- Si los caracteres son diferentes, el costo es 1 más el mínimo de:
  - El valor de la celda directamente arriba (eliminación).
  - El valor de la celda directamente a la izquierda (inserción).
  - El valor de la celda diagonalmente superior izquierda (sustitución).

A continuación, llenamos la matriz:

|   |   | s | i | t | t | i | n | g |
|---|---|---|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| k | 1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| i | 2 | 2 | 1 | 2 | 3 | 4 | 5 | 6 |
| t | 3 | 3 | 2 | 1 | 2 | 3 | 4 | 5 |
| t | 4 | 4 | 3 | 2 | 1 | 2 | 3 | 4 |
| e | 5 | 5 | 4 | 3 | 2 | 2 | 3 | 4 |
| n | 6 | 6 | 5 | 4 | 3 | 3 | 2 | 3 |

**Paso 3: Uso de backpointers**

A medida que llenamos la matriz, agregamos **backpointers** que apuntan a las celdas desde donde llegamos al costo actual. Estos backpointers indican la operación que se realizó: una inserción, eliminación o sustitución.

Por ejemplo, la celda (5, 5) en la matriz (que tiene un valor de 2) se alcanzó desde la celda (4, 4) porque no hubo necesidad de una sustitución (ya que "t" en la primera cadena es igual a "t" en la segunda cadena).

Para cada celda, guardamos una referencia al movimiento óptimo:

- Inserción: **→**
- Eliminación: **↓**
- Sustitución (o sin cambio si los caracteres coinciden): **↘**

**Paso 4: Backtrace**

Ahora que la matriz está completa, el valor en la celda inferior derecha (6, 7) nos dice el costo mínimo total para convertir "kitten" en "sitting" (que es 3).

El siguiente paso es realizar el **backtrace**, comenzando desde la celda final (6, 7) y retrocediendo a través de los **backpointers** para reconstruir la secuencia de operaciones.

Vamos a trazar el camino a través de los backpointers:

1. Partimos de la celda (6, 7) con un valor de 3 (sustitución "n" por "g").
2. Nos movemos a (5, 6) con un valor de 2 (los caracteres son iguales: "n" y "n").
3. Nos movemos a (4, 5) con un valor de 2 (sustitución "e" por "i").
4. Nos movemos a (3, 4) con un valor de 1 (los caracteres son iguales: "t" y "t").
5. Nos movemos a (2, 3) con un valor de 1 (los caracteres son iguales: "t" y "t").
6. Nos movemos a (1, 2) con un valor de 1 (sustitución "i" por "s").
7. Finalmente, nos movemos a (0, 1) con un valor de 0 (inserción de "s" al inicio).

La secuencia de operaciones resultante es:

1. Sustituir "k" por "s".
2. Dejar "i" como está.
3. Dejar "t" como está.
4. Dejar "t" como está.
5. Sustituir "e" por "i".
6. Dejar "n" como está.
7. Sustituir "n" por "g".


La distancia de edición mínima es 3, y la secuencia óptima de operaciones es:

- Sustituir "k" por "s".
- Sustituir "e" por "i".
- Sustituir "n" por "g".



### Alineación

Alinear dos cadenas es una técnica fundamental en el procesamiento de voz y lenguaje. En el reconocimiento de voz, la alineación basada en la **distancia de edición mínima** se utiliza para calcular la **tasa de error de palabras**. La alineación también desempeña un papel crucial en la traducción automática, donde las oraciones en un **corpus paralelo** (un corpus con textos en dos idiomas) deben ser emparejadas entre sí.

Para extender el algoritmo de **distancia de edición** y producir una alineación, seguimos un proceso de dos pasos. En el primer paso, adaptamos el algoritmo de **distancia de edición mínima** para almacenar **backpointers** en cada celda. El **backpointer** de una celda señala la celda anterior (o celdas) de la que se derivó el valor actual. Algunas celdas pueden tener múltiples **backpointers** porque la distancia mínima podría haber venido de más de una celda anterior.

En el segundo paso, realizamos un **backtrace**. Durante el **backtrace**, comenzamos desde la última celda (en la esquina inferior derecha de la matriz) y seguimos los punteros hacia atrás a través de la matriz de programación dinámica. Cada camino completo entre la celda final y la celda inicial representa una alineación de distancia mínima.

Al calcular el valor de cada celda, marcamos de cuál de las tres celdas vecinas proviene dicho valor, utilizando hasta tres flechas. Una vez que la matriz esté llena, calculamos una alineación (el camino de costo mínimo) usando un **backtrace**, comenzando en la esquina inferior derecha y siguiendo las flechas hacia atrás. La secuencia de celdas en negrita representa una posible alineación de costo mínimo entre las dos cadenas, empleando la **distancia de Levenshtein**, con un costo de 1 para inserciones o eliminaciones, y 2 para sustituciones.

Aunque utilizamos en nuestro ejemplo la **distancia de Levenshtein** simple, el algoritmo mencionado permite pesos arbitrarios para las operaciones. Para la corrección ortográfica, por ejemplo, las sustituciones son más probables entre letras que están adyacentes en el teclado.

El **algoritmo de Viterbi** es una extensión probabilística de la **distancia de edición mínima**. En lugar de calcular la "distancia de edición mínima" entre dos cadenas, **Viterbi** calcula la "alineación de máxima probabilidad" entre ellas.


#### Ejemplo 1: Distancia de edición mínima (Levenshtein)

Supongamos que queremos alinear las siguientes dos cadenas utilizando la **distancia de edición mínima**:

- Cadena 1: **"gato"**
- Cadena 2: **"pato"**

**Paso 1: Crear la matriz de edición**

Primero, creamos una matriz donde cada fila representa un carácter de la primera cadena y cada columna representa un carácter de la segunda cadena. Inicialmente, llenamos las primeras filas y columnas con el número de operaciones necesarias para convertir la cadena vacía en la cadena correspondiente.

|   |   | p | a | t | o |
|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 |
| g | 1 |   |   |   |   |
| a | 2 |   |   |   |   |
| t | 3 |   |   |   |   |
| o | 4 |   |   |   |   |

**Paso 2: Llenado de la matriz**

Para llenar la matriz, seguimos estas reglas:

- Si los caracteres coinciden, tomamos el valor de la diagonal superior izquierda (sin coste adicional).
- Si no coinciden, tomamos el valor mínimo de las celdas vecinas (inserción, eliminación, sustitución) y sumamos 1.

Completamos la matriz paso a paso:

|   |   | p | a | t | o |
|---|---|---|---|---|---|
|   | 0 | 1 | 2 | 3 | 4 |
| g | 1 | 1 | 2 | 3 | 4 |
| a | 2 | 2 | 1 | 2 | 3 |
| t | 3 | 3 | 2 | 1 | 2 |
| o | 4 | 4 | 3 | 2 | 1 |

**Paso 3: Almacenamiento de backpointers**

Al llenar la matriz, almacenamos **backpointers** que nos indican la celda desde la cual proviene el valor mínimo en cada posición. Estos backpointers indican la operación realizada (inserción, eliminación o sustitución).

Ejemplo de backpointers en la matriz:

- De la celda (2,2), el backpointer señala a la diagonal (1,1) porque los caracteres "a" y "a" coinciden.
- De la celda (3,3), el backpointer también señala a la diagonal (2,2) porque "t" y "t" coinciden.
  
**Paso 4: Realización de backtrace**

El **backtrace** comienza en la celda inferior derecha (4,4), donde se encuentra el valor final de la distancia de edición mínima (1 en este caso). A partir de allí, seguimos los backpointers hacia la celda superior izquierda para reconstruir la secuencia de operaciones:

1. Desde (4,4): Los caracteres "o" coinciden, así que no hay operación.
2. Desde (3,3): Los caracteres "t" coinciden, sin operación.
3. Desde (2,2): Los caracteres "a" coinciden, sin operación.
4. Desde (1,1): Los caracteres "g" y "p" no coinciden, por lo que hubo una sustitución de "g" por "p".

La alineación de cadenas resultante es:

- **gato** → **pato** (con una sustitución de "g" por "p").

**Paso 5: Extensión del Algoritmo de Viterbi**

El **algoritmo de Viterbi** es una extensión probabilística de la distancia de edición mínima. En lugar de simplemente calcular el número de operaciones mínimas necesarias, **Viterbi** asigna probabilidades a las transiciones (inserción, eliminación o sustitución), buscando la secuencia de máxima probabilidad.

Supongamos que tenemos probabilidades asociadas a cada tipo de operación:

- Probabilidad de sustitución: 0.1
- Probabilidad de inserción: 0.05
- Probabilidad de eliminación: 0.05
- Coincidencia directa: 0.8

En lugar de usar costos constantes (como 1 para inserciones/eliminaciones y 2 para sustituciones), **Viterbi** buscaría maximizar la probabilidad total de una secuencia de transformaciones.

#### Ejemplo:

Para alinear las cadenas "gato" y "pato", podríamos calcular la probabilidad de la secuencia de transformaciones:

1. **Sustitución de "g" por "p"**: Probabilidad = 0.1
2. **Coincidencia de "a" con "a"**: Probabilidad = 0.8
3. **Coincidencia de "t" con "t"**: Probabilidad = 0.8
4. **Coincidencia de "o" con "o"**: Probabilidad = 0.8

La probabilidad total de esta alineación sería:

$$
0.1 \times 0.8 \times 0.8 \times 0.8 = 0.0512
$$

El **algoritmo de Viterbi** busca maximizar esta probabilidad y elegiría la alineación con la mayor probabilidad total, en lugar de solo contar las operaciones de edición mínima.

En resumen:

- **Matriz**: Representa los costos o probabilidades acumuladas de editar una cadena en otra.
- **Backpointers**: Indican la celda anterior desde la que se derivó el valor actual (inserción, eliminación o sustitución).
- **Backtrace**: Siguiendo los backpointers desde la celda final hasta la inicial, podemos reconstruir la secuencia de operaciones óptima.
- **Distancia de edición mínima**: El número mínimo de operaciones necesarias para transformar una cadena en otra.
- **Algoritmo de Viterbi**: Una extensión probabilística que encuentra la alineación más probable en lugar de la alineación de costo mínimo.


In [None]:
def viterbi_alignment(source, target, match_prob, mismatch_prob, gap_prob):
    """
    Calcula la "alineación de máxima probabilidad" entre dos cadenas usando una variante del algoritmo de Viterbi.
    
    Parameters:
        source (str): La cadena fuente que se quiere alinear.
        target (str): La cadena objetivo a la que se quiere alinear la fuente.
        match_prob (float): La probabilidad de una coincidencia exacta entre caracteres.
        mismatch_prob (float): La probabilidad de una sustitución entre caracteres diferentes.
        gap_prob (float): La probabilidad de insertar o eliminar un carácter.
    
    Returns:
        float: La probabilidad máxima de alineación entre las dos cadenas.
        list: Los pasos detallados de las operaciones realizadas en la alineación.
    """
    # n es la longitud de la cadena fuente
    n = len(source)
    # m es la longitud de la cadena objetivo
    m = len(target)
    
    # Crear una matriz de (n+1) x (m+1) para almacenar las probabilidades logarítmicas
    V = [[-float('inf') for _ in range(m + 1)] for _ in range(n + 1)]
    # Crear una matriz para almacenar las operaciones
    operations = [[None for _ in range(m + 1)] for _ in range(n + 1)]
    
    # Inicialización: la primera fila y la primera columna representan la alineación
    # desde la cadena vacía a la cadena parcial, penalizando con logaritmo del gap.
    V[0][0] = 0  # Probabilidad logarítmica inicial de 0 (log(1) = 0)
    for i in range(1, n + 1):
        V[i][0] = V[i-1][0] + gap_prob
        operations[i][0] = "delete"
    for j in range(1, m + 1):
        V[0][j] = V[0][j-1] + gap_prob
        operations[0][j] = "insert"
    
    # Relación de recurrencia: llenar la matriz utilizando las probabilidades logarítmicas
    for i in range(1, n + 1):
        for j in range(1, m + 1):
            # Cálculo de las probabilidades logarítmicas
            match_or_mismatch = V[i-1][j-1] + (match_prob if source[i-1] == target[j-1] else mismatch_prob)
            deletion = V[i-1][j] + gap_prob
            insertion = V[i][j-1] + gap_prob
            
            # Determinar el camino de máxima probabilidad
            if match_or_mismatch >= deletion and match_or_mismatch >= insertion:
                V[i][j] = match_or_mismatch
                operations[i][j] = "match" if source[i-1] == target[j-1] else "substitute"
            elif deletion > insertion:
                V[i][j] = deletion
                operations[i][j] = "delete"
            else:
                V[i][j] = insertion
                operations[i][j] = "insert"
    
    # Realizar el backtrace para encontrar los pasos
    steps = []
    i, j = n, m
    while i > 0 or j > 0:
        current_op = operations[i][j]
        if current_op == "match" or current_op == "substitute":
            steps.append(f"{current_op} '{source[i-1]}' -> '{target[j-1]}'")
            i -= 1
            j -= 1
        elif current_op == "delete":
            steps.append(f"{current_op} '{source[i-1]}'")
            i -= 1
        elif current_op == "insert":
            steps.append(f"{current_op} '{target[j-1]}'")
            j -= 1
    
    steps.reverse()  # Para obtener los pasos en el orden correcto
    return V[n][m], steps

# Ejemplo de uso
source = "intention"
target = "execution"
match_prob = 0.0  # log(1) = 0 para coincidencia
mismatch_prob = -2.0  # log(probabilidad de sustitución)
gap_prob = -1.0  # log(probabilidad de gap)

probability, steps = viterbi_alignment(source, target, match_prob, mismatch_prob, gap_prob)

print(f"La máxima probabilidad logarítmica de alineación entre '{source}' y '{target}' es: {probability}")
print("Los pasos para alinear la cadena son:")
for step in steps:
    print(step)


**Ejercicio 1: Distancia de edición entre "leda" y "deal"**

**Pregunta:** Calcula la distancia de edición entre las palabras "leda" y "deal", usando un costo de 1 para inserciones, eliminaciones y sustituciones. Muestra tu trabajo utilizando una cuadrícula de distancia de edición.

**Instrucciones:**
1. Crea una cuadrícula para almacenar las distancias parciales entre los prefijos de "leda" y "deal".
2. Llena la cuadrícula calculando las distancias según los costos dados.
3. Identifica la secuencia de operaciones (inserción, eliminación, sustitución) necesarias para transformar "leda" en "deal".
4. Calcula la distancia mínima de edición.

**Solución esperada:**
- Deberías construir una matriz de 5x5 (ya que ambas palabras tienen 4 letras más una fila y columna para la cadena vacía).
- Debes completar la matriz paso a paso y luego seguir la secuencia óptima para encontrar la distancia mínima.

**Ejercicio 2: Comparación de palabras ("drive", "brief", "divers")**

**Pregunta:** Determina si "drive" está más cerca de "brief" o de "divers" utilizando la distancia de edición. Calcula la distancia de edición entre "drive" y cada una de las palabras "brief" y "divers". Puedes usar cualquier versión de distancia que prefieras.

**Instrucciones:**
1. Implementa o utiliza una función de distancia de edición para calcular la distancia entre "drive" y "brief", y entre "drive" y "divers".
2. Usa cualquier variante de la distancia de edición (por ejemplo, costo de sustitución 1 o 2).
3. Compara los resultados para determinar cuál de las dos palabras está más cerca de "drive".

**Solución esperada:**
- Debes justificar la elección de la variante de distancia de edición y mostrar cómo se calculó cada distancia.
- Deberías poder concluir cuál de las dos palabras es más cercana a "drive" basándose en los resultados.

**Ejercicio 3: Implementación del algoritmo de distancia de edición mínima**

**Pregunta:** Implementa un algoritmo para calcular la distancia de edición mínima entre dos cadenas y utiliza los resultados que has calculado manualmente para verificar tu código.

**Instrucciones:**
1. Implementa una función en el lenguaje de programación de tu elección para calcular la distancia de edición mínima entre dos cadenas.
2. Usa las palabras y los resultados calculados a mano en ejercicios anteriores (como "leda" y "deal") para verificar la exactitud de tu código.
3. Documenta cómo se valida tu implementación utilizando los ejemplos manuales.

**Solución Esperada:**
- Debes escribir un código que siga la metodología de programación dinámica para calcular la distancia de edición mínima.
- Deberías incluir pruebas en tu código utilizando los ejemplos resueltos manualmente.


**Ejercicio 4: Alineación y backtrace**

**Pregunta:** Mejora el algoritmo de distancia de edición mínima para que también devuelva la alineación de las dos cadenas. Deberás almacenar punteros y agregar una etapa para calcular el **backtrace**.

**Instrucciones:**
1. Modifica tu algoritmo de distancia de edición para que además de calcular la distancia, guarde los punteros necesarios para reconstruir la alineación óptima.
2. Implementa una función de **backtrace** que recorra los punteros desde la celda final hasta la inicial para reconstruir la secuencia de operaciones.
3. Muestra cómo tu algoritmo devuelve tanto la distancia mínima de edición como la alineación resultante entre las dos cadenas.

**Solución esperada:**
- El código debería mostrar tanto la distancia mínima de edición como una secuencia detallada de operaciones que transforman una cadena en la otra.
- Debes verificar que la alineación producida coincide con la secuencia de operaciones mínima.


**Ejercicio 5: Distancia de Levenshtein con costos personalizados**

**Pregunta:** Modifica el algoritmo de distancia de Levenshtein para que acepte costos personalizados para cada operación (inserción, eliminación, sustitución). Luego, calcula la distancia entre "kitten" y "sitting" utilizando los siguientes costos:
- Inserción: 1
- Eliminación: 1
- Sustitución: 2

**Instrucciones:**
1. Implementa o modifica la función de distancia de Levenshtein para aceptar costos específicos para cada operación.
2. Calcula la distancia de edición entre "kitten" y "sitting" utilizando los costos dados.
3. Muestra los pasos realizados para obtener la distancia mínima.

**Solución esperada:**
- Debes modificar la función existente o crear una nueva que permita la personalización de costos.
- Debes mostrar el resultado calculado y los pasos tomados.


**Ejercicio 6: Visualización de la matriz de distancia de edición**

**Pregunta:** Implementa una visualización gráfica de la matriz de distancia de edición entre dos cadenas. Usa colores o valores numéricos para mostrar la progresión de las distancias.

**Instrucciones:**
1. Implementa un algoritmo de distancia de edición mínima.
2. Genera la matriz de distancias entre las cadenas "flaw" y "lawn".
3. Crea una visualización (puede ser una matriz de números o una representación gráfica) que muestre cómo se calculan las distancias en cada celda.

**Solución esperada:**
- Debes producir una visualización clara de la matriz, mostrando cómo se propagan las distancias.
- La visualización debería ayudar a entender cómo se llega al valor final.

**Ejercicio 7: Distancia de edición con transformaciones complejas**

**Pregunta:** Considera un caso en el que, además de las operaciones de inserción, eliminación, y sustitución, tienes una operación adicional llamada "transposición", que permite intercambiar dos caracteres adyacentes con un costo de 1. Implementa este nuevo algoritmo y calcula la distancia entre "converse" y "conserve".

**Instrucciones:**
1. Modifica el algoritmo de distancia de edición mínima para incluir la operación de transposición.
2. Calcula la distancia de edición entre "converse" y "conserve".
3. Muestra los pasos realizados y compara los resultados con los que obtendrías sin la operación de transposición.

**Solución esperada:**
- Debes ajustar el algoritmo para manejar transposiciones y demostrar cómo afecta al resultado.
- Se espera que demuestren cómo la inclusión de transposiciones puede reducir la distancia de edición.

**Ejercicio 8: Comparación de algoritmos de distancia de edición**

**Pregunta:** Implementa y compara tres algoritmos de distancia de edición: Levenshtein estándar, Levenshtein sin sustituciones permitidas (cada sustitución cuesta 2), y el algoritmo con transposiciones. Usa estos algoritmos para calcular las distancias entre las siguientes parejas de palabras: "abc" y "acb", "abcdef" y "abcfed", "flaw" y "lawn".

**Instrucciones:**
1. Implementa las tres variantes del algoritmo de distancia de edición.
2. Calcula la distancia de edición para las palabras dadas usando cada variante.
3. Compara y discute los resultados obtenidos.

**Solución esperada:**
- Debes mostrar cómo se calculan las distancias utilizando cada variante y explicar las diferencias en los resultados.
- Debes analizar en qué casos una variante es más útil que las otras.

**Ejercicio 9: Aplicación a la corrección ortográfica**

**Pregunta:** Desarrolla un corrector ortográfico simple basado en la distancia de edición. Dado un diccionario de palabras y una palabra con un error tipográfico, el corrector debe sugerir la palabra correcta más cercana en el diccionario.

**Instrucciones:**
1. Implementa una función que calcule la distancia de edición entre la palabra mal escrita y cada palabra en un diccionario.
2. Devuelve la palabra del diccionario que tiene la menor distancia de edición con la palabra mal escrita.
3. Prueba tu corrector ortográfico con un diccionario pequeño y algunas palabras mal escritas.

**Solución esperada:**
- Debes implementar una solución que encuentre y sugiera la palabra correcta basándose en la distancia de edición mínima.
- Debes mostrar ejemplos de correcciones con palabras reales.

**Ejercicio 10: Alineación de secuencias en Bioinformática**

**Pregunta:** Aplica el algoritmo de alineación de máxima probabilidad (Viterbi) a una secuencia de ADN. Usa un puntaje de coincidencia de +1, un costo de desajuste de -1, y un costo de gap de -2 para alinear las secuencias "ACGTGCA" y "ACGTCGA".

**Instrucciones:**
1. Implementa el algoritmo de alineación de máxima probabilidad con los puntajes y costos dados.
2. Calcula la alineación óptima entre las dos secuencias de ADN.
3. Muestra el alineamiento resultante y explica cómo se calcula la máxima probabilidad logarítmica.

**Solución esperada:**
- Debes implementar el algoritmo, mostrar la alineación resultante y discutir cómo se llega a la solución óptima en términos de probabilidad logarítmica.

In [None]:
##Tus respuestas

**Respuesta a algunos ejercicios:**

Implementa una visualización gráfica de la matriz de distancia de edición entre dos cadenas. Usa colores o valores numéricos para mostrar la progresión de las distancias.



In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def min_edit_distance_matrix(source, target):
    n = len(source)
    m = len(target)
    
    # Crear una matriz (n+1) x (m+1)
    D = np.zeros((n + 1, m + 1), dtype=int)
    
    # Inicialización de la primera fila y columna
    for i in range(1, n + 1):
        D[i][0] = i
    for j in range(1, m + 1):
        D[0][j] = j
    
    # Llenar la matriz
    for i in range(1, n + 1):
        for j in range(1, m + 1):
            if source[i - 1] == target[j - 1]:
                cost = 0
            else:
                cost = 1
            D[i][j] = min(D[i - 1][j] + 1,       # Eliminación
                          D[i][j - 1] + 1,       # Inserción
                          D[i - 1][j - 1] + cost) # Sustitución
    
    return D

# Visualización de la matriz
def visualize_edit_distance_matrix(source, target):
    D = min_edit_distance_matrix(source, target)
    
    plt.figure(figsize=(8, 6))
    sns.heatmap(D, annot=True, fmt="d", cmap="YlGnBu", cbar=False)
    plt.title(f"Matriz de Distancia de Edición: '{source}' vs '{target}'")
    plt.xlabel("Target")
    plt.ylabel("Source")
    plt.xticks(np.arange(len(target) + 1), [''] + list(target))
    plt.yticks(np.arange(len(source) + 1), [''] + list(source))
    plt.show()

# Ejemplo de uso
source = "flaw"
target = "lawn"
visualize_edit_distance_matrix(source, target)


Implementa y compara tres algoritmos de distancia de edición: Levenshtein estándar, Levenshtein sin sustituciones permitidas (cada sustitución cuesta 2), y el algoritmo con transposiciones.

In [None]:
def levenshtein_distance(s1, s2):
    n = len(s1)
    m = len(s2)
    D = np.zeros((n + 1, m + 1), dtype=int)

    for i in range(1, n + 1):
        D[i][0] = i
    for j in range(1, m + 1):
        D[0][j] = j

    for i in range(1, n + 1):
        for j in range(1, m + 1):
            cost = 0 if s1[i - 1] == s2[j - 1] else 1
            D[i][j] = min(D[i - 1][j] + 1, D[i][j - 1] + 1, D[i - 1][j - 1] + cost)
    
    return D[n][m]

def levenshtein_no_substitution(s1, s2):
    n = len(s1)
    m = len(s2)
    D = np.zeros((n + 1, m + 1), dtype=int)

    for i in range(1, n + 1):
        D[i][0] = i
    for j in range(1, m + 1):
        D[0][j] = j

    for i in range(1, n + 1):
        for j in range(1, m + 1):
            cost = 2 if s1[i - 1] != s2[j - 1] else 0
            D[i][j] = min(D[i - 1][j] + 1, D[i][j - 1] + 1, D[i - 1][j - 1] + cost)
    
    return D[n][m]

def damerau_levenshtein(s1, s2):
    n = len(s1)
    m = len(s2)
    D = np.zeros((n + 1, m + 1), dtype=int)

    for i in range(1, n + 1):
        D[i][0] = i
    for j in range(1, m + 1):
        D[0][j] = j

    for i in range(1, n + 1):
        for j in range(1, m + 1):
            cost = 0 if s1[i - 1] == s2[j - 1] else 1
            D[i][j] = min(D[i - 1][j] + 1, D[i][j - 1] + 1, D[i - 1][j - 1] + cost)

            if i > 1 and j > 1 and s1[i - 1] == s2[j - 2] and s1[i - 2] == s2[j - 1]:
                D[i][j] = min(D[i][j], D[i - 2][j - 2] + 1)  # Transposición
    
    return D[n][m]

# Comparación de las tres variantes
def compare_algorithms(word_pairs):
    results = {}
    for s1, s2 in word_pairs:
        results[(s1, s2)] = {
            "Levenshtein estándar": levenshtein_distance(s1, s2),
            "Levenshtein sin sustitución": levenshtein_no_substitution(s1, s2),
            "Damerau-Levenshtein (con transposición)": damerau_levenshtein(s1, s2)
        }
    return results

# Palabras de ejemplo
word_pairs = [
    ("abc", "acb"),
    ("abcdef", "abcfed"),
    ("flaw", "lawn")
]

# Ejecutar comparación
results = compare_algorithms(word_pairs)

# Mostrar resultados
for pair, distances in results.items():
    print(f"Comparación entre '{pair[0]}' y '{pair[1]}':")
    for alg, dist in distances.items():
        print(f"  {alg}: {dist}")
    print()
