### Kneser-Ney Smoothing

El **suavizado Kneser-Ney (Kneser-Ney Smoothing)** es uno de los métodos de suavizado más avanzados y efectivos utilizados en los **modelos de lenguaje n-grama**. Fue desarrollado para mejorar la capacidad de los modelos de lenguaje para manejar n-gramas raros o no observados y asignar probabilidades más precisas a las palabras en contextos donde aparecen con baja frecuencia.

El Kneser-Ney se basa en el principio de **descuento absoluto**, pero introduce un concepto fundamental que lo diferencia de otros métodos de suavizado: **la probabilidad de continuación**. Este enfoque hace que Kneser-Ney sea especialmente efectivo para asignar probabilidades a n-gramas raros en función de cómo se distribuyen en contextos diferentes.

#### Motivación detrás de Kneser-Ney

Los modelos de lenguaje basados en n-gramas clásicos, como el suavizado de Laplace o Good-Turing, tienden a calcular la probabilidad de una secuencia de palabras basándose en la frecuencia de ocurrencia de esa secuencia en el conjunto de entrenamiento. Sin embargo, este enfoque puede ser problemático en el caso de n-gramas que aparecen en contextos muy específicos, ya que estos modelos no tienen en cuenta **cuántos contextos únicos preceden a una palabra**.

#### Problema con los métodos tradicionales

Supongamos que queremos predecir la probabilidad de la palabra **"York"** en los contextos "New York" y "York University". Un modelo basado solo en la frecuencia de aparición puede sobrevalorar la probabilidad de **"York"** en cualquier contexto si aparece muchas veces en "New York", sin tener en cuenta que "York" aparece en muy pocos contextos diferentes (predominantemente en "New York").

Esto es exactamente lo que Kneser-Ney corrige, asignando una mayor probabilidad a las palabras que aparecen en una variedad de contextos diferentes, y una menor probabilidad a las palabras que aparecen en un solo contexto repetidamente.


#### Concepto clave de Kneser-Ney: probabilidad de continuación

El **suavizado Kneser-Ney** se basa en la idea de que no solo importa la frecuencia con la que una palabra aparece en un n-grama, sino también **cuántos contextos diferentes preceden a esa palabra**.

#### Ejemplo de probabilidad de continuación

Imagina que estás modelando el siguiente n-grama:

- "New York" aparece muy frecuentemente en el corpus.
- "York University" aparece raramente.

Un modelo tradicional podría asignar una probabilidad muy alta a "York" simplemente porque ocurre muchas veces. Sin embargo, lo que Kneser-Ney destaca es que **"York" solo aparece en muy pocos contextos (principalmente "New York")**, lo que sugiere que debería recibir una probabilidad menor en otros contextos desconocidos.

La probabilidad de una palabra en Kneser-Ney, especialmente en el nivel de unigramas, se basa en **cuántos contextos únicos** preceden a esa palabra, no solo en su frecuencia total.

#### Fórmula de la probabilidad de continuación

La **probabilidad de continuación** en Kneser-Ney se calcula para un unigram de la siguiente manera:

$$
P_{\text{cont}}(w_n) = \frac{|\{ w_{n-1} : C(w_{n-1}, w_n) > 0 \}|}{|\{w_{n-1} : C(w_{n-1}) > 0\}|}
$$

Donde:
- **$C(w_{n-1}, w_n)$** es el número de veces que el bigrama $w_{n-1} w_n$ aparece en el corpus.
- **$|\{ w_{n-1} : C(w_{n-1}, w_n) > 0 \}|$** es el número de contextos únicos precedentes para la palabra $w_n$.

El enfoque clave es que una palabra como "York", que aparece en pocos contextos únicos, tendrá una probabilidad de continuación más baja, mientras que una palabra que aparece en muchos contextos diferentes (como "the") tendrá una probabilidad de continuación más alta.


#### Descuento absoluto en Kneser-Ney

El suavizado Kneser-Ney también se basa en el **descuento absoluto**. Esto significa que, en lugar de utilizar directamente la frecuencia de aparición de un n-grama, se aplica un **descuento** a las probabilidades de los n-gramas observados y se redistribuye esa masa de probabilidad a los n-gramas no observados.

#### Fórmula del descuento absoluto

La probabilidad de un n-grama en Kneser-Ney se calcula aplicando un descuento a los n-gramas observados:

$$
P^*(w_n | w_{n-1}) = \frac{C(w_{n-1}, w_n) - D}{C(w_{n-1})}
$$

Donde:
- **$C(w_{n-1}, w_n)$** es el conteo del bigrama.
- **$D$** es el descuento, una constante que ajusta la masa de probabilidad asignada a los n-gramas observados.
- **$C(w_{n-1})$** es el conteo total del unigram $w_{n-1}$.

Este descuento asegura que no toda la probabilidad se asigne a los n-gramas observados, dejando algo de masa de probabilidad para los n-gramas no observados, que se manejan mediante la probabilidad de continuación.


#### Kneser-Ney para trigramas

El suavizado Kneser-Ney se extiende fácilmente a **n-gramas de mayor orden**, como trigramas, bigramas, etc. El objetivo sigue siendo el mismo: aplicar un descuento a los n-gramas observados y redistribuir la probabilidad a los n-gramas de menor orden, donde la probabilidad de continuación juega un papel clave.

#### Fórmula de Kneser-Ney para trigramas

Para un **trigrama**, la fórmula de Kneser-Ney se define de la siguiente manera:

$$
P_{\text{KN}}(w_n | w_{n-2}, w_{n-1}) = 
\begin{cases}
\frac{C(w_{n-2}, w_{n-1}, w_n) - D}{C(w_{n-2}, w_{n-1})} + \lambda(w_{n-2}, w_{n-1}) P_{\text{KN}}(w_n | w_{n-1}), & \text{si } C(w_{n-2}, w_{n-1}) > 0 \\
\lambda(w_{n-2}, w_{n-1}) P_{\text{KN}}(w_n | w_{n-1}), & \text{si } C(w_{n-2}, w_{n-1}) = 0
\end{cases}
$$

Donde:
- **$C(w_{n-2}, w_{n-1}, w_n)$** es el conteo del trigram.
- **$D$** es el descuento.
- **$P_{\text{KN}}(w_n | w_{n-1})$** es la probabilidad del bigrama suavizada con Kneser-Ney.
- **$\lambda(w_{n-2}, w_{n-1})$** es el factor de normalización que asegura que la suma de probabilidades sea 1.

El proceso de suavizado continúa de esta manera hasta que se llega a la probabilidad de continuación en el nivel del unigram.

---

#### Factores de normalización ($\lambda$)

En Kneser-Ney, el factor **$\lambda(w_{n-1})$** es crucial para garantizar que la suma de todas las probabilidades en el modelo sea igual a 1. Este factor ajusta la cantidad de probabilidad que se redistribuye a los n-gramas de menor orden.

Se calcula de la siguiente manera:

$$
\lambda(w_{n-1}) = \frac{D \cdot |\{ w_n : C(w_{n-1}, w_n) > 0 \}|}{C(w_{n-1})}
$$

Donde:
- **$|\{ w_n : C(w_{n-1}, w_n) > 0 \}|$** es el número de n-gramas de mayor orden observados para el contexto $w_{n-1}$.
- **$D$** es el descuento aplicado a los n-gramas observados.

Este factor de normalización asegura que la probabilidad asignada a los n-gramas de menor orden sea proporcional a la cantidad de n-gramas observados que comparten ese contexto.


#### Ventajas del Kneser-Ney smoothing

1. **Mejor manejo de n-gramas raros**: Kneser-Ney distribuye la probabilidad de manera más uniforme entre los n-gramas raros, lo que ayuda a evitar asignar una probabilidad demasiado alta a palabras que solo aparecen en contextos muy específicos.

2. **Generalización efectiva**: Al considerar el número de contextos únicos en los que aparece una palabra, Kneser-Ney permite que el modelo generalice mejor en textos no observados, lo que lo hace más efectivo en situaciones donde hay datos limitados.

3. **Corrección de sesgos de frecuencia**: Los métodos tradicionales pueden asignar una probabilidad demasiado alta a palabras comunes en un solo contexto. Kneser-Ney corrige esto asignando probabilidades más bajas a palabras que solo aparecen en unos pocos contextos repetidamente.

4. **Extensión natural a trigramas y n-gramas de mayor orden**: Kneser-Ney se adapta fácilmente a modelos de lenguaje de mayor orden (trigramas, 4-gramas, etc.), aplicando el mismo enfoque de probabilidad de continuación y descuento en todos los niveles.

---

#### Desventajas del Kneser-Ney smoothing

1. **Complejidad computacional**: Aunque es muy efectivo, Kneser-Ney es más complejo de implementar y computacionalmente más costoso que métodos más simples como el suavizado de Laplace o Good-Turing. El cálculo de la probabilidad de continuación y los factores de normalización añaden una sobrecarga considerable.

2. **Requiere un buen ajuste del descuento ($D$)**: La elección del descuento adecuado es crucial para el rendimiento de Kneser-Ney. Si el descuento es demasiado grande o demasiado pequeño, el modelo puede asignar probabilidades inexactas a los n-gramas no observados.

---

### Comparación con otros métodos de suavizado

| Método                  | Descripción                                               | Ventajas                        | Desventajas                       |
|-------------------------|-----------------------------------------------------------|---------------------------------|-----------------------------------|
| **Kneser-Ney Smoothing** | Ajusta las probabilidades en función de los contextos únicos precedentes | Excelente manejo de n-gramas raros | Complejidad computacional         |
| **Good-Turing Smoothing**| Ajusta los conteos observados para redistribuir probabilidad | Simple y efectivo para eventos raros | Menos preciso que Kneser-Ney      |
| **Suavizado de Laplace** | Añade una constante a todos los conteos para evitar probabilidades de cero | Simple de implementar            | No maneja bien la frecuencia de contextos |

---


El **Kneser-Ney Smoothing** es una de las técnicas más avanzadas y efectivas para suavizar las probabilidades en modelos de lenguaje n-grama. Su concepto clave de **probabilidad de continuación** permite que el modelo asigne probabilidades más precisas basadas no solo en la frecuencia de aparición de los n-gramas, sino también en la cantidad de contextos únicos en los que aparecen. Esta capacidad para manejar n-gramas raros y no observados lo convierte en una opción ideal para modelos de lenguaje donde se requiere un alto nivel de precisión y generalización.

Aunque es más complejo y computacionalmente costoso que otros métodos, el suavizado Kneser-Ney sigue siendo uno de los métodos más utilizados en aplicaciones que requieren modelos de lenguaje n-grama robustos y efectivos.

In [None]:
import collections
import math
from typing import List, Tuple, Dict

# Preprocesamiento del Corpus
corpus = [
    "el gato está en la casa",
    "el perro está en el jardín",
    "la casa es grande",
    "el gato y el perro son amigos",
    "el jardín tiene flores",
    "la casa tiene un jardín",
    "el perro juega en el jardín",
    "el gato duerme en la casa",
    "la casa y el jardín son hermosos"
]

def tokenize_corpus(corpus: List[str]) -> List[List[str]]:
    tokenized_corpus = []
    for sentence in corpus:
        tokens = sentence.lower().split()
        tokens = ['<s>'] + tokens + ['</s>']  # Añadimos tokens de inicio y fin de oración
        tokenized_corpus.append(tokens)
    return tokenized_corpus

tokenized_corpus = tokenize_corpus(corpus)

# Conteo de N-gramas
def count_ngrams(tokenized_corpus: List[List[str]], n: int) -> Dict[Tuple[str, ...], int]:
    ngram_counts = collections.Counter()
    for tokens in tokenized_corpus:
        for i in range(len(tokens) - n + 1):
            ngram = tuple(tokens[i:i + n])
            ngram_counts[ngram] += 1
    return ngram_counts

unigram_counts = count_ngrams(tokenized_corpus, 1)
bigram_counts = count_ngrams(tokenized_corpus, 2)
trigram_counts = count_ngrams(tokenized_corpus, 3)

#Cálculo de conteos de contextos unicos (para probabilidad de continuación)
def compute_unique_context_counts(bigram_counts: Dict[Tuple[str, str], int]) -> Dict[str, int]:
    continuation_counts = collections.Counter()
    for (w_prev, w_next) in bigram_counts:
        continuation_counts[w_next] += 1
    return continuation_counts

continuation_counts = compute_unique_context_counts(bigram_counts)
total_continuations = len(bigram_counts)

D = 0.75  # Descuento absoluto comúnmente utilizado

#Cálculo de la probabilidad de continuación
def continuation_probability(word: str, continuation_counts: Dict[str, int], total_continuations: int) -> float:
    return continuation_counts[word] / total_continuations

#Cálculo del factor de normalización
def compute_lambda(context: Tuple[str, ...], ngram_counts: Dict[Tuple[str, ...], int], lower_order_counts: Dict[Tuple[str, ...], int]) -> float:
    context_count = sum([count for ngram, count in ngram_counts.items() if ngram[:-1] == context])
    unique_continuations = len([1 for ngram in ngram_counts if ngram[:-1] == context])
    return (D * unique_continuations) / context_count if context_count > 0 else 0

#Cálculo de las probabilidades suavizadas con Kneser-Ney
def kneser_ney_probability(trigram: Tuple[str, str, str],
                           trigram_counts: Dict[Tuple[str, str, str], int],
                           bigram_counts: Dict[Tuple[str, str], int],
                           unigram_counts: Dict[Tuple[str], int],
                           continuation_counts: Dict[str, int],
                           total_continuations: int) -> float:
    w1, w2, w3 = trigram
    trigram_count = trigram_counts.get((w1, w2, w3), 0)
    bigram_count = bigram_counts.get((w1, w2), 0)

    if bigram_count > 0:
        lambda_w1_w2 = compute_lambda((w1, w2), trigram_counts, bigram_counts)
        p_continuation = kneser_ney_probability_bigram((w2, w3),
                                                       bigram_counts,
                                                       unigram_counts,
                                                       continuation_counts,
                                                       total_continuations)
        probability = max(trigram_count - D, 0) / bigram_count + lambda_w1_w2 * p_continuation
    else:
        probability = kneser_ney_probability_bigram((w2, w3),
                                                   bigram_counts,
                                                   unigram_counts,
                                                   continuation_counts,
                                                   total_continuations)
    return probability

def kneser_ney_probability_bigram(bigram: Tuple[str, str],
                                  bigram_counts: Dict[Tuple[str, str], int],
                                  unigram_counts: Dict[Tuple[str], int],
                                  continuation_counts: Dict[str, int],
                                  total_continuations: int) -> float:
    w1, w2 = bigram
    bigram_count = bigram_counts.get((w1, w2), 0)
    unigram_count = unigram_counts.get((w1,), 0)

    if unigram_count > 0:
        lambda_w1 = compute_lambda((w1,), bigram_counts, unigram_counts)
        p_continuation = continuation_probability(w2, continuation_counts, total_continuations)
        probability = max(bigram_count - D, 0) / unigram_count + lambda_w1 * p_continuation
    else:
        probability = continuation_probability(w2, continuation_counts, total_continuations)
    return probability
# Uso del modelo para calcular la probabilidad de una oración
def sentence_probability(sentence: str,
                         trigram_counts: Dict[Tuple[str, str, str], int],
                         bigram_counts: Dict[Tuple[str, str], int],
                         unigram_counts: Dict[Tuple[str], int],
                         continuation_counts: Dict[str, int],
                         total_continuations: int) -> float:
    tokens = ['<s>'] + sentence.lower().split() + ['</s>']
    probability_log_sum = 0.0
    for i in range(len(tokens) - 2):
        trigram = (tokens[i], tokens[i+1], tokens[i+2])
        prob = kneser_ney_probability(trigram, trigram_counts, bigram_counts, unigram_counts, continuation_counts, total_continuations)
        probability_log_sum += math.log(prob) if prob > 0 else float('-inf')
    return math.exp(probability_log_sum)

# Ejemplo de uso

test_sentence = "el gato juega en el jardín"
prob = sentence_probability(test_sentence, trigram_counts, bigram_counts, unigram_counts, continuation_counts, total_continuations)
print(f"La probabilidad de la oración '{test_sentence}' es: {prob}")


¿Puedes explicar estos resultados?

In [None]:
## Tu respuesta

### Suavizado Good-Turing (Good-Turing Smoothing)

El **Suavizado Good-Turing** es una técnica de ajuste de probabilidades en modelos de lenguaje n-grama, diseñada para mejorar la estimación de probabilidades para eventos raros o no observados en un corpus de entrenamiento. Fue desarrollado por **Alan Turing** y popularizado por su colega **I.J. Good**, de donde proviene su nombre. El suavizado Good-Turing es utilizado principalmente cuando se enfrenta a eventos raros (es decir, n-gramas que ocurren muy pocas veces) o a eventos no observados (n-gramas con un conteo de cero), asegurando que todos los posibles n-gramas tengan una probabilidad no nula.

El objetivo principal de **Good-Turing** es corregir las probabilidades estimadas asignadas a los eventos observados en el corpus, particularmente a los que ocurren pocas veces, redistribuyendo parte de la probabilidad de los eventos observados a los eventos no observados.

#### Problema: N-gramas raros y no observados

En los modelos de lenguaje basados en **n-gramas**, un problema común es la **escasez de datos**, lo que significa que algunas secuencias de palabras (n-gramas) ocurren muy pocas veces o no ocurren en absoluto en el corpus de entrenamiento. Sin embargo, estas secuencias podrían ocurrir en nuevas muestras de texto. Sin un ajuste adecuado, los **eventos no observados** obtendrían una probabilidad de **cero**, lo que puede ser problemático para la generalización del modelo.

El suavizado **Good-Turing** aborda este problema ajustando las probabilidades de los **eventos observados** y asignando una pequeña parte de la masa de probabilidad a los **eventos no observados**.

#### Intuición del suavizado Good-Turing

La clave del suavizado Good-Turing es la idea de que:

- **Eventos raros** (que se han observado muy pocas veces) probablemente han sido subestimados en términos de probabilidad. Por lo tanto, la probabilidad asignada a estos eventos debe ajustarse.
- **Eventos no observados** podrían haber ocurrido si tuviéramos más datos, por lo que se debe reservar algo de probabilidad para ellos.

En lugar de asignar una probabilidad basada solo en el conteo directo de un n-grama, Good-Turing ajusta los conteos observados para reflejar mejor la frecuencia esperada de eventos raros o no observados.

#### Definición formal de Good-Turing

En el suavizado Good-Turing, el objetivo es ajustar los **conteos observados** ($C(w_{n-N+1:n})$) de los n-gramas para asignar una probabilidad adecuada tanto a los **n-gramas raros** como a los **n-gramas no observados**. Para hacer esto, se define un nuevo conteo ajustado llamado **conteo ajustado Good-Turing** ($C^*$), el cual reemplaza al conteo observado.

El ajuste de los conteos sigue la siguiente fórmula:

$$
C^*(w_{n-N+1:n}) = (C(w_{n-N+1:n}) + 1) \cdot \frac{N(C+1)}{N(C)}
$$

#### Componentes de la fórmula:

1. **$C(w_{n-N+1:n})$**: Es el **conteo observado** del n-grama. Es la cantidad de veces que el n-grama específico ha aparecido en el corpus de entrenamiento.

2. **$N(C)$**: Es el número de n-gramas que tienen exactamente **$C$** conteos. Es decir, cuántos n-gramas se han observado exactamente **C veces** en el corpus.

   - **$N(C)$** es crucial para determinar cuántos n-gramas tienen un conteo específico. Esto ayuda a entender cuán frecuente es una secuencia de palabras con ese número de ocurrencias en el corpus.

3. **$C^*(w_{n-N+1:n})$**: Es el **conteo ajustado Good-Turing** para el n-grama $w_{n-N+1:n}$, el cual se utiliza en lugar del conteo observado para calcular la probabilidad ajustada.

#### Interpretación de la fórmula

- La fórmula **$C^*(w_{n-N+1:n}) = (C + 1) \cdot \frac{N(C+1)}{N(C)}$** significa que el nuevo conteo ajustado para un n-grama que ocurre **C** veces se calcula usando la relación entre los n-gramas que ocurren **C+1** veces y los que ocurren **C** veces.
- La idea es que si muchos n-gramas tienen un conteo de **C**, y pocos n-gramas tienen un conteo de **C+1**, entonces el conteo observado de los n-gramas con frecuencia **C** probablemente está subestimado, y por lo tanto debe ser ajustado hacia arriba.

#### Ejemplo de aplicación

Imagina que estamos calculando la probabilidad de n-gramas en un corpus de entrenamiento y observamos los siguientes conteos:

- Hay **10 n-gramas** que han aparecido exactamente **2 veces** en el corpus.
- Hay **5 n-gramas** que han aparecido exactamente **3 veces** en el corpus.

Queremos calcular el conteo ajustado para un n-grama que ha aparecido **2 veces**.

El conteo ajustado se calcula como:

$$
C^*(w_{n-N+1:n}) = (2 + 1) \cdot \frac{5}{10} = 3 \cdot 0.5 = 1.5
$$

En lugar de utilizar el conteo observado de **2**, el suavizado Good-Turing ajusta este valor a **1.5**, ya que, basándose en el patrón observado en el corpus, es probable que los n-gramas con conteo de **2** ocurran con una frecuencia ligeramente menor de lo que indica el conteo observado.

#### Cálculo de la probabilidad con Good-Turing

Una vez que se han ajustado los conteos utilizando **Good-Turing**, podemos calcular las probabilidades ajustadas. La probabilidad ajustada de un n-grama con suavizado Good-Turing es:

$$
P(w_{n-N+1:n}) = \frac{C^*(w_{n-N+1:n})}{N}
$$

Donde:
- **$C^*(w_{n-N+1:n})$** es el conteo ajustado Good-Turing.
- **$N$** es el número total de n-gramas en el corpus.

Esta fórmula asegura que las probabilidades de los n-gramas observados se ajusten correctamente y que los **n-gramas no observados** reciban una probabilidad distinta de cero.

#### Manejo de los N-gramas no observados

El suavizado Good-Turing asigna una pequeña probabilidad a los n-gramas que no han sido observados en el corpus de entrenamiento. Para hacer esto, calcula la probabilidad de los eventos no observados de la siguiente manera:

1. **Conteo de eventos no observados**: El número total de eventos no observados se define como **$N(0)$**, que es el número de n-gramas que no aparecen en el corpus.
   
2. **Probabilidad de eventos no observados**: La probabilidad de un evento no observado se calcula asignando una pequeña fracción de la masa de probabilidad a todos los eventos no observados. Para los n-gramas no observados, la probabilidad se define como:

   $$ P(\text{no observado}) = \frac{N(1)}{N} $$

   Donde **$N(1)$** es el número de n-gramas que han sido observados exactamente **1 vez** en el corpus.

   La idea es que los n-gramas no observados se comporten de manera similar a los n-gramas que se han observado exactamente **1 vez**. Por lo tanto, se les asigna una probabilidad proporcional a los n-gramas observados una sola vez.

#### Resumen del proceso de Good-Turing

1. **Recolectar conteos de n-gramas**: Calcula los conteos observados de todos los n-gramas en el corpus.
2. **Calcular $N(C)$**: Determina cuántos n-gramas tienen exactamente **C** conteos.
3. **Ajustar conteos con Good-Turing**: Utiliza la fórmula $C^* = (C + 1) \cdot \frac{N(C+1)}{N(C)}$ para ajustar los conteos observados.
4. **Calcular probabilidades**: Calcula la probabilidad ajustada para cada n-grama utilizando los conteos ajustados.
5. **Asignar probabilidad a eventos no observados**: Distribuye una pequeña parte de la masa de probabilidad a los n-gramas no observados utilizando la fórmula $P(\text{no observado}) = \frac{N(1)}{N}$.

#### Beneficios del suavizado Good-Turing

- **Manejo efectivo de eventos raros**: Good-Turing ajusta las probabilidades de los n-gramas raros, asegurando que no se sobreestimen o subestimen.
-

 **Asignación de probabilidad a eventos no observados**: Good-Turing asigna una pequeña probabilidad a eventos que no han sido observados en el corpus, evitando que se les asigne una probabilidad de cero.
- **Generalización**: Al redistribuir la masa de probabilidad, Good-Turing mejora la capacidad del modelo para generalizar a nuevos textos que contienen secuencias de palabras no observadas en el corpus de entrenamiento.

#### Limitaciones del suavizado Good-Turing

- **Complejidad computacional**: Aunque Good-Turing es efectivo, calcular los valores de $N(C)$ para diferentes valores de $C$ puede ser computacionalmente costoso, especialmente en grandes corpus.
- **Falta de adaptación a contextos específicos**: Good-Turing ajusta los conteos basándose en la frecuencia general de los n-gramas en el corpus, pero no tiene en cuenta la **distribución contextual** de las palabras, lo que significa que podría no ser tan efectivo en casos donde el contexto juega un papel crucial.

#### Aplicaciones del suavizado Good-Turing

El suavizado Good-Turing se utiliza en varias aplicaciones de procesamiento del lenguaje natural y en modelos de lenguaje n-grama, como:

- **Modelado de lenguaje**: Good-Turing se utiliza para ajustar las probabilidades en modelos de lenguaje n-grama, especialmente cuando se entrenan con datos limitados.
- **Sistemas de reconocimiento de voz**: Good-Turing ayuda a los modelos de lenguaje utilizados en sistemas de reconocimiento de voz a manejar palabras y frases raras o no observadas.
- **Sistemas de búsqueda y motores de búsqueda**: Good-Turing se usa para mejorar las estimaciones de probabilidad en motores de búsqueda, donde algunas consultas de búsqueda pueden no haber sido observadas previamente.


El **Suavizado Good-Turing** es una técnica eficaz para ajustar las probabilidades en modelos de lenguaje n-grama, particularmente cuando se enfrentan a **n-gramas raros** o **no observados**. Ajusta los conteos observados para reflejar mejor la frecuencia esperada de eventos raros y asigna una pequeña parte de la probabilidad a los eventos no observados. Aunque es más simple que algunos métodos modernos, sigue siendo una técnica poderosa en situaciones donde la escasez de datos es un problema.

In [None]:
import collections
import math
from typing import List, Tuple, Dict
import numpy as np

# Preprocesamiento del corpus
corpus = [
    "el gato está en la casa",
    "el perro está en el jardín",
    "la casa es grande",
    "el gato y el perro son amigos",
    "el jardín tiene flores",
    "la casa tiene un jardín",
    "el perro juega en el jardín",
    "el gato duerme en la casa",
    "la casa y el jardín son hermosos"
]

def tokenize_corpus(corpus: List[str]) -> List[List[str]]:
    tokenized_corpus = []
    for sentence in corpus:
        tokens = sentence.lower().split()
        tokens = ['<s>'] + tokens + ['</s>']  # Añadimos tokens de inicio y fin de oración
        tokenized_corpus.append(tokens)
    return tokenized_corpus

tokenized_corpus = tokenize_corpus(corpus)

# Conteo de N-gramas
def count_ngrams(tokenized_corpus: List[List[str]], n: int) -> Dict[Tuple[str, ...], int]:
    ngram_counts = collections.Counter()
    for tokens in tokenized_corpus:
        for i in range(len(tokens) - n + 1):
            ngram = tuple(tokens[i:i + n])
            ngram_counts[ngram] += 1
    return ngram_counts

unigram_counts = count_ngrams(tokenized_corpus, 1)
bigram_counts = count_ngrams(tokenized_corpus, 2)
trigram_counts = count_ngrams(tokenized_corpus, 3)

#  Cálculo de N(C)
def calculate_NC(ngram_counts: Dict[Tuple[str, ...], int]) -> Dict[int, int]:
    count_of_counts = collections.Counter()
    for count in ngram_counts.values():
        count_of_counts[count] += 1
    return count_of_counts

def sort_NC(NC: Dict[int, int]) -> Tuple[np.ndarray, np.ndarray]:
    counts = np.array(list(NC.keys()))
    frequencies = np.array([NC[count] for count in counts])
    sorted_indices = np.argsort(counts)
    return counts[sorted_indices], frequencies[sorted_indices]

# Calculamos N(C) para bigramas (puede aplicarse a unigramas y trigramas de manera similar)
NC_bigram = calculate_NC(bigram_counts)
counts_bigram, frequencies_bigram = sort_NC(NC_bigram)

# Suavizado Good-Turing
def good_turing_discounting(ngram_counts: Dict[Tuple[str, ...], int]) -> Dict[Tuple[str, ...], float]:
    # Calculamos N(C)
    NC = calculate_NC(ngram_counts)
    counts, frequencies = sort_NC(NC)
    
    # Ajuste de conteos
    total_ngrams = sum(ngram_counts.values())
    max_count = max(counts)
    adjusted_counts = {}
    
    for ngram, count in ngram_counts.items():
        if count < max_count:
            Nc = NC[count]
            Nc1 = NC.get(count + 1, 0)
            if Nc > 0:
                C_star = (count + 1) * (Nc1 / Nc)
                adjusted_counts[ngram] = C_star
            else:
                adjusted_counts[ngram] = count
        else:
            adjusted_counts[ngram] = count  # Para conteos máximos, no ajustamos
    return adjusted_counts

adjusted_bigram_counts = good_turing_discounting(bigram_counts)

#Cálculo de probabilidades ajustadas
def calculate_probabilities(adjusted_counts: Dict[Tuple[str, ...], float], n_minus1_counts: Dict[Tuple[str, ...], int]) -> Dict[Tuple[str, ...], float]:
    probabilities = {}
    for ngram, adjusted_count in adjusted_counts.items():
        context = ngram[:-1]
        context_count = n_minus1_counts.get(context, sum(n_minus1_counts.values()))
        probability = adjusted_count / context_count if context_count > 0 else 0.0
        probabilities[ngram] = probability
    return probabilities

# Calculamos las probabilidades ajustadas para bigramas
unigram_total_count = sum(unigram_counts.values())
bigram_probabilities = calculate_probabilities(adjusted_bigram_counts, unigram_counts)

# Asignación de probabilidad a N-gramas no observados
def probability_of_unseen(NC: Dict[int, int], total_ngrams: int) -> float:
    N1 = NC.get(1, 0)
    return N1 / total_ngrams if total_ngrams > 0 else 0.0

# Probabilidad de n-gramas no observados para bigramas
total_bigrams = sum(bigram_counts.values())
P_unseen_bigram = probability_of_unseen(NC_bigram, total_bigrams)

#Uso del modelo para calcular la probabilidad de una oración
def sentence_probability(sentence: str, bigram_probabilities: Dict[Tuple[str, str], float], P_unseen: float) -> float:
    tokens = ['<s>'] + sentence.lower().split() + ['</s>']
    probability_log_sum = 0.0
    for i in range(len(tokens) - 1):
        bigram = (tokens[i], tokens[i+1])
        prob = bigram_probabilities.get(bigram, P_unseen)
        probability_log_sum += math.log(prob) if prob > 0 else float('-inf')
    return math.exp(probability_log_sum)

# Ejemplo de uso
test_sentence = "el gato juega en el jardín"
prob = sentence_probability(test_sentence, bigram_probabilities, P_unseen_bigram)
print(f"La probabilidad de la oración '{test_sentence}' es: {prob}")

#Ajuste suavizado para conteos cero
def adjusted_zero_count_probability(NC: Dict[int, int], total_ngrams: int) -> float:
    N1 = NC.get(1, 0)
    P_zero = N1 / total_ngrams if total_ngrams > 0 else 0.0
    return P_zero

# Ajustamos la probabilidad para n-gramas con conteo cero
P_zero_bigram = adjusted_zero_count_probability(NC_bigram, total_bigrams)


¿Puedes explicar estos resultados?

In [None]:
## Tu respuesta

### Label Smoothing

**Label Smoothing** es una técnica de regularización aplicada principalmente en la fase de entrenamiento de **redes neuronales**, incluidos los **Modelos de Lenguaje Neuronal (NLMs)** y los **Modelos de Lenguaje Grandes (LLMs)**. Su objetivo principal es mejorar la generalización del modelo y prevenir el **overfitting** al suavizar las distribuciones de probabilidad de las etiquetas de salida. A continuación, entraremos en detalle sobre qué es **Label Smoothing**, por qué es importante en el entrenamiento de modelos de lenguaje, cómo se implementa y cómo se relaciona con los **LLMs**.

#### ¿Qué es Label Smoothing?

En el entrenamiento de un modelo de clasificación o un modelo de lenguaje basado en redes neuronales, las etiquetas de las clases objetivo a menudo se representan mediante una **distribución one-hot**. En una distribución **one-hot**, la clase correcta tiene una probabilidad de 1, mientras que todas las demás clases tienen una probabilidad de 0. Esta representación es simple y directa, pero tiene ciertas limitaciones que pueden llevar al modelo a **sobreajustarse** (overfitting) y convertirse en excesivamente confiado en sus predicciones.

**Label Smoothing** introduce una pequeña cantidad de incertidumbre en esta representación, reemplazando la distribución one-hot por una distribución suavizada, donde la clase correcta no tiene una probabilidad de 1, sino una probabilidad ligeramente menor, y las otras clases tienen pequeñas probabilidades no nulas. Esto reduce la confianza extrema del modelo en sus predicciones y hace que el entrenamiento sea más estable y generalice mejor a los datos de prueba.


#### ¿Por qué es necesario el Label Smoothing?

En los modelos de lenguaje y modelos de clasificación tradicionales, usar una distribución one-hot puede llevar a varios problemas:

1. **Confianza excesiva del Modelo**: Al entrenar un modelo con una distribución one-hot, el modelo puede volverse extremadamente confiado en sus predicciones, asignando una probabilidad cercana a 1 para la clase predicha. Esto puede ser perjudicial cuando se presentan datos fuera del conjunto de entrenamiento, ya que el modelo no tiene en cuenta la incertidumbre inherente en los datos.

2. **Overfitting**: La confianza excesiva en las predicciones de entrenamiento puede llevar a que el modelo **se sobreajuste** a los datos de entrenamiento, es decir, el modelo aprende las particularidades de los datos de entrenamiento en lugar de generalizar bien a nuevos datos.

3. **Errores en las etiquetas**: En algunos conjuntos de datos, las etiquetas pueden no ser completamente correctas debido a errores de etiquetado. Un modelo entrenado con una distribución one-hot no es capaz de manejar esta incertidumbre y puede sobreajustarse a las etiquetas incorrectas.

4. **Entropía cruzada y gradientes explosivos**: Las distribuciones one-hot tienen una entropía muy baja, lo que puede llevar a gradientes extremos y dificultades en el entrenamiento del modelo.

El **Label Smoothing** se utiliza para mitigar estos problemas al suavizar la distribución de las etiquetas, introduciendo una pequeña probabilidad para las clases incorrectas y reduciendo la probabilidad de la clase correcta.



#### ¿Cómo funciona el Label Smoothing?

El **Label Smoothing** modifica la representación one-hot de las etiquetas objetivo para que la clase correcta no tenga una probabilidad de 1, sino una probabilidad ligeramente menor. El resto de la probabilidad se distribuye entre las otras clases, lo que reduce la confianza extrema del modelo.

#### Fórmula de Label Smoothing

Supongamos que tenemos un vocabulario de tamaño $V$ en un problema de clasificación o en un modelo de lenguaje. La representación original **one-hot** de la etiqueta correcta $w_n$ es:

$$
P_{\text{one-hot}}(w_n) =
\begin{cases}
1, & \text{si } w_n \text{ es la palabra correcta} \\
0, & \text{si } w_n \text{ no es la palabra correcta}
\end{cases}
$$

Con **Label Smoothing**, suavizamos esta distribución mediante un pequeño valor $\epsilon$ (por ejemplo, 0.1), que controla el grado de suavizado. La fórmula ajustada para la distribución suavizada es:

$$
P_{\text{smoothed}}(w_n) = (1 - \epsilon) \cdot P_{\text{one-hot}}(w_n) + \frac{\epsilon}{V}
$$

Donde:
- **$P_{\text{one-hot}}(w_n)$** es la distribución one-hot original.
- **$\epsilon$** es el valor de suavizado que determina cuánto de la probabilidad se redistribuye entre las clases incorrectas.
- **$V$** es el tamaño del vocabulario o el número total de clases.

Esto implica que la probabilidad de la palabra correcta será **$(1 - \epsilon)$**, y la probabilidad restante **$\frac{\epsilon}{V}$** se distribuye uniformemente entre todas las palabras del vocabulario.

#### Ejemplo

Supongamos que tenemos un modelo de lenguaje con un vocabulario de tamaño $V = 10000$ y un valor de suavizado $\epsilon = 0.1$. En una distribución one-hot, la palabra correcta tiene una probabilidad de 1, y todas las demás tienen una probabilidad de 0. Con Label Smoothing, la probabilidad de la palabra correcta se reduce a:

$$
P_{\text{correcto}} = 1 - \epsilon = 0.9
$$

La probabilidad para cada palabra incorrecta se ajusta a:

$$
P_{\text{incorrecto}} = \frac{\epsilon}{V} = \frac{0.1}{10000} = 0.00001
$$

De este modo, el modelo no está completamente seguro de que la palabra correcta sea la única opción, lo que introduce un grado de incertidumbre y mejora la generalización.

#### Beneficios del Label Smoothing

**Label Smoothing** ofrece varias ventajas que mejoran tanto el entrenamiento como la generalización de los modelos:

#### 1. **Mejora de la generalización**
Al suavizar las etiquetas, el modelo evita el overfitting al no volverse excesivamente confiado en las predicciones de entrenamiento. Esta reducción de la confianza extrema permite que el modelo generalice mejor a los datos de prueba.

#### 2. **Manejo de errores en las etiquetas**
En conjuntos de datos grandes y ruidosos, es posible que haya errores de etiquetado. Por ejemplo, algunas palabras pueden estar mal etiquetadas en problemas de modelado de lenguaje. **Label Smoothing** ayuda a mitigar el impacto de estos errores, ya que introduce incertidumbre en la predicción, reduciendo la penalización del modelo por predecir una palabra incorrecta debido a un error de etiquetado.

#### 3. **Prevención del overfitting**
Al suavizar la distribución objetivo, el modelo no se ajusta tanto a las peculiaridades del conjunto de entrenamiento, lo que ayuda a reducir el riesgo de **sobreajuste**. El modelo no asigna una probabilidad del 100% a ninguna clase, lo que introduce robustez contra datos que podrían estar ligeramente fuera de la distribución del conjunto de entrenamiento.

#### 4. **Entrenamiento estable**
El **Label Smoothing** mejora la estabilidad del entrenamiento al reducir las fluctuaciones en las actualizaciones de los gradientes. Las distribuciones one-hot puras pueden dar lugar a gradientes explosivos, lo que dificulta el entrenamiento. Al suavizar las etiquetas, los gradientes se vuelven más suaves y el entrenamiento es más estable.

#### 5. **Evita la confianza extrema en los LLMs**
Los **Modelos de Lenguaje Grandes (LLMs)** como **GPT** y **BERT** suelen trabajar con vocabularios masivos y tareas complejas, donde la precisión de las predicciones y la capacidad de generalización son cruciales. **Label Smoothing** evita que los modelos se vuelvan extremadamente confiados en predicciones incorrectas, lo que es vital en escenarios de predicción secuencial como la generación de texto, donde una predicción incorrecta puede tener un efecto dominó sobre las siguientes predicciones.


#### Relación entre Label Smoothing y los modelos de lenguaje grandes (LLMs)

El **Label Smoothing** ha sido adoptado ampliamente en los **Modelos de Lenguaje Grandes (LLMs)** debido a su capacidad para mejorar el rendimiento de los modelos en una variedad de tareas. A continuación, explicamos cómo se integra esta técnica en los LLMs:

#### 1. **Mejora de la generalización en LLMs**

Los **LLMs** como **GPT** o **BERT** se entrenan en grandes corpus de texto y tienen que aprender representaciones de lenguaje que generalicen bien a contextos nuevos. El **Label Smoothing** ayuda a evitar que el modelo se sobreajuste a las particularidades del conjunto de entrenamiento, introduciendo una pequeña cantidad de incertidumbre en la predicción, lo que le permite adaptarse mejor a ejemplos no vistos.

Por ejemplo, en el contexto de **predicción de la siguiente palabra** (tarea común en los LLMs), el modelo no debe volverse extremadamente confiado en predecir una palabra específica cuando puede haber múltiples palabras válidas en ese contexto. El **Label Smoothing** permite que el modelo mantenga cierta flexibilidad en sus predicciones.

#### 2. **Manejo de vocabularios extensos**

Los **LLMs** suelen manejar vocabularios masivos que pueden incluir decenas de miles o millones de palabras o

 tokens. En tales casos, la representación one-hot estándar de las etiquetas puede no ser adecuada debido a la sobreconfianza del modelo en las etiquetas correctas. El **Label Smoothing** distribuye una pequeña cantidad de probabilidad entre las palabras no etiquetadas, lo que es crucial para la **robustez** del modelo en entornos de predicción con vocabularios grandes.

#### 3. **Mejor generalización para tareas de transferencia**

Los **LLMs** a menudo se entrenan en tareas de pre-entrenamiento general (como enmascarar palabras en **BERT** o predecir la siguiente palabra en **GPT**), y luego se **ajustan finamente (fine-tuned)** en tareas específicas. El **Label Smoothing** permite que los LLMs generalicen mejor durante este ajuste fino, lo que mejora el rendimiento en tareas específicas como la clasificación de texto, la traducción automática o el análisis de sentimientos.

#### 4. **Mejor rendimiento en tareas multimodales**

Los LLMs que integran información de múltiples dominios (como texto e imágenes, en el caso de modelos multimodales) también pueden beneficiarse de **Label Smoothing**. Cuando los modelos tienen que integrar representaciones de diferentes modalidades, es probable que haya incertidumbre en las predicciones. El **Label Smoothing** permite que los modelos mantengan flexibilidad en este contexto, mejorando la calidad de las predicciones en tareas complejas.


#### Implementación de Label Smoothing en LLMs

En la práctica, implementar **Label Smoothing** en modelos como **Transformers** o **GPT** es sencillo y generalmente se realiza durante el cálculo de la **pérdida de entropía cruzada**. En lugar de comparar la predicción del modelo con una distribución one-hot estricta, se compara con una **distribución suavizada**. 

El **Label Smoothing** se integra directamente en la función de pérdida, modificando cómo se mide la discrepancia entre la predicción del modelo y la etiqueta real.


El **Label Smoothing** es una técnica simple pero poderosa para mejorar la generalización y estabilidad de los **Modelos de Lenguaje Neuronal (NLMs)** y los **Modelos de Lenguaje Grandes (LLMs)**. Al suavizar la representación one-hot de las etiquetas, se introducen pequeñas probabilidades en las clases incorrectas, lo que reduce la confianza extrema del modelo y mejora su capacidad para manejar datos ruidosos y errores en las etiquetas.

En los **LLMs**, el **Label Smoothing** es particularmente útil para manejar vocabularios extensos y tareas de predicción secuencial, donde la incertidumbre en las predicciones es inherente. Al reducir el overfitting y mejorar la estabilidad del entrenamiento, el **Label Smoothing** se ha convertido en una técnica estándar para entrenar modelos de lenguaje de última generación.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

import numpy as np
import random

from typing import List, Tuple, Dict

#  Configuración de semillas aleatorias
def set_seed(seed: int = 42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

set_seed()
#Preparación del Corpus
corpus = [
    "el gato está en la casa",
    "el perro está en el jardín",
    "la casa es grande",
    "el gato y el perro son amigos",
    "el jardín tiene flores",
    "la casa tiene un jardín",
    "el perro juega en el jardín",
    "el gato duerme en la casa",
    "la casa y el jardín son hermosos"
]

# Tokenización y construcción del vocabulario
def tokenize_corpus(corpus: List[str]) -> List[List[str]]:
    tokenized_corpus = []
    for sentence in corpus:
        tokens = sentence.lower().split()
        tokenized_corpus.append(tokens)
    return tokenized_corpus

tokenized_corpus = tokenize_corpus(corpus)

# Construcción del vocabulario
def build_vocab(tokenized_corpus: List[List[str]]) -> Tuple[Dict[str, int], Dict[int, str]]:
    vocab = {'<PAD>': 0, '<UNK>': 1}
    for tokens in tokenized_corpus:
        for token in tokens:
            if token not in vocab:
                vocab[token] = len(vocab)
    inv_vocab = {idx: token for token, idx in vocab.items()}
    return vocab, inv_vocab

vocab, inv_vocab = build_vocab(tokenized_corpus)
vocab_size = len(vocab)
print(f"Tamaño del vocabulario: {vocab_size}")

#  Creación del Dataset y DataLoader
class LanguageModelDataset(Dataset):
    def __init__(self, tokenized_corpus: List[List[str]], vocab: Dict[str, int], context_size: int = 2):
        self.data = []
        self.vocab = vocab
        self.context_size = context_size
        for tokens in tokenized_corpus:
            indexed_tokens = [vocab.get(token, vocab['<UNK>']) for token in tokens]
            for i in range(context_size, len(indexed_tokens)):
                context = indexed_tokens[i - context_size:i]
                target = indexed_tokens[i]
                self.data.append((context, target))
                
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        context, target = self.data[idx]
        return torch.tensor(context, dtype=torch.long), torch.tensor(target, dtype=torch.long)

context_size = 2  # Usaremos bigramas como contexto
dataset = LanguageModelDataset(tokenized_corpus, vocab, context_size)
dataloader = DataLoader(dataset, batch_size=4, shuffle=True)

# Definición del modelo de lenguaje neuronal
class NeuralLanguageModel(nn.Module):
    def __init__(self, vocab_size: int, embedding_dim: int, context_size: int):
        super(NeuralLanguageModel, self).__init__()
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.linear1 = nn.Linear(context_size * embedding_dim, 128)
        self.activation = nn.ReLU()
        self.linear2 = nn.Linear(128, vocab_size)
        
    def forward(self, inputs):
        embeds = self.embeddings(inputs).view(inputs.size(0), -1)
        out = self.linear1(embeds)
        out = self.activation(out)
        out = self.linear2(out)
        return out

embedding_dim = 50
model = NeuralLanguageModel(vocab_size, embedding_dim, context_size)

# Definición de la función de pérdida con Label Smoothing
class LabelSmoothingLoss(nn.Module):
    def __init__(self, label_smoothing: float, vocab_size: int, ignore_index: int = -100):
        super(LabelSmoothingLoss, self).__init__()
        assert 0.0 <= label_smoothing < 1.0
        self.label_smoothing = label_smoothing
        self.vocab_size = vocab_size
        self.ignore_index = ignore_index
        
    def forward(self, pred, target):
        # pred: [batch_size, vocab_size]
        # target: [batch_size]
        
        confidence = 1.0 - self.label_smoothing
        smoothing = self.label_smoothing / (self.vocab_size - 1)
        
        true_dist = torch.zeros_like(pred)
        true_dist.fill_(smoothing)
        true_dist.scatter_(1, target.data.unsqueeze(1), confidence)
        
        # Aplicamos log_softmax a las predicciones
        pred = nn.functional.log_softmax(pred, dim=1)
        
        # Calculamos la pérdida
        loss = -torch.sum(pred * true_dist, dim=1)
        
        # Ignoramos los índices especificados
        if self.ignore_index >= 0:
            mask = (target != self.ignore_index).float()
            loss = loss * mask
            loss = loss.sum() / mask.sum()
        else:
            loss = loss.mean()
        
        return loss
# Entrenamiento del modelo con y sin Label Smoothing

def train_model(model, dataloader, criterion, optimizer, num_epochs: int = 5):
    model.train()
    for epoch in range(num_epochs):
        total_loss = 0.0
        for context, target in dataloader:
            optimizer.zero_grad()
            output = model(context)
            loss = criterion(output, target)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        avg_loss = total_loss / len(dataloader)
        print(f"Epoch {epoch+1}/{num_epochs}, Pérdida promedio: {avg_loss:.4f}")

def evaluate_model(model, dataloader):
    model.eval()
    total_loss = 0.0
    with torch.no_grad():
        for context, target in dataloader:
            output = model(context)
            predicted = torch.argmax(output, dim=1)
            correct = (predicted == target).sum().item()
            total_loss += correct
    accuracy = total_loss / len(dataloader.dataset)
    print(f"Precisión del modelo: {accuracy * 100:.2f}%")

# Entrenamiento sin Label Smoothing
# Creamos una instancia del modelo
model_no_smoothing = NeuralLanguageModel(vocab_size, embedding_dim, context_size)

# Definimos el criterio y el optimizador
criterion_ce = nn.CrossEntropyLoss()
optimizer = optim.Adam(model_no_smoothing.parameters(), lr=0.001)

print("Entrenamiento sin Label Smoothing")
train_model(model_no_smoothing, dataloader, criterion_ce, optimizer, num_epochs=10)
evaluate_model(model_no_smoothing, dataloader)

#Entrenamiento con Label Smoothing
# Creamos una instancia del modelo
model_with_smoothing = NeuralLanguageModel(vocab_size, embedding_dim, context_size)

# Definimos el criterio con Label Smoothing y el optimizador
label_smoothing = 0.1
criterion_ls = LabelSmoothingLoss(label_smoothing=label_smoothing, vocab_size=vocab_size)
optimizer = optim.Adam(model_with_smoothing.parameters(), lr=0.001)

print("\nEntrenamiento con Label Smoothing")
train_model(model_with_smoothing, dataloader, criterion_ls, optimizer, num_epochs=10)
evaluate_model(model_with_smoothing, dataloader)


### Soft Attention

La **Soft Attention** (atención suavizada) es uno de los componentes clave en los modelos de lenguaje modernos, como los **Transformers** y los **Modelos de Lenguaje Grandes (LLMs)**, incluidos **GPT**, **BERT** y otros. Introducido originalmente en el contexto de la traducción automática con redes neuronales recurrentes (RNN) por **Bahdanau et al.** en 2015, el mecanismo de atención ha evolucionado y se ha convertido en una herramienta crucial para capturar dependencias contextuales en secuencias de datos.

#### Contexto general del mecanismo de atención

El concepto de **atención** en redes neuronales tiene su origen en la idea de que, al procesar secuencias largas (por ejemplo, una oración), no todas las palabras son igualmente importantes para generar la siguiente palabra o el siguiente paso en la secuencia. El mecanismo de atención permite que un modelo preste **atención diferencial** a diferentes partes de la entrada, seleccionando de manera más eficiente la información relevante para cada paso del procesamiento.

El **Soft Attention** es una versión suavizada del mecanismo de atención en la que el modelo asigna una **distribución de probabilidades** (a través de una función **softmax**) sobre todas las entradas. Así, en lugar de enfocarse en una única palabra o token, como ocurre con la atención dura (**hard attention**), el modelo distribuye su atención sobre varias palabras, asignando pesos diferentes a cada una en función de su relevancia para la tarea en curso.

### ¿Cómo funciona el Soft Attention?

El **Soft Attention** asigna **pesos** a diferentes palabras en una secuencia de entrada basándose en su relevancia en un contexto particular. Estos pesos se utilizan para calcular una combinación ponderada de los vectores de representación de las palabras, lo que permite al modelo tomar decisiones considerando una parte más amplia del contexto.

#### Componentes clave de Soft Attention

El mecanismo de **Soft Attention** tiene tres componentes principales:

1. **Query (Consulta)**: Es una representación del token que está siendo procesado y que determina qué partes de la secuencia anterior son relevantes. En otras palabras, la query busca identificar la información clave en los otros tokens.
   
2. **Key (Clave)**: Es una representación del contexto global o de los tokens que están siendo considerados como relevantes en el proceso de atención. Las **keys** permiten determinar la relación de similitud entre el token actual (query) y los tokens anteriores en la secuencia.

3. **Value (Valor)**: Son los vectores de las palabras o tokens en la secuencia que se consideran después de calcular los pesos de atención. Los **values** se combinan de acuerdo con la atención asignada para producir una representación ponderada del contexto.

#### Cálculo de la atención suavizada

La atención suavizada (soft attention) se calcula como una ponderación de los valores asociados a las claves, donde la ponderación está determinada por una función **softmax** aplicada sobre la similitud entre las consultas y las claves. Esta operación asegura que el modelo pueda prestar atención a diferentes partes de la secuencia con diferentes grados de importancia.

La ecuación de **Soft Attention** en los Transformers se expresa como:

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

Donde:
- **$Q$** es la matriz de **queries** (consultas).
- **$K$** es la matriz de **keys** (claves).
- **$V$** es la matriz de **values** (valores).
- **$d_k$** es la dimensionalidad de las claves y consultas.
- **$\text{softmax}$** asegura que las ponderaciones de atención sumen 1, proporcionando una distribución de probabilidad sobre los tokens.

Este proceso calcula una combinación ponderada de los valores $V$ basándose en las similitudes entre los queries y las keys, lo que permite que el modelo determine qué partes del contexto son más relevantes para la tarea de predicción.

#### Funcionamiento por pasos del Soft Attention

1. **Cálculo de la similitud (puntaje de atención)**: Primero, se calcula la similitud entre las **queries** y las **keys** para determinar la relevancia de cada palabra o token en la secuencia. Esta similitud se calcula como el producto escalar entre las matrices de consultas ($Q$) y las claves ($K$):

   $$
   \text{Similitud} = \frac{QK^T}{\sqrt{d_k}}
   $$

   Esta operación da lugar a una matriz de puntuaciones que mide la relación de cada consulta con las claves.

2. **Normalización con softmax**: Las puntuaciones de similitud se normalizan utilizando la función **softmax**. Esto convierte los valores en una distribución de probabilidades, asegurando que la suma de los pesos de atención sea 1:

   $$
   \alpha_{ij} = \frac{\exp(\text{Similitud}_{ij})}{\sum_{k} \exp(\text{Similitud}_{ik})}
   $$

   Aquí, $\alpha_{ij}$ representa la cantidad de atención que se asigna a la palabra $j$ en relación con la palabra $i$.

3. **Combinación ponderada**: Una vez que se han calculado los pesos de atención, se utiliza esta distribución de atención para ponderar los **values** ($V$), lo que da como resultado una representación contextualizada para cada palabra en la secuencia:

   $$
   \text{Atención Suavizada}(Q, K, V) = \sum_{i} \alpha_{ij} V_j
   $$

   Esta representación final es una combinación ponderada de los vectores de las palabras, donde los pesos se han asignado según la relevancia de las palabras anteriores para el token actual.

#### Escalado por $\sqrt{d_k}$

El factor de **escalado** $\sqrt{d_k}$ es crucial en los Transformers para evitar que los productos escalares (similaridades) sean demasiado grandes en dimensiones altas, lo que podría llevar a valores de softmax extremadamente pequeños (o grandes) que dificultarían la capacidad del modelo de asignar atención de manera eficiente. Este escalado estabiliza los valores de atención y asegura que los gradientes fluyan de manera adecuada durante el entrenamiento.

### Soft Attention en modelos de lenguaje y LLMs

El **Soft Attention** es fundamental en la forma en que los **Modelos de Lenguaje Grandes (LLMs)**, como **GPT**, **BERT**, y **T5**, procesan el texto. En particular, estos modelos dependen de la atención suavizada para modelar eficientemente **relaciones a largo plazo** entre palabras, lo que es crucial para tareas como la traducción, la generación de texto y el resumen automático.

#### 1. **Transformers y Soft Attention**

Los **Transformers** son la arquitectura que más ha aprovechado el mecanismo de **Soft Attention**. Los Transformers están diseñados para procesar secuencias en paralelo, en lugar de hacerlo secuencialmente como en los **RNNs**. Esto permite que los modelos basados en Transformers capturen dependencias entre palabras sin importar cuán lejos estén en la secuencia.

El modelo Transformer está compuesto por múltiples capas de atención, cada una de las cuales calcula la **atención multi-cabezal** (multi-head attention), una extensión del soft attention. Cada cabeza de atención puede enfocarse en diferentes aspectos de la secuencia, lo que permite al modelo aprender relaciones complejas.

##### Atención multi-cabezal

La **atención multi-cabezal** divide las consultas, claves y valores en diferentes "cabezas" de atención, lo que permite que el modelo se enfoque en diferentes partes del contexto simultáneamente:

$$
\text{Multi-Head Attention}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W_O
$$

Cada cabeza de atención es simplemente una aplicación independiente del mecanismo de atención, que luego se concatena para formar una representación completa del contexto.

#### 2. **Soft Attention en GPT y BERT**

Los modelos de lenguaje como **GPT** y **BERT** utilizan **Soft Attention** para aprender relaciones entre tokens en una secuencia de manera eficiente. Ambos modelos se basan en múltiples capas de **atención multi-cabezal**, pero tienen diferencias en la forma en que aplican la atención:

- **GPT**: Utiliza una variante causal de la atención, donde el modelo solo puede atender a los tokens anteriores en la secuencia, lo que lo hace adecuado para tareas de generación de texto autoregresivo.
- **BERT**: Utiliza atención bidireccional, donde el modelo puede atender tanto a los tokens anteriores como a los posteriores en la secuencia, lo que lo hace ideal para tareas de comprensión del lenguaje como el análisis de texto o la clasificación.

#### 3. **Captura de dependencias a largo plazo**

El **Soft Attention** permite que los **LLMs** capturen dependencias **a largo plazo** en el texto. Por ejemplo, en una oración larga, la palabra relevante para determinar el significado de una palabra actual puede estar muy lejos. La atención suavizada permite que el modelo asigne diferentes grados de relevancia a palabras cercanas y distantes, capturando con precisión el contexto necesario para una predicción o generación precisa.

#### 4. **Preentrenamiento y ajuste Fino (Fine-tuning)**

En los **LLMs**, como GPT y BERT, el mecanismo de **Soft Attention** juega un papel clave durante el **preentrenamiento** y el **ajuste fino**. Durante el preentrenamiento, el modelo aprende a asignar atención a diferentes partes del texto en una variedad de tareas sin supervisión. Luego, en el ajuste fino, el modelo puede ajustar los pesos de atención para tareas específicas como la clasificación de texto, la respuesta a preguntas o la traducción automática.

#### Ventajas del Soft Attention

1. **Mejora la captura del contexto**: Soft Attention permite que el modelo considere tanto las palabras cercanas como las más lejanas con diferentes niveles de importancia, lo que mejora la capacidad de capturar dependencias contextuales complejas.
   
2. **Procesamiento en paralelo**: A diferencia de los modelos secuenciales como los RNNs, Soft Attention en los Transformers permite el procesamiento en paralelo, lo que hace que el entrenamiento y la inferencia sean mucho más rápidos y eficientes.

3. **Flexibilidad**: El Soft Attention permite ajustar el foco de atención a diferentes partes de la secuencia, lo que lo hace adecuado para tareas de lenguaje natural que requieren comprensión tanto local como global.

4. **Generalización a tareas diferentes**: Al preentrenar los LLMs utilizando Soft Attention, el modelo puede ser ajustado para diversas tareas de procesamiento de lenguaje natural (NLP) sin necesidad de reentrenar desde cero, lo que mejora la eficiencia del ajuste fino.



In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

import numpy as np
import random

from typing import List, Tuple, Dict

# Configuración de semillas aleatorias
def set_seed(seed: int = 42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

set_seed()

# . Preparación de los datos
# Pares de oraciones (español, inglés)
data = [
    ("hola", "hello"),
    ("¿cómo estás?", "how are you?"),
    ("buenos días", "good morning"),
    ("buenas noches", "good night"),
    ("gracias", "thank you"),
    ("lo siento", "i am sorry"),
    ("sí", "yes"),
    ("no", "no"),
    ("por favor", "please"),
    ("hasta luego", "see you later")
]
# Preprocesamiento y tokenización
def tokenize(sentence: str) -> List[str]:
    return sentence.lower().split()

# Construcción de vocabularios
def build_vocab(sentences: List[str]) -> Tuple[Dict[str, int], Dict[int, str]]:
    vocab = {'<PAD>': 0, '<SOS>': 1, '<EOS>': 2, '<UNK>': 3}
    for sentence in sentences:
        for token in tokenize(sentence):
            if token not in vocab:
                vocab[token] = len(vocab)
    inv_vocab = {idx: token for token, idx in vocab.items()}
    return vocab, inv_vocab

# Crear listas de oraciones en español e inglés
sentences_es = [pair[0] for pair in data]
sentences_en = [pair[1] for pair in data]

# Construir vocabularios
vocab_es, inv_vocab_es = build_vocab(sentences_es)
vocab_en, inv_vocab_en = build_vocab(sentences_en)

print(f"Vocabulario Español: {vocab_es}")
print(f"Vocabulario Inglés: {vocab_en}")

# Creación del Dataset y DataLoader

class TranslationDataset(Dataset):
    def __init__(self, data: List[Tuple[str, str]], vocab_src: Dict[str, int], vocab_tgt: Dict[str, int]):
        self.pairs = data
        self.vocab_src = vocab_src
        self.vocab_tgt = vocab_tgt
        
    def __len__(self):
        return len(self.pairs)
    
    def __getitem__(self, idx):
        src_sentence, tgt_sentence = self.pairs[idx]
        src_tokens = [self.vocab_src.get(token, self.vocab_src['<UNK>']) for token in tokenize(src_sentence)]
        tgt_tokens = [self.vocab_tgt['<SOS>']] + [self.vocab_tgt.get(token, self.vocab_tgt['<UNK>']) for token in tokenize(tgt_sentence)] + [self.vocab_tgt['<EOS>']]
        return torch.tensor(src_tokens, dtype=torch.long), torch.tensor(tgt_tokens, dtype=torch.long)

dataset = TranslationDataset(data, vocab_es, vocab_en)

# Definición de la función de Collate para el DataLoader
# La función collate_fn aplica padding a las secuencias para que todas tengan la misma longitud en cada batch.
def collate_fn(batch):
    src_batch, tgt_batch = zip(*batch)
    src_lengths = [len(s) for s in src_batch]
    tgt_lengths = [len(t) for t in tgt_batch]
    
    src_padded = nn.utils.rnn.pad_sequence(src_batch, padding_value=vocab_es['<PAD>'], batch_first=True)
    tgt_padded = nn.utils.rnn.pad_sequence(tgt_batch, padding_value=vocab_en['<PAD>'], batch_first=True)
    
    return src_padded, torch.tensor(src_lengths), tgt_padded, torch.tensor(tgt_lengths)

dataloader = DataLoader(dataset, batch_size=2, shuffle=True, collate_fn=collate_fn)

# Definición del modelo con Soft Attention
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim):
        super(Encoder, self).__init__()
        self.embedding = nn.Embedding(input_dim, emb_dim)
        self.rnn = nn.GRU(emb_dim, hid_dim, batch_first=True)
        
    def forward(self, src, src_lengths):
        embedded = self.embedding(src)
        packed = nn.utils.rnn.pack_padded_sequence(embedded, src_lengths.cpu(), batch_first=True, enforce_sorted=False)
        outputs, hidden = self.rnn(packed)
        outputs, _ = nn.utils.rnn.pad_packed_sequence(outputs, batch_first=True)
        return outputs, hidden  # outputs: [batch_size, src_len, hid_dim], hidden: [1, batch_size, hid_dim]

class Attention(nn.Module):
    def __init__(self, hid_dim):
        super(Attention, self).__init__()
        self.attn = nn.Linear(hid_dim * 2, hid_dim)
        self.v = nn.Linear(hid_dim, 1, bias=False)
        
    def forward(self, hidden, encoder_outputs, mask):
        # hidden: [batch_size, hid_dim]
        # encoder_outputs: [batch_size, src_len, hid_dim]
        src_len = encoder_outputs.size(1)
        
        # Repetimos el hidden state para cada paso de la secuencia de entrada
        hidden = hidden.unsqueeze(1).repeat(1, src_len, 1)  # [batch_size, src_len, hid_dim]
        
        # Calculamos la energía de atención
        energy = torch.tanh(self.attn(torch.cat((hidden, encoder_outputs), dim=2)))  # [batch_size, src_len, hid_dim]
        
        # Calculamos los pesos de atención
        attention = self.v(energy).squeeze(2)  # [batch_size, src_len]
        
        # Aplicamos la máscara
        attention = attention.masked_fill(mask.squeeze(1) == 0, -1e10)
        
        # Obtenemos la distribución de atención
        return nn.functional.softmax(attention, dim=1)  # [batch_size, src_len]


class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, attention):
        super(Decoder, self).__init__()
        self.output_dim = output_dim
        self.embedding = nn.Embedding(output_dim, emb_dim)
        self.attention = attention
        self.rnn = nn.GRU(hid_dim + emb_dim, hid_dim, batch_first=True)
        self.fc_out = nn.Linear(hid_dim * 2 + emb_dim, output_dim)
        
    def forward(self, input, hidden, encoder_outputs, mask):
        # input: [batch_size]
        # hidden: [1, batch_size, hid_dim]
        # encoder_outputs: [batch_size, src_len, hid_dim]
        input = input.unsqueeze(1)  # [batch_size, 1]
        embedded = self.embedding(input)  # [batch_size, 1, emb_dim]
        
        attn_weights = self.attention(hidden[-1], encoder_outputs, mask)  # [batch_size, src_len]
        attn_weights = attn_weights.unsqueeze(1)  # [batch_size, 1, src_len]
        context = torch.bmm(attn_weights, encoder_outputs)  # [batch_size, 1, hid_dim]
        
        rnn_input = torch.cat((embedded, context), dim=2)  # [batch_size, 1, emb_dim + hid_dim]
        output, hidden = self.rnn(rnn_input, hidden)
        
        output = output.squeeze(1)  # [batch_size, hid_dim]
        context = context.squeeze(1)  # [batch_size, hid_dim]
        embedded = embedded.squeeze(1)  # [batch_size, emb_dim]
        output = self.fc_out(torch.cat((output, context, embedded), dim=1))  # [batch_size, output_dim]
        
        return output, hidden, attn_weights.squeeze(1)  # output: [batch_size, output_dim]

# Definición de la máscara de atención
def create_mask(src, src_lengths):
    mask = (src != vocab_es['<PAD>']).unsqueeze(1)  # [batch_size, 1, src_len]
    return mask  # [batch_size, 1, src_len]

# Entrenamiento del modelo

def train(model, dataloader, optimizer, criterion, clip):
    model.train()
    epoch_loss = 0
    for src, src_lengths, tgt, tgt_lengths in dataloader:
        optimizer.zero_grad()
        src, tgt = src.to(device), tgt.to(device)
        src_lengths, tgt_lengths = src_lengths.to(device), tgt_lengths.to(device)
        
        encoder_outputs, hidden = model.encoder(src, src_lengths)
        mask = create_mask(src, src_lengths).to(device)
        
        input = tgt[:, 0]  # Primer token (<SOS>)
        outputs = torch.zeros(tgt.size(0), tgt.size(1) - 1, model.decoder.output_dim).to(device)
        
        for t in range(1, tgt.size(1)):
            output, hidden, _ = model.decoder(input, hidden, encoder_outputs, mask)
            outputs[:, t - 1, :] = output
            top1 = output.argmax(1)
            input = tgt[:, t]  # Teacher forcing
            
        # Ignoramos el primer token (<SOS>) en la pérdida
        output_dim = outputs.size(-1)
        outputs = outputs.view(-1, output_dim)
        tgt = tgt[:, 1:].contiguous().view(-1)
        loss = criterion(outputs, tgt)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        optimizer.step()
        epoch_loss += loss.item()
    return epoch_loss / len(dataloader)

def evaluate(model, dataloader, criterion):
    model.eval()
    epoch_loss = 0
    with torch.no_grad():
        for src, src_lengths, tgt, tgt_lengths in dataloader:
            src, tgt = src.to(device), tgt.to(device)
            src_lengths, tgt_lengths = src_lengths.to(device), tgt_lengths.to(device)
            
            encoder_outputs, hidden = model.encoder(src, src_lengths)
            mask = create_mask(src, src_lengths).to(device)
            
            input = tgt[:, 0]  # Primer token (<SOS>)
            outputs = torch.zeros(tgt.size(0), tgt.size(1) - 1, model.decoder.output_dim).to(device)
            
            for t in range(1, tgt.size(1)):
                output, hidden, _ = model.decoder(input, hidden, encoder_outputs, mask)
                outputs[:, t - 1, :] = output
                top1 = output.argmax(1)
                input = top1  # Sin teacher forcing
                
            output_dim = outputs.size(-1)
            outputs = outputs.view(-1, output_dim)
            tgt = tgt[:, 1:].contiguous().view(-1)
            loss = criterion(outputs, tgt)
            epoch_loss += loss.item()
    return epoch_loss / len(dataloader)

# Configuración del modelo y entrenamiento
# Configuración del dispositivo (CPU o GPU)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Tamaños y parámetros
INPUT_DIM = len(vocab_es)
OUTPUT_DIM = len(vocab_en)
ENC_EMB_DIM = 64
DEC_EMB_DIM = 64
HID_DIM = 128
N_EPOCHS = 20
CLIP = 1

# Inicialización del modelo, criterio y optimizador
attn = Attention(HID_DIM)
enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM)
dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, attn)

model = nn.Module()
model.encoder = enc.to(device)
model.decoder = dec.to(device)

optimizer = optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss(ignore_index=vocab_en['<PAD>'])

# Entrenamiento del modelo
for epoch in range(N_EPOCHS):
    train_loss = train(model, dataloader, optimizer, criterion, CLIP)
    eval_loss = evaluate(model, dataloader, criterion)
    print(f"Epoch: {epoch+1}/{N_EPOCHS}, Pérdida de entrenamiento: {train_loss:.4f}, Pérdida de evaluación: {eval_loss:.4f}")

#Función para traducir nuevas oraciones
def translate_sentence(sentence, model, vocab_src, vocab_tgt, inv_vocab_tgt, max_len=10):
    model.eval()
    tokens = tokenize(sentence)
    src_indexes = [vocab_src.get(token, vocab_src['<UNK>']) for token in tokens]
    src_tensor = torch.tensor([src_indexes], dtype=torch.long).to(device)
    src_lengths = torch.tensor([len(src_indexes)]).to(device)
    
    with torch.no_grad():
        encoder_outputs, hidden = model.encoder(src_tensor, src_lengths)
        
    mask = create_mask(src_tensor, src_lengths).to(device)
    input = torch.tensor([vocab_tgt['<SOS>']], dtype=torch.long).to(device)
    outputs = []
    
    for _ in range(max_len):
        with torch.no_grad():
            output, hidden, _ = model.decoder(input, hidden, encoder_outputs, mask)
        top1 = output.argmax(1)
        if top1.item() == vocab_tgt['<EOS>']:
            break
        else:
            outputs.append(inv_vocab_tgt[top1.item()])
        input = top1
    
    return ' '.join(outputs)

# Prueba del modelo

test_sentences = [
    "hola",
    "buenos días",
    "gracias",
    "hasta pronto",
    "¿cómo estás?"
]

for sentence in test_sentences:
    translation = translate_sentence(sentence, model, vocab_es, vocab_en, inv_vocab_en)
    print(f"Oración en español: {sentence}")
    print(f"Traducción al inglés: {translation}\n")


### Más sobre la interpolación

La **interpolación** es una técnica matemática que consiste en combinar o estimar valores intermedios basados en un conjunto de datos. En el contexto de los **modelos de lenguaje**, la interpolación nos permite combinar probabilidades estimadas a partir de n-gramas de diferentes órdenes (unigramas, bigramas, trigramas, etc.), para obtener una probabilidad general más precisa. En lugar de depender exclusivamente de un solo n-grama, la interpolación distribuye la confianza entre diferentes niveles de contexto, lo que mejora la robustez del modelo.

#### El descuento en modelos de n-gramas

El **descuento** es una técnica empleada para ajustar las probabilidades de n-gramas en un modelo, especialmente cuando algunas secuencias de palabras nunca han sido observadas en los datos de entrenamiento. En lugar de asignarles una probabilidad de cero, que podría ser problemático en ciertas aplicaciones, se reduce ("descuenta") ligeramente la probabilidad de las secuencias observadas para dejar algo de probabilidad para los n-gramas no observados.

Este concepto es fundamental para modelos de n-gramas clásicos porque es frecuente encontrar combinaciones de palabras en los textos que no han sido vistas antes, especialmente cuando se trabaja con vocabularios grandes. El descuento ayuda a evitar que el modelo sea demasiado confiado en los datos vistos y permite generalizar mejor.

#### Tipos de Interpolación

#### 1. **Interpolación lineal simple**
En la **interpolación lineal simple**, combinamos las probabilidades de n-gramas de diferentes órdenes (unigramas, bigramas, trigramas, etc.) mediante un promedio ponderado. Los pesos de la interpolación, representados por $\lambda$, determinan cuánto contribuye cada n-grama a la probabilidad final.

La fórmula para estimar la probabilidad del trigrama $P(w_n | w_{n-2}w_{n-1})$ en función de los n-gramas de orden inferior es la siguiente:

$$
\hat{P}(w_n | w_{n-2}w_{n-1}) = \lambda_1 P(w_n) + \lambda_2 P(w_n | w_{n-1}) + \lambda_3 P(w_n | w_{n-2}w_{n-1})
$$

Donde:
- $P(w_n)$ es la probabilidad del unigram.
- $P(w_n | w_{n-1})$ es la probabilidad del bigrama.
- $P(w_n | w_{n-2}w_{n-1})$ es la probabilidad del trigrama.
- $\lambda_1$, $\lambda_2$, y $\lambda_3$ son los pesos que se asignan a cada una de estas probabilidades. Estos pesos deben sumar 1, es decir, $\lambda_1 + \lambda_2 + \lambda_3 = 1$.

#### 2. **Interpolación condicionada**
La interpolación condicionada es una versión más avanzada de la interpolación lineal simple. En este caso, los pesos $\lambda$ no son constantes, sino que dependen del contexto específico. Por ejemplo, si el modelo tiene una gran confianza en un determinado bigrama basado en el contexto, puede asignar más peso a la probabilidad del bigrama en lugar de al trigrama.

La fórmula para la interpolación condicionada es:

$$
\hat{P}(w_n | w_{n-2}w_{n-1}) = \lambda_1 (w_{n-2}w_{n-1}) P(w_n) + \lambda_2 (w_{n-2}w_{n-1}) P(w_n | w_{n-1}) + \lambda_3 (w_{n-2}w_{n-1}) P(w_n | w_{n-2}w_{n-1})
$$

Donde los $\lambda_1 (w_{n-2}w_{n-1})$, $\lambda_2 (w_{n-2}w_{n-1})$, y $\lambda_3 (w_{n-2}w_{n-1})$ son funciones que dependen del contexto $w_{n-2} w_{n-1}$.

#### ¿Cómo se establecen los pesos $\lambda$?

Los valores de $\lambda$ no se seleccionan arbitrariamente; se aprenden a partir de un **corpus reservado**, es decir, un subconjunto de datos separado del conjunto de entrenamiento que se utiliza exclusivamente para ajustar hiperparámetros. El objetivo es encontrar los valores de $\lambda$ que maximicen la probabilidad del corpus reservado.

Un enfoque común para aprender los valores óptimos de $\lambda$ es usar el **algoritmo de Expectation-Maximization (EM)**, un algoritmo iterativo que ajusta los pesos para maximizar la probabilidad observada en el conjunto reservado.

#### Interpolación en modelos de lenguaje

En los **modelos de lenguaje clásicos** basados en n-gramas, la interpolación es una técnica estándar para suavizar la probabilidad de secuencias de palabras no observadas o raramente observadas en los datos de entrenamiento. La idea es que, en lugar de depender exclusivamente de un n-grama de orden superior como un trigrama (que puede no estar presente en los datos), la interpolación permite combinar las probabilidades de unigrama, bigrama y trigrama para obtener una mejor estimación de la probabilidad de una secuencia.

Este método permite mejorar la generalización del modelo, ya que incluso si no se ha observado un trigrama específico, el modelo puede recurrir a la probabilidad del bigrama o incluso del unigrama, lo que mitiga el problema de datos escasos.

#### Interpolación en modelos de lenguaje neuronal (NLM)

Los **modelos de lenguaje neuronal** (NLMs) son más sofisticados que los modelos basados en n-gramas porque aprenden representaciones distribuidas de palabras (embeddings) y pueden capturar dependencias de largo alcance a través de capas profundas. Sin embargo, el concepto de interpolación sigue siendo relevante. Algunas aplicaciones en modelos neuronales incluyen:

1. **Interpolación de contextos**: Se puede combinar la información de palabras cercanas y lejanas dentro de una secuencia. Por ejemplo, una capa de un modelo neuronal puede enfocarse en el contexto inmediato, mientras que otra capa puede aprender representaciones basadas en palabras más alejadas en la secuencia.

2. **Interpolación entre capas**: En redes neuronales profundas, las representaciones intermedias de diferentes capas pueden interpolarse para mejorar la capacidad del modelo de capturar diferentes niveles de abstracción. Esto es similar a combinar n-gramas de diferentes órdenes, pero aplicado a los niveles de procesamiento de una red neuronal.

3. **Interpolación de modelos**: En algunos enfoques, se puede interpolar las salidas de varios modelos de lenguaje. Por ejemplo, se puede combinar la salida de un modelo más grande, que utiliza más contexto (como un Transformer), con la salida de un modelo más pequeño y eficiente, para lograr un equilibrio entre rendimiento y precisión.

#### Interpolación en modelos de lenguaje grandes (LLM)

En los **modelos de lenguaje grandes** (LLM), como GPT o BERT, la interpolación adquiere un significado más amplio:

1. **Mezcla de representaciones**: Los LLMs generalmente utilizan múltiples capas de atención para generar representaciones del texto. Se puede considerar que estas capas están interpolando la información proveniente de diferentes partes del texto, combinando la atención a palabras cercanas con la atención a palabras más distantes.

2. **Interpolación en entrenamientos mixtos**: En algunos casos, los LLMs son entrenados mediante la interpolación de diferentes tipos de datos o tareas. Por ejemplo, se puede interpolar entre tareas de clasificación de texto y generación de texto, lo que permite que el modelo aprenda una representación más robusta que generaliza mejor a múltiples tareas.

3. **Interpolación entre arquitecturas**: Algunos LLMs modernos combinan las ventajas de diferentes arquitecturas. Por ejemplo, se puede interpolar entre un modelo Transformer estándar y una variante que emplea mecanismos como atenciones locales o espaciales para optimizar la eficiencia y la precisión.


La **interpolación** es una técnica versátil y poderosa tanto en los modelos tradicionales de n-gramas como en los modelos más avanzados de lenguaje neuronal y los LLMs. En los primeros, la interpolación permite combinar probabilidades de diferentes órdenes para mejorar la estimación de secuencias de palabras raras o no observadas. En los modelos de lenguaje neuronal, se puede aplicar la interpolación a representaciones aprendidas en diferentes capas o contextos, mientras que en los LLMs, la interpolación permite mezclar información entre capas de atención o incluso entre diferentes arquitecturas para mejorar el rendimiento y la generalización.

La interpolación, por lo tanto, no solo suaviza la salida de los modelos de lenguaje, sino que también juega un rol crítico en la capacidad de los sistemas para generalizar en un amplio rango de tareas lingüísticas.

#### Aplicación del algoritmo EM en la interpolación de modelos de lenguaje

El **algoritmo de Expectation-Maximization (EM)** es un método iterativo utilizado para encontrar los valores óptimos de los parámetros en modelos probabilísticos, especialmente cuando hay variables latentes o no observadas. En el caso de la interpolación en modelos de lenguaje basados en n-gramas, el EM se utiliza para ajustar los pesos de interpolación $\lambda$ de manera que maximicen la probabilidad de un **corpus reservado**. 

Vamos a desglosar cómo se aplica el algoritmo EM para calcular estos pesos de interpolación en modelos de n-gramas.

#### Paso 1: Definición del problema

En la interpolación, estamos buscando los valores óptimos para los pesos $\lambda_1$, $\lambda_2$, y $\lambda_3$ en la siguiente ecuación para un trigrama:

$$
\hat{P}(w_n | w_{n-2}w_{n-1}) = \lambda_1 P(w_n) + \lambda_2 P(w_n | w_{n-1}) + \lambda_3 P(w_n | w_{n-2}w_{n-1})
$$

El objetivo del algoritmo EM es encontrar los valores de $\lambda_1$, $\lambda_2$, y $\lambda_3$ que maximicen la probabilidad del conjunto reservado de datos, es decir, el subconjunto de datos que hemos separado para evaluar el rendimiento del modelo y ajustar los parámetros.

#### Paso 2: Componentes del algoritmo EM

El algoritmo EM se divide en dos fases principales: **Expectation (E)** y **Maximization (M)**.

1. **Fase E (Expectation)**: 
   En esta fase, calculamos la **probabilidad posterior** de que un evento (una secuencia de palabras) haya sido generado por cada uno de los n-gramas. Es decir, si tenemos un trigrama $w_{n-2}w_{n-1}w_n$, queremos calcular cuánto de la probabilidad se debe al unigrama, al bigrama y al trigrama.

2. **Fase M (Maximization)**: 
   En esta fase, ajustamos los pesos $\lambda$ para maximizar la probabilidad del corpus reservado, dados los valores actuales de las distribuciones de probabilidades obtenidos en la fase E. Esto implica encontrar los valores de $\lambda$ que maximicen la probabilidad total.

#### Paso 3: Detalle del algoritmo EM para interpolación

1. **Inicialización**: 
   Se eligen valores iniciales para los pesos de interpolación $\lambda_1$, $\lambda_2$, y $\lambda_3$. Una elección simple es asignar los mismos pesos a cada n-grama, es decir, $\lambda_1 = \lambda_2 = \lambda_3 = \frac{1}{3}$.

2. **Fase E (Expectation)**: 
   Para cada trigrama en el corpus reservado, calculamos la probabilidad de que cada modelo (unigrama, bigrama y trigrama) haya generado la siguiente palabra. 

   La probabilidad que contribuye cada n-grama a la secuencia $w_{n-2}w_{n-1}w_n$ está dada por:

   - Para el unigrama: $P(w_n)$
   - Para el bigrama: $P(w_n | w_{n-1})$
   - Para el trigrama: $P(w_n | w_{n-2}w_{n-1})$

   Luego calculamos la probabilidad combinada de acuerdo con los pesos $\lambda$ actuales:

   $$
   \hat{P}(w_n | w_{n-2}w_{n-1}) = \lambda_1 P(w_n) + \lambda_2 P(w_n | w_{n-1}) + \lambda_3 P(w_n | w_{n-2}w_{n-1})
   $$

   Usando esta probabilidad combinada, calculamos la **contribución posterior** de cada modelo de n-grama (unigrama, bigrama y trigrama) a la predicción de $w_n$. Esto se hace con la siguiente fórmula:

   $$
   \text{Posterior del Unigrama} = \frac{\lambda_1 P(w_n)}{\hat{P}(w_n | w_{n-2}w_{n-1})}
   $$

   $$
   \text{Posterior del Bigrama} = \frac{\lambda_2 P(w_n | w_{n-1})}{\hat{P}(w_n | w_{n-2}w_{n-1})}
   $$

   $$
   \text{Posterior del Trigrama} = \frac{\lambda_3 P(w_n | w_{n-2}w_{n-1})}{\hat{P}(w_n | w_{n-2}w_{n-1})}
   $$

   Este cálculo se realiza para cada n-grama en el corpus reservado.

3. **Fase M (Maximization)**: 
   Una vez que tenemos las contribuciones posteriores de cada n-grama (unigrama, bigrama y trigrama) para todos los datos del corpus reservado, actualizamos los pesos $\lambda_1$, $\lambda_2$, y $\lambda_3$. Los nuevos valores de $\lambda$ son la suma de las probabilidades posteriores normalizadas:

   $$
   \lambda_1 = \frac{\sum \text{Posterior del Unigrama}}{\text{Total de n-gramas}}
   $$

   $$
   \lambda_2 = \frac{\sum \text{Posterior del Bigrama}}{\text{Total de n-gramas}}
   $$

   $$
   \lambda_3 = \frac{\sum \text{Posterior del Trigrama}}{\text{Total de n-gramas}}
   $$

   De esta manera, los pesos $\lambda$ se ajustan iterativamente para maximizar la probabilidad del corpus reservado.

#### Paso 4: Convergencia

El algoritmo EM repite las fases de Expectation y Maximization hasta que los pesos $\lambda$ convergen, es decir, hasta que las actualizaciones de los pesos sean lo suficientemente pequeñas y no cambien significativamente. En ese punto, se considera que se ha alcanzado un conjunto localmente óptimo de $\lambda$.

#### Ejemplo numérico

Supongamos que estamos modelando una secuencia de palabras con los siguientes n-gramas:

- Unigrama: $P(w_n) = 0.05$
- Bigrama: $P(w_n | w_{n-1}) = 0.1$
- Trigrama: $P(w_n | w_{n-2}w_{n-1}) = 0.2$

Iniciamos con $\lambda_1 = \lambda_2 = \lambda_3 = \frac{1}{3}$, por lo que la probabilidad combinada será:

$$
\hat{P}(w_n | w_{n-2}w_{n-1}) = \frac{1}{3} \times 0.05 + \frac{1}{3} \times 0.1 + \frac{1}{3} \times 0.2 = 0.1167
$$

Luego, calculamos los posteriors:

$$
\text{Posterior del Unigrama} = \frac{\frac{1}{3} \times 0.05}{0.1167} \approx 0.1429
$$

$$
\text{Posterior del Bigrama} = \frac{\frac{1}{3} \times 0.1}{0.1167} \approx 0.2857
$$

$$
\text{Posterior del Trigrama} = \frac{\frac{1}{3} \times 0.2}{0.1167} \approx 0.5714
$$

Después de sumar estas contribuciones para todos los n-gramas en el corpus reservado, actualizamos los pesos $\lambda$ en la fase de Maximization. El proceso se repite hasta la convergencia.


El algoritmo EM ajusta iterativamente los pesos de interpolación $\lambda$ en modelos de n-gramas. La **Fase E** calcula las probabilidades posteriores, es decir, la proporción en la que cada modelo de n-grama contribuye a la predicción de una secuencia de palabras. Luego, en la **Fase M**, se actualizan los pesos $\lambda$ para maximizar la probabilidad del corpus reservado. Este proceso se repite hasta que los pesos $\lambda$ convergen, asegurando que se obtenga una interpolación óptima de las probabilidades de n-gramas.

In [None]:
import collections
import math
import random
from typing import List, Tuple, Dict

import numpy as np

#Preparación del corpus
corpus = [
    "el gato come pescado",
    "el perro come carne",
    "el gato y el perro son amigos",
    "el gato come y duerme",
    "el perro juega y corre",
    "el gato y el perro comen juntos",
    "el perro duerme en la casa",
    "el gato juega con el ratón",
    "el perro y el gato comen carne y pescado"
]

# Preprocesamiento y tokenización
def preprocess_corpus(corpus: List[str]) -> List[List[str]]:
    tokenized_corpus = []
    for sentence in corpus:
        tokens = sentence.lower().split()
        tokens = ['<s>'] + tokens + ['</s>']  # Añadimos tokens de inicio y fin de oración
        tokenized_corpus.append(tokens)
    return tokenized_corpus

tokenized_corpus = preprocess_corpus(corpus)

# Construcción del vocabulario
def build_vocabulary(tokenized_corpus: List[List[str]]) -> Dict[str, int]:
    vocab = {}
    for tokens in tokenized_corpus:
        for token in tokens:
            if token not in vocab:
                vocab[token] = len(vocab)
    return vocab

vocab = build_vocabulary(tokenized_corpus)
vocab_size = len(vocab)
print(f"Tamaño del vocabulario: {vocab_size}")

#División del corpus en conjuntos de entrenamiento y validación
def split_corpus(tokenized_corpus: List[List[str]], validation_split: float = 0.3):
    random.shuffle(tokenized_corpus)
    split_index = int(len(tokenized_corpus) * (1 - validation_split))
    train_corpus = tokenized_corpus[:split_index]
    validation_corpus = tokenized_corpus[split_index:]
    return train_corpus, validation_corpus

train_corpus, validation_corpus = split_corpus(tokenized_corpus)
print(f"Oraciones de entrenamiento: {len(train_corpus)}, Oraciones de validación: {len(validation_corpus)}")

#Conteo de N-gramas en el corpus de entrenamiento
def count_ngrams(corpus: List[List[str]], n: int) -> Dict[Tuple[str, ...], int]:
    ngram_counts = collections.Counter()
    for tokens in corpus:
        for i in range(len(tokens) - n + 1):
            ngram = tuple(tokens[i:i + n])
            ngram_counts[ngram] += 1
    return ngram_counts

unigram_counts = count_ngrams(train_corpus, 1)
bigram_counts = count_ngrams(train_corpus, 2)
trigram_counts = count_ngrams(train_corpus, 3)

#  Cálculo de probabilidades máxima verosimilitud (MLE) para N-gramas
def calculate_unigram_probabilities(unigram_counts: Dict[Tuple[str], int]) -> Dict[Tuple[str], float]:
    total_count = sum(unigram_counts.values())
    unigram_probs = {unigram: count / total_count for unigram, count in unigram_counts.items()}
    return unigram_probs

def calculate_bigram_probabilities(bigram_counts: Dict[Tuple[str, str], int],
                                   unigram_counts: Dict[Tuple[str], int]) -> Dict[Tuple[str, str], float]:
    bigram_probs = {}
    for bigram, count in bigram_counts.items():
        unigram = (bigram[0],)
        bigram_probs[bigram] = count / unigram_counts[unigram]
    return bigram_probs

def calculate_trigram_probabilities(trigram_counts: Dict[Tuple[str, str, str], int],
                                    bigram_counts: Dict[Tuple[str, str], int]) -> Dict[Tuple[str, str, str], float]:
    trigram_probs = {}
    for trigram, count in trigram_counts.items():
        bigram = (trigram[0], trigram[1])
        trigram_probs[trigram] = count / bigram_counts.get(bigram, 1)  # Evitamos división por cero
    return trigram_probs

unigram_probs = calculate_unigram_probabilities(unigram_counts)
bigram_probs = calculate_bigram_probabilities(bigram_counts, unigram_counts)
trigram_probs = calculate_trigram_probabilities(trigram_counts, bigram_counts)

# Inicialización de los pesos de interpolación 
lambda_values = [1/3, 1/3, 1/3]  # [lambda_unigram, lambda_bigram, lambda_trigram]

# Implementación del algoritmos EM
#  Fase E: Cálculo de las probabilidades posteriores
def expectation_step(validation_corpus: List[List[str]],
                     unigram_probs: Dict[Tuple[str], float],
                     bigram_probs: Dict[Tuple[str, str], float],
                     trigram_probs: Dict[Tuple[str, str, str], float],
                     lambda_values: List[float]) -> List[Dict[str, float]]:
    posteriors = []
    for tokens in validation_corpus:
        for i in range(2, len(tokens)):
            w1, w2, w3 = tokens[i - 2], tokens[i - 1], tokens[i]
            # Probabilidades individuales
            P_unigram = unigram_probs.get((w3,), 1e-6)  # Evitamos probabilidad cero
            P_bigram = bigram_probs.get((w2, w3), 1e-6)
            P_trigram = trigram_probs.get((w1, w2, w3), 1e-6)
            # Probabilidad combinada
            P_combined = (lambda_values[0] * P_unigram +
                          lambda_values[1] * P_bigram +
                          lambda_values[2] * P_trigram)
            # Cálculo de los posteriors
            posterior_unigram = (lambda_values[0] * P_unigram) / P_combined
            posterior_bigram = (lambda_values[1] * P_bigram) / P_combined
            posterior_trigram = (lambda_values[2] * P_trigram) / P_combined
            posteriors.append({
                'unigram': posterior_unigram,
                'bigram': posterior_bigram,
                'trigram': posterior_trigram
            })
    return posteriors

#  Fase M: actualización de los pesos
def maximization_step(posteriors: List[Dict[str, float]]) -> List[float]:
    total_counts = len(posteriors)
    sum_unigram = sum(p['unigram'] for p in posteriors)
    sum_bigram = sum(p['bigram'] for p in posteriors)
    sum_trigram = sum(p['trigram'] for p in posteriors)
    lambda_unigram = sum_unigram / total_counts
    lambda_bigram = sum_bigram / total_counts
    lambda_trigram = sum_trigram / total_counts
    # Normalizamos los pesos para que sumen 1
    total_lambda = lambda_unigram + lambda_bigram + lambda_trigram
    lambda_unigram /= total_lambda
    lambda_bigram /= total_lambda
    lambda_trigram /= total_lambda
    return [lambda_unigram, lambda_bigram, lambda_trigram]

# Iteración del algoritmo EM hasta la convergencia
def em_algorithm(validation_corpus: List[List[str]],
                 unigram_probs: Dict[Tuple[str], float],
                 bigram_probs: Dict[Tuple[str, str], float],
                 trigram_probs: Dict[Tuple[str, str, str], float],
                 lambda_values: List[float],
                 max_iterations: int = 100,
                 epsilon: float = 1e-6) -> List[float]:
    for iteration in range(max_iterations):
        old_lambda_values = lambda_values.copy()
        # Fase E
        posteriors = expectation_step(validation_corpus, unigram_probs, bigram_probs, trigram_probs, lambda_values)
        # Fase M
        lambda_values = maximization_step(posteriors)
        # Verificación de convergencia
        deltas = [abs(old - new) for old, new in zip(old_lambda_values, lambda_values)]
        if all(delta < epsilon for delta in deltas):
            print(f"Convergencia alcanzada en la iteración {iteration + 1}")
            break
    return lambda_values

# Ejecutamos el algoritmo EM
optimized_lambda_values = em_algorithm(validation_corpus, unigram_probs, bigram_probs, trigram_probs, lambda_values)
print(f"Pesos de interpolación optimizados: {optimized_lambda_values}")

# Evaluacion:  Función para calcular la probabilidad logarítmica promedio
def calculate_log_probability(corpus: List[List[str]],
                              unigram_probs: Dict[Tuple[str], float],
                              bigram_probs: Dict[Tuple[str, str], float],
                              trigram_probs: Dict[Tuple[str, str, str], float],
                              lambda_values: List[float]) -> float:
    total_log_prob = 0.0
    total_ngrams = 0
    for tokens in corpus:
        for i in range(2, len(tokens)):
            total_ngrams += 1
            w1, w2, w3 = tokens[i - 2], tokens[i - 1], tokens[i]
            # Probabilidades individuales
            P_unigram = unigram_probs.get((w3,), 1e-6)
            P_bigram = bigram_probs.get((w2, w3), 1e-6)
            P_trigram = trigram_probs.get((w1, w2, w3), 1e-6)
            # Probabilidad combinada
            P_combined = (lambda_values[0] * P_unigram +
                          lambda_values[1] * P_bigram +
                          lambda_values[2] * P_trigram)
            total_log_prob += math.log(P_combined)
    average_log_prob = total_log_prob / total_ngrams
    return average_log_prob

# Cálculo de la probabilidad logarítmica promedio antes y después de EM
# Antes de EM
initial_log_prob = calculate_log_probability(validation_corpus, unigram_probs, bigram_probs, trigram_probs, [1/3, 1/3, 1/3])
print(f"Probabilidad logarítmica promedio antes de EM: {initial_log_prob}")

# Después de EM
optimized_log_prob = calculate_log_probability(validation_corpus, unigram_probs, bigram_probs, trigram_probs, optimized_lambda_values)
print(f"Probabilidad logarítmica promedio después de EM: {optimized_log_prob}")

# Uso del modelo para predecir la próxima palabra
def predict_next_word(w1: str, w2: str,
                      unigram_probs: Dict[Tuple[str], float],
                      bigram_probs: Dict[Tuple[str, str], float],
                      trigram_probs: Dict[Tuple[str, str, str], float],
                      lambda_values: List[float],
                      vocab: Dict[str, int]) -> str:
    max_prob = 0.0
    next_word = None
    for word in vocab.keys():
        P_unigram = unigram_probs.get((word,), 1e-6)
        P_bigram = bigram_probs.get((w2, word), 1e-6)
        P_trigram = trigram_probs.get((w1, w2, word), 1e-6)
        P_combined = (lambda_values[0] * P_unigram +
                      lambda_values[1] * P_bigram +
                      lambda_values[2] * P_trigram)
        if P_combined > max_prob:
            max_prob = P_combined
            next_word = word
    return next_word

# Ejemplo de predicción
w1 = 'el'
w2 = 'gato'
predicted_word = predict_next_word(w1, w2, unigram_probs, bigram_probs, trigram_probs, optimized_lambda_values, vocab)
print(f"Dada la secuencia '{w1} {w2}', la próxima palabra predicha es: '{predicted_word}'")


### Relación entre interpolación y Backoff

Tanto la **interpolación** como el **backoff** son técnicas utilizadas en modelos de lenguaje basados en **n-gramas** para abordar el problema de la escasez de datos, es decir, para manejar situaciones en las que no se han observado suficientes ejemplos de ciertos n-gramas en el conjunto de entrenamiento. Aunque ambas técnicas tratan de resolver el mismo problema, lo hacen de maneras diferentes y tienen aplicaciones específicas en diversas implementaciones de modelos.

A continuación, se explica cómo se relacionan los diferentes tipos de interpolación con el **backoff** y sus variantes, como el **stupid backoff** y el **Katz backoff**.

#### Backoff

En el **backoff**, si un modelo no tiene suficiente información para un n-grama de orden superior (como un trigrama), entonces retrocede o "hace backoff" a un n-grama de orden inferior (como un bigrama o un unigram). Este proceso continúa hasta que se encuentra suficiente evidencia para estimar una probabilidad. En esencia, el modelo confía en n-gramas de mayor orden siempre que haya suficientes datos, y retrocede a un modelo más simple si los datos de mayor orden son escasos.

Por ejemplo, para calcular $P(w_n | w_{n-2}w_{n-1})$, si no hay suficientes datos para el trigrama $w_{n-2}w_{n-1}w_n$, entonces el modelo usará el bigrama $P(w_n | w_{n-1})$, y si tampoco hay suficientes datos para el bigrama, recurrirá al unigrama $P(w_n)$.

El backoff es jerárquico y solo recurre a modelos de menor orden cuando los modelos de mayor orden no tienen suficientes datos. **No hay combinación de probabilidades** de diferentes niveles de n-gramas, a diferencia de la interpolación.

#### Interpolación vs. Backoff

- **Interpolación**: Siempre combina probabilidades de diferentes órdenes de n-gramas (unigrama, bigrama, trigrama, etc.) mediante pesos $\lambda$. Así, incluso si hay suficientes datos para un trigrama, el modelo también tiene en cuenta los bigramas y unigramas para calcular la probabilidad final. En el ejemplo de interpolación lineal:

  $$
  \hat{P}(w_n | w_{n-2}w_{n-1}) = \lambda_1 P(w_n) + \lambda_2 P(w_n | w_{n-1}) + \lambda_3 P(w_n | w_{n-2}w_{n-1})
  $$

  Este enfoque ponderado permite que el modelo tenga en cuenta tanto el contexto local (n-gramas de orden superior) como el contexto más general (n-gramas de orden inferior).

- **Backoff**: Solo retrocede a n-gramas de menor orden cuando no tiene suficientes datos para el n-grama de mayor orden. La probabilidad final no es una combinación, sino que proviene de un solo modelo (el más confiable según los datos disponibles).

#### Katz Backoff

El **Katz backoff** es una versión mejorada del backoff estándar que incorpora la idea de **descuento** para asignar probabilidades a n-gramas no observados. El Katz backoff sigue un enfoque jerárquico similar al backoff clásico, pero con una diferencia clave: cuando el modelo retrocede a un n-grama de menor orden, lo hace aplicando un descuento a las probabilidades de los n-gramas de mayor orden observados.

La fórmula básica del Katz backoff se puede describir de la siguiente manera:

- Si el n-grama $w_{n-2}w_{n-1}w_n$ tiene suficiente evidencia, se usa la probabilidad máxima-likelihood (MLE) para calcular su probabilidad.
- Si el n-grama no tiene suficiente evidencia, el modelo retrocede al bigrama o unigrama, pero el backoff aplica un **factor de descuento** que redistribuye algo de la probabilidad de los n-gramas observados a aquellos que no han sido observados.

Este enfoque equilibra el uso de n-gramas de diferentes órdenes, pero, a diferencia de la interpolación, no combina las probabilidades de varios órdenes al mismo tiempo, sino que selecciona un modelo en función de la disponibilidad de datos.

#### Stupid Backoff

El **stupid backoff** es una variante del backoff que se usa en grandes corpus de texto (como el utilizado por Google N-grams), y es una aproximación más simple y computacionalmente eficiente. No utiliza el descuento ni ajusta probabilidades para n-gramas no observados, y no garantiza que las probabilidades resultantes sumen exactamente 1 (por lo tanto, no es un modelo probabilístico en sentido estricto).

La fórmula del **stupid backoff** es la siguiente:

- Si existe el trigrama $P(w_n | w_{n-2}w_{n-1})$, se usa directamente.
- Si no, se retrocede al bigrama $P(w_n | w_{n-1})$, y se escala por un factor fijo $\alpha$ (por lo general, $\alpha = 0.4$).
- Si tampoco existe el bigrama, se retrocede al unigrama $P(w_n)$.

Es decir:

$$
P(w_n | w_{n-2}w_{n-1}) = 
\begin{cases} 
P(w_n | w_{n-2}w_{n-1}), & \text{si el trigrama está presente} \\
\alpha \cdot P(w_n | w_{n-1}), & \text{si solo el bigrama está presente} \\
\alpha^2 \cdot P(w_n), & \text{si solo el unigrama está presente}
\end{cases}
$$

El **stupid backoff** es extremadamente eficiente porque no intenta aprender pesos ni aplicar descuentos complicados como Katz backoff o interpolación. Sin embargo, es menos preciso porque no es un verdadero modelo probabilístico.

#### Relación entre interpolación y Katz Backoff

La interpolación y Katz backoff tienen una relación interesante:

- **Interpolación**: Siempre combina las probabilidades de n-gramas de diferentes órdenes, incluso si hay suficiente información para los n-gramas de mayor orden. Los pesos $\lambda$ se ajustan para equilibrar la contribución de cada n-grama según la cantidad de evidencia disponible.

- **Katz Backoff**: Similar a la interpolación en cuanto a que maneja n-gramas de diferentes órdenes, pero solo usa el n-grama de menor orden cuando no hay suficiente evidencia para el de mayor orden. Además, aplica un descuento para redistribuir probabilidades a n-gramas no observados.

Ambos métodos tratan de suavizar las probabilidades de n-gramas no observados, pero la interpolación hace una combinación ponderada, mientras que el Katz backoff sigue un enfoque jerárquico con un factor de descuento.



| Método                  | Enfoque                                           | Combinación de N-gramas                          | Descuento |
|-------------------------|---------------------------------------------------|-------------------------------------------------|-----------|
| **Interpolación**        | Combina probabilidades de todos los n-gramas      | Siempre combina unigramas, bigramas y trigramas  | No        |
| **Backoff clásico**      | Retrocede a un n-grama de menor orden si es necesario | Solo usa un n-grama a la vez                     | No        |
| **Katz Backoff**         | Retrocede con descuento                           | Solo usa un n-grama a la vez, con descuento      | Sí        |
| **Stupid Backoff**       | Retrocede con un factor de escala fijo            | Solo usa un n-grama a la vez, con factor fijo $\alpha$ | No        |

#### Interpolación en modelos neuronales y LLMs

Aunque el **backoff** y sus variantes son técnicas útiles en modelos de n-gramas, la **interpolación** tiene aplicaciones más amplias en los modelos de lenguaje neurales (NLMs) y los **Modelos de Lenguaje Grandes (]LLMs)**. En estos modelos avanzados, la interpolación de representaciones se utiliza para combinar capas y representaciones de contexto a diferentes niveles de abstracción. Las probabilidades o activaciones de diferentes capas se pueden interpolar para mejorar la generalización del modelo.

En resumen, mientras que el backoff es una técnica jerárquica para manejar datos escasos en modelos de n-gramas, la interpolación permite una combinación más flexible de información de diferentes órdenes, lo que es crucial tanto en modelos clásicos como en modelos más avanzados como los LLMs.

In [None]:
import math
import random
import collections
from typing import List, Tuple, Dict

import numpy as np
import nltk
from nltk.corpus import brown
from nltk.tokenize import word_tokenize
import matplotlib.pyplot as plt

# Descarga de recursos necesarios de NLTK
nltk.download('brown')
nltk.download('punkt')

# Preparación y preprocesamiento del corpus
# Seleccionamos categorías específicas o utilizamos una muestra aleatoria de documentos
categories = ['news']  # Puedes cambiar o añadir categorías
documents = brown.sents(categories=categories)

# Limitamos el número de documentos para acelerar la ejecución
max_documents = 500  # Ajusta este número según tus necesidades
documents = documents[:max_documents]

# Preprocesamiento y tokenización
def preprocess_documents(documents: List[List[str]]) -> List[List[str]]:
    processed_docs = []
    for doc in documents:
        tokens = [word.lower() for word in doc if word.isalpha()]
        processed_docs.append(tokens)
    return processed_docs

corpus = preprocess_documents(documents)

# Dividimos el corpus en entrenamiento y prueba
def split_corpus(corpus: List[List[str]], test_size: float = 0.2):
    random.shuffle(corpus)
    split_point = int(len(corpus) * (1 - test_size))
    train_corpus = corpus[:split_point]
    test_corpus = corpus[split_point:]
    return train_corpus, test_corpus

train_corpus, test_corpus = split_corpus(corpus)

# Construcción del vocabulario
def build_vocabulary(corpus: List[List[str]]) -> Dict[str, int]:
    vocab = {}
    for document in corpus:
        for token in document:
            if token not in vocab:
                vocab[token] = len(vocab)
    return vocab

vocab = build_vocabulary(train_corpus)
vocab_size = len(vocab)
print(f"Tamaño del vocabulario: {vocab_size}")

# Implementación de modelos N-grama
class NGramModel:
    def __init__(self, n: int):
        self.n = n
        self.ngram_counts = collections.Counter()
        self.context_counts = collections.Counter()
        self.vocab = set()
        self.total_ngrams = 0

    def train(self, corpus: List[List[str]]):
        for document in corpus:
            tokens = ['<s>'] * (self.n - 1) + document + ['</s>']
            self.vocab.update(tokens)
            for i in range(len(tokens) - self.n + 1):
                ngram = tuple(tokens[i:i + self.n])
                context = tuple(tokens[i:i + self.n - 1])
                self.ngram_counts[ngram] += 1
                self.context_counts[context] += 1
                self.total_ngrams += 1

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        count = self.ngram_counts.get(ngram, 0)
        context = ngram[:-1]
        context_count = self.context_counts.get(context, 0)
        if context_count == 0:
            return 0.0
        else:
            return count / context_count

    def get_sentence_probability(self, sentence: List[str]) -> float:
        tokens = ['<s>'] * (self.n - 1) + sentence + ['</s>']
        probability = 1.0
        for i in range(len(tokens) - self.n + 1):
            ngram = tuple(tokens[i:i + self.n])
            prob = self.get_ngram_prob(ngram)
            if prob > 0:
                probability *= prob
            else:
                # Asignamos una pequeña probabilidad para evitar cero
                probability *= 1e-6
        return probability

# Implementación de Interpolación
class InterpolatedNGramModel(NGramModel):
    def __init__(self, n: int, lambdas: List[float], models: List[NGramModel]):
        super().__init__(n)
        self.lambdas = lambdas  # Pesos de interpolación
        self.models = models    # Lista de modelos de diferentes órdenes
        # Actualizamos self.vocab con la unión de los vocabularios de los modelos
        self.vocab = set()
        for model in self.models:
            self.vocab.update(model.vocab)

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        probs = []
        for lambda_, model in zip(self.lambdas, self.models):
            # Ajustamos el n-grama al orden del modelo
            ngram_adjusted = ngram[-model.n:]
            prob = model.get_ngram_prob(ngram_adjusted)
            probs.append(lambda_ * prob)
        return sum(probs)

# Implementación de Backoff Estándar
class BackoffNGramModel(NGramModel):
    def __init__(self, n: int, models: List[NGramModel]):
        super().__init__(n)
        self.models = models  # Lista de modelos de diferentes órdenes, ordenados de mayor a menor
        # Actualizamos self.vocab con la unión de los vocabularios de los modelos
        self.vocab = set()
        for model in self.models:
            self.vocab.update(model.vocab)

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        for model in self.models:
            ngram_adjusted = ngram[-model.n:]
            prob = model.get_ngram_prob(ngram_adjusted)
            if prob > 0:
                return prob
        # Si ningún modelo tiene el n-grama, asignamos una pequeña probabilidad
        return 1e-6

# Implementación de Katz Backoff con descuento
class KatzBackoffNGramModel(NGramModel):
    def __init__(self, n: int, discount: float = 0.5):
        super().__init__(n)
        self.discount = discount  # Factor de descuento
        self.alpha = {}  # Coeficientes de normalización

    def train(self, corpus: List[List[str]]):
        super().train(corpus)
        # Calculamos los coeficientes de normalización alpha
        self.calculate_alpha()

    def calculate_alpha(self):
        self.alpha = {}
        for context in self.context_counts:
            total_count = self.context_counts[context]
            observed = [ngram[-1] for ngram in self.ngram_counts if ngram[:-1] == context and self.ngram_counts[ngram] > 0]
            total_observed_prob = sum((self.ngram_counts[(context + (w,))] - self.discount) / total_count for w in observed)
            self.alpha[context] = (1.0 - total_observed_prob) / (len(self.vocab) - len(observed))

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        context = ngram[:-1]
        word = ngram[-1]
        count = self.ngram_counts.get(ngram, 0)
        context_count = self.context_counts.get(context, 0)

        if count > 0:
            # Aplicamos el descuento
            return (count - self.discount) / context_count
        else:
            # Retrocedemos al modelo de menor orden
            if self.n > 1:
                lower_order_model = KatzBackoffNGramModel(self.n - 1, discount=self.discount)
                lower_order_model.ngram_counts = self.ngram_counts
                lower_order_model.context_counts = self.context_counts
                lower_order_model.vocab = self.vocab
                alpha = self.alpha.get(context, 1.0)
                lower_order_prob = lower_order_model.get_ngram_prob(ngram[1:])
                return alpha * lower_order_prob
            else:
                # Caso del unigrama
                return 1.0 / len(self.vocab)

# Implementación del Stupid Backoff
class StupidBackoffNGramModel(NGramModel):
    def __init__(self, n: int, models: List[NGramModel], alpha: float = 0.4):
        super().__init__(n)
        self.models = models  # Lista de modelos de diferentes órdenes, ordenados de mayor a menor
        self.alpha = alpha    # Factor de escala fijo
        # Actualizamos self.vocab con la unión de los vocabularios de los modelos
        self.vocab = set()
        for model in self.models:
            self.vocab.update(model.vocab)

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        for i, model in enumerate(self.models):
            ngram_adjusted = ngram[-model.n:]
            prob = model.get_ngram_prob(ngram_adjusted)
            if prob > 0:
                return (self.alpha ** i) * prob
        # Si ningún modelo tiene el n-grama, asignamos una pequeña probabilidad
        return (self.alpha ** len(self.models)) * (1.0 / len(self.vocab))

# Entrenamiento de los modelos
# Entrenamos modelos base
unigram_model = NGramModel(n=1)
bigram_model = NGramModel(n=2)
trigram_model = NGramModel(n=3)

unigram_model.train(train_corpus)
bigram_model.train(train_corpus)
trigram_model.train(train_corpus)

# Modelos para interpolación
lambdas = [0.1, 0.3, 0.6]  # Pesos de interpolación (pueden ajustarse)
interpolated_model = InterpolatedNGramModel(n=3, lambdas=lambdas, models=[unigram_model, bigram_model, trigram_model])

# Modelos para backoff estándar
backoff_model = BackoffNGramModel(n=3, models=[trigram_model, bigram_model, unigram_model])

# Modelo Katz Backoff
katz_model = KatzBackoffNGramModel(n=3)
katz_model.ngram_counts = trigram_model.ngram_counts
katz_model.context_counts = trigram_model.context_counts
katz_model.vocab = trigram_model.vocab
katz_model.calculate_alpha()

# Modelo Stupid Backoff
stupid_backoff_model = StupidBackoffNGramModel(n=3, models=[trigram_model, bigram_model, unigram_model], alpha=0.4)

# Cálculo de la perplejidad
def calculate_perplexity(model: NGramModel, corpus: List[List[str]]) -> float:
    total_log_prob = 0.0
    total_tokens = 0
    for document in corpus:
        tokens = ['<s>'] * (model.n - 1) + document + ['</s>']
        for i in range(len(tokens) - model.n + 1):
            ngram = tuple(tokens[i:i + model.n])
            prob = model.get_ngram_prob(ngram)
            if prob > 0:
                log_prob = -math.log2(prob)
            else:
                log_prob = -math.log2(1e-6)  # Asignamos una pequeña probabilidad
            total_log_prob += log_prob
            total_tokens += 1
    avg_log_prob = total_log_prob / total_tokens
    perplexity = 2 ** avg_log_prob
    return perplexity

# Evaluación de los modelos
# Perplejidad de los modelos
perplexity_interpolated = calculate_perplexity(interpolated_model, test_corpus)
perplexity_backoff = calculate_perplexity(backoff_model, test_corpus)
perplexity_katz = calculate_perplexity(katz_model, test_corpus)
perplexity_stupid_backoff = calculate_perplexity(stupid_backoff_model, test_corpus)

print(f"Perplejidad Modelo Interpolado: {perplexity_interpolated:.4f}")
print(f"Perplejidad Modelo Backoff: {perplexity_backoff:.4f}")
print(f"Perplejidad Modelo Katz Backoff: {perplexity_katz:.4f}")
print(f"Perplejidad Modelo Stupid Backoff: {perplexity_stupid_backoff:.4f}")

# Visualización de resultados
models = ['Interpolación', 'Backoff', 'Katz Backoff', 'Stupid Backoff']
perplexities = [perplexity_interpolated, perplexity_backoff, perplexity_katz, perplexity_stupid_backoff]

plt.figure(figsize=(10, 6))
plt.bar(models, perplexities, color='skyblue')
plt.ylabel('Perplejidad')
plt.title('Comparación de Perplejidad entre Modelos')
plt.show()


¿Puedes explicar estos resultados?

In [None]:
## Tu respuesta

### Perplejidad y Entropía

Introdujimos la perplejidad  como una forma de evaluar los modelos n-grama en un conjunto de prueba. Un mejor modelo n-grama es aquel que asigna una mayor probabilidad a los datos de prueba, y la perplejidad es una versión normalizada de la probabilidad del conjunto de prueba. La medida de perplejidad en realidad surge del concepto teórico de la información de la **entropía cruzada**, lo que explica propiedades misteriosas de la perplejidad (¿por qué la probabilidad inversa, por ejemplo?) y su relación con la entropía. 

La **entropía** es una medida de información. Dada una variable aleatoria **X** que abarca lo que estamos prediciendo (palabras, letras,categoria gramaticales), cuyo conjunto llamaremos $\chi$, y con una función de probabilidad particular, llamémosla $p(x)$, la entropía de la variable aleatoria **X** es:

$$ H(X) = - \sum_{x \in \chi} p(x) \log_2 p(x) $$

El logaritmo puede, en principio, calcularse en cualquier base. Si usamos el logaritmo en base 2, el valor resultante de la entropía se medirá en bits.

Una forma intuitiva de pensar en la entropía es como un límite inferior en el número de bits que se necesitarían para codificar una cierta decisión o pieza de información en el esquema de codificación óptimo. Considera un ejemplo del libro de texto estándar de teoría de la información de Cover y Thomas (1991). 

Imagina que queremos hacer una apuesta en una carrera de caballos, pero está demasiado lejos para ir hasta el hipódromo de Yonkers, por lo que nos gustaría enviar un mensaje corto al corredor de apuestas para decirle en qué caballo apostar. Una forma de codificar este mensaje es simplemente usar la representación binaria del número del caballo como el código; por ejemplo, el caballo 1 sería 001, el caballo 2 sería 010, el caballo 3 sería 011, y así sucesivamente, con el caballo 8 codificado como 000. Si pasamos todo el día apostando y cada caballo se codifica con 3 bits, en promedio estaríamos enviando 3 bits por carrera.

¿Podemos hacerlo mejor? Supongamos que la distribución real de las apuestas está representada como la probabilidad previa de cada caballo de la siguiente manera:

| Caballo | Probabilidad |
|---------|--------------|
| 1       | 1/2          |
| 2       | 1/4          |
| 3       | 1/8          |
| 4       | 1/16         |
| 5-8     | 1/64         |

La entropía de la variable aleatoria **X** que varía sobre los caballos nos da un límite inferior en el número de bits y es:

$$ H(X) = - \sum_{i=1}^{ i=8} p(i) \log_2 p(i) = $$
$$= -\frac{1}{2}\log_2\frac{1}{2} -\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}- \frac{1}{16}\log_2\frac{1}{16} -4(\frac{1}{64}\log_2\frac{1}{64})$$ 
$$ = 2 \text{bits}$$.

Un código que promedie 2 bits por carrera se puede construir con codificaciones cortas para los caballos más probables y codificaciones más largas para los caballos menos probables. Por ejemplo, podríamos codificar al caballo más probable con el código 0, y a los caballos restantes como 10, luego 110, 1110, 111100, 111101, 111110, y 111111.

¿Qué pasa si los caballos son igualmente probables? Vimos anteriormente que si usáramos un código binario de longitud igual para los números de los caballos, cada caballo tomaría 3 bits para codificar, por lo que el promedio sería 3. ¿Es la entropía la misma? En este caso, cada caballo tendría una probabilidad de $1/8$. La entropía de la elección de los caballos sería entonces:

$$ H(X) = - \sum_{i=1}^{i=8} \frac{1}{8} \log_2 \frac{1}{8} = -\log_2\frac{1}{8} = 3 \text{bits}$$ 

Hasta ahora, hemos estado calculando la entropía de una sola variable. Pero la mayoría de las veces utilizamos la entropía para secuencias. Por ejemplo, para una gramática, calcularemos la entropía de alguna secuencia de palabras $W = \{w_1, w_2, ..., w_n\}$. Una forma de hacer esto es tener una variable que abarque secuencias de palabras. Por ejemplo, podemos calcular la entropía de una variable aleatoria que abarque todas las secuencias de palabras de longitud $n$ en algún lenguaje $L$ de la siguiente manera:

$$ H(w_1, w_2, ..., w_n) = - \sum_{w_1:n \in L} p(w_1:n) \log_2 p(w_1:n) $$

Podríamos definir la **tasa de entropía** (también podríamos pensar en esto como la entropía por palabra) como la entropía de esta secuencia dividida por el número de palabras:

$$ \frac{1}{n} H(w_1:n) = - \frac{1}{n} \sum_{w_1:n \in L} p(w_1:n) \log p(w_1:n) $$

Pero para medir la verdadera entropía de un lenguaje, necesitamos considerar secuencias de longitud infinita. Si pensamos en un lenguaje como un proceso estocástico $L$ que produce una secuencia de palabras, y permitimos que $W$ represente la secuencia de palabras $w_1, w_2, ..., w_n$, entonces la tasa de entropía de $L$ está definida como:

$$ H(L) = \lim_{n \to \infty} \frac{1}{n} H(w_1:n) $$
$$H(L) =  -\lim_{n \to \infty}\frac{1}{n} \sum_{W \in L} p(w_1:n) \log p(w_1:n) $$

El **teorema de Shannon-McMillan-Breiman** (Algoet y Cover 1988, Cover y Thomas 1991) establece que si el lenguaje es regular de ciertas maneras (para ser exactos, si es estacionario y ergódico),

$$ H(L) = \lim_{n \to \infty} - \frac{1}{n} \log p(w_1:n) $$

Es decir, podemos tomar una única secuencia lo suficientemente larga en lugar de sumar sobre todas las posibles secuencias. La intuición del teorema de Shannon-McMillan-Breiman es que una secuencia lo suficientemente larga de palabras contendrá en sí misma muchas otras secuencias más cortas, y que cada una de estas secuencias más cortas se repetirá en la secuencia más larga de acuerdo con sus probabilidades.

Un proceso estocástico se dice que es **estacionario** si las probabilidades que asigna a una secuencia son invariantes con respecto a desplazamientos en el índice de tiempo. En otras palabras, la distribución de probabilidad para las palabras en el tiempo $t$ es la misma que la distribución de probabilidad en el tiempo $t+1$. Los modelos de Markov, y por lo tanto los n-grams, son estacionarios. Por ejemplo, en un bigrama, $P_i$ depende solo de $P_{i-1}$. Entonces, si desplazamos nuestro índice de tiempo por $x$, $P_{i+x}$ sigue dependiendo de $P_{i+x-1}$. Sin embargo, el lenguaje natural no es estacionario, ya que, como mostramos en el Apéndice D, la probabilidad de palabras futuras puede depender de eventos que fueron arbitrariamente distantes y dependientes del tiempo. Por lo tanto, nuestros modelos estadísticos solo proporcionan una aproximación a las distribuciones correctas y entropías del lenguaje natural.

En resumen, al hacer algunas suposiciones incorrectas pero convenientes, podemos calcular la entropía de algún proceso estocástico tomando una muestra muy larga de la salida y calculando su probabilidad logarítmica promedio.

Ahora estamos listos para introducir la **entropía cruzada**. La entropía cruzada es útil cuando no conocemos la distribución de probabilidad real $p$ que generó algunos datos. Nos permite usar algún modelo $m$, que es una aproximación de $$p$$. La entropía cruzada de $m$ sobre $p$ se define por:

$$ H(p,m) = \lim_{n \to \infty} - \frac{1}{n} \sum_{W \in L} p(w_1, ..., w_n) \log m(w_1, ..., w_n) $$

Es decir, extraemos secuencias de acuerdo con la distribución de probabilidad $p$, pero sumamos el logaritmo de sus probabilidades según $m$.

Nuevamente, siguiendo el teorema de Shannon-McMillan-Breiman, para un proceso estacionario y ergódico:

$$ H(p,m) = \lim_{n \to \infty} - \frac{1}{n} \log m(w_1 w_2 ... w_n) $$

Esto significa que, al igual que con la entropía, podemos estimar la entropía cruzada de un modelo $m$ sobre alguna distribución $p$ tomando una única secuencia lo suficientemente larga en lugar de sumar sobre todas las posibles secuencias.

Lo que hace útil la entropía cruzada  es que **H(p,m)** es un límite superior a la entropía **H(p)**. Para cualquier modelo **m**:

$$ H(p) \leq H(p,m) $$

Esto significa que podemos usar algún modelo simplificado **m** para ayudar a estimar la verdadera entropía de una secuencia de símbolos extraída de acuerdo con la probabilidad **p**. Cuanto más preciso sea **m**, más cercana estará la entropía cruzada **H(p,m)** de la verdadera entropía **H(p)**. Por lo tanto, la diferencia entre **H(p,m)** y **H(p)** es una medida de cuán preciso es un modelo. Entre dos modelos **m1** y **m2**, el modelo más preciso será aquel con la entropía cruzada más baja. (La entropía cruzada nunca puede ser menor que la verdadera entropía, por lo que un modelo no puede errar subestimando la verdadera entropía).

Finalmente, estamos listos para ver la relación entre la perplejidad y la entropía cruzada. La entropía cruzada se define en el límite cuando la longitud de la secuencia de palabras observada tiende a infinito. Aproximamos esta entropía cruzada confiando en una secuencia (suficientemente larga) de longitud fija. Esta aproximación de la entropía cruzada de un modelo $$M = P(w_i | w_{i-N+1:i-1})$$ en una secuencia de palabras $W$ es:

$$ H(W) = - \frac{1}{N} \log P(w_1 w_2 ... w_N) $$

La **perplejidad** de un modelo $P$ en una secuencia de palabras $W$ ahora se define formalmente como:

$$ \text{Perplejidad}(W) = 2^{H(W)} = P(w_1 w_2 ... w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1 w_2 ... w_N)}} $$




### Contexto

Imaginemos una carrera de caballos con 8 caballos, y queremos enviar un mensaje al corredor de apuestas diciéndole en qué caballo apostar. La idea es codificar este mensaje en el menor número de bits posible. Aquí es donde entra en juego el concepto de **entropía**, que nos da una medida de la cantidad de información necesaria para representar un evento aleatorio (en este caso, la elección de un caballo).

La **entropía** nos dice cuál es el número mínimo promedio de bits que necesitamos para representar cada posible elección de caballo, teniendo en cuenta sus probabilidades. En este ejemplo, tenemos dos casos: 
1. **Probabilidades desiguales** (caballos con diferentes probabilidades de ganar).
2. **Probabilidades iguales** (todos los caballos son igualmente probables).

### Caso 1: Probabilidades desiguales

Se nos da la probabilidad previa de que cada caballo gane la carrera:

| Caballo | Probabilidad |
|---------|--------------|
| 1       | 1/2          |
| 2       | 1/4          |
| 3       | 1/8          |
| 4       | 1/16         |
| 5-8     | 1/64         |

Esto significa que el caballo 1 es el más probable de ganar, con una probabilidad de 1/2, y los caballos 5 al 8 tienen una probabilidad mucho menor, de 1/64 cada uno.

La **entropía** de esta distribución de probabilidades se calcula con la fórmula:

$$
H(X) = - \sum_{i=1}^{8} p(i) \log_2 p(i)
$$

Para cada caballo, tomamos su probabilidad $p(i)$, calculamos el logaritmo en base 2 de esa probabilidad, y luego lo multiplicamos por la probabilidad $p(i)$. Sumamos estos términos para todos los caballos. En este caso, los cálculos se ven así:

$$
H(X) = - \left( \frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{4} \log_2 \frac{1}{4} + \frac{1}{8} \log_2 \frac{1}{8} + \frac{1}{16} \log_2 \frac{1}{16} + 4 \cdot \frac{1}{64} \log_2 \frac{1}{64} \right)
$$

Haciendo los cálculos:

- Para el caballo 1: $$\frac{1}{2} \log_2 \frac{1}{2} = \frac{1}{2} \cdot (-1) = -\frac{1}{2}$$
- Para el caballo 2: $$\frac{1}{4} \log_2 \frac{1}{4} = \frac{1}{4} \cdot (-2) = -\frac{2}{4} = -\frac{1}{2}$$
- Para el caballo 3: $$\frac{1}{8} \log_2 \frac{1}{8} = \frac{1}{8} \cdot (-3) = -\frac{3}{8}$$
- Para el caballo 4: $$\frac{1}{16} \log_2 \frac{1}{16} = \frac{1}{16} \cdot (-4) = -\frac{4}{16} = -\frac{1}{4}$$
- Para los caballos 5 al 8 (probabilidad $$\frac{1}{64}$$): cada uno contribuye con:
  $$\frac{1}{64} \log_2 \frac{1}{64} = \frac{1}{64} \cdot (-6) = -\frac{6}{64} = -\frac{3}{32}$$
  Como son 4 caballos, sumamos esto 4 veces:
  $$4 \cdot -\frac{3}{32} = -\frac{12}{32} = -\frac{3}{8}$$

Sumando todas estas contribuciones, tenemos:

$$
H(X) = -\left( \frac{1}{2} + \frac{1}{2} + \frac{3}{8} + \frac{1}{4} + \frac{3}{8} \right)
$$

$$
H(X) = -\left( 2 \text{ bits} \right)
$$

Por lo tanto, la entropía total es **2 bits**.

### Interpretación

¿Qué significa esto? La entropía de 2 bits nos dice que, en promedio, necesitamos **2 bits** para codificar la información sobre cuál de los 8 caballos ha ganado, si usamos un esquema de codificación **óptimo** (donde los caballos más probables tienen codificaciones más cortas).

Por ejemplo, podríamos asignar códigos como:

- Caballo 1 (más probable): 0
- Caballo 2: 10
- Caballo 3: 110
- Caballo 4: 1110
- Caballos 5-8: 111100, 111101, 111110, 111111

Esto muestra que el caballo más probable tiene el código más corto (1 bit) y los caballos menos probables tienen códigos más largos (hasta 6 bits).

### Caso 2: Probabilidades iguales

Si los 8 caballos fueran igualmente probables, cada caballo tendría una probabilidad de $\frac{1}{8}$. En este caso, la entropía sería:

$$
H(X) = - \sum_{i=1}^{8} \frac{1}{8} \log_2 \frac{1}{8} = - \log_2 \frac{1}{8}
$$

$$
H(X) = - \log_2 \frac{1}{8} = 3 \text{ bits}
$$

Cuando las probabilidades son iguales, la entropía es mayor, **3 bits**. Esto se debe a que no podemos aprovechar las diferencias en probabilidad para usar códigos más cortos. En este caso, la codificación binaria directa es óptima, y cada caballo tendría un código de **3 bits** (por ejemplo, 000, 001, 010, ..., 111).



La entropía nos da una medida de la cantidad mínima promedio de información (en bits) que necesitamos para describir un evento aleatorio. En el caso de probabilidades desiguales, la entropía es más baja (2 bits), lo que refleja que podemos aprovechar las diferencias en probabilidad para codificar la información de manera más eficiente. Cuando las probabilidades son iguales, necesitamos más bits (3 bits) para codificar la información, ya que no hay caballos más probables que otros a los que podamos asignar códigos más cortos.

In [None]:
import math
import random
import collections
from typing import List, Tuple, Dict

import numpy as np
import nltk
from nltk.corpus import reuters
from nltk.tokenize import word_tokenize
nltk.download('reuters')
nltk.download('punkt')

#  Preparación y preprocesamiento del corpus
# Obtenemos los archivos del corpus Reuters
file_ids = reuters.fileids()

# Dividimos el corpus en entrenamiento y prueba
train_ids = [fid for fid in file_ids if fid.startswith('training/')]
test_ids = [fid for fid in file_ids if fid.startswith('test/')]

# Cargamos los documentos y los tokenizamos
def load_documents(file_ids: List[str]) -> List[List[str]]:
    documents = []
    for fid in file_ids:
        text = reuters.raw(fid)
        tokens = word_tokenize(text.lower())
        # Filtramos tokens no alfabéticos
        tokens = [token for token in tokens if token.isalpha()]
        documents.append(tokens)
    return documents

train_corpus = load_documents(train_ids)
test_corpus = load_documents(test_ids)


#  Construcción del vocabulario
def build_vocabulary(corpus: List[List[str]]) -> Dict[str, int]:
    vocab = {}
    for document in corpus:
        for token in document:
            if token not in vocab:
                vocab[token] = len(vocab)
    return vocab

vocab = build_vocabulary(train_corpus)
vocab_size = len(vocab)
print(f"Tamaño del vocabulario: {vocab_size}")

# Implementación de modelos N-grama
class NGramModel:
    def __init__(self, n: int):
        self.n = n
        self.ngram_counts = collections.Counter()
        self.context_counts = collections.Counter()
        self.vocab = set()
        self.total_ngrams = 0

    def train(self, corpus: List[List[str]]):
        for document in corpus:
            tokens = ['<s>'] * (self.n - 1) + document + ['</s>']
            self.vocab.update(tokens)
            for i in range(len(tokens) - self.n + 1):
                ngram = tuple(tokens[i:i + self.n])
                context = tuple(tokens[i:i + self.n - 1])
                self.ngram_counts[ngram] += 1
                self.context_counts[context] += 1
                self.total_ngrams += 1

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        count = self.ngram_counts.get(ngram, 0)
        context = ngram[:-1]
        context_count = self.context_counts.get(context, 0)
        if context_count == 0:
            return 0.0
        else:
            return count / context_count

    def get_sentence_probability(self, sentence: List[str]) -> float:
        tokens = ['<s>'] * (self.n - 1) + sentence + ['</s>']
        probability = 1.0
        for i in range(len(tokens) - self.n + 1):
            ngram = tuple(tokens[i:i + self.n])
            prob = self.get_ngram_prob(ngram)
            if prob > 0:
                probability *= prob
            else:
                # Asignamos una pequeña probabilidad para evitar cero
                probability *= 1e-6
        return probability

#  Entrenamiento de modelos unigrama, bigrama y trigrama
unigram_model = NGramModel(n=1)
bigram_model = NGramModel(n=2)
trigram_model = NGramModel(n=3)

unigram_model.train(train_corpus)
bigram_model.train(train_corpus)
trigram_model.train(train_corpus)

#Cálculo de entropía
def calculate_entropy(model: NGramModel, corpus: List[List[str]]) -> float:
    total_entropy = 0.0
    total_tokens = 0
    for document in corpus:
        tokens = ['<s>'] * (model.n - 1) + document + ['</s>']
        for i in range(len(tokens) - model.n + 1):
            ngram = tuple(tokens[i:i + model.n])
            prob = model.get_ngram_prob(ngram)
            if prob > 0:
                entropy = -math.log2(prob)
            else:
                entropy = -math.log2(1e-6)  # Asignamos una pequeña probabilidad
            total_entropy += entropy
            total_tokens += 1
    average_entropy = total_entropy / total_tokens
    return average_entropy

# Calculamos la entropía para cada modelo
entropy_unigram = calculate_entropy(unigram_model, test_corpus)
entropy_bigram = calculate_entropy(bigram_model, test_corpus)
entropy_trigram = calculate_entropy(trigram_model, test_corpus)

print(f"Entropía Unigrama: {entropy_unigram:.4f} bits")
print(f"Entropía Bigrama: {entropy_bigram:.4f} bits")
print(f"Entropía Trigrama: {entropy_trigram:.4f} bits")

# Cálculo de Entropía Cruzada
def calculate_cross_entropy(model_p: NGramModel, model_q: NGramModel, corpus: List[List[str]]) -> float:
    total_cross_entropy = 0.0
    total_tokens = 0
    for document in corpus:
        tokens = ['<s>'] * (model_p.n - 1) + document + ['</s>']
        for i in range(len(tokens) - model_p.n + 1):
            ngram = tuple(tokens[i:i + model_p.n])
            prob_p = model_p.get_ngram_prob(ngram)
            prob_q = model_q.get_ngram_prob(ngram)
            if prob_q > 0:
                cross_entropy = -prob_p * math.log2(prob_q)
            else:
                cross_entropy = -prob_p * math.log2(1e-6)
            total_cross_entropy += cross_entropy
            total_tokens += 1
    average_cross_entropy = total_cross_entropy / total_tokens
    return average_cross_entropy

# Calculamos la entropía cruzada entre modelos
cross_entropy_pq = calculate_cross_entropy(bigram_model, trigram_model, test_corpus)
print(f"Entropía Cruzada entre Bigrama y Trigrama: {cross_entropy_pq:.4f} bits")

# Cálculo de perplejidad
def calculate_perplexity(model: NGramModel, corpus: List[List[str]]) -> float:
    total_log_prob = 0.0
    total_tokens = 0
    for document in corpus:
        tokens = ['<s>'] * (model.n - 1) + document + ['</s>']
        for i in range(len(tokens) - model.n + 1):
            ngram = tuple(tokens[i:i + model.n])
            prob = model.get_ngram_prob(ngram)
            if prob > 0:
                log_prob = -math.log2(prob)
            else:
                log_prob = -math.log2(1e-6)
            total_log_prob += log_prob
            total_tokens += 1
    avg_log_prob = total_log_prob / total_tokens
    perplexity = 2 ** avg_log_prob
    return perplexity

# Calculamos la perplejidad para cada modelo
perplexity_unigram = calculate_perplexity(unigram_model, test_corpus)
perplexity_bigram = calculate_perplexity(bigram_model, test_corpus)
perplexity_trigram = calculate_perplexity(trigram_model, test_corpus)

print(f"Perplejidad Unigrama: {perplexity_unigram:.4f}")
print(f"Perplejidad Bigrama: {perplexity_bigram:.4f}")
print(f"Perplejidad Trigrama: {perplexity_trigram:.4f}")

# Implementación del Add-One Laplace Smoothing
class SmoothedNGramModel(NGramModel):
    def __init__(self, n: int, vocab_size: int):
        super().__init__(n)
        self.vocab_size = vocab_size

    def get_ngram_prob(self, ngram: Tuple[str, ...]) -> float:
        count = self.ngram_counts.get(ngram, 0) + 1  # Añadimos uno al conteo
        context = ngram[:-1]
        context_count = self.context_counts.get(context, 0) + self.vocab_size  # Añadimos vocab_size al contexto
        return count / context_count

# Entrenamos modelos suavizados
smoothed_unigram_model = SmoothedNGramModel(n=1, vocab_size=vocab_size)
smoothed_bigram_model = SmoothedNGramModel(n=2, vocab_size=vocab_size)
smoothed_trigram_model = SmoothedNGramModel(n=3, vocab_size=vocab_size)

smoothed_unigram_model.train(train_corpus)
smoothed_bigram_model.train(train_corpus)
smoothed_trigram_model.train(train_corpus)

# Calculamos la perplejidad para los modelos suavizados
perplexity_smoothed_unigram = calculate_perplexity(smoothed_unigram_model, test_corpus)
perplexity_smoothed_bigram = calculate_perplexity(smoothed_bigram_model, test_corpus)
perplexity_smoothed_trigram = calculate_perplexity(smoothed_trigram_model, test_corpus)

print(f"Perplejidad Unigrama Suavizado: {perplexity_smoothed_unigram:.4f}")
print(f"Perplejidad Bigrama Suavizado: {perplexity_smoothed_bigram:.4f}")
print(f"Perplejidad Trigrama Suavizado: {perplexity_smoothed_trigram:.4f}")

# Visualizacion de resultados

import matplotlib.pyplot as plt

models = ['Unigrama', 'Bigrama', 'Trigrama']
perplexities = [perplexity_unigram, perplexity_bigram, perplexity_trigram]
smoothed_perplexities = [perplexity_smoothed_unigram, perplexity_smoothed_bigram, perplexity_smoothed_trigram]

x = np.arange(len(models))
width = 0.35

fig, ax = plt.subplots()
rects1 = ax.bar(x - width/2, perplexities, width, label='Sin Suavizado')
rects2 = ax.bar(x + width/2, smoothed_perplexities, width, label='Suavizado Laplace')

ax.set_ylabel('Perplejidad')
ax.set_title('Perplejidad por Modelo y Suavizado')
ax.set_xticks(x)
ax.set_xticklabels(models)
ax.legend()

plt.show()


¿Puedes explicar la salida de los resultados?

In [None]:
## Tu respuesta