##  Construyendo tu propio modelo de lenguaje n-gramas

En esta actividad, crearás tu propio modelo de lenguaje basado en n-gramas y la estimación de máxima verosimilitud.

Asumiremos que nuestro texto ya está "tokenizado" (dividido en palabras). 

Como ejemplo, trabajemos con dos frases de "[The Disappearance of Lady Frances Carfax](https://en.wikipedia.org/wiki/The_Disappearance_of_Lady_Frances_Carfax)", un cuento escrito por [Sir Arthur Conan Doyle](https://en.wikipedia.org/wiki/Arthur_Conan_Doyle).

In [None]:
# Tokens para la oracion "It shows, my dear Watson, that we are dealing
# with an exceptionally astude and dangerous man."
muestra1 = ['It', 'shows', ',', 'my', 'dear', 'Watson', ',', 'that',
           'we', 'are', 'dealing', 'with', 'an', 'exceptionally',
           'astute', 'and', 'dangerous', 'man', '.']
# Tokens para la oracion "How would Lausanne do, my dear Watson?"
muestra2 = ['How', 'would', 'Lausanne', 'do', ',', 'my', 'dear',
           'Watson', '?']

Tu primera tarea es escribir una función que divida la secuencia de "tokens" en sus `n`-gramas.

Por ejemplo, cuando `tokens=muestra1` y `n=3`, tu función debería devolver:

```python
[('It', 'shows', ','),
 ('shows', ',', 'my'),
 (',', 'my', 'dear'),
 ...,
 ('dangerous', 'man', '.')]
```
 
Nota: Debes devolver una [`list`](https://docs.python.org/3/tutorial/datastructures.html#more-on-lists)  de Python que contenga [`tuple`](https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences). Las `tuplas` son secuencias inmutables, que serán útiles más adelante cuando construyas tu modelo de lenguaje.

In [None]:
from typing import List, Tuple
def construir_ngramas(tokens: List[str], n: int) -> List[Tuple[str]]:
    ngramas = []
    
    # Completa...

# Ejemplo
construir_ngramas(muestra1, n=3)

In [None]:
# Tests:
assert len(construir_ngramas(muestra1, n=3)) == 17
assert construir_ngramas(muestra1, n=3)[0] == ('It', 'shows', ',')
assert construir_ngramas(muestra1, n=3)[10] == ('dealing', 'with', 'an')
assert len(construir_ngramas(muestra1, n=2)) == 18
assert construir_ngramas(muestra1, n=2)[0] == ('It', 'shows')
assert construir_ngramas(muestra1, n=2)[10] == ('dealing', 'with')
assert len(construir_ngramas(muestra2, n=2)) == 8
assert construir_ngramas(muestra2, n=2)[0] == ('How', 'would')
assert construir_ngramas(muestra2, n=2)[7] == ('Watson', '?')

Con la función actual, no hay forma de saber si un n-grama está al principio, en el medio o al final de la secuencia. Para superar este problema, los modelos de lenguaje n-grama a menudo incluyen tokens de control especiales de "principio de cadena" `(BOS)` y "fin de cadena" `(EOS)`.

Escribe una nueva versión de tu función `construir_ngrams` que incluya estos tokens de control. Por ejemplo, cuando `tokens=sample1` y `n=3`, tu nueva función debería devolver:

```python
[('<BOS>', '<BOS>', 'It'),
 ('<BOS>', 'It', 'shows'),
 ('It', 'shows', ','),
 ('shows', ',', 'my'),
 (',', 'my', 'dear'),
 ...,
 ('dangerous', 'man', '.'),
 ('man', '.', '<EOS>'),
 ('.', '<EOS>', '<EOS>')]
```

In [None]:
from typing import List, Tuple

def construir_ngramas_ctrl(tokens: List[str], n: int) -> List[Tuple[str]]:
    if n <= 0:
        raise ValueError("n debe ser mayor que 0.")
    
    # Completa ...
    return ngramas


In [None]:
# Tests:
assert len(construir_ngramas_ctrl(muestra1, n=3)) == 21
assert construir_ngramas_ctrl(muestra1, n=3)[0] == ('<BOS>', '<BOS>', 'It')
assert construir_ngramas_ctrl(muestra1, n=3)[10] == ('we', 'are', 'dealing')
assert len(construir_ngramas_ctrl(muestra1, n=2)) == 20
assert construir_ngramas_ctrl(muestra1, n=2)[0] == ('<BOS>', 'It')
assert construir_ngramas_ctrl(muestra1, n=2)[10] == ('are', 'dealing')
assert len(construir_ngramas_ctrl(muestra2, n=2)) == 10
assert construir_ngramas_ctrl(muestra2, n=2)[0] == ('<BOS>', 'How')
assert construir_ngramas_ctrl(muestra2, n=2)[9] == ('?', '<EOS>')

Ahora que puedes crear n-gramas, tenemos casi todo lo que necesitamos para crear un modelo de lenguaje de n-gramas.

Para calcular las estimaciones de máxima verosimilitud, primero debes contar el número de veces que cada palabra sigue a un n-grama de tamaño `n-1`.

Puedes construir esta estructura como un [`dict`](https://docs.python.org/3/tutorial/datastructures.html#dictionaries)  de Python que asigna los n-gramas de tamaño `n-1` a otro ` dict` que asigna las siguientes palabras a sus respectivos conteos.

Por ejemplo, cuando `textos=[muestra1, muestra2]` y `n=3`, tu función debería devolver:

```python
{
    ('<BOS>', '<BOS>'): {'It': 1, 'How': 1},
    ('<BOS>', 'It'): {'shows': 1},
    ('<BOS>', 'How'): {'would': 1},
    ...
    ('my', 'dear'): {'Watson': 2},
    ('dear', 'Watson'): {',': 1, '?': 1},
    ...
}
```

In [None]:
from typing import Dict

def conteo_ngramas(textos: List[List[str]], n: int) -> Dict[Tuple[str, ...], Dict[str, int]]:
    ngrama_conteos = {}
    
    # Completa...
       
       
    return ngrama_conteos


In [None]:
# Tests:
assert len(conteo_ngramas([muestra1, muestra2], n=3)) == 28
assert len(conteo_ngramas([muestra1, muestra2], n=3)['<BOS>', '<BOS>']) == 2
assert conteo_ngramas([muestra1, muestra2], n=3)['<BOS>', '<BOS>']['It'] == 1
assert conteo_ngramas([muestra1, muestra2], n=3)['<BOS>', '<BOS>']['How'] == 1
assert conteo_ngramas([muestra1, muestra2], n=3)['my', 'dear']['Watson'] == 2
assert len(conteo_ngramas([muestra1, muestra2], n=2)) == 24
assert len(conteo_ngramas([muestra1, muestra2], n=2)['<BOS>',]) == 2
assert conteo_ngramas([muestra1, muestra2], n=2)['<BOS>',]['It'] == 1
assert conteo_ngramas([muestra1, muestra2], n=2)['<BOS>',]['How'] == 1
assert conteo_ngramas([muestra1, muestra2], n=2)['dear',]['Watson'] == 2

¡Ya casi estás ahí! El último paso es convertir los conteos en estimaciones de probabilidad.

Cuando `textos=[muestra1, muestra2]` y `n=3`, tu función debería devolver:

```python
{
    ('<BOS>', '<BOS>'): {'It': 0.5, 'How': 0.5},
    ('<BOS>', 'It'): {'shows': 1.0},
    ('<BOS>', 'How'): {'would': 1.0},
    ...
    ('my', 'dear'): {'Watson': 1.0},
    ('dear', 'Watson'): {',': 0.5, '?': 0.5},
    ...
}
```

In [None]:
def construir_modelos_ngramas(textos: List[List[str]], n: int) -> Dict[Tuple[str, ...], Dict[str, float]]:
    ngrama_conteos = {}
    modelo = {}

    for tokens in textos:
        ngramas = construir_ngramas_ctrl(tokens, n)
        for ngrama in ngramas:
            n_menos_1_grama = ngrama[:-1]
            siguiente_palabra = ngrama[-1]

            if n_menos_1_grama not in ngrama_conteos:
                ngrama_conteos[n_menos_1_grama] = {}
            
            if siguiente_palabra not in ngrama_conteos[n_menos_1_grama]:
                ngrama_conteos[n_menos_1_grama][siguiente_palabra] =1
            else:
                ngrama_conteos[n_menos_1_grama][siguiente_palabra] +=1
    
    # Convertimos los conteos en probabilidades
    # Completa...
    
    return modelo


In [None]:
assert construir_modelos_ngramas([muestra1, muestra2], n=3)['<BOS>', '<BOS>']['It'] == 0.5
assert construir_modelos_ngramas([muestra1, muestra2], n=3)['<BOS>', '<BOS>']['How'] == 0.5
assert construir_modelos_ngramas([muestra1, muestra2], n=3)['my', 'dear']['Watson'] == 1.0
assert construir_modelos_ngramas([muestra1, muestra2], n=2)['<BOS>',]['It'] == 0.5
assert construir_modelos_ngramas([muestra1, muestra2], n=2)['<BOS>',]['How'] == 0.5
assert construir_modelos_ngramas([muestra1, muestra2], n=2)['dear',]['Watson'] == 1.0

Un modelo de lenguaje construido a partir de sólo unas pocas oraciones no es muy informativo. ¡Aumentemos la escala y veamos cómo se ve tu modelo de lenguaje cuando entrenemos en las obras completas de Sir Arthur Conon Doyle!

In [None]:
texto_completo = []
with open('arthur-conan-doyle.tok.train.txt', 'rt') as fin:
    for linea in fin:
        texto_completo.append(list(linea.split()))
modelo = construir_modelos_ngramas(texto_completo, n=3)

In [None]:
for prefijo in [(BOS, BOS), (BOS, 'It'), ('It', 'was'), ('my', 'dear')]:
    print(*prefijo)
    probs_ordenada = sorted(modelo[prefijo].items(), key=lambda x: -x[1])
    for k, v in probs_ordenada[:5]:
        print(f'\t{k}\t{v:.4f}')
    print(f'\t[{len(probs_ordenada)-5} mas...]')

¿Estas probabilidades parecen razonables? ¿Cómo podemos evaluar sistemáticamente la calidad de nuestro modelo?.

In [None]:
## Tu respuesta

#### Ejercicios

Las técnicas de suavizado, como [Laplace Smoothing](https://en.wikipedia.org/wiki/Additive_smoothing), a menudo se agregan a los modelos de lenguaje de n-gramas para manejar probabilidades de 0. ¿Cómo podrías modificar tu código para incluir el suavizado? 

In [None]:
## Tu respuesta

### Evaluación de un modelo de lenguaje n-gramas

En esta parte de la actividad, evaluarás la calidad de un modelo de lenguaje de n-gramas utilizando perplejidad.

Hemos creado varios modelos de lenguaje de n-gramas y proporcionamos una implementación para calcular las probabilidades. La implementación incluye el suavizado Laplaciano, que asigna cierta probabilidad a secuencias que nunca se encontraron durante el entrenamiento.

Primero, revisa la implementación siguiente para asegurarte de que tenga sentido.


In [None]:
import pickle
BOS = '<BOS>'
EOS = '<EOS>'
OOV = '<OOV>'
class NGramLM:
    def __init__(self, path, smoothing=0.001, verbose=False):
        with open(path, 'rb') as fin:
            data = pickle.load(fin)
        self.n = data['n']
        self.V = set(data['V'])
        self.modelo = data['model']
        self.smoothing = smoothing
        self.verbose = verbose

    def obtener_prob(self, contexto, token):
        contexto = tuple(contexto[-self.n+1:])
        while len(contexto) < (self.n-1):
            contexto = (BOS,) + contexto
        contexto = tuple((c if c in self.V else OOV) for c in contexto)
        if token not in self.V:
            token = OOV
        if contexto in self.modelo:
            # Maximum Likelihood Estimation - Laplace Smoothing
            conteo = self.modelo[contexto].get(token, 0)
            prob = (conteo + self.smoothing) / (sum(self.modelo[contexto].values()) + self.smoothing * len(self.V))
        else:
            prob = 1 / len(self.V)
        if self.verbose:
            print(f'{prob:.4n}', *contexto, '->', token)
        return prob

In [None]:
modelo_unigrama = NGramLM('arthur-conan-doyle.tok.train.n1.pkl')
modelo_bigrama = NGramLM('arthur-conan-doyle.tok.train.n2.pkl')
modelo_trigrama = NGramLM('arthur-conan-doyle.tok.train.n3.pkl')
modelo_4grama = NGramLM('arthur-conan-doyle.tok.train.n4.pkl')
modelo_5grama = NGramLM('arthur-conan-doyle.tok.train.n5.pkl')

Ahora es el momento de ver qué tan bien se ajustan estos modelos a nuestros datos. Usaremos `perplejidad` para este cálculo, pero depende de ti implementarlo a continuación.

Recuerda la fórmula de la perplejidad de la clase:

$$
perplejidad = 2^{\frac{-1}{n}\sum \log_2(P(w_i|w_{<i}))}
$$

Sugerencia: querrás usar la función [`math.log2`](https://docs.python.org/3/library/math.html#math.log2)


In [None]:
import math
from typing import List, Tuple
def perplejidad(modelo: NGramLM, textos: List[Tuple[str]]) -> float:
    entropia = 0.0
    total_tokens = 0

    pass

    return perplejidad

perplejidad(modelo_unigrama, [('My', 'dear', 'Watson', '.'), ('Come', 'over', 'here', '!')])



In [None]:
# Tests
assert round(perplejidad(modelo_unigrama, [('My', 'dear', 'Watson')])) == 7530
assert round(perplejidad(modelo_bigrama, [('My', 'dear', 'Watson')])) == 18
assert round(perplejidad(modelo_trigrama, [('My', 'dear', 'Watson')])) == 484

Ahora veamos qué tan bien se ajusta el modelo a un conjunto de prueba disponible. Los datos de prueba cubren algunas de las historias y representan aproximadamente el 12% de los datos totales.

Tu tarea es imprimir la perplejidad de los modelos de unigrama, bigrama, trigrama, 4 gramas y 5 gramas.

In [None]:
toks_test = []
with open('arthur-conan-doyle.tok.test.txt', 'rt') as fin:
    for linea in fin:
        toks_test.append(list(linea.split()))

perplejidad_test_unigrama = perplejidad(modelo_unigrama, toks_test)
print(f"Perplejidad del conjunto de pruebas (Unigrama): {perplejidad_test_unigrama}")

perplejidad_test_bigrama = perplejidad(modelo_bigrama, toks_test)
print(f"Perplejidad del conjunto de pruebas (Bigrama): {perplejidad_test_bigrama}")

Deberías ver que la perplejidad por el modelo bigrama es menor que por los demás. ¿Qué indica esto?

Es una mala idea determinar la calidad de un modelo basándose en la perplejidad de los datos que se utilizaron para el entrenamiento. A continuación, evalúa los mismos cinco modelos utilizando los datos de entrenamiento.

In [None]:
## Completa

Deberías ver que obtienes perplejidades mucho menores al medir los datos de entrenamiento, especialmente para los modelos con valores más grandes de `n`. Esto sugiere que el modelo se está sobreajustando a los datos de entrenamiento.

#### Ejercicios

* En los modelos que exploramos anteriormente, utilizamos suavizado. ¿Qué sucede con los cálculos de perplejidad cuando no se aplica el suavizado? Puedes probar esto estableciendo `smoothing = 0`.

 * A veces se utiliza el suavizado interpolado o de "back-off" en los modelos de lenguaje de n-gramas. Esta técnica calcula la probabilidad promedio ponderada de modelos con diferentes valores de `n`. Intenta implementar esto. ¿Cómo afecta esto la perplejidad en el conjunto de pruebas retenido? ¿Qué pasa con la perplejidad sobre los datos de entrenamiento?


In [None]:
## Tus respuestas

### Generación de texto con un modelo de lenguaje n-grama

En esta parte de la actividad, implementará dos estrategias de generación de texto.

Aquí hay una revisión de la implementación del modelo de lenguaje n-gramas incluyendo una función `obtener_prob_dist()`, que devuelve las probabilidades de todos los tokens dado el contexto.

Revisa la implementación para asegurarse de comprenderla.

In [None]:
import pickle
BOS = '<BOS>'
EOS = '<EOS>'
OOV = '<OOV>'
class NGramLM:
    def __init__(self, path, smoothing=0.001, verbose=False):
        with open(path, 'rb') as fin:
            data = pickle.load(fin)
        self.n = data['n']
        self.V = set(data['V'])
        self.modelo = data['model']
        self.smoothing = smoothing
        self.verbose = verbose

    def obtener_prob_dist(self, contexto):
        contexto = tuple(contexto[-self.n+1:])
        while len(contexto) < (self.n-1):
            contexto = (BOS,) + contexto
        contexto = tuple((c if c in self.V else OOV) for c in contexto)
        if contexto in self.modelo:
            norm = sum(self.modelo[contexto].values()) + self.smoothing * len(self.V)
            prob_dist = {k: (c + self.smoothing) / norm for k, c in self.modelo[contexto].items()}
            for word in self.V - prob_dist.keys():
                prob_dist[word] = self.smoothing / norm
        else:
            prob = 1 / len(self.V)
            prob_dist = {k: prob for k in self.V}
        prob_dist = dict(sorted(prob_dist.items(), key=lambda x: (-x[1], x[0])))
        return prob_dist

Echemos un vistazo a algunas de las distribuciones de probabilidad. ¿Son razonables?

In [None]:
# Completa

In [None]:
modelo_bigrama.obtener_prob_dist(['.'])

In [None]:
modelo_trigrama.obtener_prob_dist(['my', 'dear'])

Ahora tenemos todas las herramientas que necesitamos para comenzar a generar texto

Comenzaremos con un enfoque simple de generación greedy. Tu tarea es implementar la generación greedy a continuación.

Nota: tenemos un parámetro `max_length` para asegurarnos de que el proceso de generación no continúe para siempre. Puede detenerse cuando tu secuencia alcance un token `<EOS>` o tenga la longitud máxima.

In [None]:
from typing import List
def generacion_greedy(modelo: NGramLM, contexto: List[str], max_longitud: int = 100) -> List[str]:
    secuencia_generada = contexto.copy()
    for _ in range(max_longitud):
        prob_dist = modelo.obtener_prob_dist(secuencia_generada)
        prox_palabra = max(prob_dist, key=prob_dist.get)
        secuencia_generada.append(prox_palabra)
        if prox_palabra == EOS:
            break
    return secuencia_generada

generacion_greedy(modelo_trigrama, ['""', 'My', 'dear', 'Watson'])

¿Cómo se ve la generación? ¿Es determinista? ¿Son interesantes las secuencias generadas?

Considera probar diferentes tipos de modelos. ¿Cuáles son las diferentes cualidades que ves en los modelos de unigrama, bigrama, trigrama, 4 gramas y 5 gramos?

In [None]:
## Tu respuesta

Ahora es el momento de implementar el muestreo.

Ahora incluimos un argumento `topk`. Esto reduce el conjunto candidato de probabilidades a solo los elementos `topk` de mayor probabilidad. Esto ayuda a reducir la posibilidad de generar secuencias muy improbables.

Nota: considera usar [`random.choices`](https://docs.python.org/3/library/random.html#random.choices) para ayudar en el muestreo.


In [None]:
from typing import List
import random
def generacion_muestreo(modelo: NGramLM, contexto: List[str], max_longitud: int = 100, topk=10) -> List[str]:
    secuencia_generada = contexto.copy()
    for _ in range(max_longitud):
        prob_dist = modelo.obtener_prob_dist(secuencia_generada)
        top_palabras = sorted(prob_dist, key=prob_dist.get, reverse=True)[:topk]
        prox_palabra = random.choice(top_palabras)
        secuencia_generada.append(prox_palabra)
        if prox_palabra == EOS:
            break
    return secuencia_generada

generacion_muestreo(modelo_trigrama, ['""', 'My', 'dear', 'Watson'])

Ahora compare cualitativamente tu generación de muestreo con la generación greedy.

¿Qué notas sobre las secuencias generadas? ¿Cómo se comportan los modelos de diferentes tamaños? ¿Cuál es el efecto de `topk`?


In [None]:
## Tu respuesta

In [None]:
from typing import List
import random
def generacion_muestreo(modelo: NGramLM, contexto: List[str], max_longitud: int = 100, topk=100) -> List[str]:
    secuencia_generada = contexto.copy()
    for _ in range(max_longitud):
        prob_dist = modelo.obtener_prob_dist(secuencia_generada)
        top_palabras = sorted(prob_dist, key=prob_dist.get, reverse=True)[:topk]
        prox_palabra = random.choice(top_palabras)
        secuencia_generada.append(prox_palabra)
        if prox_palabra == EOS:
            break
    return secuencia_generada


generacion_muestreo(modelo_4grama, ['""', 'My', 'dear', 'Watson'])

#### Ejercicios

  - Implementa una estrategia de [beam search](https://medium.com/@jessica_lopez/understanding-greedy-search-and-beam-search-98c1e3cd821d). ¿Tiende a conducir a resultados cualitativamente mejores que los otros dos enfoques?
  - ¿Qué estrategia podrías seguir para encontrar eficientemente la secuencia más probable para un modelo de lenguaje de n-gramas?

In [None]:
## Tus respuestas