# Modelo Estadístico N-Gram

Es un modelo probabilístico que se entrena a través de un corpus. Este modelo es útil en muchas aplicaciones de procesamiento de lenguaje natural como reconocimiento de voz, traducción automática, predicción de texto, etc.

Básicamente, en un modelo "n-gram" se construye en base a la frecuencia que ocurre una secuencia de palabras en un texto para luego predecir la siguientes palabras.

Lo que haremos es crear un modelo "n-gram" sobre un corpus y luego, en base a dos palabras que le daremos al modelo, este intentará de predecir las siguientes palabras.

In [1]:
# Importamos la librería nltk
import nltk

El dataset que trabajaremos en esta ocasión será el corpus de "Reuters". Este contiene 10,788 noticias compuesto por un total de 1.3 millones de palabras. Estas noticias han sido clasificadas dentro de 90 categorías y agrupadas en dos conjuntos de datos: entrenamiento y pruebas.

In [2]:
# Descargamos el corpus "Reuters"
nltk.download("reuters")

[nltk_data] Downloading package reuters to /root/nltk_data...


True

In [3]:
# Y también descargaremos el paquete "punkt" que nos ayudará a tokenizar los textos
nltk.download("punkt")
nltk.download("punkt_tab")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [4]:
# Importamos la librería de "reuters"
from nltk.corpus import reuters
# También la de "trigrams"
from nltk import bigrams
from nltk import trigrams
# Y finalmente algunas funciones para manejo de diccionarios y contadores
from collections import Counter, defaultdict

In [5]:
# El método sents devuelve los documentos tokenizados por palabras
reuters.sents()

[['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.'], ['They', 'told', 'Reuter', 'correspondents', 'in', 'Asian', 'capitals', 'a', 'U', '.', 'S', '.', 'Move', 'against', 'Japan', 'might', 'boost', 'protectionist', 'sentiment', 'in', 'the', 'U', '.', 'S', '.', 'And', 'lead', 'to', 'curbs', 'on', 'American', 'imports', 'of', 'their', 'products', '.'], ...]

In [6]:
# Creamos una variable, en este caso diccionario de diccionarios que nos ayudará a guardar el conteo de las ocurrencias de cadenas de palabras.
model = defaultdict(lambda: defaultdict(lambda: 0))
model

defaultdict(<function __main__.<lambda>()>, {})

In [39]:
for w1, w2, w3 in trigrams(['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.'],
                           pad_right=True, pad_left=True):
  print(f"Bigrama: w1={w1} - w2={w2}  - w3={w3}")

Bigrama: w1=None - w2=None  - w3=ASIAN
Bigrama: w1=None - w2=ASIAN  - w3=EXPORTERS
Bigrama: w1=ASIAN - w2=EXPORTERS  - w3=FEAR
Bigrama: w1=EXPORTERS - w2=FEAR  - w3=DAMAGE
Bigrama: w1=FEAR - w2=DAMAGE  - w3=FROM
Bigrama: w1=DAMAGE - w2=FROM  - w3=U
Bigrama: w1=FROM - w2=U  - w3=.
Bigrama: w1=U - w2=.  - w3=S
Bigrama: w1=. - w2=S  - w3=.-
Bigrama: w1=S - w2=.-  - w3=JAPAN
Bigrama: w1=.- - w2=JAPAN  - w3=RIFT
Bigrama: w1=JAPAN - w2=RIFT  - w3=Mounting
Bigrama: w1=RIFT - w2=Mounting  - w3=trade
Bigrama: w1=Mounting - w2=trade  - w3=friction
Bigrama: w1=trade - w2=friction  - w3=between
Bigrama: w1=friction - w2=between  - w3=the
Bigrama: w1=between - w2=the  - w3=U
Bigrama: w1=the - w2=U  - w3=.
Bigrama: w1=U - w2=.  - w3=S
Bigrama: w1=. - w2=S  - w3=.
Bigrama: w1=S - w2=.  - w3=And
Bigrama: w1=. - w2=And  - w3=Japan
Bigrama: w1=And - w2=Japan  - w3=has
Bigrama: w1=Japan - w2=has  - w3=raised
Bigrama: w1=has - w2=raised  - w3=fears
Bigrama: w1=raised - w2=fears  - w3=among
Bigrama: w1=fea

In [43]:
# Crearemos una matriz de coocurrencia a través del diccionario.
# Para cada oración del corpus "reuters" ...
for sentence in reuters.sents():
    # Para cada bigrama de una oración ...
    # pad_xxx significa que se agregará un token de inicio o de fin a la oración
    for w1, w2, w3 in trigrams(sentence, pad_right=True, pad_left=True):
        # Calculamos la frecuencia con la que ocurre cada combinación de trigramas en el conjunto de datos
        # Hay que verlo como si en la matriz, las filas son la secuencia w1, w2 y las columnas w3 tienen la palabra a "predecir"
        model[w1_w2][w3] += 1

TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'

In [9]:
# Volvamos a ver los items de nuestro objeto
model["ASIAN"]

defaultdict(<function __main__.<lambda>.<locals>.<lambda>()>,
            {'EXPORTERS': 1,
             'SALE': 1,
             'COCOA': 1,
             'DOLLAR': 2,
             'REVALUATIONS': 2,
             'UNITS': 2,
             'STAKES': 1,
             'DROUGHTS': 1,
             'REACTION': 1})

In [10]:
model["ASIAN"].values()

dict_values([1, 1, 1, 2, 2, 2, 1, 1, 1])

In [11]:
# Ahora recorremos cada secuencia w1, w2 o fila del modelo
for w1 in model:
    # Y para cada secuencia w1 contamos la cantidad de veces que esa secuencia se encuentra presente en el modelo
    total_count = float(sum(model[w1].values()))
    if w1 == "ASIAN":
      print(f"{w1}: {total_count}")
    # Y ese valor lo usamos para calcular las probabilidades de una palabra w3, dada las dos anteriores palabras
    for w2 in model[w1]:
        model[w1][w2] /= total_count

ASIAN: 12.0


In [12]:
model["ASIAN"]

defaultdict(<function __main__.<lambda>.<locals>.<lambda>()>,
            {'EXPORTERS': 0.08333333333333333,
             'SALE': 0.08333333333333333,
             'COCOA': 0.08333333333333333,
             'DOLLAR': 0.16666666666666666,
             'REVALUATIONS': 0.16666666666666666,
             'UNITS': 0.16666666666666666,
             'STAKES': 0.08333333333333333,
             'DROUGHTS': 0.08333333333333333,
             'REACTION': 0.08333333333333333})

In [13]:
1/12

0.08333333333333333

In [None]:
# Otra oración ejemplo del corpus "reuters"
reuters.sents()[200]

In [15]:
# Lo imprimimos de otra forma
print(' '.join(reuters.sents()[200]))

" The government , however , does not want to accelerate reducing the debt by making an excessive trade surplus ," he said .


In [None]:
# Probamos con una palabra extraída del texto
dict(model[("the")])

In [17]:
# Otro ejemplo para la secuencia "the price", podemos ver todas las posibles palabras que pueden venir a continuación de esta secuencia y con sus
# respectivas probabilides de aparición
dict(model["goverment"])

{'.': 0.16666666666666666,
 'aid': 0.16666666666666666,
 'inventory': 0.16666666666666666,
 'spending': 0.16666666666666666,
 'at': 0.16666666666666666,
 'to': 0.16666666666666666}

In [None]:
# Otro ejemplo con una secuencia que intencionalmente está mal escrita en inglés "the today"
dict(model["price"])

In [22]:
# Importaremos la librería "random"
import random

In [27]:
# Elegiremos una secuencia de 2 palabras con la cuál se comenzará a crear una nueva oración
text = ["price"]
# Y también declararemos una variable que nos ayudará a determinar cuándo se acabó la oración
sentence_finished = False

In [24]:
model[tuple(text[-1:])[0]]["the"]

0.0003261746579457863

In [34]:
random.seed(3)
max_len = 15 #cantidad de palabras
it = 0
text = ["bank"]
sentence_finished = False

# Iteramos mientras la oración no haya terminado
while not sentence_finished:
    # generamos un número aleatorio del 0 al 1 que será nuestro threshold
    r = random.random()
    accumulator = .0
    # iteramos sobre el conjunto de posibles palabras que pueden venir luego de otra palabra (la última palabra)
    for word in model[tuple(text[-1:])[0]].keys():
        # obtenemos su probabilidad y la sumamos al "accumulator"
        accumulator += model[tuple(text[-1:])[0]][word]
        # si el "accumulator" es mayor a nuestro "threshold", añadimos la palabra al final del texto
        if accumulator >= r:
            text.append(word)
            break

    # Si las últimas dos palabras del texto es una secuencia de "None", se terminará el bucle
    if text[-1:] == [None]:
        sentence_finished = True

    if it==max_len:
        sentence_finished = True

    it+=1


In [45]:
" ".join(text[:-1])

'bank lenders on the Community Commission ( MITI on the company results in drilling program will'

In [44]:
dict(model["Community"])

{'(': 0.24846625766871167,
 'Nutrition': 0.003067484662576687,
 ',': 0.08588957055214724,
 'launched': 0.003067484662576687,
 'Bancshares': 0.006134969325153374,
 'Bank': 0.018404907975460124,
 'coordination': 0.003067484662576687,
 "'": 0.0736196319018405,
 'partners': 0.006134969325153374,
 'sources': 0.006134969325153374,
 'are': 0.006134969325153374,
 'grain': 0.003067484662576687,
 'sales': 0.003067484662576687,
 'exporters': 0.003067484662576687,
 'has': 0.012269938650306749,
 'magazine': 0.003067484662576687,
 'over': 0.006134969325153374,
 'and': 0.03067484662576687,
 'food': 0.006134969325153374,
 'Cable': 0.009202453987730062,
 'Reinvestment': 0.003067484662576687,
 '.': 0.024539877300613498,
 'tax': 0.012269938650306749,
 'countries': 0.02147239263803681,
 'Commission': 0.03374233128834356,
 'producers': 0.003067484662576687,
 'production': 0.003067484662576687,
 'on': 0.009202453987730062,
 'open': 0.003067484662576687,
 'farm': 0.006134969325153374,
 'Healthcare': 0.006134

## Tarea
Modifique el anterior código para que funcione con trigramas. Sugerencias:
1. Puede utilizar la clase nltk.trigram (similar a la que usamos para bigramas).
2. El diccionario ya no tendrá como llave una sola palabra, sino una dupla (palabra1, palabra2).

Con las anteriores consideraciones, deberá modificar el código presentado líneas arriba para generar el modelo estadístico y posteriormente generar texto usando como semilla de random el valor 1 y como palabras iniciales (the, government).