# Modelo Estadístico N-Gram

Es un modelo probabilístico que se entrena a través de un corpus. Este modelo es útil en muchas aplicaciones de procesamiento de lenguaje natural como reconocimiento de voz, traducción automática, predicción de texto, etc.

Básicamente, en un modelo "n-gram" se construye en base a la frecuencia que ocurre una secuencia de palabras en un texto para luego predecir la siguientes palabras.

Lo que haremos es crear un modelo "n-gram" sobre un corpus y luego, en base a dos palabras que le daremos al modelo, este intentará de predecir las siguientes palabras.

In [27]:
# Importamos la librería nltk
import nltk

El dataset que trabajaremos en esta ocasión será el corpus de "Reuters". Este contiene 10,788 noticias compuesto por un total de 1.3 millones de palabras. Estas noticias han sido clasificadas dentro de 90 categorías y agrupadas en dos conjuntos de datos: entrenamiento y pruebas.

In [28]:
# Descargamos el corpus "Reuters"
nltk.download("reuters")

[nltk_data] Downloading package reuters to /home/win7/nltk_data...
[nltk_data]   Package reuters is already up-to-date!


True

In [29]:
# Y también descargaremos el paquete "punkt" que nos ayudará a tokenizar los textos
nltk.download("punkt")

[nltk_data] Downloading package punkt to /home/win7/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [30]:
# Importamos la librería de "reuters"
from nltk.corpus import reuters
# También la de "trigrams"
from nltk import trigrams
# Y finalmente algunas funciones para manejo de diccionarios y contadores
from collections import Counter, defaultdict

In [31]:
# Creamos una variable, en este caso diccionario de diccionarios que nos ayudará a guardar el conteo de las ocurrencias de cadenas de palabras.
model = defaultdict(lambda: defaultdict(lambda: 0))

In [32]:
# Ejemplo de una oración del corpus de "reuters"
reuters.sents()[100]
# model["Now", "it"]["'"]

['Now',
 'it',
 "'",
 's',
 'largely',
 'out',
 'of',
 'their',
 'hands',
 ',"',
 'said',
 'Kleinwort',
 'Benson',
 'Ltd',
 'financial',
 'analyst',
 'Simon',
 'Smithson',
 '.']

In [33]:
# Crearemos una matriz de coocurrencia a través del diccionario.

# Para cada oración del corpus "reuters" ...
for sentence in reuters.sents():
    # Para cada trigrama de una oración ...
    # pad_xxx significa que se agregará un token de inicio o de fin a la oración
    for w1, w2, w3 in trigrams(sentence, pad_right=True, pad_left=True):
        # Calculamos la frecuencia con la que ocurre cada combinación de trigramas en el conjunto de datos
        # Hay que verlo como si en la matriz, las filas son la secuencia w1, w2 y las columnas w3 tienen la palabra a "predecir"
        model[(w1, w2)][w3] += 1 # pseudo probability

In [34]:
# Volvamos a ver los items de nuestro objeto
list(model.items())[105:110]

[((None, 'The'),
  defaultdict(<function __main__.<lambda>.<locals>.<lambda>()>,
              {'U': 133,
               'surplus': 8,
               'Australian': 5,
               'measures': 7,
               'paper': 29,
               'decision': 16,
               'country': 20,
               'department': 88,
               'ban': 4,
               'pay': 2,
               'industrial': 5,
               'shipping': 2,
               'fledgling': 2,
               'trade': 37,
               'mine': 8,
               'analysts': 19,
               'Finance': 8,
               'sixth': 1,
               'Bundesbank': 32,
               'company': 1154,
               'new': 117,
               'prospective': 1,
               'partners': 5,
               'Edmonton': 2,
               'shares': 19,
               'Hong': 4,
               'talks': 15,
               'stronger': 1,
               'key': 11,
               'property': 5,
               'share': 6,
               '

In [35]:
# Ahora recorremos cada secuencia w1, w2 o fila del modelo
for w1_w2 in model:
    # Y para cada secuencia w1, w2 contamos la cantidad de veces que esa secuencia se encuentra presente en el modelo
    total_count = float(sum(model[w1_w2].values()))
    # Y ese valor lo usamos para calcular las probabilidades de una palabra w3, dada las dos anteriores palabras
    for w3 in model[w1_w2]:
        model[w1_w2][w3] /= total_count

In [36]:
# Volvamos a ver los items de nuestro objeto
list(model.items())[105:110]

[((None, 'The'),
  defaultdict(<function __main__.<lambda>.<locals>.<lambda>()>,
              {'U': 0.015046951012557982,
               'surplus': 0.0009050797601538635,
               'Australian': 0.0005656748500961647,
               'measures': 0.0007919447901346306,
               'paper': 0.0032809141305577554,
               'decision': 0.001810159520307727,
               'country': 0.002262699400384659,
               'department': 0.009955877361692499,
               'ban': 0.00045253988007693175,
               'pay': 0.00022626994003846588,
               'industrial': 0.0005656748500961647,
               'shipping': 0.00022626994003846588,
               'fledgling': 0.00022626994003846588,
               'trade': 0.004185993890711619,
               'mine': 0.0009050797601538635,
               'analysts': 0.002149564430365426,
               'Finance': 0.0009050797601538635,
               'sixth': 0.00011313497001923294,
               'Bundesbank': 0.003620319040615

In [37]:
# Otra oración ejemplo del corpus "reuters"
reuters.sents()[200]

['"',
 'The',
 'government',
 ',',
 'however',
 ',',
 'does',
 'not',
 'want',
 'to',
 'accelerate',
 'reducing',
 'the',
 'debt',
 'by',
 'making',
 'an',
 'excessive',
 'trade',
 'surplus',
 ',"',
 'he',
 'said',
 '.']

In [38]:
# Lo imprimimos de otra forma
print(' '.join(reuters.sents()[200]))

" The government , however , does not want to accelerate reducing the debt by making an excessive trade surplus ," he said .


In [39]:
# Probamos con una secuencia de dos palabras que se extrajo de la oración anterior
sorted(dict(model[("the", "debt")]).items(), key=lambda x:x[1], reverse=True)

[('crisis', 0.1267605633802817),
 ('problem', 0.09859154929577464),
 ('.', 0.07042253521126761),
 ('restructuring', 0.04225352112676056),
 (',', 0.04225352112676056),
 ('/', 0.04225352112676056),
 ('to', 0.04225352112676056),
 ('agreement', 0.04225352112676056),
 ('problems', 0.028169014084507043),
 ('initiative', 0.028169014084507043),
 ('service', 0.028169014084507043),
 ('servicing', 0.028169014084507043),
 ('from', 0.028169014084507043),
 ('issue', 0.028169014084507043),
 ('by', 0.014084507042253521),
 ('has', 0.014084507042253521),
 ('burden', 0.014084507042253521),
 ('-', 0.014084507042253521),
 ('is', 0.014084507042253521),
 ('but', 0.014084507042253521),
 ('remains', 0.014084507042253521),
 ('incurred', 0.014084507042253521),
 ('in', 0.014084507042253521),
 ('have', 0.014084507042253521),
 ('situation', 0.014084507042253521),
 ('strategy', 0.014084507042253521),
 ('will', 0.014084507042253521),
 ('paper', 0.014084507042253521),
 ('was', 0.014084507042253521),
 ('would', 0.01408

In [40]:
# Otro ejemplo para la secuencia "the price", podemos ver todas las posibles palabras que pueden venir a continuación de esta secuencia y con sus
# respectivas probabilides de aparición
sorted(dict(model[("the", "price")]).items(), key=lambda x:x[1], reverse=True)

[('of', 0.3209302325581395),
 ('it', 0.05581395348837209),
 ('to', 0.05581395348837209),
 ('for', 0.05116279069767442),
 ('.', 0.023255813953488372),
 ('at', 0.023255813953488372),
 ('adjustment', 0.023255813953488372),
 ('is', 0.018604651162790697),
 (',', 0.018604651162790697),
 ('paid', 0.013953488372093023),
 ('increases', 0.013953488372093023),
 ('per', 0.013953488372093023),
 ('the', 0.013953488372093023),
 ('will', 0.013953488372093023),
 ('cut', 0.009302325581395349),
 ('cuts', 0.009302325581395349),
 ('(', 0.009302325581395349),
 ('differentials', 0.009302325581395349),
 ('has', 0.009302325581395349),
 ('stayed', 0.009302325581395349),
 ('was', 0.009302325581395349),
 ('freeze', 0.009302325581395349),
 ('increase', 0.009302325581395349),
 ('would', 0.009302325581395349),
 ('yesterday', 0.004651162790697674),
 ('effect', 0.004651162790697674),
 ('used', 0.004651162790697674),
 ('climate', 0.004651162790697674),
 ('reductions', 0.004651162790697674),
 ('limit', 0.004651162790697

In [41]:
# Otro ejemplo con una secuencia que intencionalmente está mal escrita en inglés "the today"
dict(model["the", "today"])

{}

In [42]:
# Importaremos la librería "random"
import random

In [43]:
# Elegiremos una secuencia de 2 palabras con la cuál se comenzará a crear una nueva oración
text = ["the", "price"]
# Y también declararemos una variable que nos ayudará a determinar cuándo se acabó la oración
sentence_finished = False

In [44]:
# Iteramos mientras la oración no haya terminado
while not sentence_finished:
    # generamos un número aleatorio del 0 al 1 que será nuestro threshold
    r = random.random()
    accumulator = .0
    # iteramos sobre el conjunto de posibles palabras que pueden venir luego de una secuencia de otras dos palabras (las ultimas 2 del texto)
    for word in model[tuple(text[-2:])].keys():
        # obtenemos su probabilidad y la sumamos al "accumulator"
        accumulator += model[tuple(text[-2:])][word]
        # si el "accumulator" es mayor a nuestro "threshold", añadimos la palabra al final del texto
        if accumulator >= r:
            text.append(word)
            break

    # Si las últimas dos palabras del texto es una secuencia de "None", se terminará el bucle
    if text[-2:] == [None, None]:
        sentence_finished = True

In [45]:
" ".join(text[:-2])

'the price adjustment procedure .'