# Ngram Spacing and Smoothing

### José Pablo Kiesling Lange

In [1]:
import random
import re
from collections import Counter, defaultdict

import nltk
from nltk.corpus import cess_esp
from nltk.util import ngrams

In [2]:
random.seed(1234)

In [3]:
nltk.download('cess_esp')
nltk.download('punkt')

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\TheKi\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\TheKi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
corpus_nltk = cess_esp.words()

## Estandarización

Para ver la efectivdad de la estandarización, se mostrará las 10 palabras más frecuentes del corpus antes y después de la estandarización. El objetivo es ver si hay modificación en la cantidad de dichas palabras o si una nueva palabra aparece con frecuencia.

In [5]:
corpus = []

In [6]:
def get_most_common_words(corpus, n=10):
    words = [word for line in corpus for word in line.split()]
    most_common = Counter(words).most_common(n)
    return most_common

In [7]:
most_common_words = get_most_common_words(corpus_nltk, n=10)
most_common_words

[(',', 11420),
 ('de', 10234),
 ('la', 6412),
 ('.', 5866),
 ('que', 5552),
 ('el', 5199),
 ('en', 4340),
 ('y', 4235),
 ('*0*', 3883),
 ('"', 3038)]

Además se mostrará los primeros 25 tokens del corpus antes y después de la estandarización.

In [8]:
corpus_nltk[:25]

['El',
 'grupo',
 'estatal',
 'Electricité_de_France',
 '-Fpa-',
 'EDF',
 '-Fpt-',
 'anunció',
 'hoy',
 ',',
 'jueves',
 ',',
 'la',
 'compra',
 'del',
 '51_por_ciento',
 'de',
 'la',
 'empresa',
 'mexicana',
 'Electricidad_Águila_de_Altamira',
 '-Fpa-',
 'EAA',
 '-Fpt-',
 ',']

Como se puede apreciar, hay palabras que tienen `_` en los tokens y separan palabras. Por lo que se harán las funciones específicas para limpiar los tokens y separar las palabras.

In [9]:
def replace_whitespaces(word):
    return "".join(re.sub('_', ' ', word))

In [10]:
def separate_words(word):
    return word.split()

In [11]:
corpus_without_underscore = [replace_whitespaces(word) for word in corpus_nltk]

In [12]:
for word in corpus_without_underscore:
    if len(word.split()) > 1:
        corpus.extend(separate_words(word))
    else:
        corpus.append(word)

Además, se puede ver que hay tokens que empiezan con caracteres no alfanuméricos o que contienen caracteres especiales. Específicamente, los siguientes

In [13]:
list(set(word for word in corpus if not word.isalnum()))[:10]

['2-0.',
 '4,590',
 '1.531.169',
 '23.000',
 'anglo-alemán',
 '-',
 'Buitre-Nostradamus',
 "P'hrabat",
 '11,2%',
 '56.665']

Como se puede ver, hay palabras que tienen `'`o `"` en los tokens por lo que *solo* se eliminarán esos caracteres y no el resto del token. En los otros casos, no representan alguna palabra, por lo que se eliminarán completamente.

In [14]:
def clean_word(word):
    if re.search(r'[^a-zA-Z0-9\'"áéíóúÁÉÍÓÚ]', word):
        return ""
    
    return re.sub(r'[^a-zA-Z0-9áéíóúÁÉÍÓÚ]', '', word)

In [15]:
corpus = [clean_word(word) for word in corpus]

In [16]:
corpus = [word for word in corpus if word != '']

Finalmente, se pondrán las palabras en minúsculas solo si no es sigla o acrónimo. Para esto, se hará una función que verifique si la palabra está en mayúsculas y si no es así, la pondrá en minúsculas.

In [17]:
def case_folding(corpus):
    return [word.lower() if not word.isupper() else word for word in corpus]

In [18]:
corpus = case_folding(corpus)

### Resultado

In [19]:
most_common_words = get_most_common_words(corpus, n=10)
most_common_words

[('de', 11828),
 ('la', 7150),
 ('el', 6079),
 ('que', 5943),
 ('en', 4991),
 ('y', 4318),
 ('a', 3493),
 ('los', 3229),
 ('del', 2514),
 ('las', 1956)]

In [20]:
corpus[:25]

['el',
 'grupo',
 'estatal',
 'electricité',
 'de',
 'france',
 'EDF',
 'anunció',
 'hoy',
 'jueves',
 'la',
 'compra',
 'del',
 '51',
 'por',
 'ciento',
 'de',
 'la',
 'empresa',
 'mexicana',
 'electricidad',
 'águila',
 'de',
 'altamira',
 'EAA']

Como se puede apreciar, ya solo hay palabras alfanuméricas y con acentos. Y todas están separadas como se debe

## Construcción de n-gramas

In [21]:
tokens = nltk.word_tokenize(' '.join(corpus), language='spanish')

In [22]:
random.shuffle(tokens)
split = int(0.8 * len(tokens))

In [23]:
train = tokens[:split]
test  = tokens[split:]

In [24]:
def generate_ngrams(tokens, n):
    ngram = Counter( ngrams(tokens, n))
    return ngram

In [25]:
def mle_ngram_probs(tokens, k):   
    ngram = generate_ngrams(tokens, k)
     
    if k == 1:
        total = sum(ngram.values())
        return { (w,): c/total for (w,), c in ngram.items() }
    
    history_counts = Counter(ngrams(tokens, k-1))
    probs = {}
    for kgram, c in ngram.items():
        history = kgram[:-1]
        probs[kgram] = c / history_counts[history]
        
    return probs

In [26]:
p1 = mle_ngram_probs(train, 1)
p2 = mle_ngram_probs(train, 2)
p3 = mle_ngram_probs(train, 3)