
# INTRODUCCIÓN
---

**MODELOS DE LENGUAJE Y PREDICCIÓN DE PALABRAS**


*Tipos de modelos de lenguaje*: Existen principalmente dos tipos de modelos de
lenguaje:

*   *Modelos de lenguaje estadístico:* estos modelos utilizan técnicas estadísticas tradicionales como N-gramas, modelos ocultos de Markov (HMM) y ciertas reglas lingüísticas para aprender la distribución de probabilidad de las palabras

*   *Modelos de lenguaje neuronal:* utilizan diferentes tipos de redes neuronales para modelar el lenguaje.

En este cuaderno abordaremos los modelos de lenguaje estadístico.

**INFERENCIA ESTADÍSTICA: modelos de n-gramas**

La inferencia estadística en general consiste en tomar algunos datos, generados según alguna distribución de probabilidad desconocida, y hacer algunas inferencias sobre esta distribución.


## MODELADO DE LENGUAJE

---

Un modelo de lenguaje aprende a predecir la probabilidad de una secuencia de palabras dado un conjunto de palabras previas. 

Esta tarea es fundamental para reconocimiento de voz, reconocimiento óptico de caracteres, corrección ortográfica, traducción automática, entre otras.

*   **PREDICCIÓN DE LA SIGUIENTE PALABRA:**
Lo que se intenta es calcular la función de probabilidad $P$

$$P(W_n / W_1, \ldots, W_{n-1})$$

Por ejemplo, en un modelo de bigramas buscaremos predecir la siguiente palabra a partir de la función de probabilidades de exactamente la palabra anterior.

Se utiliza la clasificaicón de las palabras previas, aunque debe considerarse que existen secuencias de palabras que no se encuentren en el historial, para obtener predicciones razonables dado este problema se agrupan segmentos históricos similares, utilizando la propiedad de Markov, que prioriza contextos locales.

Los modelos basados en n-gramas utilizan secuencias de 2,3,4  palabras consecutivas.

*   **ENFOQUE DE MAXIMA VEROSIMILITUD**

Para obtener las probabilidade que nos permitan estimar la probabilidad de aparición de una parabra objetivos, es necesario calcular

$$P(W_n | W_1, \ldots, W_{n-1}) = \frac{C(W_1, \ldots, W_{n-1}, W_n)}{C(W_1, \ldots, W_{n-1})}$$

Donde C(⋅) es el conteo de las secuencias de palabras de longitud $n$, por ejemplo, $n=2$ (dos palabras), $n=3$ (tres palabras), así sucesivamente.

Para calcular la probabilidad de una palabra $y$ dada una palabra previa $x$, se calcula el conteo de los bigramas  $C(xy)$ y se normaliza con todos los bigramas que comparten la primera palabra $x$, que es lo mismo que los unigramas de $x$


*   **SENSIBILIDAD DE LOS MODELOS DE N-GRAMAS Y SUAVIZADO**

Como otros modelos estadísticos, el modelo de n-gramas depende en gran medida  del conjunto de datos de entrenamiento. 

Lo que implica que las probabilidades codifican cuestiones específicas del conjunto de datos.

Para atenuar el problema de enfrentarse a probabilidades cero de n-gramas, se usa un suavizado de las probabilidades del conjunto de datos, esto es, se corta un poco de la masa de probabilidades de los conteos mayores, y se traslada a las secuencias que no tienen conteos.

**Suavizado de Laplace**

Suavizado de Laplace o ley de Laplace es una técnica sencilla que consiste en proporcionar un poco del espacio de probabilidades a los eventos no vistos. 

Esto es, se usa la matriz de conteo, por ejemplo de bigramas, y se suma 1 a todos los conteos, para posteriormente normalizar en probabilidades, bigramas que no ocurrieron en el conjunto de datos al menos tendrán una ocurrencia usando suavizado de Laplace. 

La probabilidad ajustada sería como sigue, donde se requiere ajustar agregando el tamaño del vocabulario V.
_________________________

In [44]:
# Dependencies
import re
import pandas as pd

#
import warnings
warnings.filterwarnings('ignore')

In [1]:
# De texto a n-gramas

Texto = "¿Clases en sábado?"

Texto[1:8]

'Clases '

In [5]:
#
Texto[ : 3]

'¿Cl'

In [6]:
#
Texto[3 : ]

'ases en sábado?'

In [7]:
#
Texto[ : -1]

'¿Clases en sábado'

In [25]:
# Podemos utilizar esta técnica para tomar un número predeterminado de palabras vecinas 

cadenaPalabras = 'it was the best of times it was the worst of times, '

cadenaPalabras += 'it was the age of wisdom it was the age of foolishness'

cadenaPalabras

'it was the best of times it was the worst of times, it was the age of wisdom it was the age of foolishness'

In [12]:
# Texto

Texto = 'Clases lunes a viernes' \
        ' siempre' \
        'XXXoooXXX ' \
        '1 2 3'

Texto

'Clases lunes a viernes siempreXXXoooXXX 1 2 3'

In [26]:
#

listaPalabras = cadenaPalabras.split()

In [27]:
#

listaPalabras[ : ]

['it',
 'was',
 'the',
 'best',
 'of',
 'times',
 'it',
 'was',
 'the',
 'worst',
 'of',
 'times,',
 'it',
 'was',
 'the',
 'age',
 'of',
 'wisdom',
 'it',
 'was',
 'the',
 'age',
 'of',
 'foolishness']

In [18]:
#
listaPalabras[ 10 : ]

['of',
 'times',
 'it',
 'was',
 'the',
 'age',
 'of',
 'wisdom',
 'it',
 'was',
 'the',
 'age',
 'of',
 'foolishness']

In [19]:
#

listaPalabras[3:10]

['best', 'of', 'times', 'it', 'was', 'the', 'worst']

In [24]:
# Ejercicio....

listaPalabras[3][ 1:3 ]

'es'

#### Dada una lista de palabras y un número n, recupera una lista # de n-gramas.


In [31]:
# Function:

def obtenNGramas(Lista_Palabras, n):
    return [ Lista_Palabras[ i : i + n ] for i in range( len( Lista_Palabras ) - ( n - 1 ) ) ]
# lista por comprensión para mantener el código compacto

In [32]:
obtenNGramas(listaPalabras, 2)

[['it', 'was'],
 ['was', 'the'],
 ['the', 'best'],
 ['best', 'of'],
 ['of', 'times'],
 ['times', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'worst'],
 ['worst', 'of'],
 ['of', 'times,'],
 ['times,', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'wisdom'],
 ['wisdom', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'foolishness']]

In [28]:
# Alternativamente:

def obtenNGramas(Lista_Palabras, n):
    ngramas = []
    for i in range( len(Lista_Palabras) - (n - 1) ):
        ngramas.append( Lista_Palabras[ i : i + n ])
    return ngramas

In [29]:
obtenNGramas(listaPalabras, 2)

[['it', 'was'],
 ['was', 'the'],
 ['the', 'best'],
 ['best', 'of'],
 ['of', 'times'],
 ['times', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'worst'],
 ['worst', 'of'],
 ['of', 'times,'],
 ['times,', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'wisdom'],
 ['wisdom', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'foolishness']]

In [30]:
listaPalabras

['it',
 'was',
 'the',
 'best',
 'of',
 'times',
 'it',
 'was',
 'the',
 'worst',
 'of',
 'times,',
 'it',
 'was',
 'the',
 'age',
 'of',
 'wisdom',
 'it',
 'was',
 'the',
 'age',
 'of',
 'foolishness']

*** Utiliza el que tenga más sentido para ti. ***

In [33]:
# Pongamos a trabajar nuestra función: obtenNGramas

Frase = 'it was the best of times it was the worst of times '
Frase += 'it was the age of wisdom it was the age of foolishness'

todasMisPalabras = cadenaPalabras.split()

todasMisPalabras

['it',
 'was',
 'the',
 'best',
 'of',
 'times',
 'it',
 'was',
 'the',
 'worst',
 'of',
 'times,',
 'it',
 'was',
 'the',
 'age',
 'of',
 'wisdom',
 'it',
 'was',
 'the',
 'age',
 'of',
 'foolishness']

In [52]:
#

NGRAMAS = obtenNGramas( todasMisPalabras, 2 )

NGRAMAS

[['it', 'was'],
 ['was', 'the'],
 ['the', 'best'],
 ['best', 'of'],
 ['of', 'times'],
 ['times', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'worst'],
 ['worst', 'of'],
 ['of', 'times,'],
 ['times,', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'wisdom'],
 ['wisdom', 'it'],
 ['it', 'was'],
 ['was', 'the'],
 ['the', 'age'],
 ['age', 'of'],
 ['of', 'foolishness']]

In [53]:
#[item for sublist in NGRAMAS for item in sublist]
#pd.Series([item for sublist in NGRAMAS for item in sublist]).value_counts()

In [54]:
# Calculando frecuencias

grams_freq = pd.Series([item for sublist in NGRAMAS for item in sublist]).value_counts()

grams_freq

was            8
the            8
of             8
it             7
age            4
best           2
times          2
worst          2
times,         2
wisdom         2
foolishness    1
Name: count, dtype: int64

In [55]:
# Calculando probabilidades

grams_freq_prob = grams_freq / grams_freq.sum()

grams_freq_prob

was            0.173913
the            0.173913
of             0.173913
it             0.152174
age            0.086957
best           0.043478
times          0.043478
worst          0.043478
times,         0.043478
wisdom         0.043478
foolishness    0.021739
Name: count, dtype: float64

## Entrenamiento de un modelo N-gram

In [59]:
from nltk.util import pad_sequence
from nltk.util import bigrams
from nltk.util import ngrams
from nltk.util import everygrams
from nltk.lm.preprocessing import pad_both_ends
from nltk.lm.preprocessing import flatten
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk import word_tokenize, sent_tokenize 
from nltk.tokenize import ToktokTokenizer
from nltk.lm import MLE

In [56]:
# Abrir el archivo para lectura ('r' significa read)
with open('VEP_20230105_1.txt', 'r') as archivo:
    contenido = archivo.read()

# Ahora 'contenido' es una cadena de texto con todo el contenido del archivo
contenido

' \nVERSIÓN PÚBLICA \nUnidad Administrativa que clasifica: \nSecretaría Técnica \nNúmero de acta y fecha en la que se aprobó por el Comité: \nCOT-004-2023 – 25 de enero de 2023 \nDescripción del documento: \nVersión pública de la Versión Estenográfica de la primera sesión ordinaria del Pleno  de la \nComisión Federal de Competencia Económica celebrada el cinco de enero de dos mil veintitrés. \nTipo de información clasificada y fundamento legal: \nInformación confidencial  \nLa información testada e identificada con la letra B es confidencial en términos de los artículos 113, \nfracción III, de la Ley Federal de Transparencia y Acceso a la Información Públi ca, 116, último párrafo, de \nla Ley General de Transparencia y Acceso a la Información Públ ica, así como Cuadragésimo de \nlos Lineamientos Generales en Materia de Clasificación y Desclasifica ción de la Información, así como para \nla Elaboración de Versiones Públicas , en relación con los artículos   3, fracción IX, 124 y 125 de 

In [57]:
# Preprocess the tokenized text for 3-grams language modelling

contenido = contenido.lower()

contenido

' \nversión pública \nunidad administrativa que clasifica: \nsecretaría técnica \nnúmero de acta y fecha en la que se aprobó por el comité: \ncot-004-2023 – 25 de enero de 2023 \ndescripción del documento: \nversión pública de la versión estenográfica de la primera sesión ordinaria del pleno  de la \ncomisión federal de competencia económica celebrada el cinco de enero de dos mil veintitrés. \ntipo de información clasificada y fundamento legal: \ninformación confidencial  \nla información testada e identificada con la letra b es confidencial en términos de los artículos 113, \nfracción iii, de la ley federal de transparencia y acceso a la información públi ca, 116, último párrafo, de \nla ley general de transparencia y acceso a la información públ ica, así como cuadragésimo de \nlos lineamientos generales en materia de clasificación y desclasifica ción de la información, así como para \nla elaboración de versiones públicas , en relación con los artículos   3, fracción ix, 124 y 125 de 

In [71]:
#

paddedLine = [ list( pad_both_ends( word_tokenize(contenido), n = 2) ) ]

paddedLine #paddedLine[0][-1], paddedLine[0][0] 

[['<s>',
  'versión',
  'pública',
  'unidad',
  'administrativa',
  'que',
  'clasifica',
  ':',
  'secretaría',
  'técnica',
  'número',
  'de',
  'acta',
  'y',
  'fecha',
  'en',
  'la',
  'que',
  'se',
  'aprobó',
  'por',
  'el',
  'comité',
  ':',
  'cot-004-2023',
  '–',
  '25',
  'de',
  'enero',
  'de',
  '2023',
  'descripción',
  'del',
  'documento',
  ':',
  'versión',
  'pública',
  'de',
  'la',
  'versión',
  'estenográfica',
  'de',
  'la',
  'primera',
  'sesión',
  'ordinaria',
  'del',
  'pleno',
  'de',
  'la',
  'comisión',
  'federal',
  'de',
  'competencia',
  'económica',
  'celebrada',
  'el',
  'cinco',
  'de',
  'enero',
  'de',
  'dos',
  'mil',
  'veintitrés',
  '.',
  'tipo',
  'de',
  'información',
  'clasificada',
  'y',
  'fundamento',
  'legal',
  ':',
  'información',
  'confidencial',
  'la',
  'información',
  'testada',
  'e',
  'identificada',
  'con',
  'la',
  'letra',
  'b',
  'es',
  'confidencial',
  'en',
  'términos',
  'de',
  'los',


In [72]:
#

train, vocab = padded_everygram_pipeline(5, paddedLine)

In [74]:
#

lm = MLE(5)

lm.fit(train, vocab)

In [75]:
#

print(lm.counts)

<NgramCounter with 5 ngram orders and 20940 ngrams>


In [76]:
#

len(lm.vocab)

913

In [80]:
#

lm.vocab.lookup('ley')

'ley'

In [84]:
#

lm.score("reglas")

0.0

In [85]:
# 

lm.counts['ley']

14

In [86]:
#

lm.score("ley")

0.003341288782816229

In [87]:
#

lm.generate(1, random_seed = 3)

'asimismo'

In [88]:
#

lm.generate(5, random_seed = 3)

['asimismo', ',', 'deberán', 'publicar', 'en']

In [93]:
#

lm.generate(20, text_seed = ['publicar'], random_seed=3)

['en',
 'el',
 'diario',
 'oficial',
 'de',
 'la',
 'federa',
 'ción',
 ',',
 'en',
 'la',
 'fecha',
 'antes',
 'señalada',
 ',',
 'la',
 'estructura',
 'ocupacional',
 'que',
 'contenga']