# **Modelos estadísticos del lenguaje**

## **Modelos markovianos**

Los modelos markovianos del lenguaje, también conocidos como modelos de Markov de lenguaje, son una clase de modelos estadísticos que se utilizan para predecir la probabilidad de una secuencia de palabras en un texto. Estos modelos se basan en la teoría de procesos estocásticos de Markov.

#### **1. Proceso de Markov**
Un proceso de Markov es un tipo de modelo estadístico que predice el futuro de un proceso estocástico basándose únicamente en su estado actual, y no en cómo llegó a ese estado (esto es, no tiene memoria). Por ejemplo, el tiempo atmosférico de día a día podría ser simulado de esta forma:

<img src="imgs/markov.svg" width="30%">

Esto quiere decir, por ejemplo, que si el martes está nublado hay un 10% de probabilidades de que el miércoles esté soleado. Las probabilidades las podemos representar también mediante una tabla de probabilidades de transición, donde la suma de cada fila debe ser 1.

|          | soleado | nublado | lluvioso |
|----------|---------|---------|----------|
| **soleado**  | 0\.6    | 0\.3    | 0\.1     |
| **nublado**  | 0\.1    | 0\.5    | 0\.4     |
| **lluvioso** | 0\.6    | 0\.2    | 0\.2     |

Matemáticamente se expresaría así:

$$ P[s_{t+1} | s_t] = P[s_{t+1} | s_t, s_{t-1}, \cdots ,s_1 ] $$

#### **2. Cadena de Markov**
Una cadena de Markov es una secuencia de eventos, cada uno de los cuales depende solo del evento que lo precedió. En el ejemplo anterior, la cadena de Markov sería:

"soleado→nublado→nublado→lluvioso"

Esta cadena en particular tendría la siguiente probabilidad de aparición:

$$ P[soleado→nublado→nublado→lluvioso] = P[soleado] \cdot P[nublado|soleado] \cdot P[nublado|nublado] \cdot P[lluvioso|nublado] $$

Lo cual es:

$$ P[soleado→nublado→nublado→lluvioso] = 0.43 \cdot 0.6 \cdot 0.5 \cdot 0.4 = 0.0516 $$

En el contexto de los modelos de lenguaje, los eventos son palabras o símbolos.


### **Modelos de Lenguaje:**

Un **modelo de lenguaje** es un modelo matemático y computacional que está diseñado para predecir la probabilidad de una secuencia de palabras en un lenguaje dado. Los modelos de lenguaje pueden generar texto de una manera que sigue las normas gramaticales y estilísticas del lenguaje que están modelando. 

#### **1. Modelos de Unigramas**
Son los modelos markovianos más simples donde cada palabra se modela como un evento independiente, sin tener en cuenta las palabras anteriores.

#### **2. Modelos de Bigramas**
En estos modelos, la probabilidad de cada palabra solo depende de la palabra que la precede inmediatamente. La probabilidad de una secuencia de palabras se calcula como el producto de las probabilidades de cada bigrama (pares de palabras consecutivas) en la secuencia.

#### **3. Modelos de Trigramas**
Similar a los modelos de bigramas, pero aquí la probabilidad de cada palabra depende de las dos palabras que la preceden. 

#### **4. Modelos de n-gramas**
Por extensión, se pueden definir modelos de n-gramas como aquellos donde la probabilidad de cada palabra depende de las n palabras que la preceden.




### **Entrenamiento de los Modelos**:
Para entrenar estos modelos, se utilizan corpora de texto para calcular las probabilidades condicionales de palabras dado su contexto histórico.

#### Generación de Texto:
Una vez entrenado, un modelo de Markov puede usarse para generar texto nuevo, seleccionando palabras una a una de acuerdo a las probabilidades calculadas a partir del texto de entrenamiento.

#### Ventajas:
1. **Simplicidad**: Los modelos de Markov son relativamente simples de entender y de implementar.
2. **Eficiencia**: Pueden ser computacionalmente menos intensivos que otros modelos más complejos.

#### Desventajas:
1. **Memoria Limitada**: Los modelos de Markov no capturan dependencias de largo alcance en el texto debido a su naturaleza de "memoria corta".
2. **Espacio de Estado Grande**: Para modelos de n-gramas con \(n\) grande, el espacio de estados (y, por lo tanto, los requerimientos de memoria) pueden crecer exponencialmente.

#### Aplicaciones:
Los modelos markovianos del lenguaje se utilizan en una variedad de aplicaciones, como reconocimiento de voz, procesamiento de lenguaje natural, generación de texto, entre otros.



---

## Ejercicios:

Crea un modelo del lenguaje basado en unigramas, bigramas y en trigramas para la novela "Cien años de soledad" de Gabriel García Márquez. Tokeniza en función de los caracteres, no de las palabras.

---

In [7]:
# Resolución del ejercio anterior para el modelo de bigramas.

import numpy as np

# Carga el fichero de texto
with open('novela.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# Aquí están todos los caracteres únicos que aparecen en este texto
chars = sorted(list(set(text)))
vocab_size = len(chars)

# crea un mapeo de caracteres a enteros
stoi = { ch:i for i,ch in enumerate(chars) }
itos = { i:ch for i,ch in enumerate(chars) }
encode = lambda s: [stoi[c] for c in s] # encoder: toma una cadena, devuelve una lista de enteros
decode = lambda l: ''.join([itos[i] for i in l]) # decoder: toma una lista de enteros, devuelve una cadena

# Preparación de la tabla que contendrá los bigramas
bigram_table = np.zeros((vocab_size, vocab_size))

# Recorre el texto y cuenta los bigramas
for i in range(len(text)-1):
    bigram_table[stoi[text[i]], stoi[text[i+1]]] += 1

# Normaliza las filas de la tabla
bigram_table = bigram_table / bigram_table.sum(axis=1, keepdims=True)

In [10]:
# Genera un texto a partir de la tabla de bigramas

import random

def generate_text(bigram_table, n_words, word="H"):
    text = [word]
    key_vocab = list(range(vocab_size))
    for i in range(n_words):
        key = random.choices(list(key_vocab), bigram_table[stoi[ text[-1]  ]])[0]
        word = itos[key]
        text.append(word)
    return ''.join(text)

generate_text(bigram_table, 100, "H")

'Hel luvídra co, sanaquergagro-Cu da a dertauidasuió \ns, ca n é calo \nEl sporonaba Recostes e vos idin'

### **Perplejidad (perplexity)**

Para entender la **perplejidad**, primero necesitamos tener una noción básica sobre los modelos de lenguaje. Estos modelos se entrenan para predecir la probabilidad de una palabra dado su contexto en una secuencia de palabras. Por tanto, la **perplejidad es una métrica** que nos ayuda a evaluar qué tan bien un modelo de lenguaje puede predecir una muestra de texto. Cuanto menor sea la perplejidad, mejor será el modelo en predecir palabras en un texto. 

Matemáticamente, la perplejidad se define como $2^{H(p)}$, donde $H(p)$ es la <a href="https://nbviewer.org/url/cayetanoguerra.github.io/ia/nbpy/misc/Entropy.ipynb">entropía cruzada</a> de la distribución de probabilidad $p$, que representa las predicciones de nuestro modelo. La fórmula para calcular la perplejidad es:

$$
\text{Perplejidad} = 2^{-\frac{1}{N}\sum_{i=1}^{N} \log_2(p(x_i))}
$$

Donde:
- $N$ es el número de palabras en la muestra.
- $p(x_i)$ es la probabilidad asignada por el modelo a la palabra $x_i$.

La interpretación de la perplejidad es la siguiente:

- **Baja Perplejidad**: El modelo asigna alta probabilidad a las palabras observadas, lo que indica una buena predicción.
- **Alta Perplejidad**: El modelo asigna baja probabilidad a las palabras observadas, lo que indica una mala predicción.

La perplejidad se utiliza principalmente en la fase de evaluación y ajuste de modelos de lenguaje, ayudando a seleccionar los mejores parámetros para el modelo y a comparar diferentes modelos entre sí.

In [29]:
# Calcula la perplejidad del modelo de lenguaje basado en bigram_table.

def perplexity(bigram_table, text):
    perplexity = 0
    for i in range(len(text)-1):
        c1 = stoi[text[i]]
        c2 = stoi[text[i+1]]
        probability = bigram_table[c1][c2]
        if probability == 0:
            probability = 1e-10
        perplexity += np.log(probability)
    perplexity = np.exp(-perplexity/len(text))
    return perplexity


txt1= "Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía"
print(perplexity(bigram_table, txt1))
print(perplexity(bigram_table, txt1[::-1]))
        


8.958406504127758
861.7711344375253
