# Notebook del Curso completo de NLP Parte 8
Link al video de youtube:
https://youtu.be/9x1QtYNLJRY?si=Av7bvd07UEaMOU5s&t=9407

# Modelos probabilisticos - Procesos de Markov

## Introducci√≥n al modelo

Un Modelo de Markov es un proceso estoc√°stico (proceso aleatorio) que se define por la Propiedad de Markov. Esta propiedad establece que la probabilidad de transici√≥n a cualquier estado futuro depende solo del estado actual y no de la secuencia de eventos que lo precedieron. Dicho de forma m√°s formal, si Xn‚Äã representa el estado del sistema en el tiempo n, la propiedad de Markov se expresa como:

$$P(Xn+1‚Äã=j‚à£X0‚Äã=i0‚Äã,X1‚Äã=i1‚Äã,‚Ä¶,Xn‚Äã=in‚Äã)=P(Xn+1‚Äã=j‚à£Xn‚Äã=in‚Äã)$$

La forma m√°s b√°sica es la Cadena de Markov a Tiempo Discreto (CMTD), que consta de:

- Un conjunto finito de estados (S): Los diferentes estados en los que puede estar el sistema.

- Probabilidades de transici√≥n: La probabilidad de pasar del estado i al estado j en el siguiente paso, a menudo representadas en una Matriz de Transici√≥n P.

Los modelos de Markov son ideales para modelar secuencias donde se asume una dependencia de corto alcance.


## Propiedades Fundamentales

Las cadenas de Markov tienen propiedades esenciales que definen su comportamiento:

- Propiedad de Markov (Carencia de Memoria): Como se mencion√≥, el futuro solo depende del presente. Este es el rasgo definitorio del modelo.

- No Negatividad: Todas las probabilidades de transici√≥n pij‚Äã deben ser mayores o iguales a cero (pij‚Äã‚â•0).

- Suma de Probabilidades de Fila (Matriz Estoc√°stica): La suma de las probabilidades de transici√≥n salientes de cualquier estado debe ser igual a uno. Si P es la matriz de transici√≥n:
$$j‚ààS‚àë‚ÄãP(X_n+1‚Äã=j‚à£X_n‚Äã=i)=1$$

- Distribuci√≥n Estacionaria (o de Estado Estable): Para ciertas cadenas (irreducibles y aperi√≥dicas), existe una distribuci√≥n de probabilidad œÄ de los estados a largo plazo que no cambia con el tiempo. El sistema converge a este comportamiento a largo plazo, independientemente del estado inicial.

- Irreducibilidad: Una cadena es irreducible si es posible pasar de cualquier estado a cualquier otro estado (no necesariamente en un solo paso).

- Aperiodicidad: Una cadena es aperi√≥dica si no hay un patr√≥n c√≠clico fijo para regresar a un estado.

## Aplicaci√≥n en el Procesamiento del Lenguaje Natural (NLP)

Los modelos de Markov, y en particular los Modelos Ocultos de Markov (HMM), han sido hist√≥ricamente cruciales en el campo del NLP.

Las cadenas de Markov b√°sicas se emplean en tareas como:

- Generaci√≥n Autom√°tica de Texto: Se utiliza la probabilidad de que una palabra le siga a otra (modelos de n-gramas) para generar secuencias de texto que imitan el estilo de un corpus de entrenamiento.

- Modelado del Lenguaje: Estimar la probabilidad de una secuencia de palabras.
- Clasificaci√≥n de texto: puede ser utilizado para detectar spam.
- Diferencia entre aprendizaje supervisado y No supervisado: Cuando se utilizo el modelo con los textos de noticias se entreno con datos etiquetados, pero en el no supervisado

### Uso de Modelos Ocultos de Markov (HMM)

El HMM es una extensi√≥n m√°s compleja que permite modelar procesos donde los estados no son directamente observables (son "ocultos"). Un HMM est√° definido por:

- Estados Ocultos (S): El proceso subyacente que no se puede observar directamente (ej. las etiquetas gramaticales -sustantivo, verbo- en una oraci√≥n).

- S√≠mbolos Observables (V): La secuencia de eventos que podemos ver (ej. las palabras de la oraci√≥n).

- Probabilidades de Transici√≥n (A): La probabilidad de cambiar de un estado oculto a otro (ej. P(Verbo‚à£Sustantivo)).

- Probabilidades de Emisi√≥n (B): La probabilidad de observar un s√≠mbolo dado un estado oculto (ej. P("correr"‚à£Verbo)).

- Probabilidades Iniciales (œÄ): La probabilidad de iniciar en un estado oculto.

### Las principales aplicaciones de los HMM en NLP incluyen:

- Etiquetado de Partes del Discurso (POS Tagging): Determinar la categor√≠a gramatical de cada palabra en una oraci√≥n. Los estados ocultos son las etiquetas POS y las observaciones son las palabras.

- Reconocimiento del Habla: Los HMM fueron una tecnolog√≠a dominante. Modelan la secuencia de fonemas o estados ac√∫sticos subyacentes (ocultos) que generan la se√±al de voz (observable).

- Traducci√≥n Autom√°tica: Se usaron en los primeros sistemas de traducci√≥n estad√≠stica para modelar la alineaci√≥n entre palabras en diferentes idiomas.

- Reconocimiento de Entidades Nombradas (NER): Identificar nombres de personas, lugares u organizaciones en el texto.

## Librer√≠as Esenciales para Modelos de Markov en PLN

### hmmlearn
*hmmlearn* es la librer√≠a de facto para trabajar con Modelos Ocultos de Markov en Python, dise√±ada para integrarse bien con el ecosistema de scikit-learn. Es robusta y permite implementar HMMs Gaussianos, Multinomiales, y Categ√≥ricos.

In [None]:
import numpy as np
from hmmlearn import hmm

# 1. Definici√≥n del Modelo
# N_components es el n√∫mero de estados (e.g., Noun, Verb, Adj, etc.)
n_states = 3
model = hmm.MultinomialHMM(n_components=n_states, n_iter=100)

### nltk - Natural Language Toolkit

Aunque NLTK no tiene una implementaci√≥n dedicada y altamente optimizada como hmmlearn, incluye un m√≥dulo fundamental que ya contiene un HMM entrenado para Etiquetado POS y es excelente para la documentaci√≥n did√°ctica y la experimentaci√≥n.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# nltk.download('averaged_perceptron_tagger') # Necesario si no est√° descargado
# nltk.download('punkt') # Necesario si no est√° descargado

# 1. Oraci√≥n de ejemplo
text = "The quick brown fox jumps over the lazy dog"

# 2. Tokenizar
tokens = word_tokenize(text)

# 3. Etiquetado (POS Tagging)
# NLTK utiliza un modelo estad√≠stico (a menudo un HMM o Perceptron)
# para asignar la etiqueta POS m√°s probable a cada palabra.
tagged_tokens = nltk.pos_tag(tokens)

print(tagged_tokens)
# Salida esperada (ejemplo): [('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ...]
# 'DT': Determinante, 'JJ': Adjetivo, 'NN': Sustantivo

### pomegranate

pomegranate es una librer√≠a que implementa modelos probabil√≠sticos y de secuencias, incluyendo HMMs, de una manera muy flexible y a menudo con mejor rendimiento que hmmlearn en ciertas tareas, ya que est√° optimizada para el c√°lculo de probabilidades.
üõ†Ô∏è Demostraci√≥n: Creaci√≥n y Visualizaci√≥n de un HMM (Conceptual)

Es particularmente √∫til para documentar c√≥mo se construyen los estados y las transiciones de un HMM desde cero.

Bloque de C√≥digo Conceptual:

In [None]:
from pomegranate import HiddenMarkovModel, State, DiscreteDistribution

# 1. Definir el conjunto de Observaciones (Palabras)
# En un HMM Multinomial, las observaciones son discretas.
palabras = ["camin√≥", "perro"]

# 2. Definir las Distribuciones de Emisi√≥n (B) para cada Estado (Etiqueta POS)

# Estado: SUSTANTIVO (Noun)
# Probabilidades de que un Noun "emita" las palabras observadas.
# P("perro" | Noun) es alta; P("camin√≥" | Noun) es baja.
dist_noun = DiscreteDistribution({
    "perro": 0.9,
    "camin√≥": 0.1
})
state_noun = State(dist_noun, name="NOUN")

# Estado: VERBO (Verb)
# Probabilidades de que un Verb "emita" las palabras observadas.
# P("camin√≥" | Verb) es alta; P("perro" | Verb) es baja.
dist_verb = DiscreteDistribution({
    "perro": 0.2,
    "camin√≥": 0.8
})
state_verb = State(dist_verb, name="VERB")

# 3. Crear el Modelo HMM
model = HiddenMarkovModel(name="Simple POS Tagger")

# 4. Agregar los Estados
model.add_states(state_noun, state_verb)

# 5. Definir las Probabilidades de Transici√≥n (A) y de Inicio (Pi)

# --- Probabilidades de Inicio (Pi) ---
# Empezar con un Noun es m√°s probable.
model.add_transition(model.start, state_noun, 0.8)
model.add_transition(model.start, state_verb, 0.2)

# --- Probabilidades de Transici√≥n (A) ---
# Noun -> Verb (0.6), Noun -> Noun (0.4)
model.add_transition(state_noun, state_verb, 0.6)
model.add_transition(state_noun, state_noun, 0.4)

# Verb -> Noun (0.7), Verb -> Verb (0.3)
model.add_transition(state_verb, state_noun, 0.7)
model.add_transition(state_verb, state_verb, 0.3)

# 6. Finalizar el Modelo
model.bake()

# 7. Decodificaci√≥n (Etiquetado) usando el algoritmo de Viterbi
# Oraci√≥n: "perro camin√≥ perro"
sequence = ["perro", "camin√≥", "perro"]

# El m√©todo `viterbi` devuelve el logaritmo de la probabilidad
# de la secuencia de estados m√°s probable y la secuencia de estados (tags).
log_prob, path = model.viterbi(sequence)

# Extraer solo la secuencia de nombres de estado (tags)
predicted_tags = [state.name for index, state in path[1:-1]]

print(f"Secuencia de Observaci√≥n: {sequence}")
print(f"Secuencia de Etiquetas (Viterbi): {predicted_tags}")
# Salida esperada (con estos par√°metros): ['NOUN', 'VERB', 'NOUN']