# NLP INTRODUCTION PART: 3

## Modelos Probabilisticos (Proceso de Markov)

En resumen, el proceso de Markov son, esencialmente, sistemas que pasan de un estado a otro con ciertas probabilidades. Estas probabilidades no dependen de CÓMO llegó al estado actual, sino del estado actual en sí.

Ejemplo:

Digamos que tenemos un modelo de Markov que busca predecir el próximo movimiento de una dama ubicada en D4 (ajedrez). Debido a la propiedad de Markov, al modelo no le importa cómo llegó la pieza a esa posición ni cuáles fueron sus movimientos anteriores; solo le interesa el estado actual del tablero.

Con base en esta información, puede asignar probabilidades a los posibles movimientos siguientes de la dama, como por ejemplo:

- No se mueve.
- Se mueve en diagonal.
- Se mueve en vertical.
- Se mueve en horizontal.
- Etc.

(Sin considerar cuántos cuadros avanza o si captura otra pieza).

De esta forma, la predicción del siguiente estado depende únicamente del estado presente, y no de la historia del sistema.

## Estados en Modelos de Markov

- Definición de Estados y Símbolos Categóricos

    - Ejemplo: En un modelo de Markov para prever el actuar de un jugador de futbol cuando obtiene el balón, los estados pueden ser:
        - Lo mantiene
        - Lo pasa
        - Dispara 
    - Los estados serán declarados con S(State)

- Notación y Representación

    - Usando la notación mencionada en el punto anterior, podemos definir los estados como: 
        - "si" = "Lo mantiene"
        - "sj" = "Lo pasa"
        - "sk" = "Dispara"
    - La probabilidad de que después de mantener el balón el jugador realice un pase es:
        - P(sj|si)
        - P(estado futuro | estado presente) = ... (independiente del pasado)

- Convención de Numeración de los Estados

    - Lo mantiene = 1
    - Lo pasa = 2
    - Dispara = 3

- Distribución de Probabilidad de los Estados

    - La suma de las probabilidades de transición desde el "Lo mantiene" a todos los otros estados (incluyendo el mismo "Lo mantiene") es 1. 

## Transición de Estados y Matrices de Transición

- Dependencia de los estados anteriores
    
    - La probabilidad del siguiente estado al actual no depende de los estados pasados.
    - Ejemplo: La probabilidad de que el jugador realice un pase después de mantener el balón no depende si es que el ya había realizado un pase o mantenido el balón antes.

- Distribuciones Condicionales y Valores de Probabilidad 

    - P("Dispara" | "Lo mantiene") = 0.4 y P("Lo pasa" | "Lo mantiene") =  0.6

- Matriz de Transición de Estado

    | Estado actual \ Próximo estado | Lo mantiene | Lo pasa | Dispara |
    | ------------------------------ | ----------- | ------- | ------- |
    | **Lo mantiene**                | 0.60        | 0.30    | 0.10    |
    | **Lo pasa**                    | 0.25        | 0.50    | 0.25    |
    | **Dispara**                    | 0.10        | 0.20    | 0.70    |


- Homogeneidad en el tiempo en Modelos de Markov 
    
    - Las probabilidades de transición de un estado a otro permanecen constantes a lo largo del tiempo. Dicho de otra forma, la probabilidad de pasar del estado (i) al estado (j) en el siguiente paso es siempre la misma, sin importar cuándo ocurra la transición. 

- Distribución del Estado Inicial (Pi)

    - Al inicio de una secuencia; no hay un estado anterior del cual depender. Por eso se necesita una distribución de probabilidad inicial para determinar el primer estado.
        - Pi = [0.6(si),0.3(sj),0.1(sk)] 

## Suavizado y probabilidades logarítmicas 

$$ P(word_2|word_1) = {{count(word_1,word_2)} \over count(word_1) }$$

Problemas de valores 0 se refiere a la probabilidad de que una secuencia obtenga valor 0 porque ciertas palabras  usadas en la expresión no aparecieron en el conjunto de entrenamiento.

Digamos que tenemos la siguiente frase:

"Perro Programando"

Si dicha secuencia de palabras nunca aparece, entonces su probabilidad es 0.

P(Programando|Perro)=0

Esto no es deseable que pase ya que una frase no debería ser considerada imposible solo porque contiene un par de palabras que no se encontraron en el conjunto de entrenamiento.

### Suavizado

Existen varias opciones para dar solución a esta problemática:
- Suavizado + 1
    - $$ P_{+1}(Programando|Perro) = {{(0+1) }\over (count(Perro)+1000)} $$
    - Si en nuestro dataset hay 1000 palabras únicas y la secuencia "Perro Programando" nunca aparece, entonces se aplicaría lo anterior descrito.

- Suavizado Epsilon ($\epsilon$)
    - $$ P_{\epsilon} = {{0+0.1} \over {count(Perro)+100*0.1}} $$
    - Usando $\epsilon$ = 0.1 y suponiendo 1000 palabras únicas, para "Perro Programando", entonces se realizaría lo anterior visto.

### Probabilidad de una secuencia

$$ P(sequence) = { P(word_1) * P(word_2|word_1) * ... * P(word_n|word_{n-1}) } $$

Donde:
- $ P(word_1) $ es la probabilidad de que aparezca la primera palabra.
- $ P(word_2|word_1) $ es la probabilidad de que la segunda palabra aparezca después de la primera.
- $ P(word_n|word_{n-1}) $ es la probabilidad de que la ultima palabra aparezca después de la penúltima palabra.

### Ejemplo

Frase de ejemplo = " El perro comiendo cereal con cuchara "

1. La probabilidad de que la palabra "El" aparezca al inicio es $ P(El) $
2. La probabilidad de que la palabra "perro" siga después de la palabra "El" es $ P(perro|El) $
3. La probabilidad de que la palabra "comiendo" siga después de "perro" es $ P(comiendo|perro) $


Supongamos que cada una de estas probabilidades es 0.01 (1%), entonces...

$$ P(sequence) = { P(El) * P(perro|El) * P(comiendo|perro) * P(cereal|comiendo) * P(con|cereal) * P(cuchara|con) } $$

$$ P(sequence) = 0.01 * 0.01 * 0.01 * 0.01 * 0.01 * 0.01 $$

$$ P(sequence) = 0.000000000001 $$

Esto significa que, con base en el modelo hipotético, la probabilidad que la frase antes mencionada aparezca en ese orden especifico es de 0.0000000001%.

### Problemas de la probabilidad de una secuencia

Al intentar calcular la probabilidad conjunta de una secuencia se terminan multiplicando muchos números pequeños, lo que puede llevar a errores numéricos o "Desbordamiento por debajo" (underflow).

Este problema nace ya que la multiplicación de valores pequeños resulta en número aún más pequeños. Una computadora podría redondear estos valores extremadamente pequeños a 0 (cero), lo que generaría errores en los cálculos.

### Espacios Logarítmicos

Una solución a la problemática mencionada es trabajar con logaritmos de probabilidades.

La ventaja es que la suma de logaritmos es más numéricamente estable que la multiplicación de probabilidades. Además, sumar es computacionalmente más eficiente que multiplicar (si es posible investiguen sobre ciclo de instrucciones y operaciones básicas con valores binarios pero bajo el contexto electrónico (como estas notas están siendo orientadas para personas ajenas y no ajenas a la programación, quizás no conozcan lo que es una ALU o el como la computadora realiza operaciones matemáticas fuera del software, por lo que se les invita a estudiar la arquitectura de computadoras)). 

El logaritmo es una función monótonamente creciente, lo que significa que si un número es mayor que otro, su logaritmo también será mayor.

Así que, trabajar en el espacio logarítmico no altera las relaciones de orden entre las probabilidades



### Ejemplo

$$ log(P(sequence)) =  { log(P(word_1)) + log(P(word_2|word_1)) + ... + log(P(word_n|word_{n-1})) }  $$

Secuencia de ejemplo = "Mi equipo perdió"

Si tomamos por simplicidad que cada palabra o par de palabras tiene una probabilidad de 0.01, en lugar de multiplicar estos valores:

P("Mi equipo perdió") = 0.01 * 0.01 * 0.01 

En el espacio logarítmico, sumaríamos los logaritmos de estas probabilidades:

log(P("Mi equipo perdió")) $ = log(0.0.1) + log(0.01) + log(0.01) $

Esto resultaría en:

log(P("Mi equipo perdió")) $ = -2 + -2 + -2 = -6 $


## Clasificador de texto usando modelos de Markov

Para lograr realizar un clasificador de texto usando los modelos de Markov hay que entender lo siguiente:
- Un clasificador de texto se realiza con aprendizaje supervisado 
- Los modelos de Markov son no supervisados

Para lograrlo entonces usaremos la regla de Bayes para combinarlos:

$$ P(A|B) = { { P(B|A) * P(A) } \over { P(B) } } $$

Ejemplo aplicado aquí:

$$ P(SPAM|Premio) = { { P(Premio|SPAM) * P(SPAM) } \over { P(Premio) }} $$

Explicación:
- $ P(SPAM|Premio) $ = La probabilidad de que un correo sea SPAM al contener la palabra "premio".
- $ P(Premio|SPAM) $ = La probabilidad de que exista la palabra "premio" en un correo que sea SPAM.
- $ P(SPAM) $ = La probabilidad de que un correo sea SPAM.
- $ P(Premio) $ = La probabilidad de que un correo contenga la palabra "Premio".

## Parte practica Clasificador de texto (Poemas)

En el git se proporcionará dos documentos de texto, uno contiene poemas de Amado Nervo y otro contendrá poemas de Jaime Sabines. El objetivo del clasificador es que al ingresar un texto este lo clasifique si la secuencia se encontraría en un poema de Nervo o de Sabines.

In [10]:
#Importamos librerías que se usarán 
import numpy as np 
import string 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split

In [11]:
archivos = [
    'Nervo.txt',
    'Sabines.txt',
]

In [12]:
textos = []
etiquetas = []

In [13]:
for etiqueta, f in enumerate(archivos):
    print(f"{f} Corresponde a {etiqueta}")

    with open(f, 'r', encoding='utf-8') as archivo:
        for line in archivo:
            print(line)
            line = line.rstrip().lower()
            print(line)
            if line:
                line = line.translate(str.maketrans('','',string.punctuation))
                textos.append(line)
                etiquetas.append(etiqueta)
            print(line)

Nervo.txt Corresponde a 0
Poemas varios Amado Nervo

poemas varios amado nervo
poemas varios amado nervo




El día que me quieras

el día que me quieras
el día que me quieras
El día que me quieras tendrá más luz que junio;

el día que me quieras tendrá más luz que junio;
el día que me quieras tendrá más luz que junio
la noche que me quieras será de plenilunio,

la noche que me quieras será de plenilunio,
la noche que me quieras será de plenilunio
con notas de Beethoven vibrando en cada rayo

con notas de beethoven vibrando en cada rayo
con notas de beethoven vibrando en cada rayo
sus inefables cosas,

sus inefables cosas,
sus inefables cosas
y habrá juntas más rosas

y habrá juntas más rosas
y habrá juntas más rosas
que en todo el mes de mayo.

que en todo el mes de mayo.
que en todo el mes de mayo
Las fuentes cristalinas

las fuentes cristalinas
las fuentes cristalinas
irán por las laderas

irán por las laderas
irán por las laderas
saltando cristalinas

saltando cristalinas
saltando 

In [15]:
train_text, test_text, Ytrain, Ytest = train_test_split(textos,etiquetas, test_size=0.1, random_state=42)

In [16]:
len(Ytrain), len(Ytest)

(298, 34)

In [17]:
""" 
<unk> es una convención que se utiliza a menudo en el procesamiento de lenguaje natural para representar palabras
desconocidas o fuera del vocabulario. En este caso, se está asignando el índice 0 a esta palabra especial.
"""
indice = 1
indicepalabras = {'<unk>':0}

In [18]:
#Construcción de un Diccionario de Codificación de Palabras a Indices
for texto in train_text:
    tokens = texto.split()
    for token in tokens:
        if token not in indicepalabras:
            indicepalabras[token] = indice
            indice += 1

In [22]:
indicepalabras

{'<unk>': 0,
 'nos': 1,
 'morimos': 2,
 'amor': 3,
 'muero': 4,
 'en': 5,
 'tu': 6,
 'vientre': 7,
 'te': 8,
 'quiero': 9,
 'absurdamente': 10,
 'me': 11,
 'lo': 12,
 'digo': 13,
 'dicen': 14,
 'mi': 15,
 'cuerpo': 16,
 'y': 17,
 'estamos': 18,
 'débiles': 19,
 'asustadizos': 20,
 'ni': 21,
 'trabajos': 22,
 'injustos': 23,
 'pena': 24,
 'inmerecida': 25,
 'de': 26,
 'las': 27,
 'olas': 28,
 'escucho': 29,
 'querellas': 30,
 'por': 31,
 'tus': 32,
 'ojos': 33,
 'verdes': 34,
 'yo': 35,
 'perdería': 36,
 'salvaría': 37,
 'cayéndonos': 38,
 'múltiples': 39,
 'estatuas': 40,
 'tocarte': 41,
 'verte': 42,
 'el': 43,
 'perpetuo': 44,
 'milagro': 45,
 'la': 46,
 'vida': 47,
 'que': 48,
 'es': 49,
 'sólo': 50,
 'proyección': 51,
 'idea': 52,
 'divina': 53,
 'mío': 54,
 'hallado': 55,
 'porque': 56,
 'nunca': 57,
 'diste': 58,
 'esperanza': 59,
 'fallida': 60,
 'ósculo': 61,
 'piadoso': 62,
 'una': 63,
 'estrella': 64,
 'morir': 65,
 'poco': 66,
 'a': 67,
 'pedazos': 68,
 'he': 69,
 'aguardar'

In [23]:
#Convertimos datos a enteros
train_text_int = []
test_text_int = []

In [24]:
for texto in train_text:
    tokens = texto.split()
    linea_entero = [indicepalabras[token] for token in tokens]
    train_text_int.append(linea_entero)

In [25]:
train_text_int

[[1, 2, 3, 4, 5, 6, 7],
 [8, 9, 3, 3, 10],
 [11, 12, 13, 12, 14, 5, 15, 16],
 [17, 18, 19, 20],
 [21, 22, 23, 21, 24, 25],
 [26, 27, 28, 29, 27, 30],
 [31, 32, 33, 34, 35, 11, 36],
 [35, 11, 37],
 [38, 5, 39, 40],
 [9, 41, 42],
 [43, 44, 45, 26, 46, 47],
 [48, 49, 50, 51, 26, 46, 52, 53],
 [3, 54, 15, 3, 3, 55],
 [56, 57, 11, 58, 21, 59, 60],
 [43, 61, 62, 26, 63, 64],
 [65, 66, 67, 68],
 [69, 26, 70, 71, 46, 72, 73],
 [5, 74, 48, 75, 76],
 [17, 77, 78, 48, 35, 79, 80, 81],
 [82, 26, 46, 83, 84, 85, 86],
 [87],
 [1,
  88,
  89,
  67,
  90,
  91,
  92,
  93,
  94,
  95,
  96,
  95,
  97,
  95,
  15,
  98,
  99,
  100,
  48,
  1,
  101,
  48,
  1,
  102,
  103,
  104,
  105,
  67,
  106,
  75,
  107,
  108,
  109,
  1,
  110,
  111,
  48,
  43,
  112,
  113,
  114,
  115,
  116,
  117,
  48,
  46,
  118,
  113,
  114,
  115,
  67,
  46,
  119,
  48,
  43,
  120,
  114,
  115,
  116,
  120,
  17,
  31,
  121,
  122,
  46,
  123,
  100,
  48,
  46,
  47,
  75,
  124,
  21,
  35,
  46,
  47

In [26]:
for texto in test_text:
    tokens = texto.split()
    linea_as_int = [indicepalabras.get(token,0) for token in tokens]
    test_text_int.append(linea_as_int)

In [27]:
test_text_int

[[0, 27, 0, 0, 26, 183, 0],
 [124, 354, 12, 48, 0],
 [5, 43, 154],
 [0, 77, 224, 0],
 [0, 844, 550, 43, 719, 0, 15, 0],
 [26, 0, 660, 0, 264, 0],
 [0, 0],
 [9, 0, 0, 168, 783, 0],
 [5, 15, 0, 5, 48, 0],
 [0, 0, 3, 0],
 [26, 46, 0, 114, 0, 652, 75, 135, 0],
 [196, 31, 27, 0],
 [124, 354, 12, 48, 0, 12, 48, 275, 12, 48, 0],
 [9, 0, 0, 71, 0, 0],
 [17, 35, 79, 93, 6, 0],
 [733],
 [477, 88, 48, 0, 27, 496],
 [0, 49, 43, 0, 43, 345, 43, 0],
 [17, 43, 35, 0, 0, 31, 272, 5, 12, 0],
 [75, 49, 48, 436, 26, 3, 4, 26, 81],
 [241, 0, 0, 0, 0],
 [233, 75, 0, 513, 0, 485, 103],
 [57, 218, 67, 6, 123, 1, 747],
 [26, 32, 0, 67, 6, 0, 17, 6, 0],
 [186, 0, 165],
 [241, 0, 48, 0, 497, 0],
 [11, 354, 5, 32, 265],
 [0, 0, 67, 6, 347, 17, 67, 6, 629],
 [0, 26, 48, 5, 43, 0, 0],
 [8, 223, 67, 183, 0],
 [440, 49, 43, 0, 0],
 [63, 0, 0, 26, 46, 346, 26, 204],
 [48, 0, 0, 183, 0],
 [241, 242, 48, 43, 0, 26, 46, 588]]

In [28]:
V = len(indicepalabras)
A0 = np.ones((V,V))
pi0 = np.ones(V) #probabilidades iniciales Nervo

A1 = np.ones((V,V))
pi1 = np.ones(V) #probabilidades iniciales Sabines

In [29]:
A0

array([[1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       ...,
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.]], shape=(929, 929))

In [30]:
pi0

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

Explicación del resultado: 
Recuerdan el problema de probabilidad 0? Este problema dice que si una secuencia de palabras da como resultado de probabilidad como 0 este da a entender que dicha frase no es posible, lo cual esto no debe ser correcto. Por lo cual el valor mínimo con el que se va a fungir como dividendo será 1, o sea, se está usando la técnica de Suavizado + 1.

In [31]:
def compute_counts(text_as_int, A, pi):
    for tokens in text_as_int:
        last_idx = None
        for idx in tokens:
            #estamos en la primera palabra de la secuencia
            if last_idx is None:
                pi[idx] += 1
            else:
                A[last_idx, idx] +=1
            last_idx = idx

compute_counts([t for t, y in zip(train_text_int, Ytrain) if y == 0], A0, pi0)
compute_counts([t for t, y in zip(train_text_int, Ytrain) if y == 1], A1, pi1)

In [None]:
# Normaliza A y pi para que sean matrices de probabilidad válidas
A0 /= A0.sum(axis=1, keepdims= True)
pi0 /= pi0.sum()

A1/= A1.sum(axis=1, keepdims=True)
pi1 /= pi1.sum()

In [35]:
pi0

array([0.00092166, 0.00184332, 0.00092166, 0.00092166, 0.00092166,
       0.00460829, 0.00092166, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00092166, 0.00092166, 0.00092166, 0.00092166,
       0.00184332, 0.00092166, 0.0156682 , 0.00092166, 0.00092166,
       0.00092166, 0.00184332, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00368664, 0.00276498, 0.00092166, 0.00092166,
       0.00092166, 0.00921659, 0.00092166, 0.00092166, 0.00092166,
       0.00184332, 0.00092166, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00092166, 0.00092166, 0.01290323, 0.00092166,
       0.00092166, 0.00829493, 0.00092166, 0.00829493, 0.00092166,
       0.00092166, 0.00092166, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00460829, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00092166, 0.00092166, 0.00092166, 0.00092166,
       0.00092166, 0.00092166, 0.00368664, 0.00092166, 0.00184332,
       0.00092166, 0.00276498, 0.00092166, 0.00092166, 0.00092

In [36]:
A0

array([[0.00107643, 0.00107643, 0.00107643, ..., 0.00107643, 0.00107643,
        0.00107643],
       [0.00107066, 0.00107066, 0.00107066, ..., 0.00107066, 0.00107066,
        0.00107066],
       [0.00107643, 0.00107643, 0.00107643, ..., 0.00107643, 0.00107643,
        0.00107643],
       ...,
       [0.00107643, 0.00107643, 0.00107643, ..., 0.00107643, 0.00107643,
        0.00107643],
       [0.00107527, 0.00107527, 0.00107527, ..., 0.00107527, 0.00107527,
        0.00107527],
       [0.00107643, 0.00107643, 0.00107643, ..., 0.00107643, 0.00107643,
        0.00107643]], shape=(929, 929))

In [37]:
#Ahora calcularemos el logaritmo de A y pi, ya que no necesitamos las probabilidades reales
logA0 = np.log(A0)
logpi0 = np.log(pi0)

logA1 = np.log(A1)
logpi1 = np.log(pi1)

In [38]:
logpi0

array([-6.98933527, -6.29618809, -6.98933527, -6.98933527, -6.98933527,
       -5.37989735, -6.98933527, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -6.98933527, -6.98933527, -6.98933527, -6.98933527,
       -6.29618809, -6.98933527, -4.15612192, -6.98933527, -6.98933527,
       -6.98933527, -6.29618809, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -5.6030409 , -5.89072298, -6.98933527, -6.98933527,
       -6.98933527, -4.68675017, -6.98933527, -6.98933527, -6.98933527,
       -6.29618809, -6.98933527, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -6.98933527, -6.98933527, -4.35027794, -6.98933527,
       -6.98933527, -4.79211069, -6.98933527, -4.79211069, -6.98933527,
       -6.98933527, -6.98933527, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -5.37989735, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -6.98933527, -6.98933527, -6.98933527, -6.98933527,
       -6.98933527, -6.98933527, -5.6030409 , -6.98933527, -6.29

In [39]:
logA0

array([[-6.83410874, -6.83410874, -6.83410874, ..., -6.83410874,
        -6.83410874, -6.83410874],
       [-6.83947644, -6.83947644, -6.83947644, ..., -6.83947644,
        -6.83947644, -6.83947644],
       [-6.83410874, -6.83410874, -6.83410874, ..., -6.83410874,
        -6.83410874, -6.83410874],
       ...,
       [-6.83410874, -6.83410874, -6.83410874, ..., -6.83410874,
        -6.83410874, -6.83410874],
       [-6.83518459, -6.83518459, -6.83518459, ..., -6.83518459,
        -6.83518459, -6.83518459],
       [-6.83410874, -6.83410874, -6.83410874, ..., -6.83410874,
        -6.83410874, -6.83410874]], shape=(929, 929))

In [40]:
count0 = sum(y==0 for y in Ytrain) #Cuenta de etiquetas de clase 0 en Ytrain
count1 = sum(y==1 for y in Ytrain) #Cuenta de etiquetas de clase 1 en Ytrain
total = len(Ytrain) #Cantidad total de ejemplos de entrenamiento
p0 = count0/total # Probabilidad a priori de clase 0
p1 = count1/total # Probabilidad a priori de clase 1
logp0 = np.log(p0) # Logaritmo de la probabilidad a priori de clase 0
logp1 = np.log(p1) # Logaritmo de la probabilidad a priori de clase 1
p0, p1 #imprimimos las probabilidades a priori de ambas clases.

(0.5234899328859061, 0.47651006711409394)

In [48]:
#construcción de un clasificador
class Classifier:
    def __init__(self, logAs, logpis, logpriors):
        self.logAs = logAs
        self.logpis = logpis
        self.logpriors = logpriors
        self.K = len(logpriors) # Número de clases

    def _compute_log_likelihood(self,input_,class_):
            logA = self.logAs[class_]
            logpi = self.logpis[class_]

            last_idx = None
            logprob = 0
            for idx in input_:
                if last_idx is None:
                    #Es el primer token en la secuencia
                    logprob += logpi[idx]
                else:
                    # Calcula la probabilidad de transición de la palabra anterior a la actual
                    logprob += logA[last_idx,idx]

                #Actualiza last_idx para la próxima iteración
                last_idx = idx

            return logprob
        
    def predict(self, inputs):
            predictions = np.zeros(len(inputs))
            for i, input_ in enumerate(inputs):
                #calcula los logaritmos de las probabilidades posteriores para cada clase
                posteriors = [self._compute_log_likelihood(input_,c) + self.logpriors[c] for c in range(self.K)]

                #elige la clase con la mayor probabilidad posterior como la predicción
                pred = np.argmax(posteriors)
                predictions[i] = pred

            return predictions



In [49]:
#Cada arreglo debe estar en orden ya que se asume que las clases indexan estas listas
clf = Classifier([logA0, logA1],[logpi0,logpi1],[logp0,logp1])

In [50]:
Ptrain = clf.predict(train_text_int)
print(f"Train acc: {np.mean(Ptrain == Ytrain)}")

Train acc: 1.0


In [51]:
Ptest = clf.predict(test_text_int)
print(f"Test acc: {np.mean(Ptest == Ytest)}")

Test acc: 0.7647058823529411


Explicación: Cómo podemos ver el modelo bajo los textos entrenados acertó el 100% y eso lo podemos ver en el 1.0%, en cuanto a los textos de prueba este tuvo un 76% de aciertos. ¿Esto es bueno? No tanto, esto se podría mejorar si agregamos mucho más datos a los txt y así poder elevar el porcentaje de aciertos.

## Generación de texto

Con base a la teoría vista con relación al modelo de Markov, este solo le interesa el estado actual no el como se llegó a dicho estado, por lo que si nos basamos del siguiente ejemplo:

"El patio de mi casa..."

el -> patio -> de -> mi -> casa -> ?

el modelo solo tomará la palabra "casa" por lo tanto, con base a los datos con los que se haya entrenado, podría dar como siguiente palabra: "roja", "del", "en", "si", etc., esto rompería con el contexto o estructura que se llevaba, por lo tanto se usará el siguiente modelo para la generación de texto.



### Modelo de Markov de Segundo Orden

El modelo de Markov de segundo orden viene a resolver la problemática anterior donde ahora el modelo dará la probabilidad con base a los anteriores 2 estados. Ejemplo:

"El patio de mi casa..."

Aquí el modelo tomaría las palabras "mi" y "casa" para seleccionar la palabra con mayor probabilidad con base a el dataset.

Nueva manera de almacenar y representar las probabilidades de transición.
La matriz tridimensional $ a $ se representa de la siguiente manera:

$$ a_{ijk} = P(X_{t} = k|X_{t-1} = j, X_{t-2} = i) $$

Donde:
- $ X_t $ representa el estado en el tiempo $ t $
- $ a_{ijk} $ es la probabilidad de que, dado que el sistema estaba en el estado $ i $ en el tiempo $ t - 2 $ y en el estado $ j $ en el tiempo $ t - 1 $, estará en el estado $ k $ en el tiempo $ t $

¿Esto significa que puedo aplicar un modelo de Markov de tercero, cuarto, o hasta quinto orden para buscar mejor eficiencia?

Sí, pero tiene sus problemáticas.

Una preocupación es que a medida que aumenta el numero de estados anteriores que consideramos, el tamaño de la matriz " $ a $ " (o tensor) crece exponencialmente.

Este crecimiento podría llevar a problemas de eficiencia computacional y requerir recursos significativos para su implementación y cálculos.

## Parte Practica: Generación de Texto usando modelo de Markov de Segundo Orden

In [120]:
#Importación de librerías 
import numpy as np 
import string 

In [121]:
pa_inicial = {}
primer_orden = {}
segundo_orden = {}

In [122]:
def remove_puctuation(s):
    return s.translate(str.maketrans('','', string.punctuation))

In [123]:
def add2dict(d,k,v):
    if k not in d:
        d[k] = []
    d[k].append(v)

In [124]:
with open("edgar_allan_poe.txt", 'r', encoding='utf-8') as archivo:
    for line in archivo:
        ##print(line)
        tokens = remove_puctuation(line.rstrip().lower()).split()
        ##print(tokens)
        T = len(tokens)
        ##print(f"Tamaño de la fila: {T}")
        for i in range(T):
            token = tokens[i]
            if i == 0:
                pa_inicial[token] = pa_inicial.get(token,0.)+1
                ##print(f"Palabras inciales: {token}")
            else:
                t_1 = tokens[i-1]
                if i == T-1:
                    add2dict(segundo_orden,(t_1, token), 'END')
                if i == 1:
                    add2dict(primer_orden, t_1, token)
                else:
                    t_2 = tokens[i-2]
                    add2dict(segundo_orden, (t_2, t_1), token) 

In [None]:
segundo_orden

In [None]:
primer_orden

In [None]:
pa_inicial

In [125]:
#Normalización
inicial_total = sum(pa_inicial.values())
print(inicial_total)
for t, c in pa_inicial.items():
    pa_inicial[t] = c/inicial_total

486.0


In [126]:
def list2pdict(ts):
    d = {} #Diccionario vacio
    n = len(ts) # Obtener la longitud de la lista de elementos

    #Ciclo para contar la ocurrencia de cada elemento en la lista
    for t in ts:
        d[t] = d.get(t,0.)+1
    
    #Ciclo para convertir los conteos en probabilidades relativos
    for t, c in d.items():
        d[t] = c/n

    return d #Devolver el diccionario de probabilidades

In [137]:
for t_1, ts in primer_orden.items():
    primer_orden[t_1] = list2pdict(ts)

In [138]:
primer_orden

{'edgar': {'allan': 1.0},
 'annabel': {'lee': 1.0},
 'hace': {'ya': 0.5, 'su': 0.5},
 'allá': {'de': 0.3333333333333333,
  'los': 0.3333333333333333,
  'abajo': 0.3333333333333333},
 'con': {'el': 0.25, 'sus': 0.25, 'despótico': 0.25, 'un': 0.25},
 'vivía': {'sin': 0.5, 'sólo': 0.5},
 'amarme': {'y': 1.0},
 'yo': {'era': 0.5, 'soy': 0.5},
 'reino': {'más': 1.0},
 'y': {'yo': 0.05555555555555555,
  'esa': 0.05555555555555555,
  'en': 0.05555555555555555,
  'reposo': 0.05555555555555555,
  'las': 0.05555555555555555,
  'de': 0.05555555555555555,
  'al': 0.05555555555555555,
  'así': 0.05555555555555555,
  'jamás': 0.05555555555555555,
  'por': 0.05555555555555555,
  'hacen': 0.05555555555555555,
  'descienden': 0.05555555555555555,
  'con': 0.05555555555555555,
  'mi': 0.05555555555555555,
  'que': 0.05555555555555555,
  'me': 0.05555555555555555,
  'macilentos': 0.05555555555555555,
  'obligado': 0.05555555555555555},
 'que': {'el': 0.1,
  'eres': 0.1,
  'consumía': 0.1,
  'pronunció': 

In [139]:
for k,ts in segundo_orden.items():
    segundo_orden[k] = list2pdict(ts)

In [140]:
segundo_orden

{('edgar', 'allan'): {'poe': 1.0},
 ('poe', 'poemas'): {'END': 1.0},
 ('allan', 'poe'): {'poemas': 1.0},
 ('annabel', 'lee'): {'END': 0.3333333333333333,
  'esa': 0.16666666666666666,
  'de': 0.16666666666666666,
  'y': 0.3333333333333333},
 ('hace', 'ya'): {'bastantes': 0.5, 'bastante': 0.5},
 ('ya', 'bastantes'): {'años': 1.0},
 ('bastantes', 'años'): {'en': 1.0},
 ('años', 'en'): {'un': 1.0},
 ('en', 'un'): {'reino': 0.06666666666666667,
  'sepulcro': 0.06666666666666667,
  'END': 0.13333333333333333,
  'beso': 0.06666666666666667,
  'mundo': 0.06666666666666667,
  'irisado': 0.06666666666666667,
  'ensueño': 0.2,
  'día': 0.06666666666666667,
  'sueño': 0.06666666666666667,
  'teatro': 0.06666666666666667,
  'círculo': 0.06666666666666667,
  'momento': 0.06666666666666667},
 ('reino', 'más'): {'END': 0.25, 'allá': 0.75},
 ('un', 'reino'): {'más': 1.0},
 ('allá', 'de'): {'la': 0.7142857142857143,
  'END': 0.14285714285714285,
  'las': 0.14285714285714285},
 ('de', 'la'): {'mar': 0.2

In [142]:
def palabra_ejemplo(d, imprimir):
    # Generar un número aleatorio en el rango(0,1)
    p0 = np.random.random()
    if(imprimir == 1):
        print(f"p0: {p0}")

    # Inicializa una vairable para realizar la suma acumulativa de probabilidades
    cumulative = 0
    if(imprimir ==  1):
        print(f"prob acumulada: {cumulative}")

    # Ciclo que recorre cada clave (t) y su probabilidad (p) en el diccionario (d)
    for t, p in d.items():
        #agrega la probabilidad actual al valor acumulativo
        cumulative += p
        if(imprimir == 1):
            print(f"item: {t}, prob: {p}")
            print(f"prob acumulada: {cumulative}")

        #Comprueba si el número aleatorio es menor que la acumulación de probabilidades
        if p0 < cumulative:
            # Si se cumple la condición, devuelve la clave (t) seleccionada
            return t

In [130]:
primer_orden["de"]

{'los': 0.13043478260869565,
 'amor': 0.08695652173913043,
 'annie': 0.043478260869565216,
 'eulalia': 0.043478260869565216,
 'flores': 0.043478260869565216,
 'tal': 0.043478260869565216,
 'la': 0.13043478260869565,
 'tu': 0.08695652173913043,
 'sublimes': 0.043478260869565216,
 'hiedra': 0.043478260869565216,
 'vastas': 0.043478260869565216,
 'tempestad': 0.043478260869565216,
 'esa': 0.043478260869565216,
 'pie': 0.043478260869565216,
 'tesoros': 0.043478260869565216,
 'tus': 0.043478260869565216,
 'encantador': 0.043478260869565216}

In [132]:
palabra_ejemplo(primer_orden["de"],1)

p0: 0.4426485492953176
prob acumulada: 0
item: los, prob: 0.13043478260869565
prob acumulada: 0.13043478260869565
item: amor, prob: 0.08695652173913043
prob acumulada: 0.21739130434782608
item: annie, prob: 0.043478260869565216
prob acumulada: 0.2608695652173913
item: eulalia, prob: 0.043478260869565216
prob acumulada: 0.30434782608695654
item: flores, prob: 0.043478260869565216
prob acumulada: 0.34782608695652173
item: tal, prob: 0.043478260869565216
prob acumulada: 0.3913043478260869
item: la, prob: 0.13043478260869565
prob acumulada: 0.5217391304347826


'la'

In [147]:
def generador(size):
    for i in range(size):
        oracion = []
        #palabra inicial
        pal0 = palabra_ejemplo(pa_inicial, 0)
        oracion.append(pal0)
        #Segunda palabra
        pal1 = palabra_ejemplo(primer_orden[pal0], 0)
        oracion.append(pal1)

        #Segundo orden hasta el fin
        while True:
            pal2 = palabra_ejemplo(segundo_orden[(pal0,pal1)], 0)

            if pal2 == 'END':
                break

            oracion.append(pal2)
            pal0 = pal1
            pal1 = pal2
        print(' '.join(oracion))

In [148]:
generador(9)

adormece sobre la tumba el lis se inclina hacia
leteo el lago parece adormecerse a sabiendas
la lánguida enfermedad ha desaparecido por
fin y la corona sobre
la duda y la fiebre llamada «vivir»
abrasado por la cumbre tranquila
murmuran en voz baja y saltan de un agua que corre con sonido
estuvieras rodeada de dicha y que es más que una pequeña
tiempo por difuntos siglos de pompa y de ardiente sed—sed de corrientes
