In [3]:
import pandas as pd
from collections import defaultdict
from collections import Counter
import re
import math
import json

In [2]:
# Cargar el archivo de entrenamiento
with open("chat.txt", "r") as file:
    chat = file.read()

In [13]:
# Para utilizar menos datos en caso de que sea lento el procesamiento
#medio = len(chat)//2
#chat = chat[:medio]

In [14]:
# Procesamiento de del chat para obtener una lista de palabras
lines = chat.split('\n')
words = []

frases_eliminar = ["Creó el grupo", "Se eliminó este mensaje", "Multimedia omitido", "Se editó este mensaje", "Se te añadió al grupo", "Se unió usando el enlace de invitación de este grupo", "Salió del grupo", "Añadió a"]

eliminar = [frase.split() for frase in frases_eliminar]

for line in lines:
    
    if ":" in line:
        message = line.rsplit(":", 1)[-1].strip()
        message_clean = re.findall(r'[\wáéíóúÁÉÍÓÚñÑ]+', message) 
        
        if not message_clean in eliminar: # sacamos los textos que no son mensajes
            words.extend(word.lower() for word in message_clean) # conservamos las palabras pero en minusculas
        

In [15]:
# Cargar el diccionario en español
with open("index.json", "r", encoding="utf-8") as json_file:
    diccionario_esp = json.load(json_file)


In [16]:
def eliminar_tildes(palabra):
    tildes = {'á': 'a', 'é': 'e', 'í': 'i', 'ó': 'o', 'ú': 'u'}
    return ''.join(tildes.get(char, char) for char in palabra)

# Eliminar tildes de las palabras
words_sin_tildes = [eliminar_tildes(word) for word in words]

# Aplicando criterio de todo o nada

# Lista para almacenar las palabras corregidas
words_corr_st = []

# Corregir errores ortográficos
for word in words_sin_tildes:
    # Si la palabra está en el diccionario personalizado se guarda
    if word in diccionario_esp:
        words_corr_st.append(word)

In [17]:
def frases_de_horizonte(horizonte, words):
    '''
    Devuelve un diccionario con un key por palabra del vocabulario y valores las frases de largo horizonte que terminan en dicha palabra
    '''
    iter = list(set(words))
    frases= {}
    for target in iter: #Tomo las palabras para las que quiero las probab condicionales
        # Length of sublists you want to find
        n = horizonte
        # listas de palabras con la palabra target
        frases[target] = [words[max(i-n,0):i] for i in range(len(words)) if target == words[i]]
    return frases



In [61]:
frases = frases_de_horizonte(4,words) 

In [60]:
cant_unicas = len(list(set(words)))
print("Tengo ",cant_unicas," palabras únicas")

# calculando la cantidad de frases (es el mismo para cualquier largo de clases)
total = 0
for val in frases.values():
    total = total + len(val) 
print("Tengo ",total," de frases de largo 4")
print("En promedio cada palabra tiene ", total/cant_unicas, " frases" )

Tengo  2543  palabras únicas
Tengo  14700  de frases de largo 4
En promedio cada palabra tiene  5.780574125049155  frases


In [18]:
def cuantos(b, a, frases):
    '''
    Cuenta la cantidad de frases que terminan en a tienen a b
    '''
    frases_con_b = 0
    if a in frases:
        for words in frases[a]:
            if b in words:
                frases_con_b += 1
    return frases_con_b

In [19]:
#Diccionario con las probabilidades a priori de las palabras
def Priori(words):
    '''
    Calcula un diccionario con las probabilidades a priori de cada palabra
    '''
    P = {}
    for palabra in list(set(words)):
        P[palabra] = words.count(palabra)/len(words) #cantidad de ocurrencias de la palabra en todas las instancias
    return P

In [20]:
def Probabilidades_condicionales(words, horizonte, m):
    '''
    Calcula un diccionario con las probabilidades condicionales de cada palabra de estar en una frase de largo horizonte con cada otra palabra
    '''
    PD = {} #Diccionario con las probabilidades condicoinales m-estimador

    frases = frases_de_horizonte(horizonte, words)

    pal_unicas = list(set(words))

    for a in pal_unicas: # P( _ | a)
        PD[a]={}
        itera = pal_unicas.copy()
        itera.remove(a)
        for b in itera: # P( b | a )
            e = cuantos(b,a,frases) #frases con la palabra b que terminan en a
            p = 1/len(pal_unicas) #probabilidad de una palabra
            n = len(frases[a]) #frases que terminan con a
            PD[a][b]= (e + m*p)/(n+m)
    return PD

In [71]:
horizonte = 4
m = 4
PD = Probabilidades_condicionales(words, horizonte, m) # Entrenamiento sin diccionario
P = Priori(words)

In [37]:
def recomendacion_bayesiana(frase):
    D = frase   # Frase que será ingresada
    
    P_nada = 0.000000001  # valor pequeño por si la palabra no aparece en el diccionario
    h_MAP = "" 
    p_MAP = float('-inf') ##variable que se utilizará para almacenar la probabilidad más alta encontrada hasta ahora.

    for h in P: # me fijo en cada palabra posible
        prome = P[h]
        prob = math.log(P[h])
        for d in D[-horizonte:]:
            prome = prome + PD[h].get(d, P_nada)
            prob = prob + math.log(PD[h].get(d, P_nada)) #log(P(sugerencia))+log(P(palabra1|sugerencia))+...+log(P(palabran|sugerencia))
        if prob > p_MAP:
            promedio = prome # Guardo el promedio de los factores de h_MAP
            h_MAP, p_MAP = h, prob
    promedio = promedio/len(D[-horizonte:])
    print("Promedio de los factores de la sugerencia ",h_MAP," =", promedio)
    return(h_MAP)


In [66]:
horizonte_d = 4
m = 4
PD_dict = Probabilidades_condicionales(words_corr_st, horizonte_d, m) # Entrenamiento con diccionario
P_dict = Priori(words_corr_st)

In [38]:
def recomendacion_bayesiana_dict(frase):
    D = frase   # Frase que será ingresada
    
    P_nada = 0.000000001  # valor pequeño por si la palabra no aparece en el diccionario
    h_MAP = "" 
    p_MAP = float('-inf') ##variable que se utilizará para almacenar la probabilidad más alta encontrada hasta ahora.

    for h in P_dict: # me fijo en cada palabra posible
        prome = P_dict[h]
        prob = math.log(P_dict[h])
        for d in D[-horizonte:]:
            prome = prome + PD_dict[h].get(d, P_nada)
            prob = prob + math.log(PD_dict[h].get(d, P_nada)) #log(P(sugerencia))+log(P(palabra1|sugerencia))+...+log(P(palabran|sugerencia))
        if prob > p_MAP:
            promedio = prome # Guardo el promedio de los factores de h_MAP
            h_MAP, p_MAP = h, prob
    promedio = promedio/len(D[-horizonte:])
    print("Promedio de los factores de la sugerencia ",h_MAP," =", promedio)
    return(h_MAP)


In [73]:
##### LOOP PRINCIPAL #####

print("Ingrese la frase dando ENTER luego de \x1b[3mcada palabra\x1b[0m.")
print("Ingrese sólo ENTER para aceptar la recomendación sugerida, o escriba la siguiente palabra y de ENTER")
print("Ingrese '.' para comenzar con una frase nueva.")
print("Ingrese '..' para terminar el proceso.")

frase = []
diccionario = True #Parametro para sugerir con o sin diccionario
palabra_sugerida = ""
while 1:
    palabra = input(">> ")

    if palabra == "..":
      break

    elif palabra == ".":
      print("----- Comenzando frase nueva -----")
      frase = []

    elif palabra == "": # acepta última palabra sugerida
      frase.append(palabra_sugerida)

    else: # escribió una palabra
      frase.append(palabra.lower())

    if frase:
      if diccionario:
        palabra_sugerida = recomendacion_bayesiana_dict(frase)
      else:
        palabra_sugerida = recomendacion_bayesiana(frase)

      frase_propuesta = frase.copy()
      frase_propuesta.append("\x1b[3m"+ palabra_sugerida +"\x1b[0m")

      print(" ".join(frase_propuesta))

Ingrese la frase dando ENTER luego de [3mcada palabra[0m.
Ingrese sólo ENTER para aceptar la recomendación sugerida, o escriba la siguiente palabra y de ENTER
Ingrese '.' para comenzar con una frase nueva.
Ingrese '..' para terminar el proceso.
Promedio de los factores de la sugerencia  la  = 0.02695668638176513
hola [3mla[0m
Promedio de los factores de la sugerencia  la  = 0.03507639871694064
hola como [3mla[0m
Promedio de los factores de la sugerencia  yo  = 0.02060755455123645
hola como andan [3myo[0m
Promedio de los factores de la sugerencia  sali  = 0.09408323283069907
hola como andan yo [3msali[0m
Promedio de los factores de la sugerencia  poquito  = 0.04805379358811644
hola como andan yo sali [3mpoquito[0m
Promedio de los factores de la sugerencia  mas  = 0.026701765080661244
hola como andan yo sali poquito [3mmas[0m
Promedio de los factores de la sugerencia  porque  = 0.03737571249909689
hola como andan yo sali poquito mas [3mporque[0m
Promedio de los factores d

In [26]:
words2 = words.copy()

In [27]:
##### LOOP CON REENTRENAMIENTO #####

print("Ingrese la frase dando ENTER luego de \x1b[3mcada palabra\x1b[0m.")
print("Ingrese sólo ENTER para aceptar la recomendación sugerida, o escriba la siguiente palabra y de ENTER")
print("Ingrese '.' para comenzar con una frase nueva.")
print("Ingrese '..' para terminar el proceso.")

frase = []
palabra_sugerida = ""
while 1:
    palabra = input(">> ")

    if palabra == "..":
      break

    elif palabra == ".":
      words2.extend(frase) # Agregamos las palabras de la nueva frase a la lista de mensajes
      PD = Probabilidades_condicionales(words2, horizonte, m)
      P = Priori(words2)
      print("----- Comenzando frase nueva -----")
      frase = []

    elif palabra == "": # acepta última palabra sugerida
      frase.append(palabra_sugerida)

    else: # escribió una palabra
      frase.append(palabra.lower())

    if frase:
      palabra_sugerida = recomendacion_bayesiana(frase)

      frase_propuesta = frase.copy()
      frase_propuesta.append("\x1b[3m"+ palabra_sugerida +"\x1b[0m")

      print(" ".join(frase_propuesta))





Ingrese la frase dando ENTER luego de [3mcada palabra[0m.
Ingrese sólo ENTER para aceptar la recomendación sugerida, o escriba la siguiente palabra y de ENTER
Ingrese '.' para comenzar con una frase nueva.
Ingrese '..' para terminar el proceso.
