In [38]:
import re
from collections import defaultdict
from random import choices

In [42]:
def generar_tabla_frecuencias_condicionales(archivo, N=1):
    """
    Genera una tabla de frecuencias condicionales de palabras a partir de un archivo de texto.
    :param archivo: Nombre del archivo de texto en formato UTF-8.
    :param N: Número de palabras condicionantes.
    :return: Diccionario con frecuencias condicionales.
    """
    with open(archivo, 'r', encoding='utf-8') as file:
        texto = file.read().lower()
    
    palabras = re.findall(r'\b\w+\b', texto) # quito puntuación y divido en palabras
    
    # Diccionario para almacenar las frecs condicionales
    tabla_frecuencias = defaultdict(lambda: defaultdict(int))       #Nota: Cada vez que se accede a una clave que no existe en este diccionario interno, se inicializa con 0

    # Si se accede a una clave que no existe en tabla_frecuencias, se crea automáticamente un nuevo defaultdict(int).
    # Si se accede a una clave que no existe en ese defaultdict(int), se crea un entero con valor 0.

    #Tabla de frecuencias
    for i in range(len(palabras) - N):           # crea secuencias de palabras de longitud N (condiciones) y cunta la frecuencia con la que aparecen otras palabras justo después de esas condiciones.
        condicion = tuple(palabras[i:i + N])  # N palabras como condición
        siguiente_palabra = palabras[i + N]
        tabla_frecuencias[condicion][siguiente_palabra] += 1

    return tabla_frecuencias


In [40]:
def guardar_tabla_frecuencias_en_archivo(tabla_frecuencias, nombre_archivo="Tablas_Frecuencias.txt"):
    """
    Guarda la tabla de frecuencias condicionales en un archivo de texto.
    :param tabla_frecuencias: Diccionario con frecuencias condicionales.
    :param nombre_archivo: Nombre del archivo donde se guardarán las frecuencias.
    """
    with open(nombre_archivo, 'w', encoding='utf-8') as file:

        for condicion, frecuencias in tabla_frecuencias.items():
            condicion_str = ' '.join(condicion)                     # Convertir la tupla de palabras en una cadena de texto
            file.write(f"Condición: {condicion_str}\n")

            for palabra_siguiente, frecuencia in frecuencias.items():
                file.write(f"  {palabra_siguiente}: {frecuencia}\n")

            file.write("\n")  # Espacio entre diferentes condiciones

    print(f"Tabla de frecuencias guardada en {nombre_archivo}")

In [41]:
tabla_frecuencias = generar_tabla_frecuencias_condicionales("La_Divina_Comedia.txt", N=1)
print(tabla_frecuencias)

guardar_tabla_frecuencias_en_archivo(tabla_frecuencias)

defaultdict(<function generar_tabla_frecuencias_condicionales.<locals>.<lambda> at 0x000002ACE4432840>, {('the', 'project'): defaultdict(<class 'int'>, {'gutenberg': 33}), ('project', 'gutenberg'): defaultdict(<class 'int'>, {'ebook': 3, 'license': 11, 'electronic': 18, 'concept': 2, 'is': 4, 'trademark': 5, 'ebooks': 3, 'mission': 2, 'you': 1, 'literary': 13, 'are': 1, 'works': 5, 'name': 1, 'work': 5, '1': 2, 'appears': 1, 'associated': 1, 'website': 1, 'volunteers': 1, 'collection': 2, 'project': 1, 's': 1, 'and': 1, 'depends': 1, 'web': 1, 'including': 1}), ('gutenberg', 'ebook'): defaultdict(<class 'int'>, {'of': 1, 'la': 2}), ('ebook', 'of'): defaultdict(<class 'int'>, {'la': 1}), ('of', 'la'): defaultdict(<class 'int'>, {'divina': 1}), ('la', 'divina'): defaultdict(<class 'int'>, {'comedia': 4, 'potestad': 1, 'llama': 1, 'floresta': 1, 'paz': 1, 'bondad': 3, 'gracia': 2, 'voluntad': 1, 'substancia': 1}), ('divina', 'comedia'): defaultdict(<class 'int'>, {'this': 1, 'author': 1, 

In [5]:
#Test para lambda (para inicializar)

tabla_frecuencias = defaultdict(lambda: defaultdict(int))

# Si intentamos acceder a una clave que no existe:
print(tabla_frecuencias[('una',)])

# La clave ('una',) se inicializa automáticamente con un defaultdict(int)
tabla_frecuencias[('una',)]['rutina'] += 1

print(tabla_frecuencias)


defaultdict(<class 'int'>, {})
defaultdict(<function <lambda> at 0x000002ACE4082C00>, {('una',): defaultdict(<class 'int'>, {'rutina': 1})})
