In [1]:
import random
import re
from collections import defaultdict

In [2]:
class NgramModel:
    """
    Esta clase implementa un modelo de n-gramas.
    """
    def __init__(self, n):
        """
        Inicializa el modelo de n-gramas.

        Args:
            n (int): El tamaño del n-grama (ej. 2 para bigramas, 3 para trigramas).
        """
        if n < 1:
            raise ValueError("n debe ser un número entero positivo.")

        self.n = n
        self.ngrams = defaultdict(list)
        self.corpus_words = []

    def train(self, text):
        """
        Entrena el modelo con un corpus de texto.

        Args:
            text: El texto a usar para entrenar el modelo.
        """
        # Limpia y tokeniza el texto
        # El patrón de expresión regular \w+ busca una o más palabras
        words = re.findall(r'\w+', text.lower())
        self.corpus_words = words

        if len(words) < self.n:
            print("El texto es demasiado corto para el tamaño del n-grama.")
            return

        # Construye y entrena el modelo de n-gramas
        for i in range(len(words) - self.n + 1):
            # El prefijo es la secuencia de n-1 palabras
            prefix = tuple(words[i:i + self.n - 1])
            # El siguiente token es la palabra que viene después del prefijo
            token = words[i + self.n - 1]
            self.ngrams[prefix].append(token)

    def generate(self, start_word, length):
        """
        Genera una secuencia de texto usando el modelo de n-gramas.

        Args:
            start_word (str): La palabra inicial para la secuencia generada.
            length (int): El número de palabras a generar.

        Returns:
            str: La secuencia de texto generada.
        """
        if self.n > 1:
            # Crea un prefijo inicial de n-1 palabras, repitiendo la palabra inicial
            current_prefix = tuple([start_word] * (self.n - 1))
        else: # Para el caso de unigramas (n=1)
            current_prefix = ()

        generated_text = [start_word]

        for _ in range(length - 1):
            possible_next_words = self.ngrams.get(current_prefix)

            if possible_next_words:
                next_word = random.choice(possible_next_words)
            else:
                # Si el prefijo no se encuentra, elige una palabra aleatoria del corpus
                # Esto evita que la generación se detenga
                if not self.corpus_words:
                    return "No se puede generar texto, el corpus está vacío."
                next_word = random.choice(self.corpus_words)

            generated_text.append(next_word)

            # Actualiza el prefijo para la siguiente iteración
            if self.n > 1:
                current_prefix = tuple(generated_text[-(self.n - 1):])

        return ' '.join(generated_text)

In [8]:
# Un corpus de texto simple para entrenar el modelo
corpus = "El gato negro salta sobre la mesa. El perro grande corre detrás del gato. El gato maulla y el perro ladra."

# Crea una instancia del modelo de trigramas (n=3)
model = NgramModel(n=3)

# Entrena el modelo con el corpus de texto
model.train(corpus)

# Genera una nueva secuencia de texto de 10 palabras, comenzando con "gato"
generated_sequence = model.generate(start_word="gato", length=20)
print("Texto generado:")
print(generated_sequence)

# ---
# Ejemplo con bigramas (n=2)
print("\n---")
print("Ejemplo con bigramas (n=2):")
model_bigram = NgramModel(n=2)
model_bigram.train(corpus)
generated_bigram_sequence = model_bigram.generate(start_word="perro", length=20)
print("Texto generado con bigramas:")
print(generated_bigram_sequence)

Texto generado:
gato perro el grande y corre del la la grande sobre gato la maulla el el el ladra gato el

---
Ejemplo con bigramas (n=2):
Texto generado con bigramas:
perro ladra del gato maulla y el perro ladra el perro grande corre detrás del gato negro salta sobre la
