# Creación de un sistema generativo de texto basado en n-gramas

Como punto de partida para la creación de un sistema generativo de texto es necesario contar con un texto de entrenamiento. En nuestro caso contamos con un archivo "textos.txt" que contiene fragmentos de obras literarias que están en el dominio público, incluyendo a Cervantes, Rubén Darío, Emilio Castelar, Conan Doyle, Félix María Samaniego o Armando Palacio Valdés. Son fragmentos de sus obras descargados del [Proyecto Gutenberg](https://www.gutenberg.org). Aquí vemos las primeras líneas del texto:

In [None]:
# @title

# Ruta del archivo en Google Colab
ruta_archivo = '/content/textos.txt'

# Leer el archivo
with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
  texto = archivo.read()

#Imprimir las primeras palabras
print(texto[:300])

Estamos en Civita-Vecchia. Cuando el bote se aproxima rápidamente á
tierra, el corazon os salta en el pecho de entusiasmo. Los edificios
que os rodean os hablan de la antigüedad. Por poco aficionados á
los estudios clásicos que seais, sentís tentaciones de recitar los
versos que Virgilio puso en boc


Este texto lo podemos dividir en bigramas, que son grupos de dos palabras:


In [None]:
# @title
def generar_bigramas(ruta_archivo):
    # Leer el archivo
    with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
        texto = archivo.read()

    # Dividir el texto en palabras
    palabras = texto.split()

    # Generar bigramas
    bigramas = [(palabras[i], palabras[i + 1]) for i in range(len(palabras) - 1)]

    return bigramas

bigramas = generar_bigramas(ruta_archivo)
print(bigramas)

[('Estamos', 'en'), ('en', 'Civita-Vecchia.'), ('Civita-Vecchia.', 'Cuando'), ('Cuando', 'el'), ('el', 'bote'), ('bote', 'se'), ('se', 'aproxima'), ('aproxima', 'rápidamente'), ('rápidamente', 'á'), ('á', 'tierra,'), ('tierra,', 'el'), ('el', 'corazon'), ('corazon', 'os'), ('os', 'salta'), ('salta', 'en'), ('en', 'el'), ('el', 'pecho'), ('pecho', 'de'), ('de', 'entusiasmo.'), ('entusiasmo.', 'Los'), ('Los', 'edificios'), ('edificios', 'que'), ('que', 'os'), ('os', 'rodean'), ('rodean', 'os'), ('os', 'hablan'), ('hablan', 'de'), ('de', 'la'), ('la', 'antigüedad.'), ('antigüedad.', 'Por'), ('Por', 'poco'), ('poco', 'aficionados'), ('aficionados', 'á'), ('á', 'los'), ('los', 'estudios'), ('estudios', 'clásicos'), ('clásicos', 'que'), ('que', 'seais,'), ('seais,', 'sentís'), ('sentís', 'tentaciones'), ('tentaciones', 'de'), ('de', 'recitar'), ('recitar', 'los'), ('los', 'versos'), ('versos', 'que'), ('que', 'Virgilio'), ('Virgilio', 'puso'), ('puso', 'en'), ('en', 'boca'), ('boca', 'de'), 

También podemos crear trigramas:

In [None]:
# @title
def generar_ngramas(ruta_archivo, n):
    # Leer el archivo
    with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
        texto = archivo.read()

    # Dividir el texto en palabras
    palabras = texto.split()

    # Verificar que n es válido
    if n < 1 or n > len(palabras):
        raise ValueError("El tamaño de n-grama debe ser mayor que 0 y menor o igual al número de palabras en el texto")

    # Generar n-gramas
    ngramas = [tuple(palabras[i:i + n]) for i in range(len(palabras) - n + 1)]

    return ngramas

# Ejemplo de uso
ruta_archivo = '/content/textos.txt'
n = 3  # Cambia este valor por el tamaño deseado de n-gramas
ngramas = generar_ngramas(ruta_archivo, n)
print(ngramas[:10])


[('Estamos', 'en', 'Civita-Vecchia.'), ('en', 'Civita-Vecchia.', 'Cuando'), ('Civita-Vecchia.', 'Cuando', 'el'), ('Cuando', 'el', 'bote'), ('el', 'bote', 'se'), ('bote', 'se', 'aproxima'), ('se', 'aproxima', 'rápidamente'), ('aproxima', 'rápidamente', 'á'), ('rápidamente', 'á', 'tierra,'), ('á', 'tierra,', 'el')]


Y así podemos seguir dividiendo el texto en n-gramas, con el valor de n que queramos. Por ejemplo, n=4:

In [None]:
# @title
n = 4  # Cambia este valor por el tamaño deseado de n-gramas
ngramas = generar_ngramas(ruta_archivo, n)
print(ngramas[:10])

[('Estamos', 'en', 'Civita-Vecchia.', 'Cuando'), ('en', 'Civita-Vecchia.', 'Cuando', 'el'), ('Civita-Vecchia.', 'Cuando', 'el', 'bote'), ('Cuando', 'el', 'bote', 'se'), ('el', 'bote', 'se', 'aproxima'), ('bote', 'se', 'aproxima', 'rápidamente'), ('se', 'aproxima', 'rápidamente', 'á'), ('aproxima', 'rápidamente', 'á', 'tierra,'), ('rápidamente', 'á', 'tierra,', 'el'), ('á', 'tierra,', 'el', 'corazon')]


Una vez creados los n-gramas, podemos contar cuántas veces aparece cada n-grama en el texto. Por ejemplo, aquí vemos cuántas veces aparecen en el texto algunos de los 4-gramas:

In [None]:
# @title
def contar_ngramas(ngramas):
    # Contar las ocurrencias de cada n-grama
    conteo_ngramas = {}
    for ngrama in ngramas:
        if ngrama in conteo_ngramas:
            conteo_ngramas[ngrama] += 1
        else:
            conteo_ngramas[ngrama] = 1

    # Convertir el diccionario en una lista de tuplas (n-grama, conteo)
    ngramas_con_conteo = [(ngrama, conteo) for ngrama, conteo in conteo_ngramas.items()]

    return ngramas_con_conteo

ngramas_conteo = contar_ngramas(ngramas)
print(ngramas_conteo[:10])

[(('Estamos', 'en', 'Civita-Vecchia.', 'Cuando'), 1), (('en', 'Civita-Vecchia.', 'Cuando', 'el'), 1), (('Civita-Vecchia.', 'Cuando', 'el', 'bote'), 1), (('Cuando', 'el', 'bote', 'se'), 1), (('el', 'bote', 'se', 'aproxima'), 1), (('bote', 'se', 'aproxima', 'rápidamente'), 1), (('se', 'aproxima', 'rápidamente', 'á'), 1), (('aproxima', 'rápidamente', 'á', 'tierra,'), 1), (('rápidamente', 'á', 'tierra,', 'el'), 1), (('á', 'tierra,', 'el', 'corazon'), 1)]


Muchos de estos 4-gramas aparecen más de una vez, lo que nos indica que son combinaciones más habituales o probables que otras. Aquí vemos algunos de los 4-gramas que aparecen varias veces en el texto:

In [None]:
# @title
multiples = []
for n in ngramas_conteo:
  if n[1] > 1:
    multiples.append(n)

for i in multiples[:20]:
  print (i)


(('de', 'vez', 'en', 'cuando'), 4)
(('que', 'está', 'en', 'la'), 2)
(('los', 'recuerdos', 'de', 'su'), 2)
(('recuerdos', 'de', 'su', 'vida'), 2)
(('en', 'el', 'fondo', 'del'), 3)
(('el', 'fondo', 'del', 'vaso'), 2)
(('en', 'la', 'caja', 'de'), 3)
(('en', 'una', 'de', 'sus'), 3)
(('se', 'casó', 'con', 'una'), 2)
(('--¡En', 'Madrid', 'se', 'come'), 2)
(('Madrid', 'se', 'come', 'muy'), 2)
(('se', 'come', 'muy', 'mal!'), 2)
(('la', 'mayor', 'parte', 'de'), 6)
(('mayor', 'parte', 'de', 'sus'), 2)
(('que', 'se', 'veía', 'la'), 2)
(('y', 'se', 'dirigió', 'al'), 2)
(('la', 'mano', 'de', 'su'), 2)
(('á', 'la', 'vista', 'de'), 2)
(('de', 'la', 'vida', 'y'), 2)
(('el', 'himno', 'de', 'la'), 2)


Así que podemos crear una lista en la que tengamos los n-gramas de diferentes tamaños (n=1, n=2...) acompañados por el número de veces que aparecen en el texto:

In [None]:
# @title
def generar_lista_ngramas_con_conteo(texto):
    lista_final = []
    for n in range(1, 6):  # Para n = 2, 3, 4, 5
        ngramas = generar_ngramas(texto, n)
        ngramas_con_conteo = contar_ngramas(ngramas)
        lista_final.append(ngramas_con_conteo)
    return lista_final

lista_ngramas_con_conteo = generar_lista_ngramas_con_conteo(ruta_archivo)
for i, ngramas in enumerate(lista_ngramas_con_conteo):
    print(f"N-gramas con conteo para n={i+1}:\n{ngramas[:5]}\n")

N-gramas con conteo para n=1:
[(('Estamos',), 1), (('en',), 1602), (('Civita-Vecchia.',), 1), (('Cuando',), 31), (('el',), 1708)]

N-gramas con conteo para n=2:
[(('Estamos', 'en'), 1), (('en', 'Civita-Vecchia.'), 1), (('Civita-Vecchia.', 'Cuando'), 1), (('Cuando', 'el'), 7), (('el', 'bote'), 1)]

N-gramas con conteo para n=3:
[(('Estamos', 'en', 'Civita-Vecchia.'), 1), (('en', 'Civita-Vecchia.', 'Cuando'), 1), (('Civita-Vecchia.', 'Cuando', 'el'), 1), (('Cuando', 'el', 'bote'), 1), (('el', 'bote', 'se'), 1)]

N-gramas con conteo para n=4:
[(('Estamos', 'en', 'Civita-Vecchia.', 'Cuando'), 1), (('en', 'Civita-Vecchia.', 'Cuando', 'el'), 1), (('Civita-Vecchia.', 'Cuando', 'el', 'bote'), 1), (('Cuando', 'el', 'bote', 'se'), 1), (('el', 'bote', 'se', 'aproxima'), 1)]

N-gramas con conteo para n=5:
[(('Estamos', 'en', 'Civita-Vecchia.', 'Cuando', 'el'), 1), (('en', 'Civita-Vecchia.', 'Cuando', 'el', 'bote'), 1), (('Civita-Vecchia.', 'Cuando', 'el', 'bote', 'se'), 1), (('Cuando', 'el', 'bote

Esto nos puede servir para, a partir de un texto, generar la siguiente palabra más probable. Así, si partimos del texto "Al llegar a la", podemos mirar la lista de 5-gramas y comprobar si hay alguno en los que las cuatro primeras palabras sean "Al" "llegar" "a" "la". Si es así se devuelve la quinta palabra del 5-grama. Si hay varios 5-gramas que cumplan la condición se devuelve la palabra de aquel que ocurre más veces en el texto. Por tanto, la palabra más probable tras "Al llegar a la" es:

In [None]:
# @title
def buscar_quinta_palabra(lista_5gramas_con_conteo, texto):
    palabras = texto.split()
    if len(palabras) != 4:
        raise ValueError("El texto debe contener exactamente 4 palabras")

    palabra_candidata = None
    conteo_maximo = 0

    for ngrama, conteo in lista_5gramas_con_conteo:
        if ngrama[:4] == tuple(palabras) and conteo > conteo_maximo:
            palabra_candidata = ngrama[4]
            conteo_maximo = conteo

    return palabra_candidata

texto = "Al llegar a la"
quinta_palabra = buscar_quinta_palabra(lista_ngramas_con_conteo[4], texto)
print(quinta_palabra)

plaza


Así que esto mismo podemos hacerlo con textos de diferentes tamaños. Miramos en el n-grama con mayor valor de n (en nuestro caso, 5). Si en esa lista no encontramos ninguna coincidencia, miramos en los 4-gramas. Si tampoco hay coincidencia, pasamos a los 3-gramas. Y así hasta los 1-grama. Si tampoco hay coincidencia se devuelve al azar una palabra de los 1-gramas.

Así, por ejemplo, vemos a continuación cuál es la siguiente palabra más probable a partir del texto: "Cuando el bote"

In [None]:
# @title
import random

def siguiente_palabra(listas_ngramas_con_conteo, texto):
    palabras = texto.split()

    # Iterar desde 5-gramas hasta 2-gramas
    for i in range(4, 0, -1):
        ngramas_con_conteo = listas_ngramas_con_conteo[i]
        subconjunto_palabras = tuple(palabras[-i:])

        # Buscar el n-grama con el mayor conteo que coincida
        palabra_candidata, conteo_maximo = None, 0
        for ngrama, conteo in ngramas_con_conteo:
            if ngrama[:i] == subconjunto_palabras and conteo > conteo_maximo:
                palabra_candidata = ngrama[i]
                conteo_maximo = conteo

        if palabra_candidata:
            return palabra_candidata

    # Si no se encuentra ninguna coincidencia, escoger al azar de los 2-gramas
    return random.choice(listas_ngramas_con_conteo[0])[0][0]

texto = "Cuando el bote"
palabra_siguiente = siguiente_palabra(lista_ngramas_con_conteo, texto)
print(palabra_siguiente)

se


Y ahora la palabra más probable para el texto "Cuando el bote se"

In [None]:
# @title
texto = "Cuando el bote se"
palabra_siguiente = siguiente_palabra(lista_ngramas_con_conteo, texto)
print(palabra_siguiente)



aproxima


Y, de este modo, podríamos partir de un texto y generar otro nuevo añadiendo cada vez la siguiente palabra más probable. Así, si partimos del texto "El caballero llegó" y pedimos que continúe escribiendo otras 15 palabras obtenemos lo siguiente:

In [None]:
# @title
def generar_texto_autoregresivo(listas_ngramas_con_conteo, texto_original, n):
    texto = texto_original
    for _ in range(n):
        nueva_palabra = siguiente_palabra(listas_ngramas_con_conteo, texto)
        texto += ' ' + nueva_palabra
        print(texto)
    return texto

# Ejemplo de uso
texto_original = "El caballero llegó"
nuevas_palabras = 15  # Número de palabras nuevas a generar
texto_generado = generar_texto_autoregresivo(lista_ngramas_con_conteo, texto_original, nuevas_palabras)

El caballero llegó a
El caballero llegó a la
El caballero llegó a la puerta
El caballero llegó a la puerta de
El caballero llegó a la puerta de una
El caballero llegó a la puerta de una villa,
El caballero llegó a la puerta de una villa, por
El caballero llegó a la puerta de una villa, por ejemplo,
El caballero llegó a la puerta de una villa, por ejemplo, y
El caballero llegó a la puerta de una villa, por ejemplo, y pide
El caballero llegó a la puerta de una villa, por ejemplo, y pide una
El caballero llegó a la puerta de una villa, por ejemplo, y pide una limosna.
El caballero llegó a la puerta de una villa, por ejemplo, y pide una limosna. Su
El caballero llegó a la puerta de una villa, por ejemplo, y pide una limosna. Su rostro
El caballero llegó a la puerta de una villa, por ejemplo, y pide una limosna. Su rostro inflamado


Esto mismo es lo que hacen los grandes modelos de lenguaje como GPT3 o Bloom, pero en su caso la n de los n-grama es muchísimo más grande, ya que utilizan una arquitectura de redes neuronales llamada transformer que puede trabajar con contextos de miles de palabras. Y es precisamente esa posibilidad de considerar contextos tan grandes lo que los hace tan precisos al continuar textos. Además, el conjunto de textos de entrenamiento es también inmenso, por lo que pueden continuar textos de muchas temáticas diferentes.

# Créditos

Este cuaderno -elaborado por [Jesús Moreno](http://jemole.me)- está inspirado en el trabajo de Jens Mönig para la creación de [SnapGPT](https://www.youtube.com/watch?v=32bbKGggdIA). El vídeo enlazado, en el que describe su desarrollo, es muy interesante y recomendable.

Gran parte del código se ha generado automáticamente utilizando un asistente basado en un LLM :) El autor tan solo ha tenido que ir guiando al sistema través de diferentes peticiones y realizar pequeñas modificaciones o ajustes al código propuesto por el modelo.