In [27]:
from nltk import bigrams, FreqDist
from nltk.tokenize import word_tokenize
import random
import unicodedata
import regex as re
import heapq
from unicodedata import normalize

## Basic text prediction


In [28]:
# Text to work with
D = """
Niño, El sol se escondía lentamente detrás de las montañas cuando el viajero llegó al pequeño pueblo.
Las casas, construidas con piedra y madera, reflejaban la luz dorada del atardecer.
En la plaza central, los niños jugaban mientras los ancianos conversaban bajo los árboles.
El viajero se detuvo frente a una fuente antigua y observó su reflejo en el agua tranquila.
Había recorrido muchos caminos, cruzado ríos y desiertos, pero aún no había encontrado lo que buscaba.
Llevaba un mapa gastado y una brújula que apenas funcionaba.
Una mujer se acercó con una sonrisa amable y le ofreció un poco de pan.
Él agradeció el gesto y le preguntó por el camino hacia el norte.
La mujer señaló la carretera que cruzaba el valle y desaparecía entre las colinas.
El viajero respiró profundamente y siguió su marcha.
A medida que avanzaba, la noche cubría el cielo con un manto de estrellas.
Cada paso lo acercaba a su destino, aunque todavía no sabía cuál era.
El viento soplaba suave, trayendo consigo el aroma del bosque y el murmullo de los insectos.
En ese silencio, comprendió que el viaje era más importante que la llegada."""

In [29]:
# Convert it to lowercase, remove punctuation marks, remove accents and tokenize it
def clean_text(D):
    D = D.lower()
    s = re.sub(
        r"([^n\u0300-\u036f]|n(?!\u0303(?![\u0300-\u036f])))[\u0300-\u036f]+", r"\1", 
        normalize( "NFD", D), 0, re.I
    )

    return normalize( 'NFC', s)

D_no_accents = clean_text(D)
tokens = word_tokenize(D_no_accents)
tokens = [t for t in tokens if re.match(r'[a-zñ]+[\.\'-_]?', t)]

print(tokens)

['niño', 'el', 'sol', 'se', 'escondia', 'lentamente', 'detras', 'de', 'las', 'montañas', 'cuando', 'el', 'viajero', 'llego', 'al', 'pequeño', 'pueblo', 'las', 'casas', 'construidas', 'con', 'piedra', 'y', 'madera', 'reflejaban', 'la', 'luz', 'dorada', 'del', 'atardecer', 'en', 'la', 'plaza', 'central', 'los', 'niños', 'jugaban', 'mientras', 'los', 'ancianos', 'conversaban', 'bajo', 'los', 'arboles', 'el', 'viajero', 'se', 'detuvo', 'frente', 'a', 'una', 'fuente', 'antigua', 'y', 'observo', 'su', 'reflejo', 'en', 'el', 'agua', 'tranquila', 'habia', 'recorrido', 'muchos', 'caminos', 'cruzado', 'rios', 'y', 'desiertos', 'pero', 'aun', 'no', 'habia', 'encontrado', 'lo', 'que', 'buscaba', 'llevaba', 'un', 'mapa', 'gastado', 'y', 'una', 'brujula', 'que', 'apenas', 'funcionaba', 'una', 'mujer', 'se', 'acerco', 'con', 'una', 'sonrisa', 'amable', 'y', 'le', 'ofrecio', 'un', 'poco', 'de', 'pan', 'el', 'agradecio', 'el', 'gesto', 'y', 'le', 'pregunto', 'por', 'el', 'camino', 'hacia', 'el', 'norte

In [30]:
bigrams_list = list(bigrams(tokens))
print(bigrams_list)

words_frequency = FreqDist(tokens)
print(words_frequency.items())

bigrams_frequency = FreqDist(bigrams_list)
print(bigrams_frequency.items())
print(bigrams_frequency.most_common(5))

[('niño', 'el'), ('el', 'sol'), ('sol', 'se'), ('se', 'escondia'), ('escondia', 'lentamente'), ('lentamente', 'detras'), ('detras', 'de'), ('de', 'las'), ('las', 'montañas'), ('montañas', 'cuando'), ('cuando', 'el'), ('el', 'viajero'), ('viajero', 'llego'), ('llego', 'al'), ('al', 'pequeño'), ('pequeño', 'pueblo'), ('pueblo', 'las'), ('las', 'casas'), ('casas', 'construidas'), ('construidas', 'con'), ('con', 'piedra'), ('piedra', 'y'), ('y', 'madera'), ('madera', 'reflejaban'), ('reflejaban', 'la'), ('la', 'luz'), ('luz', 'dorada'), ('dorada', 'del'), ('del', 'atardecer'), ('atardecer', 'en'), ('en', 'la'), ('la', 'plaza'), ('plaza', 'central'), ('central', 'los'), ('los', 'niños'), ('niños', 'jugaban'), ('jugaban', 'mientras'), ('mientras', 'los'), ('los', 'ancianos'), ('ancianos', 'conversaban'), ('conversaban', 'bajo'), ('bajo', 'los'), ('los', 'arboles'), ('arboles', 'el'), ('el', 'viajero'), ('viajero', 'se'), ('se', 'detuvo'), ('detuvo', 'frente'), ('frente', 'a'), ('a', 'una'), 

In [31]:
# Probability of each bigram
bigrams_probs = []

bigrams_frequency = list(bigrams_frequency.items())

words_frequency = list(words_frequency.items())
words_frequency = dict(words_frequency)

for i, freq in enumerate(bigrams_frequency):
    tup, freq = freq
    word = tup[0]
    word_freq = words_frequency[word]
    bigrams_probs.append((tup, freq/word_freq))

print(bigrams_probs)
    

[(('niño', 'el'), 1.0), (('el', 'sol'), 0.06666666666666667), (('sol', 'se'), 1.0), (('se', 'escondia'), 0.3333333333333333), (('escondia', 'lentamente'), 1.0), (('lentamente', 'detras'), 1.0), (('detras', 'de'), 1.0), (('de', 'las'), 0.25), (('las', 'montañas'), 0.3333333333333333), (('montañas', 'cuando'), 1.0), (('cuando', 'el'), 1.0), (('el', 'viajero'), 0.2), (('viajero', 'llego'), 0.3333333333333333), (('llego', 'al'), 1.0), (('al', 'pequeño'), 1.0), (('pequeño', 'pueblo'), 1.0), (('pueblo', 'las'), 1.0), (('las', 'casas'), 0.3333333333333333), (('casas', 'construidas'), 1.0), (('construidas', 'con'), 1.0), (('con', 'piedra'), 0.3333333333333333), (('piedra', 'y'), 1.0), (('y', 'madera'), 0.1111111111111111), (('madera', 'reflejaban'), 1.0), (('reflejaban', 'la'), 1.0), (('la', 'luz'), 0.16666666666666666), (('luz', 'dorada'), 1.0), (('dorada', 'del'), 1.0), (('del', 'atardecer'), 0.5), (('atardecer', 'en'), 1.0), (('en', 'la'), 0.3333333333333333), (('la', 'plaza'), 0.1666666666

In [32]:
# Next word prediction
def predict_next_word(actual_word):
    actual_word = clean_text(actual_word)
    actual_word = actual_word.lower()
    words = []
    for bigram in bigrams_probs:
        if actual_word == bigram[0][0]:
            words.append((bigram[0][1], bigram[1]))
    
    return heapq.nlargest(3, words, key=lambda x: x[1])

print(predict_next_word("tu"))



[]


In [33]:
# Generate text
def generate_text(word, len=15):
    word = clean_text(word)
    text = word
    for i in range(len):
        next_word = random.choice(predict_next_word(word))[0]
        text += f" {next_word}"
        word = next_word
        
    return text

print(generate_text("El"))

el sol se acerco con piedra y madera reflejaban la luz dorada del atardecer en la
