In [1]:
import numpy as np

with open('novela.txt', 'r', encoding='utf-8') as f:
    text = f.read()
#text = text.lower()
text = text.replace('\n', '')

In [2]:
# Resolución del ejercio anterior para el modelo de unigramas.

# unique character
chars = sorted(list(set(text)))
vocab_size = len(chars)

# maps between char and int
stoi = { ch:i for i,ch in enumerate(chars) }
itos = { i:ch for i,ch in enumerate(chars) }
encode = lambda s: [stoi[c] for c in s] # encoder: toma una cadena, devuelve una lista de enteros
decode = lambda l: ''.join([itos[i] for i in l]) # decoder: toma una lista de enteros, devuelve una cadena

#print(encode('abc'))
#print(decode([1,2,3]))

# vector of unigrams
unigram_vector = np.zeros((vocab_size))

# Recorre el texto y cuenta los bigramas
for i in range(len(text)-1):
    unigram_vector[stoi[text[i]]] += 1

# Normaliza las filas de la tabla
unigram_vector = unigram_vector / unigram_vector.sum()

In [3]:
# Genera un texto a partir de la tabla de uniramas

import random

def generate_text(unigram_vector, n_words, word = ''):
    text = [word]
    key_vocab = list(range(vocab_size))
    for i in range(n_words):
        
        key = random.choices(key_vocab, unigram_vector)[0]
        word = itos[key]
        text.append(word)
    return ''.join(text)

generate_text(unigram_vector, 100)

'auEshdtae sadlneoba  meclu dñmaaromñim,ibrt rd Aio rmob ímcectf ,oa mn uflerlb níol seeqfebli l oa l'

In [4]:
# Calcula la perplejidad del modelo de lenguaje basado en bigram_table.

def perplexity(unigram_vector, text):
    perplexity = 0
    for i in range(len(text)-1):
        c1 = stoi[text[i]]
        probability = unigram_vector[c1]
        if probability == 0:
            probability = 1e-10
        perplexity += np.log(probability)
    perplexity = np.exp(-perplexity/len(text))
    return perplexity


txt1= "Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía"
print(perplexity(unigram_vector, txt1))

# ¿Qué perplejidad obtienes para el texto invertido?
print(perplexity(unigram_vector, txt1[::-1]))

22.417956510708528
21.192271502372794


In [5]:
# Resolución del ejercio anterior para el modelo de bigramas.

# Preparación de la tabla que contendrá los bigramas
bigram_table = np.zeros((vocab_size, vocab_size))

# Recorre el texto y cuenta los bigramas
for i in range(len(text)-1):
    bigram_table[stoi[text[i]], stoi[text[i+1]]] += 1

# Normaliza las filas de la tabla
bigram_table = bigram_table / bigram_table.sum(axis=1, keepdims=True)

In [6]:
# Genera un texto a partir de la tabla de bigramas

def generate_text(bigram_table, n_words, word="H"):
    text = [word]
    key_vocab = list(range(vocab_size))
    for i in range(n_words):
        key = random.choices(key_vocab, bigram_table[stoi[text[-1]]])[0]
        word = itos[key]
        text.append(word)
    return ''.join(text)

generate_text(bigram_table, 100, "C")

'Cioba eriveveró Pimás lana l Amás po cel sio cigontendico onerie, ta Mañó- l cato. Tas d y qulanuro c'

In [7]:
# Calcula la perplejidad del modelo de lenguaje basado en bigram_table.

def biperplexity(bigram_table, text):
    perplexity = 0
    for i in range(len(text)-1):
        c1 = stoi[text[i]]
        c2 = stoi[text[i+1]]
        probability = bigram_table[c1][c2]
        if probability == 0:
            probability = 1e-10
        perplexity += np.log(probability)
    perplexity = np.exp(-perplexity/len(text))
    return perplexity


txt1= "Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía"
print(biperplexity(bigram_table, txt1))

# ¿Qué perplejidad obtienes para el texto invertido?
print(biperplexity(bigram_table, txt1[::-1]))

8.876121540533543
857.2947969771436


In [8]:
# Resolución del ejercio anterior para el modelo de trigramas.

# Preparación de la tabla que contendrá los bigramas
trigram_table = np.zeros((vocab_size, vocab_size, vocab_size))

# Recorre el texto y cuenta los bigramas
for i in range(len(text)-2):
    trigram_table[stoi[text[i]], stoi[text[i+1]],stoi[text[i+2]]] += 1

# Normaliza las filas de la tabla
trigram_table = trigram_table / trigram_table.sum(axis=(1,2), keepdims=True)
trigram_table = np.nan_to_num(trigram_table, nan=0.00001)
#trigram_table

In [9]:
# Genera un texto a partir de la tabla de trigramas

def generate_text(trigram_table, n_words, word="Ha"):
    text = [word[0],word[1]]
    key_vocab = list(range(vocab_size))
    for i in range(2,n_words):
        key = random.choices(key_vocab, trigram_table[stoi[text[i-2]],stoi[text[i-1]]])[0]
        word = itos[key]
        text.append(word)
    return ''.join(text)

generate_text(trigram_table, 100, "Ma")

'Macado anoto que Singeda envendo dez. Maunar del desde fue Úrsu de plimeton ausidas, haba mue Aureci'

In [10]:
def triperplexity(trigram_table, text):
    perplexity = 0
    for i in range(len(text)-2):
        c1 = stoi[text[i]]
        c2 = stoi[text[i+1]]
        c3 = stoi[text[i+2]]
        probability = trigram_table[c1][c2][c3]
        if probability == 0:
            probability = 1e-10
        perplexity += np.log(probability)
    perplexity = np.exp(-perplexity/len(text))
    return perplexity

txt1= "Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía"
print(triperplexity(trigram_table, txt1))

# ¿Qué perplejidad obtienes para el texto invertido?
print(triperplexity(trigram_table, txt1[::-1]))

45.4210762055036
423069.51176773186
