# NLP and Neural Networks

In this exercise, we'll apply our knowledge of neural networks to process natural language. As we did in the bigram exercise, the goal of this lab is to predict the next word, given the previous one.

### Data set

Load the text from "One Hundred Years of Solitude" that we used in our bigrams exercise. It's located in the data folder.

In [1]:
import torch
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()


text = open('./data/cap1.txt', 'r').read().lower()

text

'muchos años después, frente al pelotón de fusilamiento, el coronel aureliano buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. el mundo era tan reciente, que muchas cosas carecían de nombre, y para mencionarlas había que señalarlas con el dedo. todos los años, por el mes de marzo, una familia de gitanos desarrapados plantaba su carpa cerca de la aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos. primero llevaron el imán. un gitano corpulento, de barba montaraz y manos de gorrión, que se presentó con el nombre de melquíades, hizo una truculenta demostración pública de lo que él mismo llamaba la octava maravilla de los sabios alquimistas de macedonia. fue de casa en casa arrastrando dos lingote

### Important note:

Start with a smaller part of the text. Maybe the first 10 parragraphs, as the number of tokens rapidly increases as we add more text. 

Later you can use a bigger corpus.

Don't forget to prepare the data by generating the corresponding tokens.

In [5]:
tokens = tokenizer.tokenize(text)
tokens

['muchos',
 'años',
 'después',
 ',',
 'frente',
 'al',
 'pelotón',
 'de',
 'fusilamiento',
 ',',
 'el',
 'coronel',
 'aureliano',
 'buendía',
 'había',
 'de',
 'recordar',
 'aquella',
 'tarde',
 'remota',
 'en',
 'que',
 'su',
 'padre',
 'lo',
 'llevó',
 'a',
 'conocer',
 'el',
 'hielo.',
 'macondo',
 'era',
 'entonces',
 'una',
 'aldea',
 'de',
 'veinte',
 'casas',
 'de',
 'barro',
 'y',
 'cañabrava',
 'construidas',
 'a',
 'la',
 'orilla',
 'de',
 'un',
 'río',
 'de',
 'aguas',
 'diáfanas',
 'que',
 'se',
 'precipitaban',
 'por',
 'un',
 'lecho',
 'de',
 'piedras',
 'pulidas',
 ',',
 'blancas',
 'y',
 'enormes',
 'como',
 'huevos',
 'prehistóricos.',
 'el',
 'mundo',
 'era',
 'tan',
 'reciente',
 ',',
 'que',
 'muchas',
 'cosas',
 'carecían',
 'de',
 'nombre',
 ',',
 'y',
 'para',
 'mencionarlas',
 'había',
 'que',
 'señalarlas',
 'con',
 'el',
 'dedo.',
 'todos',
 'los',
 'años',
 ',',
 'por',
 'el',
 'mes',
 'de',
 'marzo',
 ',',
 'una',
 'familia',
 'de',
 'gitanos',
 'desarrapad

### Let's prepare the data set.

Our neural network needs to have an input X and an output y. Remember that these sets are numerical, so you'd need something to map the tokens into numbers, and viceversa.

In [8]:
# in this case, let's consider a bigram (w1, w2)
# assign the w1 to the X vector, and w2 to the y vector, why do we do this?



def create_bigrams(tokens):
    bigrams = []
    for i in range(len(tokens) - 1):
        bigram = (tokens[i], tokens[i + 1])
        bigrams.append(bigram)
    return bigrams

# Crear bigramas usando la función
bigrams = create_bigrams(tokens)

# Crear el vocabulario y asignar un índice a cada palabra
vocabulario = {token: idx for idx, token in enumerate(set(tokens))}

# Convertir los bigramas en números
X = [vocabulario[w1] for w1, w2 in bigrams]
y = [vocabulario[w2] for w1, w2 in bigrams]

# Convertir X e y en tensores de PyTorch
X = torch.tensor(X)
y = torch.tensor(y)

X, y

(tensor([1106, 2031,  951,  ..., 1357,  593, 1429]),
 tensor([2031,  951, 2001,  ...,  593, 1429, 1566]))

In [2]:
# Don't forget that since we are using torch, our training set vectors should be tensors

In [9]:
# Note that our vectors are integers, which can be thought as a categorical variables.
# torch provides the one_hot method, that would generate tensors suitable for our nn
# make sure that the dtype of your tensor is float.

# Convertir X e y en one-hot vectors
# Convertir X e y en one-hot encoding
X_one_hot = torch.nn.functional.one_hot(X, num_classes=len(vocabulario)).float()
y_one_hot = torch.nn.functional.one_hot(y, num_classes=len(vocabulario)).float()

X_one_hot, y_one_hot

(tensor([[0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         ...,
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.]]),
 tensor([[0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         ...,
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.],
         [0., 0., 0.,  ..., 0., 0., 0.]]))

### Network design
To start, we are going to have a very simple network. Define a single layer network

In [36]:
# How many neurons should our input layer have?
# se hara 3 casos, una capa lineal y uan softmax
# cuatro capas, dos lineales y 1 relu y una softmax
# 6 capas 3 lineales, 2 relu y una softmax


# Use as many neurons as the total number of categories (from your one-hot encoded tensors)
# How many neurons should our output layer have?
# Use the softmax as your activation layer

import torch
import torch.nn as nn

# Red neuronal con una sola capa
class SimpleModel(nn.Module):
    def __init__(self, input_size, output_size):
        super(SimpleModel, self).__init__()
        self.linear = nn.Linear(input_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, x):
        x = self.linear(x)
        x = self.softmax(x)
        return x

# Red neuronal con dos capas (tu modelo actual)
class BigramModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(BigramModel, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        x = self.softmax(x)
        return x

# Red neuronal con más capas
class DeepModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(DeepModel, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size)
        self.relu1 = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, hidden_size)
        self.relu2 = nn.ReLU()
        self.linear3 = nn.Linear(hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu1(x)
        x = self.linear2(x)
        x = self.relu2(x)
        x = self.linear3(x)
        x = self.softmax(x)
        return x

# Definir las dimensiones de la red neuronal
input_size = len(vocabulario)
hidden_size = 128
output_size = len(vocabulario)

# Crear los modelos
simple_model = SimpleModel(input_size, output_size)
bigram_model = BigramModel(input_size, hidden_size, output_size)
deep_model = DeepModel(input_size, hidden_size, output_size)


In [None]:
# Train your network

In [37]:
def train_model(model, X_one_hot, y, n_epochs=1000):
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    criterion = nn.NLLLoss()  # Negative Log Likelihood Loss
    
    for epoch in range(n_epochs):
        optimizer.zero_grad()  # Resetear los gradientes
        
        # Forward pass
        output = model(X_one_hot)
        
        # Calcular la pérdida
        loss = criterion(output, y)
        
        # Backward pass
        loss.backward()
        
        # Actualizar los parámetros
        optimizer.step()
        
        # Imprimir la pérdida cada 100 épocas
        if epoch % 100 == 0:
            print(f'Epoch: {epoch}, Loss: {loss.item()}')

# Entrenar los modelos
print("Entrenando SimpleModel...")
train_model(simple_model, X_one_hot, y)

print("Entrenando BigramModel...")
train_model(bigram_model, X_one_hot, y)

print("Entrenando DeepModel...")
train_model(deep_model, X_one_hot, y)


Entrenando SimpleModel...
Epoch: 0, Loss: 7.661480903625488
Epoch: 100, Loss: 7.3654465675354
Epoch: 200, Loss: 7.075706481933594
Epoch: 300, Loss: 6.792473316192627
Epoch: 400, Loss: 6.516000747680664
Epoch: 500, Loss: 6.246737480163574
Epoch: 600, Loss: 5.985200881958008
Epoch: 700, Loss: 5.731924533843994
Epoch: 800, Loss: 5.487462997436523
Epoch: 900, Loss: 5.2523884773254395
Entrenando BigramModel...
Epoch: 0, Loss: 7.664349555969238
Epoch: 100, Loss: 5.4322991371154785
Epoch: 200, Loss: 3.8691539764404297
Epoch: 300, Loss: 2.5562477111816406
Epoch: 400, Loss: 2.346823215484619
Epoch: 500, Loss: 2.2967417240142822
Epoch: 600, Loss: 2.2765772342681885
Epoch: 700, Loss: 2.2664377689361572
Epoch: 800, Loss: 2.2606146335601807
Epoch: 900, Loss: 2.256955146789551
Entrenando DeepModel...
Epoch: 0, Loss: 7.666030406951904
Epoch: 100, Loss: 5.455352306365967
Epoch: 200, Loss: 3.871579885482788
Epoch: 300, Loss: 2.6392812728881836
Epoch: 400, Loss: 2.279848098754883
Epoch: 500, Loss: 2.254

In [38]:
# Guardar los modelos entrenados
torch.save(simple_model.state_dict(), 'simple_model.pth')
torch.save(bigram_model.state_dict(), 'bigram_model.pth')
torch.save(deep_model.state_dict(), 'deep_model.pth')


In [39]:
def generate_sentence(model, vocabulario, start_word, max_length=20):
    tokens = [start_word]
    
    # Asegúrate de que la palabra inicial esté en el vocabulario
    if start_word not in vocabulario:
        return "La palabra inicial no está en el vocabulario :("
    
    for _ in range(max_length - 1):  # Generar hasta `max_length` palabras
        X = [vocabulario[token] for token in tokens if token in vocabulario]
        X_tensor = torch.tensor(X)
        X_one_hot = torch.nn.functional.one_hot(X_tensor, num_classes=len(vocabulario)).float()
        
        # Obtener la predicción del modelo
        output = model(X_one_hot)
        
        # Obtener la siguiente palabra más probable
        prob, idx = output[-1].topk(1)  # Usar la última predicción
        next_word = list(vocabulario.keys())[list(vocabulario.values()).index(idx.item())]
        
        tokens.append(next_word)
        
        # Si la palabra generada es un punto, terminar la oración
        if '.' in next_word:
            break
    
    return ' '.join(tokens)


In [48]:
start_word = "coronel"

print("SimpleModel Prediction: ", generate_sentence(simple_model, vocabulario, start_word))
print("BigramModel Prediction: ", generate_sentence(bigram_model, vocabulario, start_word))
print("DeepModel Prediction: ", generate_sentence(deep_model, vocabulario, start_word))


SimpleModel Prediction:  coronel aureliano , y la aldea , y la aldea , y la aldea , y la aldea , y
BigramModel Prediction:  coronel aureliano , y el mundo se los niños se los niños se los niños se los niños se los
DeepModel Prediction:  coronel aureliano , y el mundo se los niños , y el mundo se los niños , y el mundo


### Analysis

1. Test your network with a few words

In [45]:
# Get an output tensor for each of your tests
def get_output_tensor(model, vocabulario, input_text):
    tokens = tokenizer.tokenize(input_text.lower())
    X = [vocabulario[token] for token in tokens if token in vocabulario]
    
    if len(X) == 0:
        return "La palabra no está en el vocabulario :("
    
    X_tensor = torch.tensor(X)
    X_one_hot = torch.nn.functional.one_hot(X_tensor, num_classes=len(vocabulario)).float()
    
    # Obtener el tensor de salida del modelo
    with torch.no_grad():
        output = model(X_one_hot)
    
    return output


In [46]:
# Texto de prueba
test_text = "coronel buendía"

# Obtener el tensor de salida para cada modelo
simple_model_output = get_output_tensor(simple_model, vocabulario, test_text)
bigram_model_output = get_output_tensor(bigram_model, vocabulario, test_text)
deep_model_output = get_output_tensor(deep_model, vocabulario, test_text)

# Imprimir los tensores de salida
print("SimpleModel Output Tensor:\n", simple_model_output)
print("\nBigramModel Output Tensor:\n", bigram_model_output)
print("\nDeepModel Output Tensor:\n", deep_model_output)


SimpleModel Output Tensor:
 tensor([[-7.7978, -7.8345, -7.8444,  ..., -7.7825, -7.8071, -7.8283],
        [-7.9588, -7.9803, -7.9791,  ..., -7.9411, -7.9381, -7.9925]])

BigramModel Output Tensor:
 tensor([[-16.7256, -16.9456, -18.4823,  ..., -17.7421, -17.7039, -16.7655],
        [-15.9379, -16.1245, -16.0568,  ..., -15.5309, -17.1480, -15.0123]])

DeepModel Output Tensor:
 tensor([[-21.3414, -18.0489, -38.6672,  ..., -26.3333, -24.2167, -19.2787],
        [-26.5292, -35.7687, -30.5204,  ..., -30.3850, -32.8976, -20.3307]])


In [47]:
test_texts = ["coronel ", "aureliano", "macondo"]

for text in test_texts:
    print(f"Test text: {text}")
    print("SimpleModel Output Tensor:\n", get_output_tensor(simple_model, vocabulario, text))
    print("\nBigramModel Output Tensor:\n", get_output_tensor(bigram_model, vocabulario, text))
    print("\nDeepModel Output Tensor:\n", get_output_tensor(deep_model, vocabulario, text))
    print("\n" + "-"*50 + "\n")


Test text: coronel 
SimpleModel Output Tensor:
 tensor([[-7.7978, -7.8345, -7.8444,  ..., -7.7825, -7.8071, -7.8283]])

BigramModel Output Tensor:
 tensor([[-16.7256, -16.9456, -18.4823,  ..., -17.7421, -17.7039, -16.7655]])

DeepModel Output Tensor:
 tensor([[-21.3414, -18.0489, -38.6672,  ..., -26.3333, -24.2167, -19.2787]])

--------------------------------------------------

Test text: aureliano
SimpleModel Output Tensor:
 tensor([[-7.8318, -7.8494, -7.8681,  ..., -7.8371, -7.8327, -7.8604]])

BigramModel Output Tensor:
 tensor([[-16.7239, -18.0160, -17.4481,  ..., -15.6898, -17.6228, -17.3987]])

DeepModel Output Tensor:
 tensor([[-30.3721, -26.9293, -51.4181,  ..., -38.7273, -36.2145, -30.9048]])

--------------------------------------------------

Test text: macondo
SimpleModel Output Tensor:
 tensor([[-7.8943, -7.9262, -7.9339,  ..., -7.8975, -7.9075, -7.9571]])

BigramModel Output Tensor:
 tensor([[-14.5868, -15.8241, -17.5395,  ..., -14.1294, -17.2963, -15.8974]])

DeepModel 

2. What does each value in the tensor represents?

#### Cada valor en el tensor de salida del modelo representa la log-probabilidad de que una palabra específica en el vocabulario sea la siguiente en la secuencia. Después de aplicar la función Softmax, los valores del tensor son logaritmos de probabilidades

3. Why does it make sense to choose that number of neurons in our layer?

#### El número de neuronas en la capa de salida debe coincidir con el tamaño del vocabulario. Ya que cada neurona en la capa de salida está modelando la probabilidad de una palabra en el vocabulario. El objetivo del modelo es predecir cuál será la siguiente palabra en la secuencia dada la palabra actual o el contexto, y para hacer eso, necesita generar una probabilidad para cada palabra posible en el vocabulario.

In [50]:
# Definir la función de pérdida
criterion = nn.NLLLoss()  # Negative Log Likelihood Loss

# Función para calcular la probabilidad negativa para un ejemplo específico
def calculate_nll_for_example(model, vocabulario, input_text, true_word):
    tokens = tokenizer.tokenize(input_text.lower())
    X = [vocabulario[token] for token in tokens if token in vocabulario]
    
    if len(X) == 0 or true_word not in vocabulario:
        return "La palabra no está en el vocabulario"
    
    X_tensor = torch.tensor(X)
    X_one_hot = torch.nn.functional.one_hot(X_tensor, num_classes=len(vocabulario)).float()
    
    # Forward pass del modelo
    with torch.no_grad():  # No necesitamos gradientes para la evaluación
        output = model(X_one_hot)
    
    # Convertir la palabra real a su índice
    true_word_idx = vocabulario[true_word]
    
    # Calcular la pérdida negativa
    nll_loss = criterion(output[-1:], torch.tensor([true_word_idx]))
    return nll_loss.item()

# Ejemplo de texto y palabra verdadera
input_text = "coronel"
true_word = "aureliano"

# Calcular la NLL para cada modelo
simple_model_nll = calculate_nll_for_example(simple_model, vocabulario, input_text, true_word)
bigram_model_nll = calculate_nll_for_example(bigram_model, vocabulario, input_text, true_word)
deep_model_nll = calculate_nll_for_example(deep_model, vocabulario, input_text, true_word)

# Imprimir los resultados
print(f'Negative Log-Likelihood for SimpleModel: {simple_model_nll}')
print(f'Negative Log-Likelihood for BigramModel: {bigram_model_nll}')
print(f'Negative Log-Likelihood for DeepModel: {deep_model_nll}')

Negative Log-Likelihood for SimpleModel: 4.383219242095947
Negative Log-Likelihood for BigramModel: 0.004670306574553251
Negative Log-Likelihood for DeepModel: 0.0006111184484325349


4. What's the negative likelihood for each example?
La Negative Log-Likelihood (NLL) es una medida que indica cuán bien el modelo está prediciendo la palabra correcta.

5. Try generating a few sentences?

6. What's the negative likelihood for each sentence?

In [51]:
def calculate_sentence_nll(model, vocabulario, sentence):
    tokens = tokenizer.tokenize(sentence.lower())
    X = [vocabulario[token] for token in tokens if token in vocabulario]
    
    if len(X) < 2:  # Necesitamos al menos dos palabras para calcular la NLL
        return "La oración es demasiado corta para calcular NLL."
    
    total_nll = 0.0
    
    # Iterar sobre las palabras de la oración y calcular la NLL para cada transición
    for i in range(len(X) - 1):
        X_input = torch.tensor([X[i]])  # Palabra actual
        X_one_hot = torch.nn.functional.one_hot(X_input, num_classes=len(vocabulario)).float()
        
        with torch.no_grad():  # No necesitamos gradientes para la evaluación
            output = model(X_one_hot)
        
        # La palabra real es la siguiente en la secuencia
        true_word_idx = X[i + 1]
        
        # Calcular la pérdida negativa para la palabra actual
        nll_loss = criterion(output[-1:], torch.tensor([true_word_idx]))
        total_nll += nll_loss.item()
    
    return total_nll


In [52]:
# Ejemplo de oración
sentence = "coronel aureliano"

# Calcular la NLL para la oración en los tres modelos
simple_model_nll = calculate_sentence_nll(simple_model, vocabulario, sentence)
bigram_model_nll = calculate_sentence_nll(bigram_model, vocabulario, sentence)
deep_model_nll = calculate_sentence_nll(deep_model, vocabulario, sentence)

# Imprimir los resultados
print(f'Negative Log-Likelihood for SimpleModel: {simple_model_nll}')
print(f'Negative Log-Likelihood for BigramModel: {bigram_model_nll}')
print(f'Negative Log-Likelihood for DeepModel: {deep_model_nll}')


Negative Log-Likelihood for SimpleModel: 4.383219242095947
Negative Log-Likelihood for BigramModel: 0.004670306574553251
Negative Log-Likelihood for DeepModel: 0.0006111184484325349
