# **Modelo 1 (Generacion de Poemas)**
Andrey Duvan Rincon Torres

---

In [None]:
pip install pytorch-lightning

In [None]:
pip install pyyaml==5.4.1

In [None]:
pip install plotly_express

In [None]:
pip install torchmetrics

In [14]:
# Basicas
import pandas as pd
import numpy as np
# Graficas
import plotly.express as plx
import plotly.graph_objects as go
# Pytorch
import torch
from torch import nn
import pytorch_lightning as pl
from torch.utils.data import Dataset, TensorDataset, DataLoader
from torchmetrics.functional import accuracy
# Sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
# Texto
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
def poem_to_string(poem):
  return f'\n{poem["title"]}\n{poem["author"]}\n{poem["content"]}'
def poem_sequence_to_string(poem_sequence):
    poem_stringified = tokenizer.sequences_to_texts([poem_sequence])[0]
    print(poem_stringified)
CELoss = nn.CrossEntropyLoss()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
AVAIL_GPUS = min(1, torch.cuda.device_count())

# **Datos**

In [6]:
url = 'https://raw.githubusercontent.com/andreamorgar/poesIA/master/data/poems.csv'
poems_df = pd.read_csv(url)
poems_df = poems_df.dropna()

In [7]:
# Filtrar poemas grandes
poems_df['string'] = poems_df.apply(lambda row: f'\n{row["title"]}\n\n{row["author"]}\n\n{row["content"]}', axis=1)
poems_df['length'] = poems_df.string.map(len)
MAX_POEM_LENGTH=1000
poems_filtered = poems_df[poems_df.length<MAX_POEM_LENGTH]
poems_filtered

Unnamed: 0,author,content,title,string,length
1,Marilina Rébora,"\n\nPorque si tú no velas, vendré como ladrón;...",PORQUE SI TÚ NO VELAS,\nPORQUE SI TÚ NO VELAS\n\nMarilina Rébora\n\n...,732
2,Antonio Colinas,"\n\nPequeña de mis sueños, por tu piel las pal...",POEMA DE LA BELLEZA CAUTIVA QUE PERDÍ,\nPOEMA DE LA BELLEZA CAUTIVA QUE PERDÍ\n\nAnt...,662
3,José María Hinojosa,\n\nLos dedos de la nieve\nrepiquetearon\nen e...,SENCILLEZ,\nSENCILLEZ\n\nJosé María Hinojosa\n\n\n\nLos ...,273
4,Rubén Izaguirre Fiallos,"Naciste en Armenia,\npero te fuiste a vivir al...",Breve Carta a Consuelo Suncín,\nBreve Carta a Consuelo Suncín\n\nRubén Izagu...,416
5,Leopoldo María Panero,\n\nOscuridad nieve buitres desespero oscurida...,PASADIZO SECRETO,\nPASADIZO SECRETO\n\nLeopoldo María Panero\n\...,349
...,...,...,...,...,...
5127,Ángel González,\n\nCruzas por el crepúsculo.\nEl aire\ntienes...,BOSQUE,\nBOSQUE\n\nÁngel González\n\n\n\nCruzas por e...,442
5129,David Escobar Galindo,\n\nNada es memoria: todo es invención.\nLo qu...,Nada es memoria,\nNada es memoria\n\nDavid Escobar Galindo\n\n...,258
5130,amistad,\nFelicidad: Muy dentro de tí.\nSerenidad: En ...,Esto es todo lo que deseo para tí,\nEsto es todo lo que deseo para tí\n\namistad...,504
5131,Octavio Paz,\nMis manos \nabren las cortinas de tu ser \nt...,Palpar,\nPalpar\n\nOctavio Paz\n\n\nMis manos \nabren...,173


In [8]:
print(list(poems_filtered['string'])[0])


PORQUE SI TÚ NO VELAS

Marilina Rébora



Porque si tú no velas, vendré como ladrón;
he de llegar a ti sin que sepas la hora.
Estate alerta, pues; vigila cada acción,
y lo que has recibido y escuchado, memora.

Aunque nombre de vivo posees, estás muerto;
perfectas, ante Dios, no he encontrado tus obras.
Consolídalas pronto o han de morir por cierto,
si es que no te arrepientes y de otro modo obras.

Yo soy El de las siete estrellas a su diestra;
El que en los siete Espíritus de Dios, único, arde.
Vestirá el que venciere de blancas vestiduras.
Del libro de la vida, su nombre santa muestra
jamás he de borrar, lo diré en las alturas.
Vendré como ladrón: igual, temprano o tarde.
Vendré como ladrón, de improviso o a oscuras.


# **Vocabulary**

In [9]:
poems_string=poems_filtered.string
STOP_SIGN = '␣'
tokenizer = Tokenizer(char_level=True, filters='', lower=False, split='')
tokenizer.fit_on_texts([STOP_SIGN])
tokenizer.fit_on_texts(poems_string)
total_words = len(tokenizer.word_index) + 1
dataset_vectorized = tokenizer.texts_to_sequences(poems_string)
max_sequence_len = max([len(x) for x in dataset_vectorized])
data_train, data_val = train_test_split(dataset_vectorized, test_size = 0.1, random_state = 0,shuffle=True)
# data_train = iter(data_train)
# data_val = iter(data_val)

## **Modelo**

In [10]:
class Model(nn.Module):
  # creamos la estructura de la red
  def __init__(self):
      super(Model,self).__init__()
      # Embeding de las palabras
      self.embedding = nn.Embedding(total_words, 100)
      # Red Bidireccional
      self.lstm_1 = nn.LSTM(100, 150, 1, batch_first=True, dropout = 0.2 , bidirectional = True)
      # red LSTM
      self.lstm_2 = nn.LSTM(300*(max_sequence_len - 1),100,1, batch_first=True)
      # red perceptron
      self.linear_1 = nn.Linear(100,1605)
      self.linear_2 = nn.Linear(1605,total_words)
      self.relu = nn.ReLU()
      self.sofmax = nn.Softmax()
  # definimos el comportamiento de las capas
  def forward(self, x):
      batch_size, channelsn = x.size()
      x = self.embedding(x)
      # layer LSTM bidirectional
      out, (h_n, c_n) = self.lstm_1(x)
      # layer LSTM
      out, (h_n, c_n) = self.lstm_2(out.reshape((batch_size,-1)))
      # capa de salida
      out = self.relu(self.linear_1(out))
      out = self.sofmax(self.linear_2(out))
      return out

## **Datos**

In [16]:
# Operacion en un Batch
def collate_batch(batch):
    input_sequences = []
    for line in batch:
      token_list = line
      for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)
    input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))
    predictors, label = input_sequences[:,:-1],input_sequences[:,-1]
    label_list = torch.tensor(label, dtype=torch.int64)
    text_list = torch.tensor(predictors, dtype=torch.int64)
    return text_list.to(device), label_list.to(device)
# Clase de los datos
class DataModule(pl.LightningDataModule):
  # Definimos un tamaño de lote en la calse
  def __init__(self, batch_size = 32):
      super(DataModule,self).__init__()
      self.batch_size = batch_size
  # Definimos el tratamiento de los datos
  def setup(self, stage=None):
    self.train_dataset = data_train
    self.val_dataset = data_val
  # Iterable de entrenamiento
  def train_dataloader(self):
      return DataLoader(self.train_dataset, batch_size=self.batch_size, collate_fn=collate_batch)
  # Iterable de validacion
  def val_dataloader(self):
      return DataLoader(self.val_dataset, batch_size=self.batch_size, collate_fn=collate_batch)

## **Entrenamiento**

In [12]:
class Train(pl.LightningModule):
    # creamos la estructura de la red
    def __init__(self,model):
        super().__init__()
        self.model = model
   # Paso de entrenamiento
    def training_step(self, batch, batch_idx):
        loss,acc = self._shared_eval_step(batch, batch_idx)
        self.log("train_loss", loss, prog_bar=True)
        self.log("train_acc", acc, prog_bar=True)
        return loss
    # Paso de validacion
    def validation_step(self, batch, batch_idx):
        loss,acc = self._shared_eval_step(batch, batch_idx)
        self.log("val_loss", loss, prog_bar=True)
        self.log("val_acc", acc, prog_bar=True)
        return loss
    # Funcion para evaluar el modelo y la perdida
    def _shared_eval_step(self,batch,batch_idx):
        x, y  = batch
        y_hat = self.model(x)
        loss = CELoss(y_hat, y.type(torch.LongTensor))
        acc = accuracy(y_hat, y.type(torch.LongTensor))
        return loss, acc
    # Configuracion del optimizador
    def configure_optimizers(self):
        return torch.optim.Adam(self.model.parameters())

##  Ajustar el modelo

In [None]:
data_module = DataModule() # Ejecutamos modulo de datos
torch.manual_seed(0)
model = Model() # Ejecutamos modelo
trainer = pl.Trainer(max_epochs=200, progress_bar_refresh_rate=20) # Lamamos el entrenador
task = Train(model)
trainer.fit(task,data_module)

  "num_layers={}".format(dropout, num_layers))
  f"Setting `Trainer(progress_bar_refresh_rate={progress_bar_refresh_rate})` is deprecated in v1.5 and"
GPU available: True, used: False
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
Missing logger folder: /content/lightning_logs

  | Name  | Type  | Params
--------------------------------
0 | model | Model | 120 M 
--------------------------------
120 M     Trainable params
0         Non-trainable params
120 M     Total params
481.935   Total estimated model params size (MB)


Sanity Checking: 0it [00:00, ?it/s]

In [None]:
# Tablero de resultados
%load_ext tensorboard
%tensorboard --logdir lightning_logs/

# **Generacion de texto**

In [None]:
seed_text = "Who are you, so too cruel?"
next_words = 100
  
for _ in range(next_words):
    token_list = tokenizer.texts_to_sequences([seed_text])[0]
    token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
    predicted = model.forward(torch.tensor(token_list.astype(np.float32))).detach().numpy().transpose()[0]
    output_word = ""
    for word, index in tokenizer.word_index.items():
        if index == predicted:
            output_word = word
            break
    seed_text += " " + output_word
print(seed_text)