# NLP

## Datos: Poemas

In [1]:
import pandas as pd

In [2]:
poems_df = pd.read_csv("https://raw.githubusercontent.com/andreamorgar/poesIA/master/data/poems.csv")
poems_df.shape

(5133, 3)

In [3]:
poems_df.head()

Unnamed: 0,author,content,title
0,Leopoldo Lugones,\n\nEn el parque confuso\nQue con lánguidas br...,LA MUERTE DE LA LUNA
1,Marilina Rébora,"\n\nPorque si tú no velas, vendré como ladrón;...",PORQUE SI TÚ NO VELAS
2,Antonio Colinas,"\n\nPequeña de mis sueños, por tu piel las pal...",POEMA DE LA BELLEZA CAUTIVA QUE PERDÍ
3,José María Hinojosa,\n\nLos dedos de la nieve\nrepiquetearon\nen e...,SENCILLEZ
4,Rubén Izaguirre Fiallos,"Naciste en Armenia,\npero te fuiste a vivir al...",Breve Carta a Consuelo Suncín


In [4]:
poems_df = poems_df.dropna()

def poem_to_string(poem):
    return f'\n{poem["title"]}\n{poem["author"]}\n{poem["content"]}'

# Filtramos poemas grandes
poems_df['string'] = poems_df.apply(lambda row: f'\n{row["title"]}\n\n{row["author"]}\n\n{row["content"]}', axis=1)
poems_df['length'] = poems_df.string.map(len)

# Consideramos poemas de longitud máxima 1000
MAX_POEM_LENGTH=1000
poems_filtered = poems_df[poems_df.length<MAX_POEM_LENGTH]

print('Hay ', len(poems_filtered), ' poemas después de filtrar por longitud \
      (considerando una longitud menor de ', MAX_POEM_LENGTH, ')')

Hay  3688  poemas después de filtrar por longitud       (considerando una longitud menor de  1000 )


In [5]:
poems_string = poems_filtered.string
poems_string

1       \nPORQUE SI TÚ NO VELAS\n\nMarilina Rébora\n\n...
2       \nPOEMA DE LA BELLEZA CAUTIVA QUE PERDÍ\n\nAnt...
3       \nSENCILLEZ\n\nJosé María Hinojosa\n\n\n\nLos ...
4       \nBreve Carta a Consuelo Suncín\n\nRubén Izagu...
5       \nPASADIZO SECRETO\n\nLeopoldo María Panero\n\...
                              ...                        
5127    \nBOSQUE\n\nÁngel González\n\n\n\nCruzas por e...
5129    \nNada es memoria\n\nDavid Escobar Galindo\n\n...
5130    \nEsto es todo lo que deseo para tí\n\namistad...
5131    \nPalpar\n\nOctavio Paz\n\n\nMis manos \nabren...
5132    \nEXORDIO\n\nJosé Ángel Valente\n\n\n\nY ahora...
Name: string, Length: 3688, dtype: object

In [6]:
import torchtext

In [17]:
tokenizer = torchtext.data.utils.get_tokenizer(None, language='es')
tokens = [tokenizer(poem) for poem in poems_string]

In [18]:
tokens

[['PORQUE',
  'SI',
  'TÚ',
  'NO',
  'VELAS',
  'Marilina',
  'Rébora',
  'Porque',
  'si',
  'tú',
  'no',
  'velas,',
  'vendré',
  'como',
  'ladrón;',
  'he',
  'de',
  'llegar',
  'a',
  'ti',
  'sin',
  'que',
  'sepas',
  'la',
  'hora.',
  'Estate',
  'alerta,',
  'pues;',
  'vigila',
  'cada',
  'acción,',
  'y',
  'lo',
  'que',
  'has',
  'recibido',
  'y',
  'escuchado,',
  'memora.',
  'Aunque',
  'nombre',
  'de',
  'vivo',
  'posees,',
  'estás',
  'muerto;',
  'perfectas,',
  'ante',
  'Dios,',
  'no',
  'he',
  'encontrado',
  'tus',
  'obras.',
  'Consolídalas',
  'pronto',
  'o',
  'han',
  'de',
  'morir',
  'por',
  'cierto,',
  'si',
  'es',
  'que',
  'no',
  'te',
  'arrepientes',
  'y',
  'de',
  'otro',
  'modo',
  'obras.',
  'Yo',
  'soy',
  'El',
  'de',
  'las',
  'siete',
  'estrellas',
  'a',
  'su',
  'diestra;',
  'El',
  'que',
  'en',
  'los',
  'siete',
  'Espíritus',
  'de',
  'Dios,',
  'único,',
  'arde.',
  'Vestirá',
  'el',
  'que',
  'vencie

In [20]:
chars = tuple(set(poems_string.values[0]))

In [21]:
chars

('d',
 'm',
 'o',
 'f',
 'ó',
 'Q',
 'Ú',
 'Y',
 't',
 'N',
 'r',
 '\n',
 'v',
 'b',
 'a',
 'e',
 ':',
 'L',
 'g',
 '.',
 'R',
 'l',
 'A',
 'p',
 'C',
 'E',
 'c',
 'q',
 'á',
 'T',
 ',',
 'D',
 'I',
 'h',
 'ú',
 'P',
 's',
 'n',
 'j',
 'M',
 'O',
 'u',
 ' ',
 'V',
 'í',
 'é',
 'U',
 '\x97',
 'y',
 'S',
 'i',
 ';')

enlaces:
    https://github.com/LeanManager/NLP-PyTorch/blob/master/Character-Level%20LSTM%20with%20PyTorch.ipynb
    https://www.kaggle.com/code/ab971631/beginners-guide-to-text-generation-pytorch/notebook

## Capas recurrentes

## Modelo de generación de texto

## Modelo preentrenado: Transformers!