# NLP (Procesamiento de Lenguaje Natural) con Pytorch

En este notebook vamos a ver la librería PyTorch-NLP, que es una librería abierta para procesamiento de lenguaje natural basada en PyTorch y que viene con módulos interesantes de datasets, embeddings preentrenados, codificadores de texto, redes neuronales, etc.

El paquete **torchnlp.datasets** tiene módulos para descargar, almacenar y cargar datasets para procesamiento de lenguaje natural. Los módulos devuelven objetos *torch.utils.data.Dataset*, como los que vimos en el notebook sobre estas clases. Estos objetos tienen métodos para elegir y seleccionar elementos y se puedan pasar al *dataloader* para el proceso de carga y entrenamiento.

A continuación, instalamos la libreria **pytorch-nlp** y vemos el dataset IMDB que contiene revisiones de películas con su correspondiente clasificación.

# pip install pytorch-nlp

In [1]:
import torch
from torch.utils.data import Dataset
from torchnlp.datasets import imdb_dataset

#Creamos un objeto dataset con los datos
dataset1 = imdb_dataset(train=True)

aclImdb_v1.tar.gz: 84.1MB [00:40, 2.06MB/s]                              


In [2]:
#La longitud de la muestra para entrenamiento es de 25000
print(len(dataset1))

#Vemos los cuatro primeros
dataset1[0:3]

25000


[{'text': 'Bromwell High is a cartoon comedy. It ran at the same time as some other programs about school life, such as "Teachers". My 35 years in the teaching profession lead me to believe that Bromwell High\'s satire is much closer to reality than is "Teachers". The scramble to survive financially, the insightful students who can see right through their pathetic teachers\' pomp, the pettiness of the whole situation, all remind me of the schools I knew and their students. When I saw the episode in which a student repeatedly tried to burn down the school, I immediately recalled ......... at .......... High. A classic line: INSPECTOR: I\'m here to sack one of your teachers. STUDENT: Welcome to Bromwell High. I expect that many adults of my age think that Bromwell High is far fetched. What a pity that it isn\'t!',
  'sentiment': 'pos'},
 {'text': 'Homelessness (or Houselessness as George Carlin stated) has been an issue for years but never a plan to help those on the street that were onc

In [3]:
#Vemos la calificaión del primero 
dataset1[0]['sentiment'] 

'pos'

A continuación, extraemos los valores del diccionario en dos listas, una para el texto y otra para las etiquetas.

In [4]:
leng=25000

text=[]
label=[]
for i in range(leng):      
        input=dataset1[i]['text']
        output=dataset1[i]['sentiment']   
        text.append(input)
        label.append(output)

El paquete **torchnlp.encoders** tiene clases para codificar texto en tensores y viceversa. A continuación vamos a ver la clase *WhitespaceEncoder* que codifica un texto separándolo por los espacios en blanco. Importamos el paquete, definimos el texto necesario para construir el diccionario y creamos un objeto *WhitespaceEncoder* pasándole este texto.

Después mostramos el tamaño del diccionario, la lista de tokens del diccionario y por último codificamos un texto ejemplo usando el objeto creado.

In [5]:
from torchnlp.encoders.text import WhitespaceEncoder

loaded_data = ["Esto es un ejemplo de bloque de texto", "Se va a utilizar para tokenizar"]
encoder = WhitespaceEncoder(loaded_data)
print(encoder.vocab_size)
encoder.vocab

18


['<pad>',
 '<unk>',
 '</s>',
 '<s>',
 '<copy>',
 'Esto',
 'es',
 'un',
 'ejemplo',
 'de',
 'bloque',
 'texto',
 'Se',
 'va',
 'a',
 'utilizar',
 'para',
 'tokenizar']

In [6]:
encoder.encode("utilizar un ejemplo") 

tensor([15,  7,  8])

El paquete *torchnlp.word_to_vector* tiene varios embeddings preentrenados. A continuación descargamos el modelo *Glove*. Cargamos la representación (embedding) de la palabra “Hello”, “Hi”, “Welcome” y “Car” y calculamos la diferencia entre dichos vectores usando el error cuadrático medio. Vemos como la palabra más cercana a “Hello” es “Hi” y la más lejana “Car”.

In [7]:
from torchnlp.word_to_vector import GloVe

embedd = GloVe()

glove.840B.300d.zip: 2.18GB [11:02, 3.28MB/s]                                
100%|██████████| 2196017/2196017 [02:28<00:00, 14821.73it/s]


In [8]:
import torch.nn as nn

n1=embedd['Hello']
n2=embedd['Hi']
n3=embedd['Welcome']
n4=embedd['Car']

loss = nn.MSELoss()
dev1=loss(n1,n2)
print(dev1)
dev2=loss(n1,n3)
print(dev2)
dev3=loss(n1,n4)
print(dev3)

tensor(0.0457)
tensor(0.0792)
tensor(0.2429)
