# Prueba de GTP-2

## Descarga e instalación de recursos

Para realizar las pruebas sobre GPT-2 vamos a necesitar una serie de recursos que nos permitan acceder a su funcionalidad.

La biblioteca que utilizaremos para acceder a ellos será la biblioteca Transformers de HuggingFace. Este módulo contiene una serie de funcionalidades que permiten realizar funciones de procesamiento de lenguaje, en nuestro caso concreto, generación de lenguaje natural.

In [None]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.18.0-py3-none-any.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 11.1 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.5.1-py3-none-any.whl (77 kB)
[K     |████████████████████████████████| 77 kB 6.7 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 59.6 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 16.1 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 43.2 MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacr

## Bibliotecas necesarias

A continuación vamos a importar los módulos necesarios para probar el funcionamiento de GPT-2.

En nuestro caso utilizaremos, el módulo *GPT2LMHeadModel* que implementa el modelo de lenguaje GPT-2 y *GPT2Tokenizer* utilizado para el proceso de tokenización.

In [None]:
from transformers import GPT2LMHeadModel , GPT2Tokenizer

## Tokenizer

El primer paso para poder probar el modelo es convertir los datos de entrada a una secuencia de identificdores de tokens o *tokens ids* comprensibles por el modelo de lenguaje. Utilizaremos la vertion 'gpt-2' del tokenizador *GPT2Tokenizer* para realizar este proceso.

In [None]:
tokenizer = GPT2Tokenizer.from_pretrained('gpt2') 

Downloading:   0%|          | 0.00/0.99M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/446k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/665 [00:00<?, ?B/s]

{'input_ids': [40, 1842, 39185], 'attention_mask': [1, 1, 1]}

A continuación, se muestra un ejemplo básico de tokenización. Este proceso devuelve unos identificadores de entreda en representación numérica y una máscara de atención.

In [None]:
print(f'"I love Transformers" : {tokenizer("I love Transformers")}')

"I love Transformers" : {'input_ids': [40, 1842, 39185], 'attention_mask': [1, 1, 1]}


Vemos como influyen los espacios en la generación de tokens, en el caso de "I" se le asigna el token 40; sin embargo, si utilizamos el token " I", se le asigna el token 314.

In [None]:
print(f'"I love Transformers" : {tokenizer("I love Transformers")}')
print(f'" I love you" : {tokenizer(" I love you")}')

"I love Transformers" : {'input_ids': [40, 1842, 39185], 'attention_mask': [1, 1, 1]}
" I love you" : {'input_ids': [314, 1842, 345], 'attention_mask': [1, 1, 1]}


Podemos controlar el tipo devuelto por el tokenizador. En el caso de la opción *return_tensors="pt"*, el tokenizador devuelve los *input_ids* y la máscara de atención en un objeto tensor.

In [None]:
tokenizer(' I love you', return_tensors="pt", add_prefix_space=False)

{'input_ids': tensor([[ 314, 1842,  345]]), 'attention_mask': tensor([[1, 1, 1]])}

## Carga del modelo

Primero descargamos el modelo concreto que vamos a utilizar. En nuestro caso, emplearemos la versión 'gpt-2' del modelo y establecemos como token de padding, el token de padding del tokenizer ya que por defecto no viene.

In [None]:
model = GPT2LMHeadModel.from_pretrained('gpt2' , pad_token_id = tokenizer.eos_token_id)

Downloading:   0%|          | 0.00/523M [00:00<?, ?B/s]

## Resultados

Una vez descargados el modelo y todo el resto de rescursos necesarios, probamos la generación de texto a partir de una secuencia. Dada la oración "What is love?" veremos que genera el modelo.

El primer paso, como se mencionó anteriormente, es la tokenización de la secuencia de entrada. Utilizamos el método *encode* del tokenizador, que devolverá los *input_ids* de la secuencia en forma de tensor si le establecemos las opciones adecuadas.

In [None]:
sequence = "What is love?"
input_ids = tokenizer.encode(sequence, add_prefix_space=False, return_tensors='pt')

In [None]:
print('input_ids: '+ str(input_ids))

input_ids: tensor([[2061,  318, 1842,   30]])


A continuación, probamos a decodificar esta secuencia de entrada para comprobar que se ha codificado y decodificado de manera correcta. Como la secuencia original y la secuencia decodificada son similare, se puede proceder a la generación de texto a partir de la entrada original.

In [None]:
decoded_sequence = tokenizer.decode(input_ids[0])

print('decoded seq: '+ str(decoded_sequence))

decoded seq: What is love?


Hacemos uso del método *generate* del modelo para generar, finalmente, el texto. Recibe como argumentos la secuencia original, a partir de la cual generará la salida y otros argumentos escogidos según las opciones por defecto.

In [None]:
output = model.generate(input_ids, 
    max_length = 50, 
    num_beams = 5,
    no_repeat_ngram_size  = 2,
    early_stopping = True)

Obtenida la salida, comprobamos los resultados de la generación. En este caso, la salida comprende los *output_ids* de la secuencia total de salid, por lo que procedemos finalmente a decodificarlos y comprobar el resultado final.

La secuencia generada corresponde a un texto coherente y fluido en consonancia con la secuencia de entrada.

In [None]:
print(output)

tensor([[ 2061,   318,  1842,    30,   198,   198, 18565,   318,   257,  1573,
           326,   468,   587,  1088,   329,   257,   890,   640,    13,   632,
           338,   257,   835,   286,  2282,   366,    40,  1842,   345,    11,
           475,   314,   836,   470,   760,   644,   340,  1724,   284,  1842,
          2130,  2073,   526,   632,   460,  1612,  1997,   422,  1842,   329]])


In [None]:
result = tokenizer.decode(output[0])

In [None]:
print(result)

What is love?

Love is a word that has been around for a long time. It's a way of saying "I love you, but I don't know what it means to love someone else." It can mean anything from love for
