# Transformers and Hugging Face

Primero, importamos GPT2LMHeadModel para la generatción de texto y GPT2Tokenizer como tokenizer del texto.

In [1]:
from transformers import AutoTokenizer, AutoModelWithLMHead

A continuación, cargamos el tokenizer y se lo pasamos al modelo.

In [3]:
tokenizer = AutoTokenizer.from_pretrained("datificate/gpt2-small-spanish") 

tokenizer('Hola mundo')

Downloading: 100%|██████████| 620/620 [00:00<00:00, 74.7kB/s]
Downloading: 100%|██████████| 817/817 [00:00<00:00, 145kB/s]
Downloading: 100%|██████████| 830k/830k [00:06<00:00, 134kB/s]
Downloading: 100%|██████████| 496k/496k [00:02<00:00, 248kB/s]
Downloading: 100%|██████████| 387/387 [00:00<00:00, 141kB/s]


{'input_ids': [40, 2261, 1327], 'attention_mask': [1, 1, 1]}

In [4]:
model = AutoModelWithLMHead.from_pretrained("datificate/gpt2-small-spanish" , pad_token_id = tokenizer.eos_token_id)

Downloading: 100%|██████████| 487M/487M [00:42<00:00, 12.0MB/s]


Después, para generar el texto, añadimos un primer texto a nuestro modelo y después a partir de él, generamos el texto. Antes de todo tenemos que preprocesar (tokenizar) ese primer texto que pasamos al modelo.


'pt' significa PyTorch Tensors

Con endode pasamos de texto a números y con decode pasamos de números a texto.

In [5]:
texto = "La sequía es un problema en nuestros días."
input_ids = tokenizer.encode(texto,return_tensors = 'pt')

In [6]:
input_ids

tensor([[  552, 20236,   293,   298,  4064,   278,  9993,  1692,    14]])

In [7]:
tokenizer.decode(input_ids[0])

'La sequía es un problema en nuestros días.'

Para finalizar, generamos el texto a partir del modelo.

In [8]:
output = model.generate(input_ids, 
    max_length = 200, 
    num_beams = 5,
    no_repeat_ngram_size  = 2,
    early_stopping = True)

In [9]:
tokenizer.decode(output[0])

'La sequía es un problema en nuestros días. La sequía puede ser causada por la falta de agua en el suelo, o por el exceso de humedad en la atmósfera.\n\nEl agua que fluye a través de la superficie del suelo es el agua de lluvia, que se encuentra en las zonas más secas del planeta. El agua se evapora y se convierte en dióxido de carbono (CO), que es utilizado como combustible para la agricultura, la industria y el transporte de energía. Los gases de efecto invernadero (H2O) son el principal causa de las emisiones de CO, por lo que la mayoría de los seres humanos se alimentan de ellos. Por lo tanto, el CO es una fuente importante de contaminación del aire, ya que causa que el aire se descomponga en partículas de polvo, polvo y agua. En el caso del agua, las partículas son absorbidas por las plantas y los animales, y son transportadas al medio ambiente, donde se convierten en CO. Las partículas también se transportan'