# Notebook N0 : Génération directe avec le modèle GPT-2

Ce notebook montre comment générer du texte avec un modèle GPT-2 pré-entraîné.  Le modèle est celui fourni par Huggingface (https://huggingface.co/gpt2).  Il a été ensuite adapté (*fine-tuned*) par continuation de l'entraînement sur un corpus de poèmes en anglais.  Ce travail a été fait par Teo Ferrari, dans le cadre de son mémoire de bachelor à la HEIG-VD, supervisé par Andrei Popescu-Belis.

Le notebook nécessite l'installation du package Transformers (`pip install transformers`), puis le téléchargement du modèle GPT-2 depuis https://drive.switch.ch/index.php/s/ICq06PM0od7cjrD (prendre uniquement `gpt2-poetry-model-crpo.zip` et le décompresser à un emplacement qui devra être indiqué à la `pipeline`). 

La génération est très simple : elle permet de générer une continuation aléatoire probable d'un texte donné en entrée, jusqu'à une longueur maximale donnée (comptée en mots ou plus exactement en fragments de mots calculés par [SentencePiece](https://github.com/google/sentencepiece)).

In [1]:
from transformers import pipeline, GPT2Tokenizer, GPT2LMHeadModel

In [2]:
poem_generator = pipeline('text-generation', model='../../crpo/models/gpt2-poetry-model-crpo', tokenizer='gpt2') # change path!

In [6]:
print(poem_generator('<start>When night falls down\n', max_length = 200)[0]['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


<start>When night falls down
<start>On every wind that blows, 
<start>I go for food 
<start>That is most fit 
<start>To make men's hearts beat low. 
<start>I go for drink 
<start>That is most just. 
<start>I go for toys, 
<start>That the eyes see 
<start>When the ears listen 
<start>The words their tears. 
<start>I go for cheer, 
<start>And I go when others' fears  
<start>When the words their tears. 
<start>I go for home, 
<start>And I go when I can't find rest. 
<start>I go for gold, 
<start>And I go when I can't find rest. 
<start>My life is full of strife


Si vous voulez voir comment un texte donné est segmenté en mots (et fragments de mots), regardez les instructions suivantes.  Chaque nombre parmi les *input_ids* correspond à une unité d'entrée du réseau de neurones, qui est activée lorsque le mot est présenté.

In [4]:
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

In [5]:
tokenizer("<start>Shall I compare thee to a summer\'s day'")

{'input_ids': [27, 9688, 29, 2484, 439, 314, 8996, 17903, 284, 257, 3931, 338, 1110, 6], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}