# Tokenizer
<small>Sources des définitions : vidéos Youtube de HuggingFace.</small><br><br>
Qu'est-ce qu'un tokenizer ?
<br>En NLP, les données traitée sont du texte brut et cela ne permet pas aux modèles d'apprentissages de les lire ou les comprendre, ils ne peuvent travailler qu'avec des nombres. <br>
Le tokenizer traduit le texte en chiffres.<br>
## Types de tokenization :
<li>word-based
<li>character-based
<li>subword-based (celle utilisé par GPT2Tokenizer)

### Subword-based
Le but de cette tokenization est de trouver un juste milieu entre le word-based (vocabulaire large) et le character-based (longue séquences). <br>Les mots les plus utilisés ne doivent pas être divisés en sous-mots mais seulement les mots rarement utilisés (ex: pour le mot dog non mais pour le mot dogs on le décompose en dog + s).
<br><br>GPT2Tokenizer utilise l'algorithme Byte-Pair Encoding


# GPT2Tokenizer
```
GPT2Tokenizer(vocabulary, merges)
```

```
from_preset(preset)
```
instancie le tokenizer GPT2Tokenizer avec un vocabulaire prédéfini.

`preset` : "gpt2_base_en", "gpt2_medium_en", "gpt2_large_en", "gpt2_extra_large_en", "gpt2_base_en_cnn_dailymail"

<br>Plus de détails sur chaque preset <a href="https://keras.io/api/keras_nlp/models/gpt2/gpt2_tokenizer/#:~:text=Preset%20name,Description">ici</a>

In [None]:
!pip install keras_nlp

Collecting keras_nlp
  Downloading keras_nlp-0.6.3-py3-none-any.whl (584 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/584.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m153.6/584.5 kB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m584.5/584.5 kB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting keras-core (from keras_nlp)
  Downloading keras_core-0.1.7-py3-none-any.whl (950 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m950.8/950.8 kB[0m [31m36.0 MB/s[0m eta [36m0:00:00[0m
Collecting tensorflow-text (from keras_nlp)
  Downloading tensorflow_text-2.15.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m81.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting namex (from keras-core->keras_nlp)
 

- `vocabulary`
  associe chaque mot (token) du vocabulaire en entiers (integer ids)
  - type :
    - chaîne : chemin vers un fichier JSON
    - dictionnaire

Dans le vocabulaire, il faut fournir inclure `'<|endoftext|>'` sinon l'on obtient l'erreur :
<blockquote>Please provide `'<|endoftext|>'` in your `vocabulary` or use a pretrained `vocabulary` name.</blockquote>

In [None]:
from keras_nlp.models import GPT2Tokenizer
vocab = {"chat": 0, "chien": 1, "oiseau": 2, '<|endoftext|>': 3}
# tokenizer = keras_nlp.models.GPT2Tokenizer(vocabulary=vocab, merges=merges)

Using TensorFlow backend


- `merges`
  contient les règles de fusion
  - type :
    - chaîne : lien vers un fichier qui contient les règles de fusion
      - une règle de fusion par ligne
        - une règle de fusion a des entités séparés par des espaces
    - liste (voir exemple ci-dessous)

In [None]:
# la règle "chat chien" pourrait signifier que les occurrences de "chat" et "chien" dans le texte doivent être fusionnées en un seul token.
merges = ["chat chien", "oiseau vol", "soleil éclat"] # ex : Le chat_chien aboit ou miaule ?
tokenizer = GPT2Tokenizer(vocabulary=vocab, merges=merges)

In [None]:
tokenizer("Bonjour chat chien") # tf.Tensor en sortie si on fournit une chaîne

<tf.Tensor: shape=(18,), dtype=int32, numpy=
array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1], dtype=int32)>

In [None]:
# Tokenizer du texte
tokenizer("Thyroid surgery in children in a single institution from Osama Ibrahim Almosallama Ali Aseerib Ahme")

<tf.Tensor: shape=(99,), dtype=int32, numpy=
array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1],
      dtype=int32)>

In [None]:
# Détokenizer
tokenizer.detokenize([  817,    88,  3882,  8185,   287,  1751,   287,   257,  2060,
        9901,   422, 29236, 30917,   978, 16785,   439,  1689, 12104,
         317,   325,   263,   571,  7900,  1326])

<tf.Tensor: shape=(), dtype=string, numpy=b''>

# GPT2Preprocessor

Tokenize et regroupe les inputs <br><br>
On peut utiliser cette couche avec `tf.data.Dataset.map` pour préprocesser une chaîne au format `(x,y,sample_weight)` notamment utilisé par `Model.fit` de Keras. <br>
`GPT2Preprocessor` ne prend qu'un segment (une chaîne) en entrée car il est principalement utilisé pour la génération de tâches  (rechercher une information, rédiger une réponse, demander une explication, ...)
```python
preprocessor = GPT2Preprocessor(tokenizer, sequence_length=1024, add_start_token=True, add_end_token=True)

```
- `tokenizer` : une instance de la classe `GPT2Tokenizer`
- `sequence_length` : la taille des inputs regroupés
- `add_start_token` : Lorsque c'est `True`, le préprocesseur ajoutera le mot de début du tokenizer à chaque séquence d'entrée. Ce mot peut marquer le début d'une phrase.
- `add_end_token` : Lorsque c'est `True`, le mot de fin du tokenizer à chaque séquence d'entrée. Ce mot peut marquer la fin d'une phrase.

## Propriétés
`tokenizer` : GPT2.tokenizer, le tokenizer utilisé
<br><br>
```
preprocessor(x,y,sample_weight)
```
- `x` : chaîne, `tf.Tensor`, liste de chaînes/tenseurs
- `y` (optionnel) : tout type de donnée de label (transmis sans être modifié par le préprocesseur)
- `sample_weight` (optionnel) : tout type de donnée de poids (transmis sans être modifié par le préprocesseur)
- `sequence_length`: remplacer celle configurée par la couche
```
from_preset(preset)
```


In [None]:
from keras_nlp.models import GPT2Preprocessor
preprocessor = GPT2Preprocessor(tokenizer=tokenizer)
preprocessed_input = preprocessor(["The quick brown fox jumped.", "Then, he crossed the road."])

In [None]:
preprocessor.tokenizer # tokenizer property

<keras_nlp.src.models.gpt2.gpt2_tokenizer.GPT2Tokenizer at 0x7db1b1c5bcd0>

# GPT2Backbone model

Réseau de neurones GPT-2 de base avec des hyperpamètres (paramètres qui ne sont pas appris à partir des données mais réglés avant l'entrainement). <br><br>
Le constructeur par défaut donne un modèle GPT-2 customisable et ses paramètres initialisés aléatoirement. On peut utiliser la méthode `from_preset`
<br><br>
Le modèle est fourni par un tiers et sujet à une [licence](https://github.com/openai/gpt-2)
```python
model = GPT2Backbone(
    vocabulary_size,
    num_layers,
    num_heads,
    hidden_dim,
    intermediate_dim,
    dropout=0.1,
    max_sequence_length=1024
)
```
- `vocabulary_size` (int) : taille du vocabulaire
- `num_layers` (int) : nombre de couche du transformer
- `num_heads` (int) : int. Le nombre de attention heads (?) pour chaque transformer. Ce doit être un diviseur de `hidden_size`
- `hidden_dim` (int) : La taille de l'encodage du transformer et ses couches de **pooling**.
- `intermediate_dim` (int): la dimension en sortie de la première couche Dense dans un réseau feedforward à deux couches pour chaque transformateur.
- `dropout` (float): la probabilité d'abandon pour l'encodeur du transformeur
- max_sequence_length (int) : None (utilise la valeur de `sequence_length` (GPT2Preprocessing)), la taille maximum de la séquence que l'encodeur peut accepter

## Propriétés
`token_embedding` : GPT2Backbone.token_embedding, instance de `keras.layers.Embedding`
<br><br>

```python
from_preset(preset, load_weights=True)
```
- `preset` : gpt2_base_en, ...
- `load_weights`: Par défaut à True, charger les poids pré-entrainés dans le modèle

In [None]:
from keras_nlp.models import GPT2Backbone
import numpy as np

In [None]:
input_data = {
    "token_ids": np.ones(shape=(1, 12), dtype="int32"),
    "padding_mask": np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0]]),
}

# Initialisation aléatoire de GPT-2 avec une configuration personnalisée.
model = GPT2Backbone(
    vocabulary_size=50257,
    num_layers=12,
    num_heads=12,
    hidden_dim=768,
    intermediate_dim=3072,
    max_sequence_length=1024,
)
model(input_data)


<tf.Tensor: shape=(1, 12, 768), dtype=float32, numpy=
array([[[ 0.47852927, -0.65031123,  1.496662  , ...,  1.058555  ,
         -0.9930843 ,  2.0575511 ],
        [ 0.97722244, -0.36336008,  1.7122997 , ...,  1.3312082 ,
         -1.0386397 ,  1.5186324 ],
        [ 1.3595175 , -0.13302547,  1.9602071 , ...,  1.2170106 ,
         -0.6331256 ,  1.5580916 ],
        ...,
        [ 0.7286012 , -0.11738614,  1.1361239 , ...,  0.00574119,
         -0.44189125,  1.788145  ],
        [ 0.79080987, -0.25844705,  1.4011316 , ...,  0.08362782,
         -0.24227712,  1.6321561 ],
        [ 0.6290515 , -0.33386242,  1.3729063 , ...,  0.04617018,
         -0.22661753,  1.8361477 ]]], dtype=float32)>

In [None]:
model = GPT2Backbone.from_preset("gpt2_base_en")

output = model(preprocessed_input)

InvalidArgumentError: ignored

In [None]:
model.token_embedding

<keras_nlp.src.layers.modeling.reversible_embedding.ReversibleEmbedding at 0x7db1b13fbfd0>

# GPT2CausalLMPreprocessor layer
**GPT2CausalLMPreprocessor** class
```
keras_nlp.models.GPT2CausalLMPreprocessor(
    tokenizer, sequence_length=1024, add_start_token=True, add_end_token=True
)
```
<br>La couche de pré-processing qui est utilisée par `GPT2CausalLM`


Arguments
- `tokenizer` = une instance de GPT2Tokenizer
- `sequence_length` = la taille des "packed input"
- `add_start_token`
- `add_end_token`

<br>Cette couche de pré-processing est pour être utilisée par GPT2CausalLM que nous verrons par la suite.
Returne au format (x, y, sample_weight)
- `x` : string, un tenseur ou un tableau de string
- `y` : label, toujours à `None` pour la couche
- `sample_weight` : string, un tenseur ou un tableau de string
- `sequence_length` : remplace `sequence_length` prédéfini
<br>

Ces arguments sont utilisées lors de l'appel du preprocessor
```
lmP = keras_nlp.models.GPT2CausalLMPreprocessor(
    tokenizer, sequence_length=1024, add_start_token=True, add_end_token=True
)
lmP(x, y, sample_weight, sequence_length)
```
<br><br>


Méthodes
- `from_preset()`
- `tokenizer()`
- `generate_preprocess(x, sequence_length=None)`
- `generate_postprocess(x)`
<br><br>
Attaché à GPT2CausalLM, ces méthodes (`generate_preprocess` et `generate_postprocess`) sont appelées implicitement par `generate()` de `GPT2CausalLM`

In [None]:
from keras_nlp.models import GPT2CausalLMPreprocessor
import tensorflow as tf
# Load the preprocessor from a preset.
preprocessor = GPT2CausalLMPreprocessor.from_preset(
    "gpt2_base_en"
)

# Tokenize and pack a single sentence.
sentence = tf.constant("League of legends")
preprocessor(sentence)
# Same output.
preprocessor("League of legends")

# Tokenize a batch of sentences.
sentences = tf.constant(["Taco tuesday", "Fish taco please!"])
preprocessor(sentences)
# Same output.
preprocessor(["Taco tuesday", "Fish taco please!"])



({'token_ids': <tf.Tensor: shape=(2, 1024), dtype=int32, numpy=
  array([[50256,    51, 10602, ...,     0,     0,     0],
         [50256, 39428, 47884, ...,     0,     0,     0]], dtype=int32)>,
  'padding_mask': <tf.Tensor: shape=(2, 1024), dtype=bool, numpy=
  array([[ True,  True,  True, ..., False, False, False],
         [ True,  True,  True, ..., False, False, False]])>},
 <tf.Tensor: shape=(2, 1024), dtype=int32, numpy=
 array([[   51, 10602,   256, ...,     0,     0,     0],
        [39428, 47884,  3387, ...,     0,     0,     0]], dtype=int32)>,
 <tf.Tensor: shape=(2, 1024), dtype=bool, numpy=
 array([[ True,  True,  True, ..., False, False, False],
        [ True,  True,  True, ..., False, False, False]])>)

In [None]:
import tensorflow as tf

# Map a dataset to preprocess a single sentence.
features = tf.constant(
    [
        "Avatar 2 is amazing!",
        "Well, I am not sure.",
    ]
)
labels = tf.constant([1, 0])
ds = tf.data.Dataset.from_tensor_slices((features, labels))
ds = ds.map(preprocessor, num_parallel_calls=tf.data.AUTOTUNE)

# Map a dataset to preprocess unlabled sentences.
ds = tf.data.Dataset.from_tensor_slices(features)
ds = ds.map(preprocessor, num_parallel_calls=tf.data.AUTOTUNE)



# GPT2CausalLM layer
**GPT2CausalLM** class
```
keras_nlp.models.GPT2CausalLM (backbone, preprocessor=None)
```
- `backbone` : instance de `GPT2Backbone`
- `preprocessor` : instance de `GPT2Preprocessor`. Si c'est `None`, alors il faudra faire du préprocesser à chaque fois les inputs avant d'appeler le modèle
<br><br>

Modèle de langage causal prédit le prochain token à partir des token précédents.
<br>Pourquoi l'utiliser ? entraîner un modèle non supervisé (pas de labels, pas de y) sur du text brut ou générer de manière autorégressive du text brut
<br> Dans quel usage ? pré-entrainer ou fine-tuner un modèle GPT-2 avec une méthode `fit()`


Le modèle peut être configuré de manière optionnelle avec une couche `preprocessor`(GPT2CausalLMPreprocessor). Cela permet d'automatiquement appliquer le preprocessing sur les texte en entrée dans les méthodes `fit()`, `predict()`, `evaluate()` and `generate()`
<br><br>

- `from_preset(presetn load_weights)`
- `generate(inputs, max_length=None)` : génère du texte à partir d'un prompt
  - `inputs` : donnée python ou de tenseur ou `tf.data.Dataset`
  - `max_length` (optionnel) : taille maximal en entier de la séquence générée. Par défaut, c'est la valeur `sequence_length` de `GPT2CausalLMPreprocessor`  
- `compile()` : contrôler la génération de texte avec un argument [`sampler`](https://keras.io/api/keras_nlp/samplers/) (la méthode de sampling utilisée pour la génération) (top_k est utilisé par défaut)
- `fit()` : entraîner le modèle
- `predict()` : faire des prédictions pour le modèle
- `evaluate()` : évaluer le modèle

## Arguments
- `backbone` : une instance de `keras.Model` qui fournit le sous-model backbone
- `preprocessor` : une instance de `keras.layers.Layer` utilisée pour préprocesser les inputs

In [None]:
from keras_nlp.models import GPT2CausalLM

gpt2_lm = GPT2CausalLM.from_preset("gpt2_base_en")
gpt2_lm.generate("I want to say", max_length=30)

# Generate with batched prompts.
gpt2_lm.generate(["This is a", "Where are you"], max_length=30)

Using TensorFlow backend
Downloading data from https://storage.googleapis.com/keras-nlp/models/gpt2_base_en/v1/vocab.json
Downloading data from https://storage.googleapis.com/keras-nlp/models/gpt2_base_en/v1/merges.txt
Downloading data from https://storage.googleapis.com/keras-nlp/models/gpt2_base_en/v1/model.h5


['This is a guest post by Michael D. Gellman, PhD, professor of psychology at the University of Pennsylvania and coauthor of The Brain',
 "Where are you?\n\nWe are in the midst of a major renovation, and the building's new interior and exterior have been completely remodeled"]

In [None]:
import keras_nlp.samplers

gpt2_lm = GPT2CausalLM.from_preset("gpt2_base_en")
gpt2_lm.compile(sampler="greedy")
gpt2_lm.generate("I want to say", max_length=50)



'I want to say that I am not a fan of the idea of a "real" world. I am a fan of the idea of a "real" world. I am a fan of the idea of a "real" world. I'

In [None]:
gpt2_lm.compile(sampler=keras_nlp.samplers.BeamSampler(num_beams=2))
gpt2_lm.generate("I want to say", max_length=30)

'I want to say a few things about this book. First, it is a very good book. It is a very good book. It is'

In [None]:
import numpy as np
# Prompt the model with `5338, 318` (the token ids for `"Who is"`).
# Use `"padding_mask"` to indicate values that should not be overridden.
prompt = {
    "token_ids": np.array([[5338, 318, 0, 0, 0]] * 2),
    "padding_mask": np.array([[1, 1, 0, 0, 0]] * 2),
}

gpt2_lm = keras_nlp.models.GPT2CausalLM.from_preset(
    "gpt2_base_en",
    preprocessor=None,
)
gpt2_lm.generate(prompt)

{'token_ids': array([[5338,  318,  428, 3516, 1701],
        [5338,  318,  262,  582,   30]]),
 'padding_mask': array([[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True]])}

In [None]:
features = ["The quick brown fox jumped.", "I forgot my homework."]
gpt2_lm = keras_nlp.models.GPT2CausalLM.from_preset("gpt2_base_en")
gpt2_lm.fit(x=features, batch_size=2)



<keras.src.callbacks.History at 0x7f80b91c8070>

In [None]:
gpt2_lm.generate("I want to say", max_length=100)

"I want to say a big THANK YOU to all the people who supported me on my first project and to my wife who helped me get my ideas into the hands of people who were willing to work with me. I'm so glad to see that I got a lot of support from all of you and to all of those I've met. I hope you're all happy with the results you've achieved. Thank you for all of your support and thank you for your patience.\n\n\nI hope"

# GPT2 en réponse à des stimuli



In [None]:
!pip install keras_nlp

In [None]:
import numpy as np
from keras_nlp.models import GPT2CausalLM, GPT2CausalLMPreprocessor

gpt2_lm = GPT2CausalLM.from_preset("gpt2_base_en")
def QA(input,max_length=60):
  return gpt2_lm.generate(input, max_length)[len(input):]
print(QA('You are a cancer dectector robot and i want to know if i have a thyroid cancer?',100))

Using TensorFlow backend


You can help by sharing your story with the world.

I have thyroid cancer, I have an infection, and i have been treated for it. What is it?

I have been treated for thyroid cancer since January 2011. I am now on a waiting list. How does it work?

You have to register for your cancer diagnosis. If you don't,


In [None]:
print(QA('what is a thyroid cancer ?',100))



a thyroid cancer is a disease caused by a thyroid defect that causes abnormal growth of thyroid tissue.

a thyroid defect that causes abnormal growth of thyroid tissue. a thyroid disease is an inherited condition, which means you can't develop it if you don't have a thyroid defect or if you develop a disease that affects your thyroid tissue or the thyroid gland itself.

a thyroid defect or an inherited condition, which means you can't develop it if you


In [None]:
print(QA('how can i know that i have a lung cancer ?',100))



how can i know if my cancer has spread ?

how can i know when my cancer has spread ?

what are the steps i need to take to get my cancer diagnosed ?

how can i help my cancer get treated ?

what can i do to help my cancer ?

what should i do if my cancer is spreading ?

why do i have cancer ?

how do i get


In [None]:
print(QA('How many types of cancer ?',200))



A few people say that there are only four types of cancer, and that there's no reason to think there are only four types of cancer.

The most common cancers are:

Tumor (cancerous tissue in the abdomen or neck)

Tumoral (small, small, or large)

Tumoral (small)

Vascular (small, large)

Cancer of the mouth

Tumor of the throat

Tumor of the liver

Vascular cancer

The most common cancers are:

Tumor of the throat

Tumoral of the lungs

Vascular cancer

The most common cancers are:

Tumor of the liver

Vascular cancer

Vascular cancer

The most common cancers are:

Tumor of the lung

Vascular cancer

The most common
