# Atelier tokenizer

Dans cet atelier nous alons constuire un tokenizer utilisant l'algorithme Byte Pair Encoding (BPE) tel que ceux utilisés
dans ChatGPT.


## Convertir une chaine de caractères en une séquence d'entiers

D'après la [documentation python](https://docs.python.org/fr/3/library/stdtypes.html#text-sequence-type-str) :

> Les chaînes sont des séquences immuables de points de code Unicode.

Chaque caractère a un numéro, une catégorie, un nom :

In [17]:
import unicodedata

text = "Bonjour 👋"

for char in text:
    print(char, ord(char), unicodedata.category(char), unicodedata.name(char))

B 66 Lu LATIN CAPITAL LETTER B
o 111 Ll LATIN SMALL LETTER O
n 110 Ll LATIN SMALL LETTER N
j 106 Ll LATIN SMALL LETTER J
o 111 Ll LATIN SMALL LETTER O
u 117 Ll LATIN SMALL LETTER U
r 114 Ll LATIN SMALL LETTER R
  32 Zs SPACE
👋 128075 So WAVING HAND SIGN


Les chaines de caractères sont ensuite encodées pour permettre la sauvegarde, la lecture, etc.

Il existe plusieurs types d'encodage. Le plus utilisé est `UTF-8`. Cet encodage représente chaque point de code 
(caractère) par une suite de 1 à 4 bytes en fonction du numéro du point de code : 


| Premier point de code | Dernier code point | Byte 1       | Byte 2   | Byte 3   | Byte 4   |
|-----------------------|--------------------|--------------|----------|----------|----------|
| U+0000                | U+007F             | **0**yyyzzzz |          |          |          |
| U+0080                | U+07FF             | **110**xxxyy | 10yyzzzz |          |          |
| U+0800                | U+FFFF             | **1110**wwww | 10xxxxyy | 10yyzzzz |          |
| U+010000              | U+10FFFF           | **11110**uvv | 10vvwwww | 10xxxxyy | 10yyzzzz |

<br/>

> **Rappel :** Un _byte_ en anglais correspond à un _octet_ en français soit 8 _bits_.
> 
> Un octet peut donc prendre 2^8 = 256 valeurs

In [22]:
text = "Bonjour 👋"

for char in text:
    for byte in char.encode("utf-8"):
        print(char, "|", byte, f"| code hexadécimal : {byte:02x}")

B | 66 | code hexadécimal : 42
o | 111 | code hexadécimal : 6f
n | 110 | code hexadécimal : 6e
j | 106 | code hexadécimal : 6a
o | 111 | code hexadécimal : 6f
u | 117 | code hexadécimal : 75
r | 114 | code hexadécimal : 72
  | 32 | code hexadécimal : 20
👋 | 240 | code hexadécimal : f0
👋 | 159 | code hexadécimal : 9f
👋 | 145 | code hexadécimal : 91
👋 | 139 | code hexadécimal : 8b


Dans un premier temps on peut transformer une chaine de caractère en 

In [None]:
text = "Bonjour, Hello, こんにちは, 👋"