# Atelier tokenizer

Dans cet atelier nous alons constuire un tokenizer utilisant l'algorithme Byte Pair Encoding (BPE) tel que ceux utilis√©s
dans ChatGPT.


## Convertir une chaine de caract√®res en une s√©quence d'entiers

D'apr√®s la [documentation python](https://docs.python.org/fr/3/library/stdtypes.html#text-sequence-type-str) :

> Les cha√Ænes sont des s√©quences immuables de points de code Unicode.

Chaque caract√®re a un num√©ro, une cat√©gorie, un nom :

In [17]:
import unicodedata

text = "Bonjour üëã"

for char in text:
    print(char, ord(char), unicodedata.category(char), unicodedata.name(char))

B 66 Lu LATIN CAPITAL LETTER B
o 111 Ll LATIN SMALL LETTER O
n 110 Ll LATIN SMALL LETTER N
j 106 Ll LATIN SMALL LETTER J
o 111 Ll LATIN SMALL LETTER O
u 117 Ll LATIN SMALL LETTER U
r 114 Ll LATIN SMALL LETTER R
  32 Zs SPACE
üëã 128075 So WAVING HAND SIGN


Les chaines de caract√®res sont ensuite encod√©es pour permettre la sauvegarde, la lecture, etc.

Il existe plusieurs types d'encodage. Le plus utilis√© est `UTF-8`. Cet encodage repr√©sente chaque point de code 
(caract√®re) par une suite de 1 √† 4 bytes en fonction du num√©ro du point de code : 


| Premier point de code | Dernier code point | Byte 1       | Byte 2   | Byte 3   | Byte 4   |
|-----------------------|--------------------|--------------|----------|----------|----------|
| U+0000                | U+007F             | **0**yyyzzzz |          |          |          |
| U+0080                | U+07FF             | **110**xxxyy | 10yyzzzz |          |          |
| U+0800                | U+FFFF             | **1110**wwww | 10xxxxyy | 10yyzzzz |          |
| U+010000              | U+10FFFF           | **11110**uvv | 10vvwwww | 10xxxxyy | 10yyzzzz |

<br/>

> **Rappel :** Un _byte_ en anglais correspond √† un _octet_ en fran√ßais soit 8 _bits_.
> 
> Un octet peut donc prendre 2^8 = 256 valeurs

In [22]:
text = "Bonjour üëã"

for char in text:
    for byte in char.encode("utf-8"):
        print(char, "|", byte, f"| code hexad√©cimal : {byte:02x}")

B | 66 | code hexad√©cimal : 42
o | 111 | code hexad√©cimal : 6f
n | 110 | code hexad√©cimal : 6e
j | 106 | code hexad√©cimal : 6a
o | 111 | code hexad√©cimal : 6f
u | 117 | code hexad√©cimal : 75
r | 114 | code hexad√©cimal : 72
  | 32 | code hexad√©cimal : 20
üëã | 240 | code hexad√©cimal : f0
üëã | 159 | code hexad√©cimal : 9f
üëã | 145 | code hexad√©cimal : 91
üëã | 139 | code hexad√©cimal : 8b


Dans un premier temps on peut transformer une chaine de caract√®re en 

In [None]:
text = "Bonjour, Hello, „Åì„Çì„Å´„Å°„ÅØ, üëã"