# Tokenizer

Our goal here is to transform our text into tokens.

Each token will have a unique ID that will correspond to an index in the embedding matrix.

The mapping text -> token -> ID -> embedding vector will translate text into vector of numbers.

In [19]:
# read the text file
with open("../data/tinymoliere.txt", "r") as f:
    text = f.read()

print(text[208:949])

Scène I
Le Barbouillé
Il faut avouer que je suis le plus malheureux de tous les hommes. J'ai une femme qui me fait enrager :  au lieu
de me donner du soulagement et de faire les choses à mon souhait, elle me fait donner au diable vingt fois le
jour ;  au lieu de se tenir à la maison, elle aime la promenade, la bonne chère, et fréquente je ne sais quelle
sorte de gens. Ah !  pauvre Barbouillé, que tu es misérable !  Il faut pourtant la punir. Si je la tuois...
L'invention ne vaut rien, car tu serois pendu. Si tu la faisois mettre en prison... La carogne en sortiroit avec
son passe−partout. Que diable faire donc ?  Mais voilà Monsieur le Docteur qui passe par ici :  il faut que je
lui demande un bon conseil sur ce que je dois faire.



## Naive char level tokenization

Probably the most simple way to convert text into token is to work at char level i.e. each token corresponds to a char in the text.

In [23]:
unique_tokens = sorted(set(text)) # we sort the tokens to have consistent such that we can use indexing as ID
print(f"Number of unique tokens: {len(unique_tokens)}")
print(unique_tokens)

Number of unique tokens: 91
['\n', ' ', '!', '"', "'", '(', ')', ',', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '?', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'X', 'Y', 'Z', '[', ']', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'x', 'y', 'z', '°', 'Ç', 'É', 'à', 'â', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'î', 'ï', 'ò', 'ô', 'ù', 'û', 'œ', '−']


This dataset contains 91 unique char (including french accents, capitilized letters and punctuations).

Now we can use the unique tokens extracted to create the tokenizer (== mapping between token and id).

In [24]:
# convert token into id
token_to_id = {token: i for i, token in enumerate(sorted(unique_tokens))}

# convert id into token
id_to_token = {i: token for token, i in token_to_id.items()}

In [None]:
# few token to id examples
token_to_id["a"], token_to_id["b"], token_to_id["c"]

(48, 49, 50)

In [26]:
# few id to token examples
id_to_token[48], id_to_token[49], id_to_token[50]

('a', 'b', 'c')

In [31]:
# what will be useful later is to have a function that convert text into list of token ids
def tokenize(text: str) -> list[int]:
    # as we are splitting at char level it's quite straightforward
    return [token_to_id[token] for token in text]

def untokenize(token_ids: list[int]) -> str:
    # we can use the id_to_token mapping to convert back to text
    return "".join(id_to_token[id] for id in token_ids)

In [29]:
tokenize("a b c")

[48, 1, 49, 1, 50]

In [32]:
untokenize(tokenize("a b c"))

'a b c'

## BPE