# ‚úÇÔ∏è Tokenization: Hoe AI tekst leest

Taalmodellen zoals ChatGPT, Claude en Gemini lezen geen woorden ‚Äî ze lezen **tokens**.

Een token is een stukje tekst: soms een heel woord, soms een deel van een woord, soms een leesteken.

In dit notebook ontdek je:
1. Hoe tekst wordt opgesplitst in tokens
2. Waarom sommige woorden in stukjes worden geknipt
3. Hoe padding en truncation werken

---
**Instructie:** Voer iedere cel uit met **Shift+Enter**

‚ö†Ô∏è De eerste cel kan even duren (~30 seconden) omdat er een tokenizer wordt gedownload.

In [1]:
# Installeer de benodigde library (duurt even bij eerste keer)
!pip install transformers -q

## Stap 1: Tekst tokenizen

We laden de **BERT tokenizer** ‚Äî dezelfde tokenizer die gebruikt wordt in veel AI-modellen.

In [2]:
from transformers import BertTokenizer

# Laad de BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Probeer een zin
tekst = "PyTorch and Hugging Face make deep learning simple."

# Tokenize!
tokens = tokenizer.tokenize(tekst)

print(f"Originele tekst:  {tekst}")
print(f"Aantal woorden:   {len(tekst.split())}")
print(f"\nTokens:           {tokens}")
print(f"Aantal tokens:    {len(tokens)}")

  from .autonotebook import tqdm as notebook_tqdm
PyTorch was not found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Originele tekst:  PyTorch and Hugging Face make deep learning simple.
Aantal woorden:   8

Tokens:           ['p', '##yt', '##or', '##ch', 'and', 'hugging', 'face', 'make', 'deep', 'learning', 'simple', '.']
Aantal tokens:    12


### Wat valt je op?

- `"PyTorch"` is opgesplitst in `['p', '##yt', '##or', '##ch']` ‚Äî het model kent het woord niet als geheel
- `"##"` betekent: dit stukje hoort bij het vorige token
- Bekende woorden zoals `"and"`, `"make"`, `"deep"` blijven heel
- De punt `.` is een apart token

## Stap 2: Van tokens naar getallen

Het neural network werkt niet met tekst maar met **getallen**. Elk token heeft een uniek ID-nummer.

In [3]:
# Zet tokens om naar ID-nummers
token_ids = tokenizer.convert_tokens_to_ids(tokens)

print("Token ‚Üí ID-nummer:")
print("-" * 35)
for token, id in zip(tokens, token_ids):
    print(f"  {token:15s} ‚Üí {id}")

print(f"\nBERT heeft een vocabulaire van {tokenizer.vocab_size:,} tokens!")

Token ‚Üí ID-nummer:
-----------------------------------
  p               ‚Üí 1052
  ##yt            ‚Üí 22123
  ##or            ‚Üí 2953
  ##ch            ‚Üí 2818
  and             ‚Üí 1998
  hugging         ‚Üí 17662
  face            ‚Üí 2227
  make            ‚Üí 2191
  deep            ‚Üí 2784
  learning        ‚Üí 4083
  simple          ‚Üí 3722
  .               ‚Üí 1012

BERT heeft een vocabulaire van 30,522 tokens!


## Stap 3: Speciale tokens

BERT voegt automatisch speciale tokens toe:
- `[CLS]` ‚Äî markering van het begin van de tekst
- `[SEP]` ‚Äî markering van het einde van de tekst
- `[PAD]` ‚Äî opvulling om alle zinnen even lang te maken

In [4]:
# Volledige encoding met speciale tokens en padding
encoded = tokenizer(
    tekst,
    padding='max_length',  # Vul aan tot max_length
    truncation=True,       # Knip af als het te lang is
    max_length=20          # Maximale lengte
)

# Laat zien wat eruit komt
alle_tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'])

print("Volledige token-reeks (met padding tot lengte 20):")
print("-" * 50)
for i, (token, id, mask) in enumerate(zip(
    alle_tokens, encoded['input_ids'], encoded['attention_mask']
)):
    status = '‚úÖ' if mask == 1 else '‚¨ú (padding)'
    print(f"  [{i:2d}] {token:15s}  ID: {id:5d}  {status}")

print(f"\nAttention mask: {encoded['attention_mask']}")
print("(1 = echte tekst, 0 = opvulling die het model negeert)")

Volledige token-reeks (met padding tot lengte 20):
--------------------------------------------------
  [ 0] [CLS]            ID:   101  ‚úÖ
  [ 1] p                ID:  1052  ‚úÖ
  [ 2] ##yt             ID: 22123  ‚úÖ
  [ 3] ##or             ID:  2953  ‚úÖ
  [ 4] ##ch             ID:  2818  ‚úÖ
  [ 5] and              ID:  1998  ‚úÖ
  [ 6] hugging          ID: 17662  ‚úÖ
  [ 7] face             ID:  2227  ‚úÖ
  [ 8] make             ID:  2191  ‚úÖ
  [ 9] deep             ID:  2784  ‚úÖ
  [10] learning         ID:  4083  ‚úÖ
  [11] simple           ID:  3722  ‚úÖ
  [12] .                ID:  1012  ‚úÖ
  [13] [SEP]            ID:   102  ‚úÖ
  [14] [PAD]            ID:     0  ‚¨ú (padding)
  [15] [PAD]            ID:     0  ‚¨ú (padding)
  [16] [PAD]            ID:     0  ‚¨ú (padding)
  [17] [PAD]            ID:     0  ‚¨ú (padding)
  [18] [PAD]            ID:     0  ‚¨ú (padding)
  [19] [PAD]            ID:     0  ‚¨ú (padding)

Attention mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

## Stap 4: Terug van getallen naar tekst

We kunnen de getallen ook weer terugvertalen naar tekst.

In [5]:
# Decodeer terug naar leesbare tekst
decoded = tokenizer.decode(encoded['input_ids'], skip_special_tokens=True)

print(f"Origineel:  {tekst}")
print(f"Gedecodeerd: {decoded}")
print(f"\n(Merk op: hoofdletters zijn verdwenen ‚Äî BERT werkt met 'uncased' tekst)")

Origineel:  PyTorch and Hugging Face make deep learning simple.
Gedecodeerd: pytorch and hugging face make deep learning simple.

(Merk op: hoofdletters zijn verdwenen ‚Äî BERT werkt met 'uncased' tekst)


## üß™ Experimenteer zelf!

Probeer verschillende zinnen te tokenizen. Wat gebeurt er met:
- Nederlandse woorden?
- Spelfouten?
- Getallen?
- Emoji's?

In [6]:
# Probeer je eigen tekst!
mijn_tekst = "Dit is een Nederlandse zin over kunstmatige intelligentie."  # ‚Üê Pas dit aan

mijn_tokens = tokenizer.tokenize(mijn_tekst)
print(f"Tekst:  {mijn_tekst}")
print(f"Tokens: {mijn_tokens}")
print(f"Aantal tokens: {len(mijn_tokens)}")

Tekst:  Dit is een Nederlandse zin over kunstmatige intelligentie.
Tokens: ['di', '##t', 'is', 'ee', '##n', 'ned', '##erland', '##se', 'z', '##in', 'over', 'kunst', '##mat', '##ige', 'intelligent', '##ie', '.']
Aantal tokens: 17


In [7]:
# Vergelijk: correct gespeld vs. spelfout
woorden = ["intelligence", "inteligence", "inttellligennce", "Amsterdam", "Amstrdm"]

print("Hoe gaat de tokenizer om met spelfouten?")
print("-" * 50)
for woord in woorden:
    toks = tokenizer.tokenize(woord)
    print(f"  {woord:20s} ‚Üí {toks}")

Hoe gaat de tokenizer om met spelfouten?
--------------------------------------------------
  intelligence         ‚Üí ['intelligence']
  inteligence          ‚Üí ['intel', '##igen', '##ce']
  inttellligennce      ‚Üí ['int', '##tell', '##li', '##gen', '##nce']
  Amsterdam            ‚Üí ['amsterdam']
  Amstrdm              ‚Üí ['am', '##st', '##rd', '##m']
