# Tokenisierung ‚Äì konkretes Beispiel

Wir betrachten den Eingabetext:

> **‚ÄûParis ist die Hauptstadt von‚Äú**

Ziel:
- Wortfolge anzeigen
- Tokenfolge (Subword-Token)
- Token-IDs
- Anzahl der Tokens
- Hinweis: *Ein Wort besteht aus mehreren Tokens*


In [None]:
!pip install transformers torch --quiet


In [None]:
from transformers import AutoTokenizer
import torch

# GPT-2 Tokenizer (passt zu deinem Beispiel mit 768-dimensionalen Embeddings)
tokenizer = AutoTokenizer.from_pretrained("gpt2")


In [None]:
text = "Paris ist die Hauptstadt von"

# einfache Wortzerlegung (nur zur Illustration!)
word_sequence = text.split()

print("Beispiel-Wortfolge:")
print(word_sequence)


In [None]:
tokens = tokenizer.tokenize(text)
token_ids = tokenizer.convert_tokens_to_ids(tokens)

print("Eingabetext:", text)
print()
print("Token-Strings:", tokens)
print("Token-IDs:", token_ids)
print("Anzahl der Tokens:", len(tokens))


### Hinweis

Ein **Wort besteht nicht notwendigerweise aus genau einem Token**.

Beispiel (typisch bei GPT-2 BPE):
- **‚ÄûHauptstadt‚Äú** ‚Üí `['ƒ†Hau', 'pt', 'stadt']`
- **‚Äûist‚Äú** ‚Üí `['ƒ†is', 't']`

Das Vokabular besteht aus **Subword-Tokens**, nicht aus vollst√§ndigen W√∂rtern.

> üí° Das f√ºhrende `ƒ†` steht f√ºr *Leerzeichen vor dem Token* (GPT-2-Tokenizer).


In [None]:
text2 = "Berlin ist die Hauptstadt von Deutschland. Paris ist die Hauptstadt von"

tokens2 = tokenizer.tokenize(text2)
ids2 = tokenizer.convert_tokens_to_ids(tokens2)

print("Eingabetext:", text2)
print()
print("Token-Strings:", tokens2)
print("Token-IDs:", ids2)
print("Anzahl der Tokens:", len(tokens2))


In [None]:
# Anzahl Tokens (aus dem ersten Beispiel)
n_tokens = len(tokens)

# GPT-2 Embedding-Dimension
embedding_dim = 768

# Symbolische Embedding-Matrix
X = torch.zeros((n_tokens, embedding_dim))

print(f"Embedding-Matrix X ‚àà ‚Ñù^({n_tokens} √ó {embedding_dim})")


### Embeddings

Jeder Token wird auf einen Vektor der L√§nge **768** abgebildet (GPT-2).

Damit entsteht eine Matrix:

\[
X \in \mathbb{R}^{8 \times 768}
\]

- Zeilen ‚Üí Tokens
- Spalten ‚Üí numerische Merkmale (Embedding-Dimensionen)

Diese Matrix ist der **Eingang f√ºr den Transformer**.
