[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/klar74/WS2025_lecture/blob/main/Vorlesung_28/VL28_Word_Embeddings.ipynb)

# VL28 Notebook 1: Word Embeddings
## Von One-Hot zu Word2Vec

In diesem Notebook lernen wir:
- Wie One-Hot Encoding funktioniert (und warum es nicht ausreicht)
- Wie Word2Vec Bedeutung durch Position im Vektorraum kodiert
- Das ber√ºhmte Beispiel: K√∂nig - Mann + Frau ‚âà K√∂nigin
- Die Limitation: Ein Wort = Ein Vektor (kein Kontext)

In [None]:
# Installation (nur einmal ausf√ºhren)
# !pip install gensim numpy matplotlib scikit-learn

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from gensim.models import Word2Vec
import warnings
warnings.filterwarnings('ignore')

## 1. One-Hot Encoding: Die naive L√∂sung

Jedes Wort bekommt eine Position in einem Vektor. Nur diese Position ist 1, alle anderen 0.

In [None]:
# Beispiel-Vokabular
vocab = ["Hund", "Katze", "Vogel", "Auto"]

# One-Hot Vektoren erstellen
def one_hot(word, vocab):
    vec = np.zeros(len(vocab))
    vec[vocab.index(word)] = 1
    return vec

# Vektoren ausgeben
for word in vocab:
    print(f"{word:10s}: {one_hot(word, vocab)}")

**Problem:** Alle W√∂rter haben gleichen Abstand zueinander!
- Abstand Hund-Katze = Abstand Hund-Auto
- Keine Bedeutung kodiert

## 2. Word2Vec: Eigenes Training auf Beispiel-Korpus

**Realit√§t:** Word2Vec braucht normalerweise VIELE Daten (Millionen S√§tze aus Wikipedia, Nachrichten, etc.).

**Unser Ansatz:** Wir trainieren ein **eigenes kleines Modell** auf einem deutschen Beispiel-Korpus!

‚ö†Ô∏è **Wichtig:** Mit unserem Mini-Korpus lernt das Modell nur die Grundprinzipien. F√ºr echte Anwendungen w√ºrde man vortrainierte Modelle nutzen oder auf sehr gro√üen Textsammlungen trainieren.

In [None]:
# Eigenen deutschen Trainingskorpus erstellen
# In der Praxis w√ºrde man auf Wikipedia, Nachrichten, B√ºchern trainieren

# Deutscher Trainingskorpus mit vielen Beispiels√§tzen
base_sentences = [
    # Tiere
    ["der", "hund", "bellt", "laut"],
    ["die", "katze", "miaut", "leise"],
    ["der", "hund", "jagt", "die", "katze"],
    ["der", "vogel", "singt", "sch√∂n"],
    ["der", "hund", "ist", "ein", "tier"],
    ["die", "katze", "ist", "ein", "tier"],
    
    # Fahrzeuge
    ["das", "auto", "f√§hrt", "schnell"],
    ["das", "fahrrad", "ist", "langsam"],
    
    # K√∂nig/K√∂nigin - Mann/Frau (VIELE Beispiele!)
    ["der", "k√∂nig", "regiert", "das", "land"],
    ["die", "k√∂nigin", "regiert", "das", "land"],
    ["k√∂nig", "und", "k√∂nigin", "sind", "verheiratet"],
    ["der", "k√∂nig", "ist", "ein", "mann"],
    ["die", "k√∂nigin", "ist", "eine", "frau"],
    ["ein", "mann", "arbeitet", "hart"],
    ["eine", "frau", "arbeitet", "hart"],
    ["der", "mann", "geht", "spazieren"],
    ["die", "frau", "geht", "spazieren"],
    ["jeder", "mann", "hat", "rechte"],
    ["jede", "frau", "hat", "rechte"],
    
    # Weitere Paare
    ["der", "vater", "ist", "ein", "mann"],
    ["die", "mutter", "ist", "eine", "frau"],
    ["vater", "und", "mutter", "sind", "eltern"],
    ["der", "bruder", "ist", "m√§nnlich"],
    ["die", "schwester", "ist", "weiblich"],
    ["mein", "bruder", "hilft", "mir"],
    ["meine", "schwester", "hilft", "mir"],
    ["der", "onkel", "ist", "verwandt"],
    ["die", "tante", "ist", "verwandt"],
    
    # Adjektive f√ºr K√∂nig/K√∂nigin
    ["der", "m√§chtige", "k√∂nig", "herrscht"],
    ["die", "m√§chtige", "k√∂nigin", "herrscht"],
    ["ein", "weiser", "k√∂nig", "entscheidet"],
    ["eine", "weise", "k√∂nigin", "entscheidet"],
]

# Erweitere Korpus durch Variationen (mehr Kontext)
sentences = base_sentences * 20  # Wiederholen f√ºr mehr Training

print(f"Trainingskorpus erstellt: {len(sentences)} S√§tze")
print("Starte Training...")

# Word2Vec trainieren mit optimierten Parametern
model = Word2Vec(
    sentences, 
    vector_size=150,
    window=7,
    min_count=1, 
    sg=1,                 # Skip-Gram (besser f√ºr kleine Korpora)
    epochs=500,
    negative=10,          # Negative Sampling
    alpha=0.025,          # Learning rate
    min_alpha=0.0001      # Minimum learning rate
)

print("‚úì Modell trainiert!")
print(f"  Vokabular-Gr√∂√üe: {len(model.wv)} W√∂rter")
print(f"  Trainings-S√§tze: {len(sentences)}")
print(f"  Dimensionen: {model.vector_size}")

## 3. Vektor-Arithmetik: Das magische Beispiel

**K√∂nig - Mann + Frau ‚âà K√∂nigin**

Word2Vec kann Bedeutungsrelationen als Vektoren lernen - **aber nur mit genug Trainingsdaten!**

‚ö†Ô∏è **Wichtig:** Mit unserem Mini-Korpus funktioniert das nur begrenzt. In der Praxis trainiert man auf Millionen von S√§tzen (z.B. Wikipedia).

### Was ist `model.wv`?

**`model.wv`** = **Word Vectors** (KeyedVectors-Objekt)

Nach dem Training sind alle gelernten Embeddings hier gespeichert:
- Wie ein W√∂rterbuch: `Wort ‚Üí Vektor` (numpy array mit 150 Dimensionen)
- Zugriff auf einzelne Vektoren: `model.wv['k√∂nig']` gibt einen Vektor mit 150 Zahlen

### Was ist `model.wv.most_similar()`?

Findet die **√§hnlichsten W√∂rter** basierend auf **Cosinus-√Ñhnlichkeit** der Vektoren.

**Zwei Modi:**

**1Ô∏è‚É£ Einfach - √Ñhnliche W√∂rter finden:**
```python
model.wv.most_similar('k√∂nig', topn=5)
# ‚Üí [('k√∂nigin', 0.95), ('herrscht', 0.82), ...]
```

**2Ô∏è‚É£ Vektor-Arithmetik - Das ist die Magie!**
```python
model.wv.most_similar(
    positive=['k√∂nig', 'frau'],  # Addiere diese Vektoren
    negative=['mann'],           # Subtrahiere diesen Vektor
    topn=5                       # Top 5 Ergebnisse
)
```

**Intern passiert:**
1. Berechne: `vektor_k√∂nig + vektor_frau - vektor_mann`
2. Finde W√∂rter, deren Vektoren diesem Ergebnis am √§hnlichsten sind
3. Gib Liste `[(wort, √§hnlichkeit), ...]` zur√ºck

**Warum funktioniert das?**
- `vektor_k√∂nig - vektor_mann` ‚âà "Royalit√§t" (ohne Geschlecht)
- `+ vektor_frau` = "Royalit√§t" + "weiblich" = **K√∂nigin**!

Word2Vec lernt **semantische Richtungen** im Vektorraum!

In [None]:
# Vektor-Arithmetik testen
print("=" * 60)
print("VEKTOR-ARITHMETIK: K√∂nig - Mann + Frau ‚âà K√∂nigin")
print("=" * 60)

# Test 1: K√∂nig - Mann + Frau
try:
    result = model.wv.most_similar(
        positive=['k√∂nig', 'frau'], 
        negative=['mann'],
        topn=5
    )
    print("\n‚úì K√∂nig - Mann + Frau ‚âà")
    for word, score in result:
        if word not in ['k√∂nig', 'frau', 'mann']:  # Zeige nicht die Eingabew√∂rter
            print(f"  {word:15s} (√Ñhnlichkeit: {score:.3f})")
except Exception as e:
    print(f"\n‚úó Fehler: {e}")

print("\n" + "=" * 60)

# Test 2: Andere Geschlechter-Paare
print("\nWeitere Relationen:")
try:
    # Vater - Mann + Frau ‚âà Mutter
    result = model.wv.most_similar(
        positive=['vater', 'frau'], 
        negative=['mann'],
        topn=3
    )
    print("\n  Vater - Mann + Frau ‚âà")
    for word, score in result:
        if word not in ['vater', 'frau', 'mann']:
            print(f"    {word:15s} ({score:.3f})")
except:
    pass

try:
    # Bruder - Mann + Frau ‚âà Schwester
    result = model.wv.most_similar(
        positive=['bruder', 'frau'], 
        negative=['mann'],
        topn=3
    )
    print("\n  Bruder - Mann + Frau ‚âà")
    for word, score in result:
        if word not in ['bruder', 'frau', 'mann']:
            print(f"    {word:15s} ({score:.3f})")
except:
    pass

print("\n" + "=" * 60)
print("\nüí° REALIT√ÑT: F√ºr stabile Relationen braucht Word2Vec VIEL mehr Daten!")
print("   Echte Modelle trainieren auf Wikipedia (Millionen S√§tze).")
print("   Unser Mini-Korpus zeigt nur das PRINZIP.")

## 4. Visualisierung: W√∂rter im 2D-Raum

Wir reduzieren die Dimensionen auf 2D mit t-SNE und plotten die W√∂rter.

In [None]:
# Alle W√∂rter und ihre Vektoren extrahieren
words = list(model.wv.index_to_key)
vectors = np.array([model.wv[word] for word in words])

# t-SNE: Dimensionsreduktion auf 2D
tsne = TSNE(n_components=2, random_state=42, perplexity=min(10, len(words)-1))
vectors_2d = tsne.fit_transform(vectors)

# Plot erstellen
plt.figure(figsize=(14, 10))
plt.scatter(vectors_2d[:, 0], vectors_2d[:, 1], alpha=0.5, s=100)

# Wichtige W√∂rter hervorheben
wichtige_worte = ['k√∂nig', 'k√∂nigin', 'mann', 'frau', 'vater', 'mutter', 'bruder', 'schwester']
for i, word in enumerate(words):
    if word in wichtige_worte:
        plt.annotate(word, (vectors_2d[i, 0], vectors_2d[i, 1]), 
                    fontsize=12, fontweight='bold', alpha=0.9,
                    bbox=dict(boxstyle='round,pad=0.3', facecolor='yellow', alpha=0.7))
    else:
        plt.annotate(word, (vectors_2d[i, 0], vectors_2d[i, 1]), 
                    fontsize=9, alpha=0.6)

plt.title("Word2Vec Embeddings (2D Projektion)", fontsize=14)
plt.xlabel("Dimension 1")
plt.ylabel("Dimension 2")
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

**Beobachtung:**
- √Ñhnliche W√∂rter (Hund, Katze) liegen n√§her beieinander
- Verschiedene Kategorien (Tiere vs. Fahrzeuge) sind getrennt

## 5. Die fundamentale Limitation: Ein Wort = Ein Vektor

**Problem:** Word2Vec gibt jedem Wort EINEN festen Vektor, egal in welchem Kontext.

In [None]:
# Beispiel: "Bank" hat IMMER denselben Vektor
# Auch wenn wir zus√§tzliche S√§tze mit unterschiedlichen Bedeutungen h√§tten:

bank_sentences = [
    ["ich", "gehe", "zur", "bank", "und", "hole", "geld"],  # Geldinstitut
    ["ich", "sitze", "auf", "der", "bank", "im", "park"],   # Sitzm√∂bel
]

# Neues Modell mit Bank-Beispielen
extended_sentences = sentences + bank_sentences * 10  # Auch Bank-S√§tze wiederholen
model_bank = Word2Vec(extended_sentences, vector_size=150, window=7, min_count=1, sg=1, epochs=500)

# "bank" hat nur EINEN Vektor
if "bank" in model_bank.wv:
    print("Vektor f√ºr 'bank' (erste 10 Dimensionen):")
    print(model_bank.wv["bank"][:10])
    print("\nDieser Vektor ist IDENTISCH in beiden Kontexten!")
    print("Das Modell kann nicht zwischen 'Geldinstitut' und 'Sitzm√∂bel' unterscheiden.")
else:
    print("Wort 'bank' nicht im Vokabular (zu wenig Daten)")

## üéØ Takeaway

**Word2Vec Vorteile:**
- ‚úÖ Bedeutung durch Position im Vektorraum
- ‚úÖ Vektor-Arithmetik funktioniert (K√∂nig - Mann + Frau ‚âà K√∂nigin)
- ‚úÖ √Ñhnliche W√∂rter haben √§hnliche Vektoren

**Word2Vec Limitation:**
- ‚ùå Ein Wort = Ein Vektor (kontextunabh√§ngig)
- ‚ùå "Bank" hat denselben Vektor bei "Geld holen" und "im Park sitzen"
- ‚ùå Polysemie (mehrdeutige W√∂rter) kann nicht abgebildet werden

**L√∂sung:** Wir brauchen **kontextabh√§ngige Embeddings** ‚Üí Das f√ºhrt uns zu BERT (Notebook 2)!