# Syllabus

Explain encoding categorical variables for quantitative analysis, including one-hot encoding and label encoding methods.

---

Kategoriale Daten können nicht direkt in numerische Modelle eingegeben werden. Sie müssen in numerische Werte umgewandelt werden.

# Methoden

## One-Hot-Encoding
- erstellt für jede Kategorie eine eigene Spalte mit binären Werten (1 oder 0)
- Beispiel:<br>
  Für die Kategorie "Farbe" mit den Werten ['rot', 'blau', 'grün'] wird der Datensatz in drei Spalten umgewandelt:

| rot | blau | grün |
| --- | ---- | ---- |
|  1  |  0   |  0   |
|  0  |  1   |  0   |
|  0  |  0   |  1   |

## Label-Encoding

- weist jeder Kategorie eine numerische Zahl zu
- Beispiel:<br>
  ['rot', 'blau', 'grün'] wird in [0, 1, 2] umgewandelt

<br>

## Beispiel

In [None]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
import pandas as pd

# Beispieldaten
data = {'color': ['red', 'blue', 'green', 'blue', 'red']}
df = pd.DataFrame(data)

# Label-Encoding
label_encoder = LabelEncoder()
df['color_label'] = label_encoder.fit_transform(df['color'])

# One-Hot-Encoding
one_hot_encoder = OneHotEncoder(sparse_output=False)  # Korrektur hier
color_one_hot = one_hot_encoder.fit_transform(df[['color']])
color_df = pd.DataFrame(color_one_hot, columns=one_hot_encoder.categories_[0])

# Zusammenfügen der Kodierung
df = pd.concat([df, color_df], axis=1)

print("\nDaten nach Label-Encoding und One-Hot-Encoding:")
print(df)


# Wann One-Hot-Encoding, wann Label-Encoding?


## One-Hot-Encoding
- wenn die Kategorien **keine natürliche Reihenfolge** haben bzw. **keine Ordnung** zwischen den Kategorien besteht
- z.B. Farben ("Rot", "Blau", "Grün"), Länder, Wochentage...
- verhindert, dass das Modell eine falsche Reihenfolge oder numerische Bedeutung der Kategorien annimmt, da es jede Kategorie in eine separate Binärspalte umwandelt
- besonders wichtig für Algorithmen, die numerische Beziehungen interpretieren (z.B. lineare Regression)

**Vorteile**:
- vermeidet irreführende numerische Beziehungen
- gut geeignet für Modelle, die keine numerische Ordnung zwischen Kategorien benötigen

**Nachteile**:
- kann bei vielen Kategorien zu einer hohen Anzahl von Spalten führen ("Dimensionsfluch")

<br>

## Label-Encoding
- wenn die Kategorien eine **natürliche Reihenfolge** haben
- z.B. Schulnoten (A, B, C, D), Bewertungen ("niedrig", "mittel", "hoch")
- weist jeder Kategorie eine Zahl zu, was eine sinnvolle Reihenfolge widerspiegelt
- kann bei Entscheidungsbäumen oder anderen Algorithmen hilfreich sein, die keine falschen Annahmen über numerische Beziehungen treffen

**Vorteile**:
- Einfach und effizient (kein Platzproblem durch viele Spalten).
- Geeignet für geordnete Kategorien, bei denen die Zahlenvergabe eine Bedeutung hat.

**Nachteile**:
- Falsche Verwendung kann das Modell irreführen, wenn keine echte Ordnung existiert
- Modell kann den numerischen Unterschied zwischen den Labels als relevant betrachten, was bei nominalen Daten zu falschen Annahmen führt
- bei ordinalen Daten ok, aber für nominale Daten problematisch

---

# Herausforderungen


## 1. Hohe Dimensionalität (One-Hot-Encoding)
   - **Problem**: Erzeugt viele Spalten bei zahlreichen Kategorien, was zu Berechnungsaufwand und dem "Dimensionsfluch" führen kann.
   - **Lösung**: Dimension reduzieren durch Target-Encoding oder Feature Hashing.

<br>

## 2. Falsche Annahme einer Reihenfolge (Label-Encoding)
   - **Problem**: Weist numerische Werte zu, die eine implizite Reihenfolge suggerieren, was zu Verzerrungen führt.
   - **Lösung**: One-Hot-Encoding bei nicht geordneten Kategorien verwenden.

<br>

## 3. Overfitting bei Target-Encoding
   - **Problem**: Bei kleinen Datensätzen besteht das Risiko, dass das Modell die Zielwerte zu stark auf die Kategorien kodiert.
   - **Lösung**: Cross-Validation oder Regularisierung nutzen.

<br>

## 4. Seltene Kategorien
   - **Problem**: Seltene Kategorien können Verzerrungen verursachen oder zu vielen Nullen in One-Hot-Encoding führen.
   - **Lösung**: Seltene Kategorien zusammenfassen oder Frequency-Encoding verwenden.

<br>

## 5. Inkompatibilität mit Algorithmen
   - **Problem**: Einige Algorithmen benötigen keine spezielle Kodierung, und falsche Kodierung kann unnötige Komplexität erzeugen.
   - **Lösung**: Die Anforderungen des verwendeten Modells prüfen.

<br>

## 6. Unbekannte Kategorien in neuen Daten
   - **Problem**: Neue Kategorien, die im Training nicht gesehen wurden, führen zu Fehlern.
   - **Lösung**: Fallback-Werte für unbekannte Kategorien festlegen.

---

# Beispiel

Verwendung der Min-Max-Skalierung und One-Hot-Encoding auf einem Beispiel-Datensatz:

In [None]:
# Datensatz für die Übung

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

# Beispiel-Datensatz mit numerischen und kategorialen Variablen
data = {
    'age': [25, 30, 35, 40, 45],
    'income': [50000, 60000, 70000, 80000, 90000],
    'city': ['Berlin', 'Munich', 'Berlin', 'Hamburg', 'Munich']
}

df = pd.DataFrame(data)

print("Originaler Datensatz:")
print(df)

In [None]:
# Min-Max-Skalierung für die numerischen Spalten 'age' und 'income'
scaler = MinMaxScaler()

df[['age_scaled', 'income_scaled']] = scaler.fit_transform(df[['age', 'income']])

print("\nDatensatz nach Min-Max-Skalierung:")
print(df[['age', 'income', 'age_scaled', 'income_scaled']])

In [None]:
# One-Hot-Encoding für die kategoriale Spalte 'city'
one_hot_encoder = OneHotEncoder(sparse_output=False)
city_one_hot = one_hot_encoder.fit_transform(df[['city']])


print(city_one_hot)
# One-Hot-kodierte Spalten zu DataFrame hinzufügen
city_df = pd.DataFrame(city_one_hot, columns=one_hot_encoder.categories_[0])

# one_hot_encoder.categories_ ist ein Attribut des OneHotEncoders, das die Kategorien für jede Eingabevariable enthält, die kodiert wurde. 
# categories_[0] bezieht sich auf das erste Array (d. h. die Kategorien für die erste Spalte, die One-Hot-kodiert wurde).

df = pd.concat([df, city_df], axis=1)

print("\nDatensatz nach One-Hot-Encoding:")
print(df)
