# One Hot-Encoding

**One-Hot-Encoding** ist eine Technik, die verwendet wird, um kategoriale Daten (also Daten, die aus diskreten Kategorien bestehen) in eine numerische Form zu überführen, die von maschinellen Lernalgorithmen verarbeitet werden kann.

### Prinzip:

Angenommen, du hast eine Liste von Kategorien, wie z.B. Farben:

- Rot
- Blau
- Grün

Diese können nicht direkt in Modelle wie neuronale Netze oder Entscheidungsbäume eingegeben werden, da diese nur mit numerischen Werten arbeiten. Der Trick bei One-Hot-Encoding besteht darin, jede Kategorie in eine binäre (0 oder 1) Form umzuwandeln.

#### Beispiel:

Für die Liste der Farben:

- **Rot**
- **Blau**
- **Grün**

würde das One-Hot-Encoding so aussehen:

| Farbe | Rot | Blau | Grün |
|-------|-----|------|------|
| Rot   |  1  |  0   |  0   |
| Blau  |  0  |  1   |  0   |
| Grün  |  0  |  0   |  1   |

Jede Kategorie wird durch einen Vektor dargestellt, bei dem nur eine Stelle auf "1" gesetzt ist (die der jeweiligen Kategorie entspricht) und alle anderen Stellen auf "0".

### Warum verwendet man One-Hot-Encoding?

One-Hot-Encoding ist besonders wichtig, weil es keine implizite Reihenfolge zwischen den Kategorien erzeugt. Wenn man stattdessen den Kategorien numerische Werte zuweisen würde (z.B. Rot = 1, Blau = 2, Grün = 3), könnte der Algorithmus fälschlicherweise annehmen, dass "Grün" mehr Gewicht hat als "Rot", was in den meisten Fällen keinen Sinn ergibt.

### Python-Beispiel:

In Python kann man One-Hot-Encoding z.B. mit der Bibliothek `pandas` oder `sklearn` umsetzen.

Mit `pandas`:

```python
import pandas as pd

# Beispielkategorien
farben = ['Rot', 'Blau', 'Grün', 'Blau', 'Grün', 'Rot']

# Umwandlung in One-Hot-Encoded DataFrame
df = pd.get_dummies(farben)
print(df)
```

Output:
```
   Blau  Grün  Rot
0     0     0    1
1     1     0    0
2     0     1    0
3     1     0    0
4     0     1    0
5     0     0    1
```

Hier wird jede Farbe in ein eigenes Binärfeld umgewandelt.

### Zusammenfassung:

One-Hot-Encoding ist nützlich, um kategoriale Variablen in ein Format zu bringen, das von maschinellen Lernmodellen verstanden wird, ohne dass eine unerwünschte Reihenfolge oder Gewichtung zwischen den Kategorien entsteht.

# (Mieses) Beispiel:

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
 
# Beispiel-Datensatz erstellen
data = pd.DataFrame({
    'Farbe': ['Rot', 'Grün', 'Blau', 'Grün', 'Rot', 'Blau', 'Rot', 'Blau', 'Grün', 'Rot'],
    'Größe': ['S', 'M', 'L', 'L', 'S', 'M', 'M', 'S', 'L', 'M'],
    'Preis': [10, 15, 20, 15, 10, 20, 10, 15, 20, 10],
    'Klassifizierung': [0, 1, 0, 1, 0, 1, 0, 1, 1, 0]  # Zielwert (z.B. 0 = nicht kaufen, 1 = kaufen)
})
 
# Features und Zielvariable trennen
X = data[['Farbe', 'Größe']]
y = data['Preis']
 
# One-Hot-Encoding für die kategorischen Features 'Farbe' und 'Größe' ohne Drop-First
encoder = OneHotEncoder(sparse_output=False)
X_encoded = encoder.fit_transform(X)
 
# Abrufen der Spaltennamen nach dem Encoding
encoded_columns = encoder.get_feature_names_out(['Farbe', 'Größe'])
 
# Kodierte Features in einen DataFrame umwandeln
X_encoded_df = pd.DataFrame(X_encoded, columns=encoded_columns)
 
# Kodierte Features anzeigen
print("Kodierte Features:")
print(X_encoded_df.head())
 
# Daten in Trainings- und Testdaten aufteilen
X_train, X_test, y_train, y_test = train_test_split(X_encoded_df, y, test_size=0.2, random_state=42)
 
# Lineares Regressionsmodell erstellen und trainieren
model = LinearRegression()
model.fit(X_train, y_train)
 
# Vorhersagen auf Testdaten
y_pred = model.predict(X_test)
 
# MSE (Mean Squared Error) berechnen
mse = mean_squared_error(y_test, y_pred)
print(f"\nMean Squared Error: {mse:.2f}")
 
# Vergleich von tatsächlichen und vorhergesagten Werten
results = pd.DataFrame({'Tatsächlicher Preis': y_test, 'Vorhergesagter Preis': y_pred})
print("\nVergleich von tatsächlichen und vorhergesagten Preisen:")
print(results)
 
# Vorhersage für neue Daten
new_data = pd.DataFrame({
    'Farbe_Blau': [1],
    'Farbe_Grün': [0],
    'Farbe_Rot': [0],
    'Größe_L': [0],
    'Größe_M': [1],
    'Größe_S': [0]
})
 
# Spaltenreihenfolge sicherstellen
new_data = new_data[encoded_columns]
 
# Vorhersage durchführen
price_prediction = model.predict(new_data)
print(f"\nVorhergesagter Preis für neue Daten: {price_prediction[0]:.2f}")

Kodierte Features:
   Farbe_Blau  Farbe_Grün  Farbe_Rot  Größe_L  Größe_M  Größe_S
0         0.0         0.0        1.0      0.0      0.0      1.0
1         0.0         1.0        0.0      0.0      1.0      0.0
2         1.0         0.0        0.0      1.0      0.0      0.0
3         0.0         1.0        0.0      1.0      0.0      0.0
4         0.0         0.0        1.0      0.0      0.0      1.0

Mean Squared Error: 13.89

Vergleich von tatsächlichen und vorhergesagten Preisen:
   Tatsächlicher Preis  Vorhergesagter Preis
8                   20             15.000000
1                   15             13.333333

Vorhergesagter Preis für neue Daten: 18.33


# Sparse

In [None]:
encoder = OneHotEncoder(sparse_output=False)