# Syllabus

Understand the importance of data format standardization across different datasets for consistency, especially when dealing with date-time formats and numerical values.

- Sicherstellung der Konsistenz über verschiedene Datensätze hinweg, insbesondere bei:
    - Datum-Uhrzeit-Formaten: Unterschiede in den Formaten können zu Parsing-Problemen führen.
    - Numerischen Werten: Sicherstellen einheitlicher Einheiten, z.B. metrisch vs. imperial.
- Wichtigkeit: Hilft bei der Integration von Daten aus verschiedenen Quellen und vermeidet Fehler während der Analyse.


In [1]:
import pandas as pd

# Beispiel-Datenframe mit europäischem Datum und Preisen in Euro
data = {
    'Datum': ['25.09.2023', '26.09.2023', '27.09.2023', '28.09.2023', '29.09.2023'],
    'Preis_in_Euros': [100, 150, 200, 250, 300]
}

df = pd.DataFrame(data)

# Zeige den originalen DataFrame an
print("Originaler DataFrame:\n", df)

Originaler DataFrame:
         Datum  Preis_in_Euros
0  25.09.2023             100
1  26.09.2023             150
2  27.09.2023             200
3  28.09.2023             250
4  29.09.2023             300


In [2]:

# Umgang mit Datum-Uhrzeit-Formaten
df['Datum'] = pd.to_datetime(df['Datum'], format='%d.%m.%Y')

# Umgang mit numerischer Formatkonsistenz (Umrechnung von Währungen)
df['Preis_in_USD'] = df['Preis_in_Euros'] * 1.1  # Beispiel-Wechselkurs

# Zeige den aktualisierten DataFrame an
print("Aktualisierter DataFrame:\n", df)


Aktualisierter DataFrame:
        Datum  Preis_in_Euros  Preis_in_USD
0 2023-09-25             100         110.0
1 2023-09-26             150         165.0
2 2023-09-27             200         220.0
3 2023-09-28             250         275.0
4 2023-09-29             300         330.0


# Warum ist es so wichtig die Daten zu standardisieren?

**1. Vereinheitlichung der Maßstäbe**
   - Unterschiedliche Merkmale können unterschiedliche Einheiten oder Maßstäbe haben (z.B. Gewicht in Kilogramm und Größe in Zentimetern).
   - Standardisierung bringt alle Merkmale auf eine gemeinsame Skala, was die Vergleichbarkeit verbessert.

<br>

 **2. Verbesserung der Modellleistung**
   - Viele Algorithmen, insbesondere solche, die auf Distanzmessungen basieren (z.B. k-NN, Support Vector Machines), sind empfindlich gegenüber der Skala der Daten.
   - Standardisierte Daten führen zu einer besseren Konvergenz und Genauigkeit in Modellen.

<br>

 **3. Vermeidung von Verzerrungen**
   - Merkmale mit größeren Wertebereichen können den Lernprozess dominieren und zu Verzerrungen führen.
   - Durch Standardisierung wird sichergestellt, dass jedes Merkmal einen angemessenen Einfluss hat.

<br>

 **4. Beschleunigung der Trainingszeiten**
   - Standardisierte Daten können die Konvergenzgeschwindigkeit von Optimierungsalgorithmen erhöhen, was die Trainingszeiten verkürzt.
   - Dies ist besonders wichtig bei großen Datensätzen.

<br>

 **5. Erleichterung der Interpretation**
   - Standardisierte Daten ermöglichen eine einfachere Interpretation von Ergebnissen, da sie in einem einheitlichen Format präsentiert werden.
   - Es ist einfacher zu verstehen, wie stark verschiedene Merkmale die Ergebnisse beeinflussen.

---