# Teil 1: Programme zur Datenauswertung

## Allgemein

Die Datenauswertung ist ein Prozess, bei dem Rohdaten systematisch analysiert werden, um daraus wertvolle Informationen und Erkenntnisse zu gewinnen. Mithilfe verschiedener Methoden und statistischer Verfahren werden diese Daten untersucht, beschrieben und schließlich in Form von Kennzahlen und Visualisierungen übersichtlich präsentiert.

## Tutorial: Hilfreiche Python-Bibliotheken für die Datenauswertung

Glücklicherweise existieren Bibliotheken, welche uns die Datenauswertung stark erleichtern. Darunter:
- **SciPy:** Bietet eine Sammlung von Algorithmen und Funktionen für wissenschaftliche Berechnungen, einschließlich Statistik, Optimierung, Interpolation und Signalverarbeitung.
- **Scikit-learn:** Bietet eine Vielzahl von Algorithmen für maschinelles Lernen, einschließlich Klassifizierung, Regression, Clustering und Dimensionsreduktion.
- **Statsmodels:** Bietet eine umfassende Sammlung von statistischen Modellen und Tests, einschließlich linearer Regression, Zeitreihenanalyse und Hypothesentests.
- **Seborn:** Bietet eine auf Matplotlib aufbauende Bibliothek für die Erstellung von ansprechenden statistischen Grafiken.
- **Plotly:** Bietet eine interaktive Plotting-Bibliothek für die Erstellung von dynamischen und webbasierten Diagrammen.
- **Bokeh:** Bietet eine weitere interaktive Plotting-Bibliothek für die Erstellung von interaktiven Visualisierungen in Webanwendungen.

#### Zusätzliche Hinweise

- Für die Installation der Bibliotheken kann der Paketmanager `pip` verwendet werden (z. B. `pip install pandas numpy matplotlib`).
- Es empfiehlt sich, die Dokumentation der Bibliotheken zu konsultieren, um sich mit den verfügbaren Funktionen und Methoden vertraut zu machen.
- Experimentieren Sie mit verschiedenen Bibliotheken und Visualisierungstechniken, um die für Ihre Datenanalyse am besten geeigneten zu finden.

### Einführung in die verwendeten Bibliotheken

#### NumPy

NumPy ist eine Python-Bibliothek für wissenschaftliches Rechnen. Sie bietet:
- **N-dimensionale Arrays:** Die Hauptstruktur von NumPy ist das ndarray (N-dimensionales Array), welches eine effiziente Möglichkeit zur Speicherung und Bearbeitung großer Datenmengen bietet.
- **Mathematische Funktionen:** NumPy bietet eine breite Palette an mathematischen Funktionen, die auf Arrays angewendet werden können, wie z. B. trigonometrische Funktionen, lineare Algebra, Zufallszahlen und mehr.
- **Werkzeuge zur Array-Manipulation:** NumPy bietet Werkzeuge zum Ändern der Form, Größe und Anordnung von Arrays.

**Beispiele:**

In [None]:
import numpy as np

# Array erstellen
a = np.array([1, 2, 3, 4, 5])
print(a)  # Ausgabe: [1 2 3 4 5]

# Array mit Nullen erstellen
b = np.zeros(5)
print(b)  # Ausgabe: [0. 0. 0. 0. 0.]

# Array mit Einsen erstellen
c = np.ones((2, 3))
print(c)  # Ausgabe: [[1. 1. 1.]
          #          [1. 1. 1.]]

# Array mit Zufallszahlen erstellen
d = np.random.rand(3, 2)
print(d)  # Ausgabe: z. B. [[0.123 0.456]
          #                [0.789 0.111]
          #                [0.222 0.333]]

# Mathematische Operationen
print(a + 2)  # Ausgabe: [3 4 5 6 7]
print(a * 3)  # Ausgabe: [3 6 9 12 15]
print(np.sin(a))  # Ausgabe: Sinuswerte der Elemente in a

# Array-Manipulation
print(a.reshape(1, 5))  # Ausgabe: [[1 2 3 4 5]]
print(a.transpose())  # Ausgabe: [1 2 3 4 5] (bei 1D-Array keine Änderung)

#### Pandas

Pandas ist eine Bibliothek, die Datenstrukturen und Funktionen für die Datenanalyse bereitstellt. Die wichtigsten Datenstrukturen sind:

- **Series:** Ein eindimensionales Array, das Daten eines bestimmten Typs (z. B. Zahlen, Strings) enthält.
- **DataFrame:** Eine zweidimensionale Tabelle mit Spalten, die jeweils eine Series darstellen. DataFrames sind die zentrale Datenstruktur in Pandas und ähneln Tabellen in einer Datenbank oder einer Spreadsheet-Anwendung.

**Beispiele:**

In [None]:
import pandas as pd

# DataFrame erstellen
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Alter": [25, 30, 28],
    "Stadt": ["Berlin", "München", "Hamburg"]
}
df = pd.DataFrame(data)
print(df)

# Zugriff auf Spalten
print(df["Name"])  # Ausgabe: Namensspalte als Series
print(df.Alter)  # Alternative Schreibweise

# Zugriff auf Zeilen
print(df.iloc[0])  # Ausgabe: Erste Zeile als Series
print(df.loc[df["Name"] == "Alice"])  # Zeilen mit Name "Alice"

# Neue Spalte hinzufügen
df["Gehalt"] = [50000, 60000, 55000]
print(df)

# Daten filtern
print(df[df["Alter"] > 28])  # Zeilen mit Alter größer 28

# Daten sortieren
print(df.sort_values(by="Alter", ascending=False))  # Nach Alter absteigens sortieren

# Aggregatfunktionen
print(df["Gehalt"].mean())  # Durchschnittsgehalt

#### Matplotlib

Matplotlib ist die Standardbibliothek von statischen, interaktiven und animierten Visualisierungen in Python. Sie bietet eine große Auswahl an Diagrammtypen und Anpassungsmöglichkeiten.

**Beispiele**

In [None]:
import matplotlib.pyplot as plt

# Liniendiagramm
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.xlabel("X-Achse")
plt.ylabel("Y-Achse")
plt.title("Liniendiagramm")
plt.show()

# Streudiagramm
x = [1, 2, 3, 4, 5]
y = [2, 1, 4, 3, 5]

plt.scatter(x, y)
plt.xlabel("X-Achse")
plt.ylabel("Y-Achse")
plt.title("Streudiagramm")
plt.show()

# Balkendiagramm
x = ["A", "B", "C", "D"]
y = [10, 20, 15, 25]

plt.bar(x, y)
plt.xlabel("Kategorien")
plt.ylabel("Werte")
plt.title("Balkendiagramm")
plt.show()

# Histogramm
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5]

plt.hist(data, bins=5)
plt.xlabel("Werte")
plt.ylabel("Häufigkeit")
plt.title("Histogramm")
plt.show()

#### SciPy

SciPy baut auf NumPy auf und bietet eine große Sammlung von Algorithmen und Funktionen für wissenschaftliche Berechnungen. Einige wichtige Bereiche sind:

- **Statistik:** Funktionen für desktiptive Statistik, Wahrscheinlichkeitsverteilungen, Hypothesentests und mehr.
- **Optimierung:** Algorithmen zur Minimierung oder Maximierung von Funktionen.
- **Interpolation:** Methoden zur Approximation von Funktionswerten zwischen bekannten Datenpunkten.
- **Signalverarbeitung:** Funktionen zur Filterung, Transformation und Analyse von Signalen.
- **Lineare Algebra:** Erweiterte Funktionen für lineare Algebra, die über NumPy hinausgehen.
- **Integration:** Numerische Integration von Funktionen.

**Beispiele:**

In [None]:
from scipy import stats
from scipy.optimize import minimize_scalar

# Normalverteilung
x = np.linspace(-3, 3, 100)
y = stats.norm.pdf(x)

plt.plot(x, y)
plt.title("Normalverteilung")
plt.show()

# T-Test
data1 = [1, 2, 3, 4, 5]
data2 = [2, 3, 4, 5, 6]

t_statistic, p_value = stats.ttest_ind(data1, data2)

print(f"T-Statistik: {t_statistic}")
print(f"P-Wert: {p_value}")

# Optimierung
def f(x):
    return x ** 2 + 2 * x + 1

result = minimize_scalar(f)
print(result.x)  # Ausgabe: -1.0 (Minimum der Funktion)

#### Scikit-learn

Scikit-learn ist eine Bibliothek für maschinelles Lernen in Python. Sie bietet eine Vielzahl von Algorithmen für:
- **Klassifizierung:** Zuweisung von Datenpunkten zu Kategorien.
- **Regression:** Vorhersaage von kontinuierlichen Werten.
- **Clustering:** Gruppierung von Datenpunkten in Cluster.
- **Dimensionsreduktion:** Reduzierung der Anzahl von Merkmalen in einem Datensatz.
- **Modellselektion:** Auswahl des besten Modells für einen bestimmten Datensatz.
- **Vorverarbeitung:** Transformation von Daten in ein geeignetes Format für maschinelles Lernen.

**Beispiele:**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.svm import SVC

# Lineare Regression
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # Daten aufteilen in Trainings- und Testdaten

model = LinearRegression()
model.fit(X_train, y_train)  # Modell trainieren

y_pred = model.predict(X_test)  # Vorhersage auf Testdaten

# Bewertung des Modells
mse = mean_squared_error(y_test, y_pred)
print(f"Mittlerer quadratischer Fehler: {mse}")

# Klassifizierung mit Support Vector Machines
X = [[0, 0], [1, 1]]
y = [0, 1]

model = SVC()
model.fit(X, y)

print(model.predict([[2., 2.]]))  # Ausgabe: [1]

#### Statsmodels

Statsmodels ist eine Bibliothek, die eine umfassende Sammlung von statistischen Modellen und Tests bereitstellt. Sie wird häufig für die ökonomische Modellierung, Zeitreihenanalyse und statistische Inferenz verwendet. Einige wichtige Funktionen sind:

- **Lineare Regression:** Ordinary Least Squares (OLS), Generalized Least Squares (GLS), Weighted Least Squares (WLS)
- **Zeitreihenanalyse:** ARIMA, VAR, ARCH, GARCH
- **Verallgemeinerte lineare Modelle (GLM):** Logistische Regression, Poisson-Regression
- **Robuste Regression:** RANSAC, Huber Regression
- **Hypothesentests:** t-Tests, F-Tests, $\chi^2$-Tests
- **Nichtparametrische Methoden:** Kernel Density Estimation, Local Regression

In [None]:
from statsmodels.tsa.arima.model import ARIMA

import statsmodels.api as sm

# Lineare Regression
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])

X = sm.add_constant(X)  # Konstante hinzufügen

model = sm.OLS(y, X) 
results = model.fit()

print(results.summary())  # Detaillierte Ausgabe der Regressionsergebnisse

# Zeitreihenanalyse (ARIMA)
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

model = ARIMA(data, order=(5, 1, 0))  # ARIMA(p, d, q) Modell

model_fit = model.fit()

print(model_fit.summary())

#### Seaborn

Seaborn ist eine Bibliothek, die auf Matplotlib aufbaut und die Erstellung von ansprechenden statistischen Grafiken vereinfacht. Seaborn bietet:

- **High-Level-Schnittstelle:** Einfacheres Erstellen von komplexen Diagrammen mit weniger Code.
- **Statistische Visualisierungen:** Diagramme, die statistische Beziehungen zwischen Variablen hervorheben, wie z. B. Scatterplots mit Regressionsgeraden, Violinplots, Heatmaps.
- **Integration mit Pandas:** Direkte Verwendung von Pandas DataFrames für die Datenvisualisierung.
- **Ästhetische Anpassungen:** Einfache Anpassung von Farben, Stilen und Layouts.

**Beispiele:**

In [None]:
import seaborn as sns

# Scatterplot mit Regressionsgerade
data = {
    "x": [1, 2, 3, 4, 5],
    "y": [2, 1, 4, 3, 5]
}
sns.regplot(x="x", y="y", data=data)

plt.show()

# Violinplot
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5]
sns.violinplot(data)

plt.show()

# Heatmap
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
sns.heatmap(data, annot=True)  # Werte anzeigen

plt.show()

#### Plotly

Plotly ist eine Bibliothek für die Erstellung von interaktiven, webbasierten Diagrammen. Plotly bietet:

- **Interaktive Diagramme:** Diagramme, die durch Zoomen, Schwenken, Hover-Effekte und andere Interaktionen erkundet werden können.
- **Vielfältige Diagrammtypen:** Eine große Auswahl an Diagrammtypen, einschließlich 3D-Diagramme, Karten und wissenschaftliche Diagramme.
- **Export in verschiedene Formate:** Diagramme können als statische Bilder oder als interaktive HTML-Dateien exportiert werden.
- **Integration mit Dash:** Plotly kann mit Dash, einem Framework zum Erstellen von interaktiven Webanwendungen, kombiniert werden. Dash ermöglicht es, interaktive Dashboards und Webanwendungen zu erstellen, die Plotly-Diagramme und andere interaktive Komponenten enthalten.

**Beispiele:**

In [None]:
import plotly.express as px

# Scatterplot
data = {
    "x": [1, 2, 3, 4, 5],
    "y": [2, 1, 4, 3, 5]
}

fig = px.scatter(data, x="x", y="y")
fig.show()

# Balkendiagramm
data = {
    "x": ["A", "B", "C", "D"],
    "y": [10, 20, 15, 25]
}

fig = px.bar(data, x="x", y="y")
fig.show()

# 3D-Scatterplot
data = {
    "x": [1, 2, 3, 4, 5],
    "y": [2, 1, 4, 3, 5],
    "z": [3, 4, 2, 1, 5]
}

fig = px.scatter_3d(data, x="x", y="y", z="z")
fig.show()

#### Bokeh

Bokeh ist eine weitere Bibliothek für die Erstellung von interaktiven Visualisierungen in Python. Bokeh konzentriert sich auf:

- **Streaming-Daten:** Visualisierung von Daten, die sich im Laufe der Zeit ändern.
- **Große Datensätze:** Effiziente Darstellung großer Datensätze.
- **Anpassbare Interaktionen:** Möglichkeit, benutzerdefinierte Interaktionen mit Diagrammen zu erstellen.
- **Integration mit Webanwendungen:** Einfache Einbettung von Bokeh-Diagrammen in Webanwendungen.

**Beispiele:**

In [None]:
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource, HoverTool

# Liniendiagramm
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

p = figure(title="Liniendiagramm", x_axis_label="x", y_axis_label="y")
p.line(x, y, legend_label="Linie", line_width=2)

show(p)

# Interaktiver Scatterplot
data = {
    "x": [1, 2, 3, 4, 5],
    "y": [2, 1, 4, 3, 5],
    "name": ["A", "B", "C", "D", "E"]
}

source = ColumnDataSource(data)

p = figure(title="Interaktiver Scatterplot", x_axis_label="x", y_axis_label="y")
p.circle(x="x", y="y", source=source, size=10, legend_label="Punkte")

hover = HoverTool(tooltips=[("Name", "@name")])  # Hover-Effekt
p.add_tools(hover)

show(p)

#### Zusätzliche Hinweise zu den Bibliotheken:

- Die hier gezeigten Beispiele sind nur ein kleiner Ausschnitt der Möglichkeiten, die die Bibliotheken bieten.
- Es empfiehlt sich, die Dokumentation der Bibliotheken zu konsultieren, um sich mit allen Funktionen und Optionen vertraut zu machen. Dies wird zum Teil bei dem Anwendungsfall auch nötig sein, sollten Sie nicht bereits über die entsprechenden Kenntnisse verfügen.
- Experimentieren Sie mit verschiedenen Bibliotheken und Diagrammtypen, um die für Ihre Datenanalyse am besten geeigneten zu finden.
- Sie werden nicht alle der genannten Bibliotheken in diesem Anwendungsfall benötigen. Sie können jedoch die nicht verwendeten Bibliotheken nutzen, wenn Sie an dem Datensatz noch weiter arbeiten möchten.

---

## Beginn des Anwendungsfalls

### Ausgangssituation

Ihnen ist der MPG-Datensatz gegeben.

Der MPG-Datensatz enthält Informationen über den Kraftstoffverbrauch (miles per gallon, mpg) von 398 verschiedenen Fahrzeugmodellen aus den Jahren 1970 bis 1982. Zu den Fahrzeugmerkmalen gehören unter anderem:

- Anzahl der Zylinder (cylinders)
- Hubraum (displacement)
- Leistung (horsepower)
- Gewicht (weight)
- Beschleunigung (acceleration)
- Modelljahr (model_year)
- Herkunftsland (origin)
- Fahrzeugname (name)



Diesen Datensatz gilt es nun von verschiedenen Perspektiven zu durchleuchten und zu analysieren.

Beginnen wir einmal damit, den Datensatz zu laden, die Rohdaten zu betrachten, nach ersten Erkenntnissen zu suchen und erste Maßnahmen zu ergreifen.

In [None]:
import seaborn as sns

df = sns.load_dataset("mpg")

df.head()

Man kann erkennen, dass die Spalte `name` ziemlich Anfällig für Redundanzen ist, da sie von jedem gespeicherten Auto sowohl den Modellnamen als auch den Namen des jeweiligen Herstellers speichert. Behalten wir dies einmal im Hinterkopf

Ein `pandas.DataFrame` kann grundlegende Informationen zu seinen Spalten anzeigen und für seine numerischen Spalten ein paar grundlegende Größen der deskriptiven Statistik berechnen. Dafür nutzen wir jeweils `pandas.DataFrame.info()` und `pandas.DataFrame.describe()`.

In [None]:
df.info()

Ihnen sollte aufgefallen sein, dass die Spalte `horsepower` über "_392 non-null_"-Werte verfügt. Im Klartext bedeutet dies, dass in der Spalte `horsepower` 392 von 398 Zeilen nicht `null` bzw. nicht `None` sind.

Behalten Sie sich auch dies einmal im Hinterkopf.

In [None]:
df.describe()

Aus diesem DataFrame lässt sich einiges erkennen, aber für den Anfang können wir erstmal beispielhaft eine Kleinigkeit hervorheben: Das 75%-Quantil der Anzahl der Zylinder ist 8 - mit anderen Worten: die oberen 75% der eingetragenen Autos haben durchschnittlich 8 Zylinder.

Uns sind bislang zwei Unüblichkeiten aufgefallen und es hat den Anschein, als würden wir ohne weiteres nichts neues finden. Nun ist es also an der Zeit mit der **Datenvorverarbeitung** zu beginnen.

Bei der Datenvorverarbeitung untersuchen wir die Daten hinsichtlich ihrer Qualität und ergreifen Maßnahmen, um Datenqualitätsmängel zu beseitigen.

#### Behandlung der fehlenden Werte

Wir haben bereits festgestellt, dass in der Spalte `horsepower` Einträge existieren, die keinen Wert aufweisen. Fehlende Werte kennzeichnet Pandas mit NaN (Not a Number).

Wie im Tutorial bereits gezeigt, können wir in einem DataFrame selektieren. Selektieren wir einmal alle Zeilen, in welchen `horsepower` einen NaN-Wert enthält:

In [None]:
df[df["horsepower"].isna()]

Aus der Vorlesung sollte Ihnen bekannt sein, dass wir NaN-Werte auf eine der folgenden Weisen behandeln können:

- Betroffene Zeilen aus dem Datensatz löschen
- NaN-Werte durch repräsentativen Wert (Mean, Median, Modus, etc.) ersetzen
- NaN-Werte ignorieren
- NaN-Werte als separate Kategorien behandeln (bei kategorischen Features)

Damit wir erstmal alle Modelle im Datensatz behalten und gleichzeitig sinnvoll analysieren können, ersetzen wir die fehlenden Werte einmal durch den Mean der Spalte.

In [None]:
horsepower_mean = df["horsepower"].mean()
df.fillna({"horsepower": horsepower_mean}, inplace=True)  # inplace=True sorgt dafür, dass die Änderung ohne manuelle Zuweisung der Variable übernommen wird

print(f"Anzahl NaN-Werte in der Spalte 'horsepower' {df[df["horsepower"].isna()].size}")  # size ist die Anzahl der Zeilen eines DataFrames
df

In [None]:
df.info()

Damit wären die Nan-Werte behandelt und es existieren auch keine weiteren NaN-Werte in diesem DataFrame.

Erinnern Sie sich noch daran, dass die Spalte `name` anfällig für Redundanzen ist? Falls ja, sehr gut! Falls nicht, jetzt wissen Sie es wieder. Behalten Sie sich diese Info noch etwas länger im Hinterkopf, denn darum kümmern wir uns etwas später. Jetzt möchten wir uns erstmal mit den Daten auseinandersetzen.

Betrachten wir zunächst nochmals den DataFrame

In [None]:
df

Eine naheliegende Schlussfolgerung wäre, dass schwerere Autos einen höheren Kraftstoffverbrauch aufweisen. Aber bilden die Daten dies auch so ab?

#### Hängt der Kraftstoffverbrauch davon ab, wie schwer ein Fahrzeug ist?

Sie kennen aus der deskriptiven Statistik den Korrelationskoeffizienten. Dieser zeigt den linearen Zusammenhang zwischen zwei oder mehr Variablen. Würden wir den Korrelationskoeffizienten für die Spalten `mpg` und `weight` ausrechnen würden wir dies folgendermaßen umsetzen.

In [None]:
df[["mpg", "weight"]].corr()

Ergebnis ein negativer Korrelationskoeffizient mit Betrag nahe an $1$. Dies bedeutet, dass es einen relativ starken, negativen linearen Zusammenhang zwischen den Variablen `mpg` und `weight` gibt. Ein negativer Zusammenhang bedeutet, dass ein Anstieg des Wertes der einen Variable zu einer Reduktion des Wertes der anderen führt und umgekehrt.

Da jedoch eine Tabelle mit irgendwelchen Zahlen nicht wirklich schön aussieht, möchten wir das Ganze einmal visualisieren. Der Einfachheit wegen, nutzen wir hierfür Plotly.

In [None]:
import plotly.express as px

px.scatter(
    data_frame=df,
    x="weight",
    y="mpg",
    title="Zusammenhang zwischen Gewicht und Reichweite"
)

Dabei steht jeder Punkt in diesem Streudiagramm jeweils für ein Auto aus `df`. Man kann erkennen, dass tatsächlich eine Tendenz, wie eben beschrieben existiert. Um diese Tendenz zu verdeutlichen, können wir dem Diagramm noch eine Trendlinie hinzufügen, was zwar nicht zwingend notwendig ist, aber in manchen Fällen kann eine Trendlinie sinnvoll sein.

In [None]:
px.scatter(
    data_frame=df,
    x="weight",
    y="mpg",
    trendline="ols",
    title="Zusammenhang zwischen Gewicht und Reichweite"
)

Aber was, wenn die Reichweite nicht nur vom Gewicht abhängt oder das Gewicht noch von anderen Variablen abhängt? Um solche Fragen zu beantworten, können wir die Analyse auf mehrere Features ausweiten. Dies können Sie als eigenständige Aufgabe machen, falls Sie Lust darauf haben.

Betrachten wir den DataFrame erneut und suchen nach weiteren Dingen, die man analysieren könnte

In [None]:
df.head()

Lassen Sie uns einmal folgende Frage beantworten:

#### Welche Zylinder-Anzahl wurde in den jeweiligen Regionen (`origin`) im Durchschnitt hergestellt?

Pandas bietet - wie `SQL` - die Möglichkeit, nach Spalten zu gruppieren und zu aggregieren. Bevor Sie weitergehen, überlegen Sie sich, wie Sie diese Frage in `SQL` beantworten würden. Überlegen Sie auch, welche Aggregatsfunktion am besten geeignet ist.

In [None]:
df_grouped = df.groupby("origin")["cylinders"].mean()
df_grouped

**Erkenntnis:** In Europa und in Japan wurden durchschnittlich 4-Zylinder hergestellt und in den USA 6-Zylinder.

#### Welche Zylinder-Anzahl wurde in den jeweiligen Regionen wie oft hergestellt?

Hier würden Sie so ähnlich vorgehen wie gerade eben, nur mit dem Unterschied, dass Sie nach zwei Attributen gruppieren müssten.

In [None]:
df_grouped = df.groupby(["origin", "cylinders"]).agg(cylinder_count=("cylinders", "count"))
df_grouped

Man kann erkennen, dass Europa und Japan die 4-Zylinder stark favorisierten, während es bei den USA etwas ausgeglichener ist, wobei hier eine klare Präferenz zu den 8-Zylindern sichtbar ist.

Das Thema mit den Regionen kann man auch wieder für weitere Analysen verwenden. Dies können Sie selbst tun, falls Sie Lust darauf haben, sich mit den Daten genauer zu beschäftigen.

Nun, da Sie zumindest ein grobes Gefühl dafür haben sollten, wie ein DataFrame funktioniert, können wir uns daran setzen, die `name`-Spalte zu untersuchen. Dies erfordert etwas mehr an Konzentration.

In [None]:
df.name

Man kann erkennen, dass der Name des Herstellers stets das erste Wort in der Spalte `name` zu sein scheint. Es empfiehlt sich zunächst eine Spalte anzulegen, welche die Namen der Hersteller speichert. Dazu nutzen wir den Accessor `str` der Series. Dieser erlaubt das Ausführen von String-Operationen auf jedem String-Element der Series - und da in einer Series jedes nicht-NaN Element denselben Typ hat und jedes Element dieser Series vom dtype `object` (so bezeichnet Pandas Strings) ist, gilt das auch für jedes einzelne dieser Elemente.

In [None]:
df["oem"] = df["name"].str.split(" ", n=1)  # n: Limit der Anzahl an Splits

df["oem"]

Wir splitten in jeder Zeile, genau einmal (`n=1`), nach Leerzeichen. Um nun lediglich die Namen der Hersteller zu speichern, nutzen wir erneut den `str`-Accessor und _slicen_ ganz einfach.

In [None]:
df["oem"] = df["oem"].str[0]

Betrachten Sie die Series. Fällt Ihnen etwas an ihrem Inhalt auf?

In [None]:
df["oem"]

Es existieren mindestens zwei verschiedene Bezeichnungen für die Marke _Chevrolet_ - nämlich `chevrolet` und `chevy`. Dies ist eine Inkonsistenz der Daten. Bevor wir Maßnahmen ergreifen, sollte zunächst geprüft werden, ob so etwas noch häufiger im Datensatz auftritt und falls ja, für welche Hersteller dies der Fall ist.

In [None]:
df["oem"].unique()

Wir können folgende Inkonsistenzen feststellen:

- Chevrolet: chevrolet, chevy, chevroelt
- Volkswagen: volkswagen, vw, vokswagen
- Toyota: toyota, toyouta
- IH: hi
- Mercedes: mercedes-benz, mercedes
- Mazda: mazda, maxda

Hinzu kommt, dass _capri_ ein **Modell** von _Ford_ ist.

Es wäre sinnvoll, wenn jeder Hersteller durchgehend mit ein und derselben Bezeichnung gespeichert ist. Dieser Datenqualitätsmangel lässt sich durch mehrere Wege korrigieren, für die Demonstration sollte einer genügen. Sie können auch selbst mit den Daten experimentieren und eigenständig nach einer Lösung suchen.

In [None]:
correction = {
    "chevy": "chevrolet",
    "chevroelt": "chevrolet",
    "vokswagen": "volkswagen",
    "vw": "volkswagen",
    "toyouta": "toyota",
    "hi": "ih",
    "mercedes-benz": "mercedes",
    "maxda": "mazda",
    "capri": "ford"
}

df["oem"] = df["oem"].replace(correction)

In [None]:
df["oem"].unique()

In [None]:
df

Nun haben wir eine separate Spalte mit dem Hersteller für jedes Auto in dem DataFrame. Dadurch können noch mehr Analysen durchgeführt werden. Ab hier können Sie die Analyse und Auswertung der Daten selbstständig und nach Ihren Belieben ausweiten.

#### Zwischenstand: Was sollten Sie aus diesem Anwendungsfall mitnehmen?

Dieser kleine Anwendungsfall sollte Ihnen ein paar Grundlagen in der Verwendung von Pandas und Plotly vermitteln. Sie sollten nun ein grobes Verständnis dafür haben, wie man mit DataFrames umgehen kann, wie man diese gruppiert, aggregiert und visualisiert.

---

# Teil 2: Funktionale Programmierung & Datenauswertung

## Allgemein

Dieser Teil des Übungsblattes beinhaltet Aufgaben, die Sie selbstständig bearbeiten werden. Die Aufgaben vereinen das Thema der funktionalen Programmierung und der Datenauswertung.

### Aufgabe 1: Funktionale Programmierung

#### 1.1: Pure Functions

Programmieren Sie eine Funktion `fahrenheit_to_celsius`, die eine Temperatur in Fahrenheit entgegennimmt und den entsprechenden Wert in Celsius zurückgibt.
Die Funktion sollte den folgenden Anforderungen genügen:

1. Die Funktion soll rein sein (keine Seiteneffekte).

2. Verwenden Sie die Formel $Celsius=(Fahrenheit-32)\cdot\frac{5}{9}$.

In [None]:
# Programmieren Sie hier

Erweitern Sie Ihren Code um eine Funktion def `celsius_to_fahrenheit` und testen Sie, ob die beiden Funktionen für gleiche Werte zueinander invers sind.

#### 1.2: Higher-Order Functions

Implementieren Sie eine Funktion `apply_twice`, die eine andere Funktion und einen Wert als Argumente nimmt und die Funktion zweimal auf den Wert anwendet.

In [None]:
# Programmieren Sie hier

#### 1.3: Map, Filter, Reduce
Verwenden Sie die Funktionen `map`, `filter` und `reduce`, um folgende Aufgaben zu lösen:

1. Gegeben eine Liste von Zahlen `numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]`,
    - Verdoppeln Sie alle Zahlen (mit `map`).
    - Filtern Sie alle geraden Zahlen (mit `filter`).
    - Berechnen Sie die Summe der Zahlen (mit `reduce`).
2. Schreiben Sie eine Funktion `normalize_names`, die eine Liste von Namen in gemischter Groß- und Kleinschreibung nimmt und eine Liste mit normalisierten Namen (alle klein geschrieben, nur der erste Buchstabe groß) zurückgibt.

In [None]:
# Programmieren Sie hier

### Aufgabe 2: Bezug zur Datenauswertung

#### 2.1: Berechnen Sie den durchschnittlichen Kraftstoffverbrauch (mpg) für jedes Herkunftsland mithilfe von `map`, `filter` und `reduce`.

**Vorgehen**

1. Verwenden Sie `filter`, um die Daten nach Herkunftsland zu filtern.
2. Verwenden Sie `map`, um den Kraftstoffverbrauch (`mpg`) für jedes gefilterte Fahrzeug zu extrahieren.
3. Verwenden Sie `reduce`, um den durchschnittlichen Kraftstoffverbrauch für jedes Herkunftsland zu berechnen.

In [None]:
# Programmieren Sie hier

#### 2.2: Erstellen Sie eine Funktion, die eine Liste von Fahrzeugnamen entgegennimmt und eine neue Liste zurückgibt, die nur die Namen der Hersteller enthält, die mit "f" beginnen.

**Vorgehen**

1. Verwenden Sie `map`, um den Herstellernamen aus jedem Fahrzeugnamen zu extrahieren (verwenden Sie die Spalte `oem`).
2. Verwenden Sie `filter`, um nur die Herstellernamen auszuwählen, die mit "f" beginnen.
3. Geben Sie die gefilterte Liste zurück.

In [None]:
# Programmieren Sie hier

#### 2.3: Erstellen Sie eine Funktion, die eine Liste von Fahrzeugnamen entgegennimmt und eine neue Liste zurückgibt, in der alle Herstellernamen in Kleinbuchstaben und der erste Buchstabe großgeschrieben sind (z. B. "ford" wird zu "Ford").

**Vorgehen**

1. Verwenden Sie `map`, um die Funktion `capitalize()` auf jeden Herstellernamen in der Liste anzuwenden.
2. Geben Sie die neue Liste zurück.

In [None]:
# Programmieren Sie hier

#### 2.4: Berechnen Sie die Standardabweichung des Gewichts (`weight`) für Fahrzeuge mit mehr als 4 Zylindern mithilfe von `map`, `filter` und `reduce`.

**Vorgehen**

1. Verwenden Sie `filter`, um die Daten nach Fahrzeugen mit mehr als 4 Zylindern zu filtern.
2. Verwenden Sie `map`, um das Gewicht (`weight`) für jedes gefilterte Fahrzeug zu extrahieren.
3. Verwenden Sie `reduce` und die Formel für die Standardabweichung, um die Standardabweichung des Gewichts zu berechnen.

In [None]:
# Programmieren Sie hier

#### 2.5: Erstellen Sie eine Funktion, die eine Liste von Fahrzeugnamen entgegennimmt und ein Dictionary zurückgibt, das die Häufigkeit jedes Herstellernamens enthält.

**Vorgehen**

1. Verwenden Sie `map`, um den Herstellernamen aus jedem Fahrzeugnamen zu extrahieren.
2. Erstellen Sie ein leeres Dictionary.
3. Iterieren Sie über die Liste der Herstellernamen und erhöhen Sie den Zähler für jeden Namen im Dictionary.
4. Geben Sie das Dictionary zurück.

In [None]:
# Programmieren Sie hier

# Quellen
- [Pandas Dokumentation](https://pandas.pydata.org/docs/index.html)
- [NumPy Dokumentation](https://numpy.org/doc/)
- [Matplotlib Dokumentation](https://numpy.org/doc/)
- [SciPy Dokumentation](https://docs.scipy.org/doc/scipy/)
- [Scikit-learn API](https://scikit-learn.org/stable/api/index.html)
- [Statsmodels API](https://www.statsmodels.org/stable/api.html)
- [Seaborn API](https://seaborn.pydata.org/api.html)
- [Plotly Dokumentation](https://plotly.github.io/plotly.py-docs/generated/plotly.html)
- [Bokeh Dokumentation](https://docs.bokeh.org/en/latest/)
- [MPG-Datensatz](https://github.com/mwaskom/seaborn-data/blob/master/mpg.csv)