# Pandas zur Datenverarbeitung
In dieser Übung lernen Sie, wie man Daten mit **Pandas** einliest, analysiert und visualisiert. Wir verwenden einen Datensatz, der Informationen über verschiedene Fahrzeuge enthält, wie z.B. deren Marke, Modell, Baujahr und Kraftstoffverbrauch.

Zuerst werden wir die Bibliothek Pandas importieren und eine CSV-Datei mit den Fahrzeugdaten einlesen.


In [1]:
# Importieren von Pandas
import pandas as pd

# Einlesen der CSV-Datei
df = pd.read_csv("autos.csv")

Wenn man die ersten Zeilen des Datensatzes anzeigen möchte, kann der folgende Befehl genutzt werden:

In [2]:
print(df.head())

      Marke    Modell  Baujahr  Kraftstoffverbrauch (l/100km)  \
0       BMW       3er     2015                           9.20   
1  Mercedes  A-Klasse     2021                           9.74   
2      Audi        A4     2020                           9.36   
3        VW      Golf     2019                           5.99   
4    Toyota     Prius     2021                           5.57   

   CO2-Ausstoß (g/km)  
0              103.24  
1              133.58  
2              151.39  
3              179.66  
4              133.80  


Pandas bietet die Möglichkeit, eine schnelle Übersicht der numerischen Spalten eines Datensatzes zu erhalten. Nutzen Sie dazu die Funktion `describe()`.


In [None]:
print(df.describe())

Jetzt filtern wir den Datensatz nach einem bestimmten Kriterium, z.B. nach dem Kraftstoffverbrauch. Danach sortieren wir die gefilterten Daten nach dem CO2-Ausstoß.

In [3]:
# Filter: Fahrzeuge mit einem Kraftstoffverbrauch unter 6 Litern pro 100 km
df_filtered = df[df['Kraftstoffverbrauch (l/100km)'] < 6]
print(df_filtered)

# Sortieren der gefilterten Daten nach CO2-Ausstoß
df_sorted = df_filtered.sort_values(by='CO2-Ausstoß (g/km)')
print(df_sorted)

        Marke    Modell  Baujahr  Kraftstoffverbrauch (l/100km)  \
3          VW      Golf     2019                           5.99   
4      Toyota     Prius     2021                           5.57   
6    Mercedes  A-Klasse     2015                           4.54   
7        Audi        A4     2015                           4.64   
11   Mercedes  A-Klasse     2016                           5.61   
..        ...       ...      ...                            ...   
991  Mercedes  A-Klasse     2017                           5.00   
993        VW      Golf     2018                           5.23   
996  Mercedes  A-Klasse     2017                           4.58   
998        VW      Golf     2018                           4.66   
999    Toyota     Prius     2021                           5.82   

     CO2-Ausstoß (g/km)  
3                179.66  
4                133.80  
6                118.75  
7                175.06  
11               118.21  
..                  ...  
991          

Als Nächstes gruppieren wir die Daten nach einem bestimmten Kriterium, in diesem Fall der Marke. Ziel dabei ist es, bestimmte Aussagen über die jeweilige Gruppe treffen zu können. Hierzu nutzen Sie sogenannte Aggregatsfunktionen, mit denen Sie z.B. den Durchschnitt des jeweiligen Kraftstoffverbrauchs der Gruppen berechnen. Weitere Aggregatfunktionen sind sum(), count(), welche die Summe bzw. die Gesamtanzahl der jeweiligen Gruppe ausgeben.

In [5]:
df_grouped = df.groupby('Marke')
df_avg = df_grouped['Kraftstoffverbrauch (l/100km)'].mean()
print(df_avg)

Marke
Audi        7.32155
BMW         7.07045
Mercedes    7.25370
Toyota      7.39795
VW          6.99315
Name: Kraftstoffverbrauch (l/100km), dtype: float64


# Aufgabe: Analyse von Verkaufsdaten
In dieser Aufgabe sollen Sie das Gelernte über Gruppierung und Aggregation mit Pandas auf einen neuen Datensatz anwenden. Sie arbeiten mit einem Datensatz, der die Verkaufszahlen verschiedener Produkte in verschiedenen Städten über einen Zeitraum enthält. Ihre Aufgabe besteht darin, diesen Datensatz zu analysieren und statistische Zusammenfassungen zu erstellen.

- Lesen Sie die Datei sales.csv mit Pandas ein.
- Filtern Sie den Datensatz nach Produkten, bei denen die Verkaufsmenge größer als 100 ist.
- Sortieren Sie die gefilterten Daten nach Umsatz in absteigender Reihenfolge.
- Gruppieren Sie die Daten nach Stadt und berechnen Sie den durchschnittlichen Umsatz pro Stadt.