# Einführung in Pandas

In dieser Lektion stellen wir **Pandas** vor – eine leistungsstarke Bibliothek zur Datenanalyse und -manipulation in Python. Pandas ermöglicht es uns, strukturierte Daten in Form von Tabellen (DataFrames) und eindimensionalen Arrays (Series) effizient zu verarbeiten. Du lernst, wie du Daten aus unterschiedlichen Quellen importierst, diese analysierst, filterst und transformierst sowie grundlegende Datenbereinigungsaufgaben durchführst. Diese Fähigkeiten sind essenziell, um in einer datengetriebenen Welt fundierte Entscheidungen treffen zu können.

## 1. Einführung in Pandas

**Was ist Pandas?**

- Pandas ist eine Open-Source-Python-Bibliothek zur Datenanalyse und -manipulation.
- Sie stellt leistungsstarke Datenstrukturen (wie DataFrame und Series) bereit, um mit tabellarischen Daten zu arbeiten.
- Pandas ist ideal für den Umgang mit Daten aus CSV-, Excel- oder Datenbankquellen.

### Installation und Import

Falls Pandas noch nicht installiert ist, kannst du es z. B. über Conda oder pip installieren:

```bash
conda install pandas -y
```

Importiere Pandas mit:

```python
import pandas as pd
```

In [None]:
# Importiere Pandas
import pandas as pd

# Kurze Überprüfung der Version
print('Pandas Version:', pd.__version__)

## 2. DataFrames und Series

### Was sind Series und DataFrames?

- **Series:** Eine eindimensionale Datenstruktur, die Daten (ähnlich wie ein Array) und einen zugehörigen Index enthält.
- **DataFrame:** Eine zweidimensionale, tabellarische Datenstruktur mit Zeilen und Spalten. Ein DataFrame kann als Sammlung von Series betrachtet werden.

### Erstellen von Series und DataFrames

Wir können Series und DataFrames aus Listen, Dictionaries oder auch NumPy-Arrays erstellen.

### Erstellen einer Series aus einer Liste

In [None]:
serie = pd.Series([10, 20, 30, 40, 50], name='Zahlen')
print(serie)

### Erstellen einer Series aus einem Dictionary

In [None]:
daten_dict = {'A': 100, 'B': 200, 'C': 300}
serie_dict = pd.Series(daten_dict)
print(serie_dict)

### Erstellen eines DataFrame aus einem Dictionary

Ein Dictionary, dessen Werte Listen sind, kann direkt in einen DataFrame umgewandelt werden.

In [None]:
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, 34, 29, 42],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln']
}
df = pd.DataFrame(daten)
print(df)

In [None]:
df

### Erstellen eines DataFrame aus einer Liste von Dictionaries

Jedes Dictionary stellt eine Zeile dar.

In [None]:
daten_liste = [
    {'Name': 'Anna', 'Alter': 28, 'Stadt': 'Berlin'},
    {'Name': 'Bernd', 'Alter': 34, 'Stadt': 'München'},
    {'Name': 'Clara', 'Alter': 29, 'Stadt': 'Hamburg'},
    {'Name': 'David', 'Alter': 42, 'Stadt': 'Köln'}
]
df2 = pd.DataFrame(daten_liste)
df2

### Lesen und Schreiben von CSV-/Excel-Dateien

Bevor wir Daten in Pandas einlesen, ist es oft hilfreich, die Datensätze zuerst herunterzuladen und zu inspizieren. Im Folgenden zeigen wir, wie du zwei reale Datensätze – einen CSV-Datensatz und einen Excel-Datensatz – herunterladen kannst. Du kannst die Dateien entweder manuell aus dem Browser herunterladen oder den folgenden Code ausführen, um sie programmgesteuert herunterzuladen.

#### Datensatz (CSV) herunterladen

Wir verwenden den beliebten **tips**-Datensatz aus dem Seaborn-Repository. Dieser Datensatz enthält Informationen zu Restaurantrechnungen und Trinkgeldern. Typische Spalten sind:

- **total_bill:** Gesamtrechnung
- **tip:** Gegebenes Trinkgeld
- **sex:** Geschlecht des Rechnungzahlenden Gastes
- **smoker:** Ob der Gast raucht
- **day:** Wochentag
- **time:** Zeitpunkt (Mittag oder Abendessen)
- **size:** Anzahl der Personen in der Gruppe

Lade den Datensatz herunter, öffne ihn (z. B. in einem Texteditor) und inspiziere ihn, bevor du ihn in Pandas einliest.

In [None]:
import urllib.request

url_csv = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv"
filename_csv = "tips.csv"
urllib.request.urlretrieve(url_csv, filename_csv)
print(f"CSV-Datei wurde als '{filename_csv}' heruntergeladen.")

#### Datensatz (Excel) herunterladen

Als Beispiel verwenden wir nun den **Supermarket Sales**-Datensatz, der von Plotly bereitgestellt wird. Dieser Datensatz enthält Verkaufsdaten aus Supermärkten, darunter Informationen zu Rechnungs-IDs, Filialen, Städten, Kundentypen, Geschlechtern, Produktlinien, Stückpreisen, Mengen, Steuern, Gesamtsummen, Datum, Zeit, Zahlungsmethoden und mehr.

Lade die Datei herunter, öffne sie (z. B. in Excel) und inspiziere den Inhalt, um einen Eindruck von den enthaltenen Daten zu bekommen.

In [None]:
url_excel = "https://github.com/plotly/datasets/raw/refs/heads/master/supermarket_sales.xlsx"
filename_excel = "supermarket_sales.xlsx"
urllib.request.urlretrieve(url_excel, filename_excel)
print(f"Excel-Datei wurde als '{filename_excel}' heruntergeladen.")

#### Lesen und Schreiben der heruntergeladenen Dateien

Nachdem du die Dateien heruntergeladen und inspiziert hast, lesen wir sie in Pandas ein. Anschließend speichern wir den bearbeiteten DataFrame auch als CSV-Datei.

In [None]:
# Lese die heruntergeladene CSV-Datei (tips.csv) ein
df_tips = pd.read_csv(filename_csv)
print("Erste 5 Zeilen des 'tips'-Datensatzes:")
df_tips.head()

In [None]:
# Schreibe den DataFrame in eine neue CSV-Datei (ohne Index)
df_tips.to_csv("tips_output.csv", index=False)
print("\nDie Datei 'tips_output.csv' wurde erstellt.")

#### Lesen der heruntergeladenen Excel-Datei

Lies den Excel-Datensatz (supermarket_sales.xlsx) ein. (Hinweis: Stelle sicher, dass die Bibliothek `openpyxl` installiert ist, falls du .xlsx-Dateien einliest. ```conda install openpyxl```)

In [None]:
# Lese die heruntergeladene Excel-Datei ein
df_excel = pd.read_excel(filename_excel)
print("Erste 5 Zeilen des Excel-Datensatzes (Supermarket Sales):")
df_excel

### Grundlegende Attribute eines DataFrame

Einige wichtige Eigenschaften eines DataFrame sind:

- `df.shape` – Dimensionen (Zeilen, Spalten)
- `df.dtypes` – Datentypen der Spalten
- `df.columns` – Spaltennamen
- `df.index` – Zeilenindex

In [None]:
print('Shape:', df.shape)
print('Datentypen:')
print(df.dtypes)
print('Spalten:', df.columns)
print('Index:', df.index)

## 3. Daten Selektion und Filterung

### Auswahl von Zeilen und Spalten

Mit den Methoden `.loc` und `.iloc` können wir gezielt Zeilen und Spalten auswählen.

- **.loc:** Auswahl anhand von Labeln (z. B. Spaltennamen, Index-Bezeichnungen)
- **.iloc:** Auswahl anhand von integer-basierten Positionen

In [None]:
# Beispiel-DataFrame erstellen
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
}
df_filter = pd.DataFrame(daten)
df_filter

In [None]:
# Auswahl der Spalten 'Name' und 'stadt' mit .loc
df_filter.loc[:, ['Name', 'Stadt']]

In [None]:
# Auswahl der ersten drei Zeilen mit .iloc
print('\nErste drei Zeilen:')
df_filter.iloc[:3]

### Bedingte Filterung und Sortierung

Filtern nach Bedingungen (z. B. Alter > 30) und Sortieren der Daten mit `sort_values` oder `sort_index`.

In [None]:
# Bedingte Filterung: Zeilen, in denen Alter > 30
df_filtered = df_filter[df_filter['Alter'] > 30]
print('Zeilen mit Alter > 30:')
df_filtered

Nach alter sortieren.

In [None]:
# Sortierung: Nach Alter aufsteigend sortieren
df_sorted = df_filter.sort_values(by='Alter')
print('\nNach Alter sortiert:')
df_sorted

### Übung: Indexierung und Filterung

Erstelle einen DataFrame mit den folgenden Daten:

| Name   | Alter | Stadt     |
|--------|-------|-----------|
| Anna   | 28    | Berlin    |
| Bernd  | 34    | München   |
| Clara  | 29    | Hamburg   |
| David  | 42    | Köln      |
| Eva    | 25    | Stuttgart |

Führe folgende Aufgaben aus:

1. Wähle alle Zeilen aus, in denen das Alter größer als 30 ist.
2. Wähle nur die Spalte `Stadt` aus.
3. Sortiere den DataFrame nach `Name` absteigend.

In [None]:
df_uebung = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
})

# 1. Filter: Alter > 30
print('Alter > 30:')
df_uebung[df_uebung['Alter'] > 30]


In [None]:
# 2. Nur Spalte 'Stadt'
print('\nSpalte Stadt:')
df_uebung['Stadt']

In [None]:
# 3. Sortierung nach Name absteigend
print('\nNach Name absteigend sortiert:')
df_uebung.sort_values(by='Name', ascending=False)

## 4. Datenbereinigung und Transformation

### Fehlende Werte behandeln

Häufig kommen in Datensätzen fehlende Werte vor. Mit folgenden Methoden können wir diese behandeln:

- `isnull()` oder `isna()`: Überprüfen, ob Werte fehlen
- `fillna()`: Fehlende Werte durch einen bestimmten Wert ersetzen
- `dropna()`: Zeilen (oder Spalten) mit fehlenden Werten entfernen

In [None]:
# Beispiel-DataFrame mit fehlenden Werten
df_missing = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, None, 29, 42],
    'Stadt': ['Berlin', 'München', None, 'Köln']
})
print('Original DataFrame mit fehlenden Werten:')
df_missing


In [None]:
# Überprüfe, welche Werte fehlen
print('\nFehlende Werte?')
df_missing.isnull()

In [None]:
# Ersetze fehlende Werte in der Spalte 'Alter' durch den Mittelwert
alter_mean = df_missing['Alter'].mean()
df_missing['Alter'] = df_missing['Alter'].fillna(alter_mean)

# Entferne Zeilen, in denen in der Spalte 'Stadt' Werte fehlen
df_cleaned = df_missing.dropna(subset=['Stadt'])
print('\nBereinigter DataFrame:')
df_cleaned

### Spalten umbenennen, Datentypen ändern und Funktionen anwenden

Mit `rename()` lassen sich Spalten umbenennen. Mit `astype()` können Datentypen geändert werden.
Außerdem können wir mit `apply()` und `map()` Funktionen auf Spalten anwenden.

In [None]:
df_trans = pd.DataFrame({
    'name': ['anna', 'bernd', 'clara'],
    'alter': ['28', '34', '29']
})

# Spalten umbenennen (z. B. in Großschreibung) und Datentyp ändern
df_trans = df_trans.rename(columns={'name': 'Name', 'alter': 'Alter'})
df_trans['Alter'] = df_trans['Alter'].astype(int)

# Anwenden einer Funktion: Großschreibung für alle Namen
df_trans['Name'] = df_trans['Name'].apply(lambda x: x.capitalize())
df_trans


In [None]:
# Mit map() einen zusätzlichen Wert berechnen (z. B. Alter + 5)
df_trans['Alter_plus_5'] = df_trans['Alter'].map(lambda x: x + 5)
df_trans

### Zusätzliche Übungen mit dem **tips**-Datensatz

In diesen Übungen arbeiten wir weiter mit dem **tips**-Datensatz. Versuche, die folgenden Aufgaben selbstständig zu lösen.

#### Aufgabe 1: Gruppierung und Aggregation

Berechne den durchschnittlichen `total_bill` (Gesamtrechnung) für jeden Wochentag (`day`).

In [None]:
# Gruppiere den tips-Datensatz nach 'day' und berechne den durchschnittlichen total_bill
avg_total_bill_by_day = df_tips.groupby('day')['total_bill'].mean()
print('Durchschnittlicher total_bill pro Tag:')
avg_total_bill_by_day

#### Aufgabe 2: Neue Spalte – Trinkgeld in Prozent

Erstelle eine neue Spalte namens `Tip Percentage`, die den Anteil des Trinkgelds (`tip`) an der Gesamtrechnung (`total_bill`) in Prozent darstellt. (Hinweis: Die Formel lautet: `(tip / total_bill) * 100`.)

In [None]:
# Erstelle die neue Spalte 'Tip Percentage'
df_tips['Tip Percentage'] = (df_tips['tip'] / df_tips['total_bill']) * 100
print('\nErste 5 Zeilen mit neuer Spalte (Tip Percentage):')
df_tips[['total_bill', 'tip', 'Tip Percentage']].head()

#### Aufgabe 3: Filtern

Filtere den `tips`-Datensatz, um nur die Rechnungen anzuzeigen, bei denen der `total_bill` größer als 25 ist.

In [None]:
# Filtere den Datensatz: total_bill > 25
high_total_bill = df_tips[df_tips['total_bill'] > 25]
print('\nRechnungen mit total_bill > 25 (erste 5 Zeilen):')
high_total_bill.head()

## 5. Basisplots mit Pandas

In diesem Abschnitt nutzen wir die integrierten Plotting-Funktionen von Pandas (basierend auf Matplotlib), um einige grundlegende Diagramme zu erstellen. Wir verwenden dazu den **tips**-Datensatz.

In [None]:
import matplotlib.pyplot as plt
# Erstelle ein Histogramm der 'total_bill'-Spalte aus dem tips-Datensatz
plt.figure(figsize=(8,5))
df_tips['total_bill'].plot(kind='hist', bins=20, title='Histogramm der Gesamtrechnungen')
plt.xlabel('Total Bill')
plt.show()

In [None]:
# Erstelle ein Streudiagramm: total_bill vs. tip
plt.figure(figsize=(8,5))
df_tips.plot(kind='scatter', x='total_bill', y='tip', title='Streudiagramm: Total Bill vs. Tip')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

## Zusammenfassung und Nächste Schritte

In diesem Notebook haben wir gelernt:

- Was Pandas ist und wie es uns bei der Datenanalyse hilft
- Wie man Series und DataFrames erstellt
- Wie man CSV- (und Excel-) Dateien liest und schreibt
- Grundlegende Attribute eines DataFrame (Form, Datentypen, Spalten, Index)
- Wie man Daten selektiert, filtert und sortiert
- Wie man fehlende Werte bereinigt und Daten transformiert
  (z. B. durch Umbenennen, Typkonvertierung und Anwenden von Funktionen)

Arbeite weiter an praktischen Übungen und erkunde die weiterführenden Funktionen von Pandas, wie z. B. Gruppierungen (`groupby`) und Zusammenführungen (`merge`).