# Einführung in Pandas

In dieser Lektion stellen wir **Pandas** vor – eine leistungsstarke Bibliothek zur Datenanalyse und -manipulation in Python. Pandas ermöglicht es uns, strukturierte Daten in Form von Tabellen (DataFrames) und eindimensionalen Arrays (Series) effizient zu verarbeiten. Du lernst, wie du Daten aus unterschiedlichen Quellen importierst, diese analysierst, filterst und transformierst sowie grundlegende Datenbereinigungsaufgaben durchführst. Diese Fähigkeiten sind essenziell, um in einer datengetriebenen Welt fundierte Entscheidungen treffen zu können.

## 1. Einführung in Pandas

**Was ist Pandas?**

- Pandas ist eine Open-Source-Python-Bibliothek zur Datenanalyse und -manipulation.
- Sie stellt leistungsstarke Datenstrukturen (wie DataFrame und Series) bereit, um mit tabellarischen Daten zu arbeiten.
- Pandas ist ideal für den Umgang mit Daten aus CSV-, Excel- oder Datenbankquellen.

### Installation und Import

Falls Pandas noch nicht installiert ist, kannst du es z. B. über Conda oder pip installieren:

```bash
conda install pandas
```

Importiere Pandas mit:

```python
import pandas as pd
```

In [None]:
# Importiere Pandas
import pandas as pd

# Kurze Überprüfung der Version
print('Pandas Version:', pd.__version__)

## 2. DataFrames und Series

### Was sind Series und DataFrames?

- **Series:** Eine eindimensionale Datenstruktur, die Daten (ähnlich wie ein Array) und einen zugehörigen Index enthält.
- **DataFrame:** Eine zweidimensionale, tabellarische Datenstruktur mit Zeilen und Spalten. Ein DataFrame kann als Sammlung von Series betrachtet werden.

### Erstellen von Series und DataFrames

Wir können Series und DataFrames aus Listen, Dictionaries oder auch NumPy-Arrays erstellen.

### Erstellen einer Series aus einer Liste

In [None]:
liste = [10, 20, 30, 40, 50]
serie = pd.Series(liste, name='Zahlen')
print(serie)

### Erstellen einer Series aus einem Dictionary

In [None]:
daten_dict = {'A': 100, 'B': 200, 'C': 300}
serie_dict = pd.Series(daten_dict)
print(serie_dict)

### Erstellen eines DataFrame aus einem Dictionary

Ein Dictionary, dessen Werte Listen sind, kann direkt in einen DataFrame umgewandelt werden.

In [None]:
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, 34, 29, 42],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln']
}
df = pd.DataFrame(daten)
print(df)

### Erstellen eines DataFrame aus einer Liste von Dictionaries

Jedes Dictionary stellt eine Zeile dar.

In [None]:
daten_liste = [
    {'Name': 'Anna', 'Alter': 28, 'Stadt': 'Berlin'},
    {'Name': 'Bernd', 'Alter': 34, 'Stadt': 'München'},
    {'Name': 'Clara', 'Alter': 29, 'Stadt': 'Hamburg'},
    {'Name': 'David', 'Alter': 42, 'Stadt': 'Köln'}
]
df2 = pd.DataFrame(daten_liste)
print(df2)

### Lesen und Schreiben von CSV-/Excel-Dateien

Pandas bietet einfache Methoden zum Einlesen und Schreiben von Dateien.

Beispiel: Lesen einer CSV-Datei mit `pd.read_csv` und Schreiben mit `df.to_csv`.

In [None]:
from io import StringIO

# Simuliere eine CSV-Datei als String
csv_data = """
Name,Alter,Stadt
Anna,28,Berlin
Bernd,34,München
Clara,29,Hamburg
David,42,Köln
"""

# Lese die CSV-Daten
df_csv = pd.read_csv(StringIO(csv_data))
print(df_csv)

# Schreibe den DataFrame in eine CSV-Datei (ohne Index)
df_csv.to_csv('output.csv', index=False)

### Grundlegende Attribute eines DataFrame

Einige wichtige Eigenschaften eines DataFrame sind:

- `df.shape` – Dimensionen (Zeilen, Spalten)
- `df.dtypes` – Datentypen der Spalten
- `df.columns` – Spaltennamen
- `df.index` – Zeilenindex

In [None]:
print('Shape:', df.shape)
print('Datentypen:')
print(df.dtypes)
print('Spalten:', df.columns)
print('Index:', df.index)

## 3. Daten Selektion und Filterung

### Auswahl von Zeilen und Spalten

Mit den Methoden `.loc` und `.iloc` können wir gezielt Zeilen und Spalten auswählen.

- **.loc:** Auswahl anhand von Labeln (z. B. Spaltennamen, Index-Bezeichnungen)
- **.iloc:** Auswahl anhand von integer-basierten Positionen

In [None]:
# Beispiel-DataFrame erstellen
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
}
df_filter = pd.DataFrame(daten)
print(df_filter)

# Auswahl der Spalte 'Name' mit .loc
print('\nSpalte Name:', df_filter.loc[:, 'Name'])

# Auswahl der ersten drei Zeilen mit .iloc
print('\nErste drei Zeilen:')
print(df_filter.iloc[:3])

### Bedingte Filterung und Sortierung

Filtern nach Bedingungen (z. B. Alter > 30) und Sortieren der Daten mit `sort_values` oder `sort_index`.

In [None]:
# Bedingte Filterung: Zeilen, in denen Alter > 30
df_filtered = df_filter[df_filter['Alter'] > 30]
print('Zeilen mit Alter > 30:')
print(df_filtered)

# Sortierung: Nach Alter aufsteigend sortieren
df_sorted = df_filter.sort_values(by='Alter')
print('\nNach Alter sortiert:')
print(df_sorted)

### Übung: Indexierung und Filterung

Erstelle einen DataFrame mit den folgenden Daten:

| Name   | Alter | Stadt     |
|--------|-------|-----------|
| Anna   | 28    | Berlin    |
| Bernd  | 34    | München   |
| Clara  | 29    | Hamburg   |
| David  | 42    | Köln      |
| Eva    | 25    | Stuttgart |

Führe folgende Aufgaben aus:

1. Wähle alle Zeilen aus, in denen das Alter größer als 30 ist.
2. Wähle nur die Spalte `Stadt` aus.
3. Sortiere den DataFrame nach `Name` absteigend.

In [None]:
df_uebung = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
})

# 1. Filter: Alter > 30
print('Alter > 30:')
print(df_uebung[df_uebung['Alter'] > 30])

# 2. Nur Spalte 'Stadt'
print('\nSpalte Stadt:')
print(df_uebung['Stadt'])

# 3. Sortierung nach Name absteigend
print('\nNach Name absteigend sortiert:')
print(df_uebung.sort_values(by='Name', ascending=False))

## 4. Datenbereinigung und Transformation

### Fehlende Werte behandeln

Häufig kommen in Datensätzen fehlende Werte vor. Mit folgenden Methoden können wir diese behandeln:

- `isnull()` oder `isna()`: Überprüfen, ob Werte fehlen
- `fillna()`: Fehlende Werte durch einen bestimmten Wert ersetzen
- `dropna()`: Zeilen (oder Spalten) mit fehlenden Werten entfernen

In [None]:
# Beispiel-DataFrame mit fehlenden Werten
df_missing = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, None, 29, 42],
    'Stadt': ['Berlin', 'München', None, 'Köln']
})
print('Original DataFrame mit fehlenden Werten:')
print(df_missing)

# Überprüfe, welche Werte fehlen
print('\nFehlende Werte?')
print(df_missing.isnull())

# Ersetze fehlende Werte in der Spalte 'Alter' durch den Mittelwert
alter_mean = df_missing['Alter'].mean()
df_missing['Alter'] = df_missing['Alter'].fillna(alter_mean)

# Entferne Zeilen, in denen in der Spalte 'Stadt' Werte fehlen
df_cleaned = df_missing.dropna(subset=['Stadt'])
print('\nBereinigter DataFrame:')
print(df_cleaned)

### Spalten umbenennen, Datentypen ändern und Funktionen anwenden

Mit `rename()` lassen sich Spalten umbenennen. Mit `astype()` können Datentypen geändert werden.
Außerdem können wir mit `apply()` und `map()` Funktionen auf Spalten anwenden.

In [None]:
df_trans = pd.DataFrame({
    'name': ['anna', 'bernd', 'clara'],
    'alter': ['28', '34', '29']
})

# Spalten umbenennen (z. B. in Großschreibung) und Datentyp ändern
df_trans = df_trans.rename(columns={'name': 'Name', 'alter': 'Alter'})
df_trans['Alter'] = df_trans['Alter'].astype(int)

# Anwenden einer Funktion: Großschreibung für alle Namen
df_trans['Name'] = df_trans['Name'].apply(lambda x: x.capitalize())
print(df_trans)

# Mit map() einen zusätzlichen Wert berechnen (z. B. Alter + 5)
df_trans['Alter_plus_5'] = df_trans['Alter'].map(lambda x: x + 5)
print(df_trans)

## 5. Praktische Übungen

### Aufgabe:

1. Lade einen Datensatz aus einer CSV-Datei. (Zur Vereinfachung simulieren wir dies mithilfe von `StringIO`.)
2. Führe folgende Schritte durch:
   - Selektion: Wähle alle Zeilen, in denen der Wert in einer bestimmten Spalte einen bestimmten Schwellenwert überschreitet.
   - Bereinigung: Finde und fülle fehlende Werte, z. B. in numerischen Spalten durch den Mittelwert.
   - Transformation: Ändere den Datentyp einer Spalte und wende eine Funktion auf eine Spalte an.

Hinweis: Du kannst dir einen kleinen Beispiel-Datensatz ausdenken.

In [None]:
from io import StringIO

# Simulierter CSV-Datensatz mit einigen fehlenden Werten
csv_text = """
Name,Alter,Stadt,Note
Anna,28,Berlin,1.7
Bernd,,München,2.3
Clara,29,,1.3
David,42,Köln,2.0
Eva,25,Stuttgart,
"""

# Lese den simulierten Datensatz ein
df_praktisch = pd.read_csv(StringIO(csv_text))
print('Originaler Datensatz:')
print(df_praktisch)

# 1. Selektion: Wähle alle Zeilen, in denen das Alter >= 30 ist
df_sel = df_praktisch[df_praktisch['Alter'] >= 30]
print('\nZeilen mit Alter >= 30:')
print(df_sel)

# 2. Bereinigung: Fülle fehlende Alter-Werte mit dem Mittelwert
alter_mittel = df_praktisch['Alter'].mean()
df_praktisch['Alter'] = df_praktisch['Alter'].fillna(alter_mittel)

# Fülle fehlende Note-Werte mit dem Wert 3.0 (als Beispiel)
df_praktisch['Note'] = df_praktisch['Note'].fillna(3.0)

# 3. Transformation: Ändere den Datentyp der Spalte 'Note' in float und runde sie auf 1 Nachkommastelle
df_praktisch['Note'] = df_praktisch['Note'].astype(float).round(1)

# Wende eine Funktion auf die Spalte 'Name' an, um sie in Großbuchstaben umzuwandeln
df_praktisch['Name'] = df_praktisch['Name'].apply(lambda x: x.upper())

print('\nTransformierter Datensatz:')
print(df_praktisch)

## Zusammenfassung und Nächste Schritte

In diesem Notebook haben wir gelernt:

- Was Pandas ist und wie es uns bei der Datenanalyse hilft
- Wie man Series und DataFrames erstellt
- Wie man CSV- (und Excel-) Dateien liest und schreibt
- Grundlegende Attribute eines DataFrame (Form, Datentypen, Spalten, Index)
- Wie man Daten selektiert, filtert und sortiert
- Wie man fehlende Werte bereinigt und Daten transformiert
  (z. B. durch Umbenennen, Typkonvertierung und Anwenden von Funktionen)

Arbeite weiter an praktischen Übungen und erkunde die weiterführenden Funktionen von Pandas, wie z. B. Gruppierungen (`groupby`) und Zusammenführungen (`merge`).