# Einführung in Pandas

In dieser Lektion stellen wir **Pandas** vor – eine leistungsstarke Bibliothek zur Datenanalyse und -manipulation in Python. Pandas ermöglicht es uns, strukturierte Daten in Form von Tabellen (DataFrames) und eindimensionalen Arrays (Series) effizient zu verarbeiten. Du lernst, wie du Daten aus unterschiedlichen Quellen importierst, diese analysierst, filterst und transformierst sowie grundlegende Datenbereinigungsaufgaben durchführst. Diese Fähigkeiten sind essenziell, um in einer datengetriebenen Welt fundierte Entscheidungen treffen zu können.

## 1. Einführung in Pandas

**Was ist Pandas?**

- Pandas ist eine Open-Source-Python-Bibliothek zur Datenanalyse und -manipulation.
- Sie stellt leistungsstarke Datenstrukturen (wie DataFrame und Series) bereit, um mit tabellarischen Daten zu arbeiten.
- Pandas ist ideal für den Umgang mit Daten aus CSV-, Excel- oder Datenbankquellen.

### Installation und Import

Falls Pandas noch nicht installiert ist, kannst du es z. B. über Conda oder pip installieren:

```bash
conda install pandas -y
```

Importiere Pandas mit:

```python
import pandas as pd
```

In [1]:
# Importiere Pandas
import pandas as pd

# Kurze Überprüfung der Version
print('Pandas Version:', pd.__version__)

Pandas Version: 2.2.3


## 2. DataFrames und Series

### Was sind Series und DataFrames?

- **Series:** Eine eindimensionale Datenstruktur, die Daten (ähnlich wie ein Array) und einen zugehörigen Index enthält.
- **DataFrame:** Eine zweidimensionale, tabellarische Datenstruktur mit Zeilen und Spalten. Ein DataFrame kann als Sammlung von Series betrachtet werden.

### Erstellen von Series und DataFrames

Wir können Series und DataFrames aus Listen, Dictionaries oder auch NumPy-Arrays erstellen.

### Erstellen einer Series aus einer Liste

In [2]:
liste = [10, 20, 30, 40, 50]
serie = pd.Series(liste, name='Zahlen')
print(serie)

0    10
1    20
2    30
3    40
4    50
Name: Zahlen, dtype: int64


### Erstellen einer Series aus einem Dictionary

In [3]:
daten_dict = {'A': 100, 'B': 200, 'C': 300}
serie_dict = pd.Series(daten_dict)
print(serie_dict)

A    100
B    200
C    300
dtype: int64


### Erstellen eines DataFrame aus einem Dictionary

Ein Dictionary, dessen Werte Listen sind, kann direkt in einen DataFrame umgewandelt werden.

In [4]:
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, 34, 29, 42],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln']
}
df = pd.DataFrame(daten)
print(df)

    Name  Alter    Stadt
0   Anna     28   Berlin
1  Bernd     34  München
2  Clara     29  Hamburg
3  David     42     Köln


In [5]:
df

Unnamed: 0,Name,Alter,Stadt
0,Anna,28,Berlin
1,Bernd,34,München
2,Clara,29,Hamburg
3,David,42,Köln


### Erstellen eines DataFrame aus einer Liste von Dictionaries

Jedes Dictionary stellt eine Zeile dar.

In [6]:
daten_liste = [
    {'Name': 'Anna', 'Alter': 28, 'Stadt': 'Berlin'},
    {'Name': 'Bernd', 'Alter': 34, 'Stadt': 'München'},
    {'Name': 'Clara', 'Alter': 29, 'Stadt': 'Hamburg'},
    {'Name': 'David', 'Alter': 42, 'Stadt': 'Köln'}
]
df2 = pd.DataFrame(daten_liste)
df2

Unnamed: 0,Name,Alter,Stadt
0,Anna,28,Berlin
1,Bernd,34,München
2,Clara,29,Hamburg
3,David,42,Köln


### Lesen und Schreiben von CSV-/Excel-Dateien

Bevor wir Daten in Pandas einlesen, ist es oft hilfreich, die Datensätze zuerst herunterzuladen und zu inspizieren. Im Folgenden zeigen wir, wie du zwei reale Datensätze – einen CSV-Datensatz und einen Excel-Datensatz – herunterladen kannst. Du kannst die Dateien entweder manuell aus dem Browser herunterladen oder den folgenden Code ausführen, um sie programmgesteuert herunterzuladen.

#### Datensatz (CSV) herunterladen

Wir verwenden den beliebten **tips**-Datensatz aus dem Seaborn-Repository. Dieser Datensatz enthält Informationen zu Restaurantrechnungen und Trinkgeldern. Typische Spalten sind:

- **total_bill:** Gesamtrechnung
- **tip:** Gegebenes Trinkgeld
- **sex:** Geschlecht des Rechnungzahlenden Gastes
- **smoker:** Ob der Gast raucht
- **day:** Wochentag
- **time:** Zeitpunkt (Mittag oder Abendessen)
- **size:** Anzahl der Personen in der Gruppe

Lade den Datensatz herunter, öffne ihn (z. B. in einem Texteditor) und inspiziere ihn, bevor du ihn in Pandas einliest.

In [7]:
import urllib.request

url_csv = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv"
filename_csv = "tips.csv"
urllib.request.urlretrieve(url_csv, filename_csv)
print(f"CSV-Datei wurde als '{filename_csv}' heruntergeladen.")

CSV-Datei wurde als 'tips.csv' heruntergeladen.


#### Datensatz (Excel) herunterladen

Als Beispiel verwenden wir nun den **Supermarket Sales**-Datensatz, der von Plotly bereitgestellt wird. Dieser Datensatz enthält Verkaufsdaten aus Supermärkten, darunter Informationen zu Rechnungs-IDs, Filialen, Städten, Kundentypen, Geschlechtern, Produktlinien, Stückpreisen, Mengen, Steuern, Gesamtsummen, Datum, Zeit, Zahlungsmethoden und mehr.

Lade die Datei herunter, öffne sie (z. B. in Excel) und inspiziere den Inhalt, um einen Eindruck von den enthaltenen Daten zu bekommen.

In [8]:
url_excel = "https://github.com/plotly/datasets/raw/refs/heads/master/supermarket_sales.xlsx"
filename_excel = "supermarket_sales.xlsx"
urllib.request.urlretrieve(url_excel, filename_excel)
print(f"Excel-Datei wurde als '{filename_excel}' heruntergeladen.")

Excel-Datei wurde als 'supermarket_sales.xlsx' heruntergeladen.


#### Lesen und Schreiben der heruntergeladenen Dateien

Nachdem du die Dateien heruntergeladen und inspiziert hast, lesen wir sie in Pandas ein. Anschließend speichern wir den bearbeiteten DataFrame auch als CSV-Datei.

In [9]:
# Lese die heruntergeladene CSV-Datei (tips.csv) ein
df_tips = pd.read_csv(filename_csv)
print("Erste 5 Zeilen des 'tips'-Datensatzes:")
df_tips.head()

Erste 5 Zeilen des 'tips'-Datensatzes:


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [10]:
# Schreibe den DataFrame in eine neue CSV-Datei (ohne Index)
df_tips.to_csv("tips_output.csv", index=False)
print("\nDie Datei 'tips_output.csv' wurde erstellt.")


Die Datei 'tips_output.csv' wurde erstellt.


#### Lesen der heruntergeladenen Excel-Datei

Lies den Excel-Datensatz (supermarket_sales.xlsx) ein. (Hinweis: Stelle sicher, dass die Bibliothek `openpyxl` installiert ist, falls du .xlsx-Dateien einliest.)

In [11]:
# Lese die heruntergeladene Excel-Datei ein
df_excel = pd.read_excel(filename_excel)
print("Erste 5 Zeilen des Excel-Datensatzes (Supermarket Sales):")
df_excel.head()

Erste 5 Zeilen des Excel-Datensatzes (Supermarket Sales):


Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross income,Rating
0,316-68-6352,A,Yangon,Member,Female,Food and beverages,36.36,2,3.636,76.356,2019-01-21,10:00:00,Cash,72.72,3.636,7.1
1,522-57-8364,A,Yangon,Member,Male,Fashion accessories,51.34,8,20.536,431.256,2019-01-31,10:00:00,Ewallet,410.72,20.536,7.6
2,679-22-6530,B,Mandalay,Normal,Female,Sports and travel,40.62,2,4.062,85.302,2019-01-17,10:01:00,Credit card,81.24,4.062,4.1
3,606-80-4905,C,Naypyitaw,Member,Female,Sports and travel,19.15,6,5.745,120.645,2019-01-29,10:01:00,Credit card,114.9,5.745,6.8
4,426-39-2418,C,Naypyitaw,Normal,Male,Electronic accessories,61.41,7,21.4935,451.3635,2019-01-14,10:02:00,Cash,429.87,21.4935,9.8


### Grundlegende Attribute eines DataFrame

Einige wichtige Eigenschaften eines DataFrame sind:

- `df.shape` – Dimensionen (Zeilen, Spalten)
- `df.dtypes` – Datentypen der Spalten
- `df.columns` – Spaltennamen
- `df.index` – Zeilenindex

In [12]:
print('Shape:', df.shape)
print('Datentypen:')
print(df.dtypes)
print('Spalten:', df.columns)
print('Index:', df.index)

Shape: (4, 3)
Datentypen:
Name     object
Alter     int64
Stadt    object
dtype: object
Spalten: Index(['Name', 'Alter', 'Stadt'], dtype='object')
Index: RangeIndex(start=0, stop=4, step=1)


## 3. Daten Selektion und Filterung

### Auswahl von Zeilen und Spalten

Mit den Methoden `.loc` und `.iloc` können wir gezielt Zeilen und Spalten auswählen.

- **.loc:** Auswahl anhand von Labeln (z. B. Spaltennamen, Index-Bezeichnungen)
- **.iloc:** Auswahl anhand von integer-basierten Positionen

In [13]:
# Beispiel-DataFrame erstellen
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
}
df_filter = pd.DataFrame(daten)
df_filter

Unnamed: 0,Name,Alter,Stadt
0,Anna,28,Berlin
1,Bernd,34,München
2,Clara,29,Hamburg
3,David,42,Köln
4,Eva,25,Stuttgart


In [14]:
# Auswahl der Spalten 'Name' und 'stadt' mit .loc
df_filter.loc[:, ['Name', 'Stadt']]

Unnamed: 0,Name,Stadt
0,Anna,Berlin
1,Bernd,München
2,Clara,Hamburg
3,David,Köln
4,Eva,Stuttgart


In [15]:
# Auswahl der ersten drei Zeilen mit .iloc
print('\nErste drei Zeilen:')
df_filter.iloc[:3]


Erste drei Zeilen:


Unnamed: 0,Name,Alter,Stadt
0,Anna,28,Berlin
1,Bernd,34,München
2,Clara,29,Hamburg


### Bedingte Filterung und Sortierung

Filtern nach Bedingungen (z. B. Alter > 30) und Sortieren der Daten mit `sort_values` oder `sort_index`.

In [16]:
# Bedingte Filterung: Zeilen, in denen Alter > 30
df_filtered = df_filter[df_filter['Alter'] > 30]
print('Zeilen mit Alter > 30:')
df_filtered

Zeilen mit Alter > 30:


Unnamed: 0,Name,Alter,Stadt
1,Bernd,34,München
3,David,42,Köln


Nach alter sortieren.

In [17]:
# Sortierung: Nach Alter aufsteigend sortieren
df_sorted = df_filter.sort_values(by='Alter')
print('\nNach Alter sortiert:')
df_sorted


Nach Alter sortiert:


Unnamed: 0,Name,Alter,Stadt
4,Eva,25,Stuttgart
0,Anna,28,Berlin
2,Clara,29,Hamburg
1,Bernd,34,München
3,David,42,Köln


### Übung: Indexierung und Filterung

Erstelle einen DataFrame mit den folgenden Daten:

| Name   | Alter | Stadt     |
|--------|-------|-----------|
| Anna   | 28    | Berlin    |
| Bernd  | 34    | München   |
| Clara  | 29    | Hamburg   |
| David  | 42    | Köln      |
| Eva    | 25    | Stuttgart |

Führe folgende Aufgaben aus:

1. Wähle alle Zeilen aus, in denen das Alter größer als 30 ist.
2. Wähle nur die Spalte `Stadt` aus.
3. Sortiere den DataFrame nach `Name` absteigend.

In [18]:
df_uebung = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David', 'Eva'],
    'Alter': [28, 34, 29, 42, 25],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln', 'Stuttgart']
})

# 1. Filter: Alter > 30
print('Alter > 30:')
df_uebung[df_uebung['Alter'] > 30]


Alter > 30:


Unnamed: 0,Name,Alter,Stadt
1,Bernd,34,München
3,David,42,Köln


In [19]:
# 2. Nur Spalte 'Stadt'
print('\nSpalte Stadt:')
df_uebung['Stadt']


Spalte Stadt:


0       Berlin
1      München
2      Hamburg
3         Köln
4    Stuttgart
Name: Stadt, dtype: object

In [20]:
# 3. Sortierung nach Name absteigend
print('\nNach Name absteigend sortiert:')
df_uebung.sort_values(by='Name', ascending=False)


Nach Name absteigend sortiert:


Unnamed: 0,Name,Alter,Stadt
4,Eva,25,Stuttgart
3,David,42,Köln
2,Clara,29,Hamburg
1,Bernd,34,München
0,Anna,28,Berlin


## 4. Datenbereinigung und Transformation

### Fehlende Werte behandeln

Häufig kommen in Datensätzen fehlende Werte vor. Mit folgenden Methoden können wir diese behandeln:

- `isnull()` oder `isna()`: Überprüfen, ob Werte fehlen
- `fillna()`: Fehlende Werte durch einen bestimmten Wert ersetzen
- `dropna()`: Zeilen (oder Spalten) mit fehlenden Werten entfernen

In [21]:
# Beispiel-DataFrame mit fehlenden Werten
df_missing = pd.DataFrame({
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, None, 29, 42],
    'Stadt': ['Berlin', 'München', None, 'Köln']
})
print('Original DataFrame mit fehlenden Werten:')
df_missing


Original DataFrame mit fehlenden Werten:


Unnamed: 0,Name,Alter,Stadt
0,Anna,28.0,Berlin
1,Bernd,,München
2,Clara,29.0,
3,David,42.0,Köln


In [22]:
# Überprüfe, welche Werte fehlen
print('\nFehlende Werte?')
df_missing.isnull()


Fehlende Werte?


Unnamed: 0,Name,Alter,Stadt
0,False,False,False
1,False,True,False
2,False,False,True
3,False,False,False


In [23]:
# Ersetze fehlende Werte in der Spalte 'Alter' durch den Mittelwert
alter_mean = df_missing['Alter'].mean()
df_missing['Alter'] = df_missing['Alter'].fillna(alter_mean)

# Entferne Zeilen, in denen in der Spalte 'Stadt' Werte fehlen
df_cleaned = df_missing.dropna(subset=['Stadt'])
print('\nBereinigter DataFrame:')
df_cleaned


Bereinigter DataFrame:


Unnamed: 0,Name,Alter,Stadt
0,Anna,28.0,Berlin
1,Bernd,33.0,München
3,David,42.0,Köln


### Spalten umbenennen, Datentypen ändern und Funktionen anwenden

Mit `rename()` lassen sich Spalten umbenennen. Mit `astype()` können Datentypen geändert werden.
Außerdem können wir mit `apply()` und `map()` Funktionen auf Spalten anwenden.

In [24]:
df_trans = pd.DataFrame({
    'name': ['anna', 'bernd', 'clara'],
    'alter': ['28', '34', '29']
})

# Spalten umbenennen (z. B. in Großschreibung) und Datentyp ändern
df_trans = df_trans.rename(columns={'name': 'Name', 'alter': 'Alter'})
df_trans['Alter'] = df_trans['Alter'].astype(int)

# Anwenden einer Funktion: Großschreibung für alle Namen
df_trans['Name'] = df_trans['Name'].apply(lambda x: x.capitalize())
df_trans


Unnamed: 0,Name,Alter
0,Anna,28
1,Bernd,34
2,Clara,29


In [25]:
# Mit map() einen zusätzlichen Wert berechnen (z. B. Alter + 5)
df_trans['Alter_plus_5'] = df_trans['Alter'].map(lambda x: x + 5)
df_trans

Unnamed: 0,Name,Alter,Alter_plus_5
0,Anna,28,33
1,Bernd,34,39
2,Clara,29,34


### Zusätzliche Übungen mit dem **tips**-Datensatz

In diesen Übungen arbeiten wir weiter mit dem **tips**-Datensatz. Versuche, die folgenden Aufgaben selbstständig zu lösen.

#### Aufgabe 1: Gruppierung und Aggregation

Berechne den durchschnittlichen `total_bill` (Gesamtrechnung) für jeden Wochentag (`day`).

In [26]:
# Gruppiere den tips-Datensatz nach 'day' und berechne den durchschnittlichen total_bill
avg_total_bill_by_day = df_tips.groupby('day')['total_bill'].mean()
print('Durchschnittlicher total_bill pro Tag:')
avg_total_bill_by_day

Durchschnittlicher total_bill pro Tag:


day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
Name: total_bill, dtype: float64

#### Aufgabe 2: Neue Spalte – Trinkgeld in Prozent

Erstelle eine neue Spalte namens `Tip Percentage`, die den Anteil des Trinkgelds (`tip`) an der Gesamtrechnung (`total_bill`) in Prozent darstellt. (Hinweis: Die Formel lautet: `(tip / total_bill) * 100`.)

In [27]:
# Erstelle die neue Spalte 'Tip Percentage'
df_tips['Tip Percentage'] = (df_tips['tip'] / df_tips['total_bill']) * 100
print('\nErste 5 Zeilen mit neuer Spalte (Tip Percentage):')
df_tips[['total_bill', 'tip', 'Tip Percentage']].head()


Erste 5 Zeilen mit neuer Spalte (Tip Percentage):


Unnamed: 0,total_bill,tip,Tip Percentage
0,16.99,1.01,5.944673
1,10.34,1.66,16.054159
2,21.01,3.5,16.658734
3,23.68,3.31,13.978041
4,24.59,3.61,14.680765


#### Aufgabe 3: Filtern

Filtere den `tips`-Datensatz, um nur die Rechnungen anzuzeigen, bei denen der `total_bill` größer als 25 ist.

In [28]:
# Filtere den Datensatz: total_bill > 25
high_total_bill = df_tips[df_tips['total_bill'] > 25]
print('\nRechnungen mit total_bill > 25 (erste 5 Zeilen):')
high_total_bill.head()


Rechnungen mit total_bill > 25 (erste 5 Zeilen):


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,Tip Percentage
5,25.29,4.71,Male,No,Sun,Dinner,4,18.623962
7,26.88,3.12,Male,No,Sun,Dinner,4,11.607143
11,35.26,5.0,Female,No,Sun,Dinner,4,14.180374
23,39.42,7.58,Male,No,Sat,Dinner,4,19.228818
39,31.27,5.0,Male,No,Sat,Dinner,3,15.989767


## Zusammenfassung und Nächste Schritte

In diesem Notebook haben wir gelernt:

- Was Pandas ist und wie es uns bei der Datenanalyse hilft
- Wie man Series und DataFrames erstellt
- Wie man CSV- (und Excel-) Dateien liest und schreibt
- Grundlegende Attribute eines DataFrame (Form, Datentypen, Spalten, Index)
- Wie man Daten selektiert, filtert und sortiert
- Wie man fehlende Werte bereinigt und Daten transformiert
  (z. B. durch Umbenennen, Typkonvertierung und Anwenden von Funktionen)

Arbeite weiter an praktischen Übungen und erkunde die weiterführenden Funktionen von Pandas, wie z. B. Gruppierungen (`groupby`) und Zusammenführungen (`merge`).