# **Pandas Introduction**

Tabellen sind das grundlegende Werkzeug, mit dem man als Data Scientis, Engineer und Analyst tagtäglich zu tun hat. So trocken das Thema erstmal klingen mag, sind Tabelle mächtige Werkzeuge und sobald man den Dreh halbwegs heraus hat, kann die Arbeit mit ihnen auch spannend sein.

- Speichern und Abrufen von Daten
    - Stammdaten
    - Messdaten
    - Modellparameter
- Aggregieren
    - Counts
    - Statistische Größen (Mittelwert, Standardabweichung etc.)
- Zusammenführen (Joins)


Tabellen entstehen auf unterschiedliche Art und Weisen: Sie werden entweder per Hand erstellt, aus Rohdaten (.txt, .csv. .xlsx, .parquet Dateien usw.) erstellt oder entstehen durch Zusammenfügen und Aggregieren bereits existierender Tabellen.

In Python wird die Arbeit mit Tabellen durch sogenannte DataFrames realisiert. In dieser Intro wirst du pandas kennenlernen. Pandas ist ein Package, das under the hood mit numpy arbeitet und daher besonders effizient ist.

## **0. Import**
Als erstes muss das package import werden. Es ist gängig, pandas mit dem Kürzel 'pd' zu importieren. Das ist schlanker und weil es so etabliert ist, können auch andere Entwickler was damit anfangen. Es ist außerdem empfehlenswert, sich numpy dazu zu importieren.

In [1]:
import pandas as pd
import numpy as np

## **1. Erstellen von DataFrames**

Ein DataFrame ist eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle in Zeilen und Spalten organisiert. In diesem Format ist es möglich, verschiedene Datentypen (strings, dates, floats, sogar arrays) zu speichern. Jede Spalte hat einen Datentyp (z.B.: Name -> string, Alter -> integer, Datum -> date) und jede Zeile enthält einen Eintrag aus jeder Spalte. Es ist ziemlich genauso wie die Tabellen. denen man so im Alltag begegnet. DataFrames sind quasi die technische Umsetzung von Tabellen, die zusätzliche Funktionalitäten für die Datenbereinigung,  -transformation und -analyse bereitstellt.

in pandas können DataFrames erstellt werden, indem sie durch ein Dictionary oder eine Liste manuell erstellt oder aus Rohdateien ausgelesen werden. Üblicherweise erhalten Variablen, denen ein DataFrame zugewiesen wurde, ein 'df' im Namen, z.B. 'products_df' oder 'df_orders'. Das ist für die Readibility und Maintainibility in größeren Projekten angenehmer.

### **1.1 Manuelles Erstellen**
DataFrames erstellt man zum Glück eher selten per Hand, allerdings ist es für schnelle Tests sehr nützlich. DataFrames können mit Listen oder Dictionaries erstellt werden:
- Dictionary
    - Erstelle ein dict mit den Wertepaaren "Spalte": ["Eintrag 1", "Eintrag 2", "Eintrag 3" usw...]
    - `pd.DataFrame()` mit dem dict als Argument

In [2]:
data_dict = {   # Alle Listen müssen gleich lang sein!!
    "Name": ["Alice", "Bob", "Cathy"],
    "Age": [25, 18, 44],
    "City": ["Oldenburg", "Nordenham", "Bremen"]
}

df = pd.DataFrame(data_dict)


- Liste
    - Erstelle eine verschachtelte Liste der Form\
    [\
        &ensp;&ensp;["Eintrag 1 Spalte 1", "Eintrag 1 Spalte 2", "Eintrag 1 Spalte 3" ..],\
        &ensp;&ensp;["Eintrag 2 Spalte 1", "Eintrag 2 Spalte 2", "Eintrag 2 Spalte 3" ..],\
        &ensp;&ensp;usw ...\
    ]
    - Erstelle eine Liste mit den Spaltennamen
    - 'pd.DataFrame()`mit der Liste der Einträge und der Spaltenliste als Argumente

In [3]:
data_list = [ # Hier müssen die Listen nicht alle gleich lang sein, dafür erhält man dann Null Values für fehlende Einträge
    ["Alice", 25, "Oldenburg"],
    ["Bob", 18, "Nordenham"],
    ["Cathy", 44, "Bremen"]
]
columns = ["Name", "Age", "City"]

df = pd.DataFrame(data_list, columns=columns)


### **1.2 Auslesen von Rohdateien**
Öfter ist es der Fall, dass Daten in Form von json-, csv-, txt- oder Excel-Dateien ausgelesen werden.

In [4]:
csv_path = "../data_sets/intro.csv"
json_path = "../data_sets/intro.json"

df_from_csv = pd.read_csv(csv_path)
df_from_json = pd.read_json(json_path)

display(df_from_csv)
display(df_from_json)

Unnamed: 0,Name,Age,City
0,Alice,25,Oldenburg
1,Bob,18,Nordenham
2,Cathy,44,Bremen


Unnamed: 0,Name,Age,City
0,Alice,25,Oldenburg
1,Bob,18,Nordenham
2,Cathy,44,Bremen


## **2. Anzeigen von DataFrames**
DataFrames und dessen Metadaten können angezeigt werden.
- `display()`: Zeigt die Tabelle an.
- `.info()`: Zeigt das Schema und Metadaten der Tabelle an, also die Spalten, Anzahl der Nicht-Null-Einträge, Datentypen und Speichergröße.
- `.describe()`: Gibt Statistiken der numerischen Spalten aus.

In [5]:
# Zeig die Tabelle
display(df)

Unnamed: 0,Name,Age,City
0,Alice,25,Oldenburg
1,Bob,18,Nordenham
2,Cathy,44,Bremen


In [6]:
# Zeig Schema und Metadaten der Tabelle
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   City    3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [7]:
# Zeig Statistiken der numerischen Spalten
df.describe()

Unnamed: 0,Age
count,3.0
mean,29.0
std,13.453624
min,18.0
25%,21.5
50%,25.0
75%,34.5
max,44.0


## **3. Manipulieren von DataFrames**
Tabellen sind nicht nur zum gucken da, sondern auch zum Anfassen. Es gibt eine Reihe von Möglichkeiten, Tabellen zu transformieren.

### **3.1 Manipulieren einer oder mehrerer Spalten**
In DataFrames können bestehende Spalten verändert oder neue Spalten hinzugefügt werden.

In [8]:
# Erzeuge eine neue Spalte auf Basis einer oder mehreren existierenden Spalten
df["AgeInDays"] = df["Age"] * 365
df["NameAndCity"] = df["Name"] + ", " + df["City"]

# Füll eine neue Spalte mit einem konstanten Wert
df["constant"] = "constant"

# Füge einen Numpy-Array oder eine Liste als Spalte hinzu
# Wichtig: Der Array muss die selbe Länge haben wie die Tabelle
df["array"] = np.random.uniform(0, 1, 3)      # numpy array
df["liste"] = ["a", "b", "c"]                 # Liste

# Verändere eine bestehende Spalte
df["Name"] = df["Name"] + "_changed"

display(df)

Unnamed: 0,Name,Age,City,AgeInDays,NameAndCity,constant,array,liste
0,Alice_changed,25,Oldenburg,9125,"Alice, Oldenburg",constant,0.185749,a
1,Bob_changed,18,Nordenham,6570,"Bob, Nordenham",constant,0.982858,b
2,Cathy_changed,44,Bremen,16060,"Cathy, Bremen",constant,0.356348,c


### **3.2 Filtern von DataFrames**
Es ist möglich, nur Teile eines DataFrames abzugreifen, z.B. nur bestimmte Zeilen und Spalten. Falls man nur eine einzige Spalte haben will, dann gibt man den Spaltennamen in eckigen Klammern an, ähnlich wie bei einem dict. Falls man mehrere Spalten haben will, dann übergibt man eine Liste (auch in eckigen Klammern) mit den gewünschten Spaltennamen.

In [9]:
# Nur die 'Name'-Spalte
names = df["Name"]
display(names)

# Die Spalten 'Name' und 'Age' (denk an die doppelte eckige Klammer)
name_age = df[["Name", "Age"]]
display(name_age)

0    Alice_changed
1      Bob_changed
2    Cathy_changed
Name: Name, dtype: object

Unnamed: 0,Name,Age
0,Alice_changed,25
1,Bob_changed,18
2,Cathy_changed,44


Es ist außerdem mögich, ein DataFrame (oder nur ein paar Spalten davon) nach einer Bedingung zu filtern. Dies geschieht über eine Art Maske, die über das DataFrame gelegt wird. Die Maske ist von der Form einer logischen Aussage.

In [10]:
# Filter nach dem Namen Bob
mask_name = df["Name"] == "Bob"
display(
    df[mask_name]
)

# Filter nach Alter mindestens 20 Jahre
mask_age = df["Age"] >= 20
display(
    df[mask_age]
)

Unnamed: 0,Name,Age,City,AgeInDays,NameAndCity,constant,array,liste


Unnamed: 0,Name,Age,City,AgeInDays,NameAndCity,constant,array,liste
0,Alice_changed,25,Oldenburg,9125,"Alice, Oldenburg",constant,0.185749,a
2,Cathy_changed,44,Bremen,16060,"Cathy, Bremen",constant,0.356348,c


### **3.3 DataFrame Group By**
In vielen Fällen möchte man nicht nur stumpf den Durchschnitt aller Daten berechnen, sondern den Durchschnitt pro Kategorie. Wenn man zum Beispiel eine Tabelle mit allen Schülern einer Schule hat, in der Name, Alter und Klassenstufe eingetragen sind, ist der Altersdurchschnitt der gesamten Schule nicht wirklich aussagekräftig (außer vielleicht eine Tendenz, welche Klassenstufe die meisten Schüler hat). Eher interessant ist dann der Altersdurchschnitt für jede Klassenstufe. Das würde man mit einem `.groupby()` erhalten.
Die `.groupby()`-Methode nimmt den Spaltennamen als Argument an, in die die interessierende Größe (z.B. Durchschnitt, Anzahl, Summe, Maximum/Minimum) gruppiert werden soll. In unserem Fall der Schule wäre das die Klassenstufe. Die Funktion returned ein `DataFrameGroupBy`-Objekt, das die Informationen über die gruppierten Daten enthält. An dieses hängen wir die entsprechende Aggregation:

- Durchschnitt: `.mean()`
- Summe: `.sum()`
- Anzahl: `.count()`

Insgesamt ist die Syntax also so:
`df_grouped = df.groupby("category").aggregation()`

In [11]:
# lies die Schülerdaten aus
path = "/Users/jr/Documents/GitHub/Ausbildung/data_sets/students.csv"
df_students = pd.read_csv(path)
display(df_students)

Unnamed: 0,Name,Alter,Klassenstufe
0,Sara Voigt,14,9
1,Philipp Frank,12,7
2,Samuel Krüger,14,9
3,Hannah Lorenz,12,7
4,Paul Koch,10,5
...,...,...,...
195,Clara Schmitt,10,5
196,Lena Schröder,17,11
197,Elias Hoffmann,7,2
198,Elias May,14,9


Wir wählen aus der Tabelle nun die Spalten, die wir dafür brauchen. Wenn wir den Altersdurchschnitt pro Klassenstufe erhalten wollen, brauchen wir nur das Alter und die Klassenstufe.

In [12]:
# Das Argument as_index=False verhindert, dass die gruppierte Größe als Index verwendet wird
display(df_students[["Alter", "Klassenstufe"]].groupby("Klassenstufe", as_index=False).mean())

Unnamed: 0,Klassenstufe,Alter
0,1,6.076923
1,2,7.111111
2,3,8.0625
3,4,9.090909
4,5,10.15
5,6,11.222222
6,7,12.105263
7,8,13.111111
8,9,14.291667
9,10,15.25


Falls wir an mehreren Größen interessiert sind, können wir diese mittels`.agg()` sammeln. Wir möchten jetzt nicht nur den Altersdurchschnitt für jede Klasse, sondern auch das maximale und das minimale Alter haben.

In [13]:
display(
    df_students[["Alter", "Klassenstufe"]].groupby("Klassenstufe", as_index=False).agg(["mean", "min", "max"])
)

Unnamed: 0_level_0,Klassenstufe,Alter,Alter,Alter
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,max
0,1,6.076923,6,7
1,2,7.111111,7,8
2,3,8.0625,8,9
3,4,9.090909,9,10
4,5,10.15,10,11
5,6,11.222222,11,12
6,7,12.105263,12,13
7,8,13.111111,13,14
8,9,14.291667,14,15
9,10,15.25,15,16


### **3.4 DataFrame Joins**

Mit DataFrame Merges kann man zwei Tabellen verknüpfen. Damit Tabellen auch sinnvoll miteinander gemerged werden können, brauchen beide Tabellen mindestens eine 'gemeinsame Spalte', d.h. beide Tabellen enthalten eine Spalte, die dieselbe Funktion hat. In den meisten Fällen ist es eine ID oder ein Datum, kann im Allgemeinen aber alles Mögliche sein. Somit ist es dann möglich, einem Wert aus einer Tabelle einen Wert aus einer anderen Tabelle zuzuordnen.

Im unteren Beispiel ist eine Tabelle mit Name, Alter und Stadt und eine weitere Tabelle mit Stadt, PLZ und Land. Mit einem Merge können wir dann z.B. jedem Namen ein Land zuordnen.

In [14]:
# erstes DataFrame mit Name, Alter und Stadt
df_1 = pd.DataFrame(
    data=[
        ["Alice", 25, "Oldenburg"],
        ["Bob", 18, "Kopenhagen"],
        ["Cathy", 44, "Wien"],
        ["Dagobert", 12, "Amsterdam"]
    ],
    columns=["Name", "Age", "City"]
)

# zweites DataFrame mit mehr Infos zu den Städten
df_2 = pd.DataFrame(
    data=[
        ["Oldenburg", "26123", "Germany"],
        ["Kopenhagen", "1064", "Denmark"],
        ["Wien", "1140", "Austria"],
        ["London", "EC1A AA", "United Kingdom"]
    ],
    columns=["City", "PostalCode", "Country"]
)

display(df_1)
display(df_2)

Unnamed: 0,Name,Age,City
0,Alice,25,Oldenburg
1,Bob,18,Kopenhagen
2,Cathy,44,Wien
3,Dagobert,12,Amsterdam


Unnamed: 0,City,PostalCode,Country
0,Oldenburg,26123,Germany
1,Kopenhagen,1064,Denmark
2,Wien,1140,Austria
3,London,EC1A AA,United Kingdom


Hier ist 'City' die gemeinsame Spalte, über die wir beide Tabellen vereinen wollen. Dazu benutzt man die `.merge()`-Methode, der wir drei Argumente geben:
- `right`: Das andere ("rechte") DataFrame, das gemerged werden soll
- `on`: An welche Spalte oder Spalten gemerged wird
- `how`: Wie gemerged wird (optional)
    - left: Alle Einträge aus der linken Tabelle bleiben. Es werden Zeilen aus der rechten Tabelle gejoined, die ein Match in der linken Tabelle haben. Falls eine Zeile aus der linken Tabelle kein Match in der rechten Tabelle hat, bleibt die Zeile bestehen, aber enthält NULL-Einträge in den Spalten der rechten Tabelle.
    - right: Alle Einträge aus der rechten Tabelle bleiben. Analog zum left merge.
    - inner: Es bleiben nur Einträge, die in beiden Tabellen vorkommen. Aus beiden Tabellen werden nur Zeilen gemerged, die ein Match haben. Aus beiden Tabellen können also Zeilen fliegen. 
    - outer: Alle Einträge bleiben. Es bleiben NULL-Einträge in den Spalten, in denen es kein Match gab.

Die häufigsten Merges sind left und inner Joins.

In [15]:
# df_1 ist die linke Tabelle
df_merged_left = df_1.merge(
    right=df_2, # rechte Tabelle
    on="City",
    how="left" # left join, d.h. bei Dagobert findest du NULL Werte bei der Postleitzahl und Land
)
display(df_merged_left)

Unnamed: 0,Name,Age,City,PostalCode,Country
0,Alice,25,Oldenburg,26123.0,Germany
1,Bob,18,Kopenhagen,1064.0,Denmark
2,Cathy,44,Wien,1140.0,Austria
3,Dagobert,12,Amsterdam,,


In [16]:
# df_1 ist die linke Tabelle
df_merged_left = df_1.merge(
    right=df_2, # rechte Tabelle
    on="City",
    how="right" # right join, also gibt es keinen Namen oder Alter für London
)
display(df_merged_left)

Unnamed: 0,Name,Age,City,PostalCode,Country
0,Alice,25.0,Oldenburg,26123,Germany
1,Bob,18.0,Kopenhagen,1064,Denmark
2,Cathy,44.0,Wien,1140,Austria
3,,,London,EC1A AA,United Kingdom


In [17]:
# df_1 ist die linke Tabelle
df_merged_left = df_1.merge(
    right=df_2, # rechte Tabelle
    on="City",
    how="inner" # inner, hier werden nur die Matches zwischen den Tabellen reingepackt
)
display(df_merged_left)

Unnamed: 0,Name,Age,City,PostalCode,Country
0,Alice,25,Oldenburg,26123,Germany
1,Bob,18,Kopenhagen,1064,Denmark
2,Cathy,44,Wien,1140,Austria


In [18]:
# df_1 ist die linke Tabelle
df_merged_left = df_1.merge(
    right=df_2, # rechte Tabelle
    on="City",
    how="outer" # es wird alles gemerged, für Dagobert gibt es aber keine Info über das Land, und für London gibt es keinen Namen
)
display(df_merged_left)

Unnamed: 0,Name,Age,City,PostalCode,Country
0,Dagobert,12.0,Amsterdam,,
1,Bob,18.0,Kopenhagen,1064,Denmark
2,,,London,EC1A AA,United Kingdom
3,Alice,25.0,Oldenburg,26123,Germany
4,Cathy,44.0,Wien,1140,Austria


### **Aufgabe**: Gegeben sind unten zwei Tabellen: Eine Tabelle mit Einwohnern und eine mit Städten. Erweitere die Tabelle mit den Städten um eine weitere Spalte, die das Durchschnittsalter der Einwohner enthält.

In [19]:
# erstes DataFrame mit Name, Alter und Stadt
df_people = pd.DataFrame(
    data=[
        ["Alice", 25, "Oldenburg"],
        ["Bob", 18, "Kopenhagen"],
        ["Cathy", 44, "Wien"],
        ["Dagobert", 12, "Amsterdam"],
        ["Edgar", 34, "Oldenburg"],
        ["Fiona", 81, "Amsterdam"],
        ["Giselinde", 54, "London"],
        ["Harald", 22, "Amsterdam"],
        ["Ingmar", 40, "Nordenham"]
    ],
    columns=["Name", "Age", "City"]
)


# zweites DataFrame mit mehr Infos zu den Städten
df_cities = pd.DataFrame(
    data=[
        ["Oldenburg", "26123", "Germany"],
        ["Kopenhagen", "1064", "Denmark"],
        ["Wien", "1140", "Austria"],
        ["London", "EC1A AA", "United Kingdom"]
    ],
    columns=["City", "PostalCode", "Country"]
)

## **4. Datum und Zeit in DataFrames**

In sehr vielen Fällen enthalten Tabellen Zeitserien oder Daten, die mit einem Zeitstempel versehen sind. Allerdings ist es schwer, sie vernünftig mit den 'gängigen' Datentypen wie floats, booleans oder strings zu erfassen, z.B. wenn man Zeitdifferenzen berechnen will oder Zeitstempel miteinander vergleichen will. In python gibt es dafür das datetime package, das natürlich von pandas unterstützt wird.

Fangen wir an mit dem import

In [20]:
from datetime import datetime, date, time, timedelta

### **4.1 Datetime Objekte**

Datum und Zeit lassen sich in verschiedene Formate bringen.

In [21]:
# Nur Zeit
t = time(
    hour=1,
    minute=39,
    second=10,
    microsecond=2 # ja, sogar Mikrosekunden
)
print(f"Nur Zeit: {t}\n")

# Nur Datum
d = date(
    year=2012,
    month=12,
    day=21
)

print(f"Nur Datum: {d}\n")

# Datum + Zeit
dt = datetime(
    year=2012,
    month=12,
    day=21,
    hour=1,
    minute=39,
    second=10,
    microsecond=2
)

print(f"Datum und Zeit: {dt}")

Nur Zeit: 01:39:10.000002

Nur Datum: 2012-12-21

Datum und Zeit: 2012-12-21 01:39:10.000002


Das alles per Hand einzutippen ist natürlich nervig und mühsam. Zeitstempel lassen sich zum Glück auch über ein string-Format in einen date(time)-Type überführen. Die umgekehrte Richtung geht natürlich auch. Hierfür gibt es die `.strptime()` und `.strftime()` Methoden:

- `strptime`: Erstellt ein `datetime`-Objekt aus einem string. Es nimmt zwei Argumente entgegen: Das Datum als string und das Format.
- `strftime`: Macht aus einem `datetime`-Objekt einen string.

In [22]:
# Erstelle datetime-Object aus string
datetime_string = "2023-04-08 15:09:44"                                      # Datum als string im Format %Y-%m-%d (Jahr-Monat-Tag)
datetime_object = datetime.strptime(datetime_string, "%Y-%m-%d %H:%M:%S")    # Datetime-Object wird erstellt, übergebe den string und das Format, in dem das Datum angegeben ist

# Erstelle datetime string aus object
datetime_string_reformatted = datetime_object.strftime("%Y-%m-%d %H:%M:%S")

### **4.2 Datetime in pandas**

Pandas unterstützt Datetime-Objekte. Aus .txt- oder .csv-Dateien geladene DataFrames haben erstmal überall strings in den Spalten. Sind Zeitstempel dabei, lassen sich diese mit der Methode `.to_datetime()` in Datetime-Objekte umformatieren.

In [23]:
# Erstelle DataFrame mit den Geburtstagen als strings
df_birthdays = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Cathy"],
        "Birthday": ["1996-11-07", "2001-10-01", "2005-01-18"]
    }
)

# Konvertiere die Geburtstage in Datetime-Objects
df_birthdays["Birthday"] = pd.to_datetime(df_birthdays["Birthday"])

# In der .info() sieht man jetzt, dass sich der dtype von 'Birthdays' verändert hat
df_birthdays.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Name      3 non-null      object        
 1   Birthday  3 non-null      datetime64[ns]
dtypes: datetime64[ns](1), object(1)
memory usage: 180.0+ bytes


Spalten, die einen datetime-Type haben, verfügen über den Accessor `.dt`, um auf Datums- und Zeiteigenschaften zuzugreifen. Einige Beispiele:
- `.year`: Gibt das Jahr des Datums aus
- `.month`: Gibt den Monat des Datums aus
- `.day_of_week`: Gibt den Wochentag, kodiert als Zahl 0-6, aus
- `.day_of_year`: Gibt den Wochentag des Jahres aus, kodiert als Zahl 1-365 (366 wenn Schaltjahr)
- `.day_name()`: Gibt den Namen des Wochentags aus

In [24]:
# Füge Spalten mit Infos der Geburtstage hinzu
df_birthdays["DayOfYear"] = df_birthdays["Birthday"].dt.day_of_year
df_birthdays["WeekdayName"] = df_birthdays["Birthday"].dt.day_name()
display(df_birthdays)

Unnamed: 0,Name,Birthday,DayOfYear,WeekdayName
0,Alice,1996-11-07,312,Thursday
1,Bob,2001-10-01,274,Monday
2,Cathy,2005-01-18,18,Tuesday


### **4.3 Timedeltas und Date Ranges**
Das Datetime-Format erlaubt es, mit Datum und Zeit zu rechnen. In vielen Fällen ist die Zeitspanne zwischen den Daten von Interesse, wofür man die Differenz zwischen zwei Zeitstempeln braucht. Im datetime-Package gibt es dafür die `timedelta`-Klasse. Man erhält ein `timedelta`, indem man zwei Zeitstempel von einander 'abzieht'.

In [25]:
# Erstelle zwei Zeitstempel
t1 = date(2025, 9, 14)
t2 = date(2025, 9, 9)

# Bilde Differenz
dt = t1 - t2

print(dt)
print(type(dt))

5 days, 0:00:00
<class 'datetime.timedelta'>


Man kann auch direkt ein `timedelta`-Objekt erzeugen, indem man die `timedelta()`-Methode aufruft. Als Argument können Tage, Jahre, Minuten etc. übergeben werden. Das `timedelta` kann dann zu einem `datetime`-Objekt addiert werden.

In [26]:
t_start = date(2025, 9, 14)
delta_t = timedelta(days=10)

t_end = t_start + delta_t

print(t_end)
print(type(t_end))

2025-09-24
<class 'datetime.date'>


In pandas kann man Daten ebenfalls einfach subtrahieren. Wenn man manuell eine Spalte mit einem timedelta erstellen will, nutzt man `pd.Timedelta()`.

In [27]:
# Füge Spalte mit dem aktuellem Datum der Birthday-Tabelle hinzu
df_birthdays["CurrentDate"] = pd.to_datetime(date.today())

# Bilde Differenz zwischen aktuellem Datum und Geburtstag
df_birthdays["CurrentAge"] = (df_birthdays["CurrentDate"] - df_birthdays["Birthday"]).dt.days / 365 # Leider gibt es keine direkte Konvertierung in Jahre..
display(df_birthdays)

Unnamed: 0,Name,Birthday,DayOfYear,WeekdayName,CurrentDate,CurrentAge
0,Alice,1996-11-07,312,Thursday,2026-01-05,29.180822
1,Bob,2001-10-01,274,Monday,2026-01-05,24.279452
2,Cathy,2005-01-18,18,Tuesday,2026-01-05,20.978082


In [28]:
df_birthdays["HundredDays"] = pd.Timedelta(days=100)
df_birthdays["DateInHundredDays"] = df_birthdays["CurrentDate"] + df_birthdays["HundredDays"]
display(df_birthdays)

Unnamed: 0,Name,Birthday,DayOfYear,WeekdayName,CurrentDate,CurrentAge,HundredDays,DateInHundredDays
0,Alice,1996-11-07,312,Thursday,2026-01-05,29.180822,100 days,2026-04-15
1,Bob,2001-10-01,274,Monday,2026-01-05,24.279452,100 days,2026-04-15
2,Cathy,2005-01-18,18,Tuesday,2026-01-05,20.978082,100 days,2026-04-15


Für Table Explosions oder Tests lässt sich auch eine Tabelle mit aufeinanderfolgenden Zeitstempeln generieren. Dies erfolgt mit der `pd.date_range()`-Methode. Als Argument werden das Start- und Enddatum übergeben und die Frequenz, d.h. ob die Zeitspanne auf tägliche, monatlicher, stündlicher Basis etc. abgedeckt werden soll.

In [29]:
# Erstelle DataFrame, die jeden Tag des Jahres 2026 als Einträg enthält
df_dates26 = pd.DataFrame(
    data=pd.date_range(start="2026-01-01", end="2026-12-31", freq="D"),
    columns=["Date"]
)

display(df_dates26)

Unnamed: 0,Date
0,2026-01-01
1,2026-01-02
2,2026-01-03
3,2026-01-04
4,2026-01-05
...,...
360,2026-12-27
361,2026-12-28
362,2026-12-29
363,2026-12-30
