In [2]:
import pandas as pd
import numpy as np
from datetime import *

# Wichtige Datumsfunktionen
## Jetzt und Heute

In [6]:
datetime.now()

datetime.datetime(2019, 7, 6, 19, 36, 1, 884844)

In [69]:
date.today()

datetime.date(2019, 7, 4)

# Bestandteile von Zeit und Datum
Orientiert an:


* https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#basics-dt-accessors
* https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

## Erstellen der Beispieldaten

In [23]:
df = pd.DataFrame(pd.date_range('2019-01-01', periods=365, freq='D').astype(str), columns=['Date'])

In [28]:
# überprüfen ob Spalten korrekt als datetime/time oder als String vorliegen
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null object
dtypes: object(1)
memory usage: 2.9+ KB


In [31]:
# Konvertieren des String nach datetime
df['Date'] = pd.to_datetime(df['Date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 2.9 KB


## Zugriff auf die Eigenschaften von datetime mit dem **.dt**-Accessor
Vollständige Liste an Befehlen:<br> https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

In [42]:
# Über den .dt-Accessor können wir wie auch schon bei den Strings auf bestimmte Eigenschaften des Datums zurückgreifen, wie zb. der Monat
df['Date'].dt.month.head()

0    1
1    1
2    1
3    1
4    1
Name: Date, dtype: int64

In [48]:
# Aber auch andere Eigenschaften wie Tag des Jahres oder die Kalenderwoche lassen sich spielend einfach abrufen
df['Calendar Week'] = df['Date'].dt.weekofyear
df.sample(5)

Unnamed: 0,Date,Calendar Week
139,2019-05-20,21
185,2019-07-05,27
224,2019-08-13,33
38,2019-02-08,6
352,2019-12-19,51


# Rechnen mit Datum
Ähnlich wie in Excel ist es uns möglich mit Datum und Zeit zu rechnen. 

In [7]:
# Wielange ist es noch bis 2020
datetime(2020, 1, 1) - date.today()

Timedelta('179 days 00:00:00')

In [71]:
# Wir können nur datetimes von einander abziehen --> Ergebnis ist ein TimeDelta
datetime(2020, 1, 1) - pd.to_datetime(date.today())

Timedelta('181 days 00:00:00')

In [77]:
# Tag bis/ab heute
df['Diff Today'] = df['Date'] - pd.to_datetime(date.today())
df.sample(10)

Unnamed: 0,Date,Calendar Week,Diff Today
265,2019-09-23,39,81 days
280,2019-10-08,41,96 days
350,2019-12-17,51,166 days
162,2019-06-12,24,-22 days
307,2019-11-04,45,123 days
14,2019-01-15,3,-170 days
220,2019-08-09,32,36 days
182,2019-07-02,27,-2 days
60,2019-03-02,9,-124 days
15,2019-01-16,3,-169 days


In [80]:
df['Diff Today'].dt.days.head(5)

0   -184
1   -183
2   -182
3   -181
4   -180
Name: Diff Today, dtype: int64

# Grouping mit Datetime

In [93]:
# Hinzufügen von zufälligen Werten
df['Values'] = np.random.randint(0, 100, size=len(df))
df.head()

Unnamed: 0,Date,Calendar Week,Diff Today,Values
0,2019-01-01,1,-184 days,31
1,2019-01-02,1,-183 days,55
2,2019-01-03,1,-182 days,74
3,2019-01-04,1,-181 days,47
4,2019-01-05,1,-180 days,51


## Resampling
Offsets Strings: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

In [105]:
# Zusammenfassen der Daten in einem Zeitraum von 7 Tagen
df[['Date', 'Values']].resample('7D', on='Date', label='right').sum().head()

Unnamed: 0_level_0,Values
Date,Unnamed: 1_level_1
2019-01-08,422
2019-01-15,350
2019-01-22,453
2019-01-29,290
2019-02-05,448


## Rolling
Rolling kann für einzelne Werte eingesetzt werden oder aber auch im Spezialfall für Datumswerte.

In [119]:
# Rolling mit einer festen Anzahl an Elementen als Window
df['Values'].rolling(window=2).sum().head()

0      NaN
1     86.0
2    129.0
3    121.0
4     98.0
Name: Values, dtype: float64

In [120]:
# Rolling mit einer festen Zeit Intervall als Window
df[['Date', 'Values']].rolling(window='2D', on='Date').sum().head()

Unnamed: 0,Date,Values
0,2019-01-01,31.0
1,2019-01-02,86.0
2,2019-01-03,129.0
3,2019-01-04,121.0
4,2019-01-05,98.0


# Tipps and Tricks
Arbeiten mit Zeiten in Pandas ist ein sehr umfangreiches Thema, welches alleine einen Kurs füllen kann. Einen guten Überblick über die Möglichkeiten bietet wie immer die Dokumentation von Pandas: 


* Zeitreihen How To: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html
* Rolling vs Resampling: https://pandas.pydata.org/pandas-docs/stable/user_guide/computation.html#stats-moments-ts-versus-resampling