# 09-Wichtige Datumsfunktionen

## Jetzt und Heute

In [11]:
import pandas as pd
import numpy as np
from datetime import *

In [12]:
datetime.now()

datetime.datetime(2019, 8, 13, 15, 40, 24, 33536)

In [13]:
date.today()

datetime.date(2019, 8, 13)

# Bestandteile von Zeit und Datum
Orientiert an:


* https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#basics-dt-accessors
* https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

## Erstellen der Beispieldaten

In [14]:
df = pd.DataFrame(pd.date_range('2019-01-01', periods=365, freq='D').astype(str), columns=['Date'])

In [15]:
# überprüfen ob Spalten korrekt als datetime/time oder als String vorliegen
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null object
dtypes: object(1)
memory usage: 2.9+ KB


In [16]:
# Konvertieren des String nach datetime
df['Date'] = pd.to_datetime(df['Date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 2.9 KB


## Zugriff auf die Eigenschaften von datetime mit dem ``.dt``-Accessor
Vollständige Liste an Befehlen:<br> https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

In [17]:
# Über den .dt-Accessor können wir wie auch schon bei den Strings auf bestimmte Eigenschaften des Datums zurückgreifen, wie zb. der Monat
df['Date'].dt.month.head()

0    1
1    1
2    1
3    1
4    1
Name: Date, dtype: int64

In [18]:
# Aber auch andere Eigenschaften wie Tag des Jahres oder die Kalenderwoche lassen sich spielend einfach abrufen
df['Calendar Week'] = df['Date'].dt.weekofyear
df.sample(5)

Unnamed: 0,Date,Calendar Week
158,2019-06-08,23
285,2019-10-13,41
114,2019-04-25,17
87,2019-03-29,13
61,2019-03-03,9


# Rechnen mit Datum
Ähnlich wie in Excel ist es uns möglich mit Datum und Zeit zu rechnen. 

In [19]:
# Wielange ist es noch bis 2020
# datetime(2020, 1, 1) - date.today()

In [20]:
# Wir können nur datetimes von einander abziehen --> Ergebnis ist ein TimeDelta
datetime(2020, 1, 1) - pd.to_datetime(date.today())

Timedelta('141 days 00:00:00')

In [21]:
# Tag bis/ab heute
df['Diff Today'] = df['Date'] - pd.to_datetime(date.today())
df.sample(10)

Unnamed: 0,Date,Calendar Week,Diff Today
153,2019-06-03,23,-71 days
351,2019-12-18,51,127 days
18,2019-01-19,3,-206 days
173,2019-06-23,25,-51 days
168,2019-06-18,25,-56 days
191,2019-07-11,28,-33 days
254,2019-09-12,37,30 days
183,2019-07-03,27,-41 days
358,2019-12-25,52,134 days
221,2019-08-10,32,-3 days


In [22]:
df['Diff Today'].dt.days.head(5)

0   -224
1   -223
2   -222
3   -221
4   -220
Name: Diff Today, dtype: int64

# Grouping mit Datetime

In [23]:
# Hinzufügen von zufälligen Werten
df['Values'] = np.random.randint(0, 100, size=len(df))
df.head()

Unnamed: 0,Date,Calendar Week,Diff Today,Values
0,2019-01-01,1,-224 days,13
1,2019-01-02,1,-223 days,79
2,2019-01-03,1,-222 days,85
3,2019-01-04,1,-221 days,41
4,2019-01-05,1,-220 days,6


## Resampling
Offsets Strings: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

In [24]:
# Zusammenfassen der Daten in einem Zeitraum von 7 Tagen
df[['Date', 'Values']].resample('7D', on='Date', label='right').sum().head()

Unnamed: 0_level_0,Values
Date,Unnamed: 1_level_1
2019-01-08,285
2019-01-15,339
2019-01-22,368
2019-01-29,323
2019-02-05,459


## Rolling
Rolling kann für einzelne Werte eingesetzt werden oder aber auch im Spezialfall für Datumswerte.

In [25]:
# Rolling mit einer festen Anzahl an Elementen als Window
df['Values'].rolling(window=2).sum().head()

0      NaN
1     92.0
2    164.0
3    126.0
4     47.0
Name: Values, dtype: float64

In [26]:
# Rolling mit einer festen Zeit Intervall als Window, hier 
# muss zusätzlich die Spalte mit den Datumswerten angegeben werden.
df[['Date', 'Values']].rolling(window='2D', on='Date').sum().head()

Unnamed: 0,Date,Values
0,2019-01-01,13.0
1,2019-01-02,92.0
2,2019-01-03,164.0
3,2019-01-04,126.0
4,2019-01-05,47.0


# Tipps und Tricks
Arbeiten mit Zeiten in Pandas ist ein sehr umfangreiches Thema, welches alleine einen Kurs füllen kann. Einen guten Überblick über die Möglichkeiten bietet wie immer die Dokumentation von Pandas: 


* Zeitreihen HowTo: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html
* Rolling vs Resampling: https://pandas.pydata.org/pandas-docs/stable/user_guide/computation.html#stats-moments-ts-versus-resampling