# 09-Wichtige Datumsfunktionen

## Jetzt und Heute

In [22]:
import pandas as pd
import numpy as np
from datetime import *

In [23]:
datetime.now()

datetime.datetime(2019, 9, 29, 16, 1, 17, 429574)

In [24]:
date.today()

datetime.date(2019, 9, 29)

# Bestandteile von Zeit und Datum
Orientiert an:


* https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#basics-dt-accessors
* https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

## Erstellen der Beispieldaten

In [25]:
df = pd.DataFrame(pd.date_range('2019-01-01', periods=365, freq='D').astype(str), columns=['Date'])

In [26]:
# überprüfen ob Spalten korrekt als datetime/time oder als String vorliegen
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null object
dtypes: object(1)
memory usage: 2.9+ KB


In [27]:
# Konvertieren des String nach datetime
df['Date'] = pd.to_datetime(df['Date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 1 columns):
Date    365 non-null datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 2.9 KB


## Zugriff auf die Eigenschaften von datetime mit dem ``.dt``-Accessor
Vollständige Liste an Befehlen:<br> https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-date-components

In [28]:
# Über den .dt-Accessor können wir wie auch schon bei den Strings auf bestimmte Eigenschaften des Datums zurückgreifen, wie zb. der Monat
df['Date'].dt.month.head()

0    1
1    1
2    1
3    1
4    1
Name: Date, dtype: int64

In [29]:
# Aber auch andere Eigenschaften wie Tag des Jahres oder die Kalenderwoche lassen sich spielend einfach abrufen
df['Calendar Week'] = df['Date'].dt.weekofyear
df.sample(5)

Unnamed: 0,Date,Calendar Week
240,2019-08-29,35
106,2019-04-17,16
269,2019-09-27,39
53,2019-02-23,8
171,2019-06-21,25


In [30]:
df['EndOfMonth'] = df['Date'].dt.is_month_end
df[df['EndOfMonth']]

Unnamed: 0,Date,Calendar Week,EndOfMonth
30,2019-01-31,5,True
58,2019-02-28,9,True
89,2019-03-31,13,True
119,2019-04-30,18,True
150,2019-05-31,22,True
180,2019-06-30,26,True
211,2019-07-31,31,True
242,2019-08-31,35,True
272,2019-09-30,40,True
303,2019-10-31,44,True


# Rechnen mit Datum
Ähnlich wie in Excel ist es uns möglich mit Datum und Zeit zu rechnen. 

In [31]:
# Wielange ist es noch bis 2020
# datetime(2020, 1, 1) - date.today()

In [32]:
# Wir können nur datetimes von einander abziehen --> Ergebnis ist ein TimeDelta
datetime(2020, 1, 1) - pd.to_datetime(date.today())

Timedelta('94 days 00:00:00')

In [33]:
# Tag bis/ab heute
df['Diff Today'] = df['Date'] - pd.to_datetime(date.today())
df.sample(10)

Unnamed: 0,Date,Calendar Week,EndOfMonth,Diff Today
146,2019-05-27,22,False,-125 days
342,2019-12-09,50,False,71 days
6,2019-01-07,2,False,-265 days
184,2019-07-04,27,False,-87 days
19,2019-01-20,3,False,-252 days
259,2019-09-17,38,False,-12 days
311,2019-11-08,45,False,40 days
304,2019-11-01,44,False,33 days
198,2019-07-18,29,False,-73 days
253,2019-09-11,37,False,-18 days


In [34]:
df['Diff Today'].dt.days.head(5)

0   -271
1   -270
2   -269
3   -268
4   -267
Name: Diff Today, dtype: int64

# Grouping mit Datetime

In [35]:
# Hinzufügen von zufälligen Werten
df = df.reset_index().rename(columns={'index':'value'})
df.head()

Unnamed: 0,value,Date,Calendar Week,EndOfMonth,Diff Today
0,0,2019-01-01,1,False,-271 days
1,1,2019-01-02,1,False,-270 days
2,2,2019-01-03,1,False,-269 days
3,3,2019-01-04,1,False,-268 days
4,4,2019-01-05,1,False,-267 days


## Resampling
Offsets Strings: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

In [36]:
# Zusammenfassen der Daten in einem Zeitraum von 7 Tagen
df[['Date', 'Values']].resample('7D', on='Date', label='right').sum().head()

KeyError: "['Values'] not in index"

## Rolling
Rolling kann für einzelne Werte eingesetzt werden oder aber auch im Spezialfall für Datumswerte.

In [None]:
# Rolling mit einer festen Anzahl an Elementen als Window
df['Values'].rolling(window=2).sum().head()

In [None]:
# Rolling mit einer festen Zeit Intervall als Window, hier 
# muss zusätzlich die Spalte mit den Datumswerten angegeben werden.
df[['Date', 'Values']].rolling(window='2D', on='Date').sum().head()

# Tipps und Tricks
Arbeiten mit Zeiten in Pandas ist ein sehr umfangreiches Thema, welches alleine einen Kurs füllen kann. Einen guten Überblick über die Möglichkeiten bietet wie immer die Dokumentation von Pandas: 


* Zeitreihen HowTo: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html
* Rolling vs Resampling: https://pandas.pydata.org/pandas-docs/stable/user_guide/computation.html#stats-moments-ts-versus-resampling