Podstawowe biblioteki do pracy z datami i czasem to `datetime` i `dateutil`. 

In [None]:
from datetime import datetime
datetime(year=2015, month=7, day=4)

Korzystając z `dateutil` możemy np parsować daty podane jako tekst:

In [None]:
from dateutil import parser
date = parser.parse('4th of July, 2015')

In [None]:
date

A obiekty `datetime` zamieniać na string:

In [None]:
date.strftime('%A')

https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

Ciekawą biblioteką jest również `pytz` które służy do pracy ze strefami czasowymi. 

Obiekty `datetime` są natomiast skomplikowane w użyciu na dużą skalę.

### numpy.datetime64

In [None]:
import numpy as np

In [None]:
date = np.array('2015-07-04', dtype=np.datetime64)

In [None]:
date

Na takim typie danym możemy wykonywać operacje wektorowe:

In [None]:
date + np.arange(12)

Jako, że pamięc przeznaczona na pojedynczy obiekt jest stała musimy być świadomi kompromisu pomiędzy dokładnością czasu, a rozmiarem zakresu dat jaki możemy przetworzyć.

In [None]:
np.datetime64('2015-07-04')

In [None]:
np.datetime64('2015-07-04 12:00')

In [None]:
np.datetime64('2015-07-04 12:59:59.50', 'ns')

### Jak to wygląda w Pandasie?

Pandas stara się pogodzić oba światy dostarczając obiekt `Timestamp`

In [None]:
import pandas as pd

date = pd.to_datetime('4th of July, 2015')

In [None]:
date

In [None]:
date.strftime('%A')

In [None]:
date = date + pd.to_timedelta(np.arange(12), 'D')

In [None]:
date

### Indeksowanie danych czasem

In [None]:
index = pd.DatetimeIndex(['2014-07-04', '2014-08-04',
                          '2015-07-04', '2015-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

Możemy teraz filtrować dane korzystając z czasu:

In [None]:
data['2014-07-04':'2015-07-04']

Lub przekazując np rok:

In [None]:
data['2015']

Typy danych dotyczące czasu w Pandas:

- time stampy - pd.Timestamp
- okresy - pd.Period
- time deltas pd.Timedelta

In [None]:
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                       '2015-Jul-6', '07-07-2015', '20150708'])
dates

In [None]:
dates.to_period('D')

In [None]:
dates - dates[0]

### Ciągi dat

In [None]:
pd.date_range('2015-07-03', '2015-07-10')

In [None]:
pd.date_range('2015-07-03', '2015-07-10', freq='H')

### Resampling, shifting, windowing

In [None]:
from pandas_datareader import data

goog = data.DataReader('GOOG',
                       start='2015',
                       end='2020',
                       data_source='stooq')

In [None]:
goog.head()

In [None]:
goog = goog['Close']

In [None]:
goog

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()

In [None]:
goog.plot();

Pracując z danymi czasowymi często chcemy je zsamplować po różnych okresach, pomaga tu metoda `resample` lub `asfreq`

In [None]:
goog

In [None]:
goog.resample('BA')

In [None]:
goog.plot(alpha=0.5, style='-')
goog.resample('BA').mean().plot(style=':')
goog.asfreq('BA').plot(style='--')

plt.legend(['input', 'resample', 'asfreq'],
           loc='upper left');

- resample - zwraca średnią z poprzedniego okresu
- asfreq zwraca ostatnią wartość z okresu

For up-sampling, resample() and asfreq() are largely equivalent, though resample has many more options available. In this case, the default for both methods is to leave the up-sampled points empty, that is, filled with NA values. 

In [None]:
fig, ax = plt.subplots(2, sharex=True)
data = goog.iloc[:10]

data.asfreq('D').plot(ax=ax[0], marker='o')

data.asfreq('D', method='bfill').plot(ax=ax[1], style='-o')
data.asfreq('D', method='ffill').plot(ax=ax[1], style='--o')
ax[1].legend(["back-fill", "forward-fill"]);

In [None]:
fig, ax = plt.subplots(2, sharey=True)

# apply a frequency to the data
goog = goog.asfreq('D', method='pad')

goog.plot(ax=ax[0])
goog.shift(900).plot(ax=ax[1]) # przesuń dane o 900 dni

# legends and annotations
local_max = pd.to_datetime('2016-11-05')
offset = pd.Timedelta(900, 'D')

ax[0].legend(['input'], loc=2)
ax[0].get_xticklabels()[2].set(weight='heavy', color='red')
ax[0].axvline(local_max, alpha=0.3, color='red')

ax[1].legend(['shift(900)'], loc=2)
ax[1].get_xticklabels()[2].set(weight='heavy', color='red')
ax[1].axvline(local_max + offset, alpha=0.3, color='red')


Taka operacja przydaje się gdy chcemy policzyć różnicę w czasie. Np w ten sposób możemy policzyć roczny zwrot:

In [None]:
(goog.shift(-365) / goog - 1) * 100

In [None]:
ROI = 100 * (goog.shift(-365) / goog - 1)
ROI.plot()
plt.ylabel('% Return on Investment');

### Rolling windows

In [None]:
rolling = goog.rolling(365, center=True)

In [None]:
data = pd.DataFrame({'input':goog,
                     'rolling-mean': rolling.mean(),
                     'rolling-std': rolling.std()})

In [None]:
data.plot(style=['-', '--', ':'])

In [None]:
data = pd.read_csv('/Users/sapkowskis/Downloads/Fremont_Bridge_Bicycle_Counter.csv',
                   index_col='Date',
                   parse_dates=True)

In [None]:
data.head()

In [None]:
data.columns = ['Total', 'West', 'East']

In [None]:
data.dropna().describe()

In [None]:
data.plot()

In [None]:
# too dense

In [None]:
weekly = data.resample('W').sum()

In [None]:
weekly.plot(style=[':', '--', '-'])

In [None]:
daily = data.resample('D').sum()

In [None]:
daily.rolling(30,
              center=True,
             ).sum().plot(style=[':', '--', '-'])

In [None]:
data.groupby(data.index.time).mean().plot()

In [None]:
by_weekday = data.groupby(data.index.dayofweek).mean()
by_weekday.index = ['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']
by_weekday.plot(style=[':', '--', '-']);

In [None]:
weekend = np.where(data.index.weekday < 5, 'Weekday', 'Weekend')
by_time = data.groupby([weekend, data.index.time]).mean()

In [None]:
import matplotlib.pyplot as plt
hourly_ticks = 4 * 60 * 60 * np.arange(6)

fig, ax = plt.subplots(1, 2, figsize=(14, 5))
by_time.loc['Weekday'].plot(ax=ax[0], title='Weekdays',
                           xticks=hourly_ticks, style=[':', '--', '-'])
by_time.loc['Weekend'].plot(ax=ax[1], title='Weekends',
                           xticks=hourly_ticks, style=[':', '--', '-']);

