# Werken met TimeSeries
Soms hebben we reeksen die gebaseerd zijn op tijden. Een voorbeeld hiervan is het bestand 'full_grouped.csv' dat we al gedownload hebben

In [None]:
import pandas as pd
COVID_CSV = 'full_grouped.csv'
df = pd.read_csv(COVID_CSV, delimiter=',')
df.head()

In [None]:
df.info()

We zien hier dat de datum niet ingelezen is als een pandas tijd, maar als een object. We kunnen dit oplossen met het argument parse_dates. We zullen meteen ook Pandas strings gebruiken. 

In [None]:
df = pd.read_csv(COVID_CSV, delimiter=',', parse_dates=['Date'])
df = df.astype({'Country/Region':pd.StringDtype(), 'WHO Region':pd.StringDtype()})
df.info()

## We bekijken alleen de gegevens van België

In [None]:
df_belgie = df.loc[df['Country/Region']=='Belgium'].copy() # om straks geen SettingWithCopyWarning te krijgen
df_belgie

## De .dt 'accessor'
We hebben al gezien dat we de string-functionaliteit kunnen aanspreken met .str. We hebben ook al gezien dat we de category functionaliteit kunnen aanspreken met .cat. Voor een Timestamp bestaat er ook zoiets: .dt. Bijvoorbeeld ik wil van elke datum het nummer van de weekdag zien. We bekijken alleen de gegevens van Bel

In [None]:

df_belgie.Date.dt.weekday

Misschien dat het een goed idee is om Date als index te gebruiken

In [None]:
df_belgie.set_index('Date', inplace=True)
df_belgie.info()

## Datuminfo van een DatetimeIndex
Omdat dit een specifiek type is voor een Datetime van een Index, moeten we geen .dt gebruiken

In [None]:
df_belgie['weekdag'] = df_belgie.index.weekday
df_belgie

We kunnen nu op basis van de datum (index) een periode definiëren, bijvoorbeeld de week. Van elke record wordt er nu aangegeven tot welke week hij behoort.

In [None]:

df_belgie = df.loc[df['Country/Region']=='Belgium'].copy() # Voorkomt de SettingWithCopyWarning
df_belgie = df_belgie.set_index('Date')
df_belgie['period'] = df_belgie.index.to_period('W')
df_belgie

En nu kunnen we groeperen: totaal New cases voor elke week

In [None]:
df_per_week = df_belgie.groupby('period')['New cases'].sum()
df_per_week

In [None]:
df_per_week.plot()

## Een alternatief is de resample() functie
De resample()-functie werkt alleen met een Datetime Index. We kunnen de gegevens groeperen per week ('W') en vervolgens een aggregatiefunctie erop loslaten, zoals bijvoorbeel .sum()

In [None]:
df_belgie = df[df['Country/Region']=='Belgium'].copy() # Voorkomt de SettingWithCopyWarning
df_belgie = df_belgie.set_index('Date')
df_per_week = df_belgie['New cases'].resample('W').sum()
df_per_week.plot()