# Master TIDE - Conférences Python 2020

Francis Wolinski

&copy; 2020 Yotta Conseil

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import cm
%matplotlib inline

# display options
pd.set_option("display.max_rows", 20)

# 10. Séries temporelles


Introduction aux séries temporelles avec Python et pandas.

Le module standard `datetime` permet de manipuler des données temporelles avec Python.

Il existe d'autres modules avec le même objectif: `calendar`, `dateutil`, `pytz`, ...

Le module `datetime` fournit différents types de données temporelles :

- **date**: date (année, mois, jour) dans le caledrier Grégorien
- **time**: temps non rattaché à une date (heures, minutes, secondes, microsecondes)
- **datetime**: horodatage (date + temps)
- **timedelta**: durée, difference entre 2 dates ou 2 temps (jours, heures, minutes, secondes, microsecondes)
- **tzinfo**: gestion des fuseaux horaires

In [None]:
# import de la librairie datetime
import datetime

## 10.1 Objets temporels Python

### Date

In [None]:
# date
today = datetime.date.today()
today

### Datetime

In [None]:
# datetime
now = datetime.datetime.now()
now

In [None]:
# datetime en temps universel
now_utc = datetime.datetime.utcnow()
now_utc

### Fuseau horaire

Le module standard `pytz` gère les fuseaux horaires.

Un objet de type `datetime` peut être converti avec la méthode `astimezone()` dans un objet `datetime` d'un autre fuseau horaire.

Il est recommandé de travailler en temps universel (UTC) pour pallier la difficulté de gérer des objets de temps de différents fuseaux horaires.

In [None]:
# import pytz
from pytz import timezone

In [None]:
# instance de fuseau horaire
tz = timezone('Asia/Shanghai')
tz

In [None]:
# now
now

In [None]:
# convertit une datetime avec un objet de type fuseau horaire
now.astimezone(tz)

## 10.2 Ecriture et lecture

La méthode `strftime()` et la fonction `strptime()`  permettent d'écrire et de lire des dates dans différents formats avec une codificaton empruntée au langage C.

Le nombre de directives disponibles révèle la complexité du sujet.

Directives | Commentaires
- | -
%a | Day of the week abbreviated
%A | Day of the week
%w | Day of the week 0 = Sunday ... 6 = Saturday
%d | Day of month on 2 digits 01, 02, ..., 31
%j | Day of year on 3 digits 001, 002, ..., 366
%b | Month abbreviated
%B | Month name
%m | Month on 2 digits 01, 02, ..., 12
%U | Number of week in year (Sunday = first day)
%W | Number of week in year (Monday = first day)
%y | Year without the century on 2 digits 00, 01, ..., 99	 
%Y | Year with the century on 4 digits 0001, 0002, ..., 2018, 2019, ..., 9998, 9999
%H | Hour over 24 00, 01, ..., 23
%I | Hour over 12 01, 02, ..., 12
%p | AM or PM
%M | Minute on 2 digits 00, 01, ..., 59
%S | Second on 2 digits 00, 01, ..., 59
%f | Microsecond on 6 digits 000000, 000001, ..., 999999
%z | UTC offset +HHMM or -HHMM
%Z | Time zone 
%c | Representation date and temps
%x | Representation date
%X | Representation time
%% | Character %

In [None]:
# datetime
now = datetime.datetime.now()
now

In [None]:
# jour de la semaine
now.strftime("%A %d/%m/%Y")

<div class="alert alert-success">
<b>Exercise 1</b>
<ul>
<li>Afficher la date du jour dans le format: `AAAA-MM-JJ/HH:MM:SS`</li>
</ul>
</div>

Le module `locale` permet de gérer l'affichage selon la langue, par défaut en anglais.

In [None]:
import locale
locale.setlocale(locale.LC_ALL, 'fr') # français
#locale.setlocale(locale.LC_ALL, 'fr_FR') # français

print(now.strftime("%A %d/%m/%Y"))

locale.setlocale(locale.LC_ALL, 'en') # anglais
#locale.setlocale(locale.LC_ALL, 'en_US') # anglais

Inversement la fonction `strptime()` prend une chaine de caractères et un format de date en arguments et retourne un objet temporel.

In [None]:
# lecture à partir du format: AA-MM-DD-HH-MM
# écriture dans le format : HH:MM DD/MM/YYYY
var = datetime.datetime.strptime("20-03-26-15-00", "%y-%m-%d-%H-%M")
var.strftime("%H:%M %d/%m/%Y")

<div class="alert alert-success">
<b>Exercise 2</b>
<ul>
<li>Lire une date au format ISO : `AAAA-MM-JJTHH:MM:SS`, par exemple 2020-03-26T15:00:00</li>
</ul>
</div>

<div class="alert alert-success">
<b>Exercise 3</b>
<ul>
    <li>Charger le fichier 'cities500.txt', combien y a-t-il de fuseaux horaires différents ?</li>
    <li>Convertir la colonne 'timezone' en objets de type fuseau horaire.</li>
    <li>Prendre l'horodatage du jour et la convertir selon chaque fuseau horaire et produire une chaine au format : '%Y-%m-%d %H:%M:%S'.</li>
    <li> Il y a 24 heure dans une journée, combien y a-t-il de fuseaux horaires différents ?</li>
</ul>
</div>

In [None]:
# cities500.txt
# http://download.geonames.org/export/dump/cities500.zip
df = pd.read_csv('cities500.txt',
                   sep='\t',
                   header=None,
                   names=['geonameid', 'name', 'asciiname', 'alternatenames', 'latitude', 'longitude', 'feature class', 'feature code', 'country code', 'cc2', 'admin1 code', 'admin2 code', 'admin3 code', 'admin4 code', 'population', 'elevation', 'dem', 'timezone', 'modification date'],
                   dtype={'admin1 code': str, 'admin2 code': str, 'admin3 code': str, 'admin4 code': str},
                   keep_default_na=False,
                   na_values=['', -9999])
df.head()

## 10.3 Séries temporelles

Le librairie `pandas` gère les séries temporelles.

Nous allons introduire quelques notions :
- lecture de données temporelles
- accès aux données temporelles
- calcul d'agrégats temporels
- graphiques et fenâtres glissantes

### Chargement et préparation des données

In [None]:
from urllib import request
import shutil

url = 'http://webstat.banque-france.fr/fr/downloadFile.do?id=5385698&exportType=csv'
filename = 'Webstat_Export.csv'

# requête du fichier sur le web et sauvegarde locale
with request.urlopen(url) as response, open(filename, 'wb') as out_file:
    shutil.copyfileobj(response, out_file)

In [None]:
# source:
# https://www.banque-france.fr/statistiques/taux-et-cours/les-taux-de-change-salle-des-marches/parites-quotidiennes

# chargement du fichier
exchange_rates = pd.read_csv("Webstat_Export.csv",
                        sep=";",
                        header=2,
                        na_values='-',
                        converters={0: lambda x: pd.to_datetime(x, format='%d/%m/%Y', errors='ignore')})
exchange_rates

#### Préparation des données :

- extraction des codes ISO des devises
- sélection des lignes
- sélection de quelques devises
- traitement des dates avec la fonction `to_datetime()`
- drop NaN
- traitement des nombres flottants
- reset de l'index

In [None]:
# extraction des code ISO des monnaies
cols = pd.Series(exchange_rates.columns.tolist()).str.extract('\(([A-Z]{3})\)', expand=True)
cols.iloc[0] = 'Date'
exchange_rates.columns = cols[0]

# sélection des lignes
exchange_rates = exchange_rates.iloc[3:]

# sélection de quelques devises
currencies = ['USD', 'CHF', 'GBP', 'JPY', 'RUB', 'CNY']
exchange_rates = exchange_rates[['Date'] + currencies]

# traitement des dates
exchange_rates['Date'] = pd.to_datetime(exchange_rates['Date'], format='%d/%m/%Y', errors='ignore')


# drop nan
exchange_rates = exchange_rates.dropna()

# traitement des nombres flottants
import re
exchange_rates[currencies] = exchange_rates[currencies].applymap(lambda x: float(re.sub(',', '.', x)))

# reset index
exchange_rates = exchange_rates.reset_index(drop=True)
exchange_rates

In [None]:
# info
exchange_rates.info()

### L'opérateur `dt`

L'opérateur `dt` se comporte de manière analogue à l'opérateur `str` pour les `Series`. Il permet d'accéder aux propriététs temporelles des éléments.

In [None]:
# date
exchange_rates['Date']

In [None]:
# les valeurs sont des numpy.datetime64
exchange_rates['Date'].values[0]

In [None]:
# accès à l'année
exchange_rates['Date'].dt.year

In [None]:
# accès au mois
exchange_rates['Date'].dt.month

In [None]:
# access aux jours de la semaine
exchange_rates['Date'].dt.weekday

In [None]:
# valeurs uniques
exchange_rates['Date'].dt.weekday.unique()

### Sélection de données temporelles

Lorsque l'index est un objet de type `datetime`, il est possible d'opérer des sélections en utilisant des dates représentées par des chaines de caractères.

In [None]:
# setting the index as a datetime object
exchange_rates = exchange_rates.set_index('Date')
exchange_rates = exchange_rates.sort_index()
exchange_rates

In [None]:
# année entière
exchange_rates['2020']

In [None]:
# un mois d'une année
exchange_rates['2020/02']  # ou exchange_rates['01/2020']

In [None]:
# sélection de slices - la seconde période est incluse
exchange_rates['12/2019':'02/2020']

### Complétion de données temporelles

In [None]:
# sélection de l'année 2019
exchange_rates_2019 = exchange_rates['2019']
exchange_rates_2019

In [None]:
# complétion des données sur une année
idx = pd.date_range('01-01-2019', '31-12-2019')
exchange_rates_2019 = exchange_rates_2019.reindex(idx, method='nearest')
exchange_rates_2019 = exchange_rates_2019.fillna(method='bfill')
exchange_rates_2019

### Agrégations temporelles

Il est possible d'agréger les données selon une certain période de temps en utilisant la méthode `resample()` avec un symbol signifiant la période considérée en ensuite appliquer une méthode d'agrégat.

La méthode `resample()` agit de manière similaire à la méthode `groupby()`.

In [None]:
# agrégation annuelle
exchange_rates.resample('A').size()

In [None]:
# agrégation annuelle
exchange_rates.resample('A').max()

In [None]:
# agrégation mensuelle
exchange_rates.resample('M').mean()

#### fréquences symboliques utilisables (extrait)

Alias | Offset type | Description
- | - | -
D | Day | Calendar daily
B | BusinessDay | Business daily
H | Hour | Hourly
T or min | Minute | Minutely
S | Second | Secondly
L or ms | Milli | Millisecond (1/1000th of 1 second)
U | Micro | Microsecond (1/1000000th of 1 second)
M | MonthEnd | Last calendar day of month
BM | BusinessMonthEnd | Last business day (weekday) of month
MS | MonthBegin | First calendar day of month
BMS | BusinessMonthBegin | First weekday of month
W-MON, W-TUE, ... | Week | Weekly on given day of week: MON, TUE, WED, THU, FRI, SAT, or SUN.
Q-JAN, Q-FEB, ... | QuarterEnd | Quarterly dates anchored on last calendar day of each month,for year ending in indicated month: JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC.
A-JAN, A-FEB, ... | YearEnd | Annual dates anchored on last calendar day of given month: JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC.

Source: Python for Data Analysis, Wes McKinney, O'Reilly

### Graphiques temporels

Il est possible de produire directement des graphiques.

In [None]:
# taux de change
exchange_rates.plot();

Ci-dessous on divise les taux par leur moyenne respective afin d'ajuster les échelles et qu'elles soient comparables.

In [None]:
# taux de change divisés par leurs moyennes respectives
(exchange_rates / exchange_rates.mean()).plot();

La méthode `rolling()` permet de produire un graphique avec une moyenne mobile par exemple.

In [None]:
# taux de change divisés par leurs moyennes respectives avec une moyenne mobile de 30 jours
(exchange_rates / exchange_rates.mean()).rolling(30).mean().plot();

<div class="alert alert-success">
<b>Exercise 4</b>
<ul>
    <li>Afficher un graphique des taux de change divisés par leurs dernières valeurs avec une moyenne mobile de 30 jours</li>
    <li>Afficher un graphique des taux de change divisés par leurs moyennes respectives avec un maximum mobile de 100 jours</li>
</ul>
</div>