In [158]:
"""Bases sur les timeseries avec Pandas
http://pandas.pydata.org/pandas-docs/stable/timeseries.html
"""

import pandas as pd
import numpy as np
from datetime import datetime, time
import pytz

fmt = '%Y-%m-%d %H:%M:%S %Z%z'

data = pd.DataFrame({
    'datetime': [datetime(2017, 1, 30, 6), datetime(2017, 2, 1, 7)],
    'time': [time(9, 7), time(1,3)]
})
#data.index = data['datetime']
data = data.set_index(['datetime'])
data

Unnamed: 0_level_0,time
datetime,Unnamed: 1_level_1
2017-01-30 06:00:00,09:07:00
2017-02-01 07:00:00,01:03:00


In [123]:
# Pandas est utile pour traiter les problèmes de timeseries puisqu'il est possible 
# de générer des dates à une fréquence donnée
dt_index = pd.date_range('01-01-2016', periods=10, freq='H')
dt_index

# date_range retourne un objet de type DatetimeIndex
# cet objet peut-être utilisé pour construire un DataFrame
data = pd.DataFrame({'value': np.random.randn(len(dt_index))}, index=dt_index)
data

Unnamed: 0,value
2016-01-01 00:00:00,0.561283
2016-01-01 01:00:00,-0.244509
2016-01-01 02:00:00,-0.307096
2016-01-01 03:00:00,1.013474
2016-01-01 04:00:00,-0.730406
2016-01-01 05:00:00,-1.325198
2016-01-01 06:00:00,0.809758
2016-01-01 07:00:00,-0.749655
2016-01-01 08:00:00,0.087333
2016-01-01 09:00:00,2.566552


In [124]:
# En ayant une date de début et de fin:
pd.date_range(datetime(2016, 1, 1), datetime(2016, 2, 1), freq='Min')

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 00:01:00',
               '2016-01-01 00:02:00', '2016-01-01 00:03:00',
               '2016-01-01 00:04:00', '2016-01-01 00:05:00',
               '2016-01-01 00:06:00', '2016-01-01 00:07:00',
               '2016-01-01 00:08:00', '2016-01-01 00:09:00',
               ...
               '2016-01-31 23:51:00', '2016-01-31 23:52:00',
               '2016-01-31 23:53:00', '2016-01-31 23:54:00',
               '2016-01-31 23:55:00', '2016-01-31 23:56:00',
               '2016-01-31 23:57:00', '2016-01-31 23:58:00',
               '2016-01-31 23:59:00', '2016-02-01 00:00:00'],
              dtype='datetime64[ns]', length=44641, freq='T')

In [125]:
# En ayant une date de début et de fin:
pd.date_range('2016-1-1', '2016-1-1', freq='Min')

DatetimeIndex(['2016-01-01'], dtype='datetime64[ns]', freq='T')

In [126]:
# Il est possible de faire du "sampling" en modifiant la fréquence et en remplissant
# les trous qui apparaissent avec:
# method='ffill' pour fastforward fill (prend la valeur la plus proche avant)
data = data.asfreq('45Min', method='ffill')
data

Unnamed: 0,value
2016-01-01 00:00:00,0.561283
2016-01-01 00:45:00,0.561283
2016-01-01 01:30:00,-0.244509
2016-01-01 02:15:00,-0.307096
2016-01-01 03:00:00,1.013474
2016-01-01 03:45:00,1.013474
2016-01-01 04:30:00,-0.730406
2016-01-01 05:15:00,-1.325198
2016-01-01 06:00:00,0.809758
2016-01-01 06:45:00,0.809758


In [127]:
# Il est possible de diminuer / augmenter la fréquencence et d'appliquer une fonction d'aggrégation

# On fait une moyenne à l'heure
data.resample('H').mean().head()

# On fait une moyenne au quart d'heure
# puisque la fréquence était supérieure au quart d'heure, des trous apparaissent avec les valeurs NaN
# certaines moyennes sont impossibles et on obtient des NaN
# il faut faire attention à l'augmentation de la fréquence
# toujours faire un asfreq('X', method='ffill')
data.resample('15Min').mean().head()

Unnamed: 0,value
2016-01-01 00:00:00,0.561283
2016-01-01 00:15:00,
2016-01-01 00:30:00,
2016-01-01 00:45:00,0.561283
2016-01-01 01:00:00,


In [128]:
# Timestamp représente un point de temps simple
pd.Timestamp('2016-01-01 07:30:45')

# Period représente des intervalles de temps, et donc est forcémment associté à la fréquence
pd.Period('00:00:00', freq='H') # intervalle d'heure commençant à minuit

Period('0001-01-01 00:00', 'H')

In [129]:
pd.to_datetime('01-01-2016') # moyen de générer un objet Pandas.Timestamp
pd.Timestamp('01-01-2016') # équivalent
pd.Timestamp(2016, 1, 1) # équivalent
pd.Timestamp(datetime(2016, 1, 1)) # équivalent

Timestamp('2016-01-01 00:00:00')

In [130]:
# détecte automatiquement la fréquence (plus petite métrique temporelle passée à la construction)
pd.Period('01-01-2016 01:01:01')

# on fixe la fréquence (dans ce cas plus grande que la minute, donc ne tiendra pas en compte les minutes
pd.Period('01-01-2016 01:01:01', freq='D')

# fixe une fréquence plus faible et donc descend en granularité
pd.Period('01-01-2016', freq='Min')

Period('2016-01-01 00:00', 'T')

In [131]:
df = pd.DataFrame({'year': [2015, 2016],
               'month': [2, 3],
                    'day': [4, 5],
                     'hour': [2, 3]})
df

Unnamed: 0,day,hour,month,year
0,4,2,2,2015
1,5,3,3,2016


In [132]:
pd.to_datetime(df), type(pd.to_datetime(df))

(0   2015-02-04 02:00:00
 1   2016-03-05 03:00:00
 dtype: datetime64[ns], pandas.core.series.Series)

In [133]:
# par défaut les timestamps utilisés par Timestamp sont en nanoseconds
# d'où datetime64[ns] dans le dtype des columns

pd.to_datetime(1349720105, unit='s')

Timestamp('2012-10-08 18:15:05')

In [134]:
# to_datetime avec un timestamp agit comme datetime.utcfromdatetime()
# cad qu'il fait comme si sa timezone était à UTC+0000
datetime.utcfromtimestamp(1349720105).strftime('%Y-%m-%d %H:%M:%S %z%Z')

'2012-10-08 18:15:05 '

In [135]:
pd.date_range('2016-1-1', periods=10, freq='T')

DatetimeIndex(['2016-01-01 00:00:00', '2016-01-01 00:01:00',
               '2016-01-01 00:02:00', '2016-01-01 00:03:00',
               '2016-01-01 00:04:00', '2016-01-01 00:05:00',
               '2016-01-01 00:06:00', '2016-01-01 00:07:00',
               '2016-01-01 00:08:00', '2016-01-01 00:09:00'],
              dtype='datetime64[ns]', freq='T')

In [143]:
# Créer une time series timezone aware en utiliant pytz
times_tz_aware = pd.date_range('2016-1-1 06:00:00', periods=10, freq='H', tz=pytz.timezone('Europe/Paris'))
times_tz_aware

DatetimeIndex(['2016-01-01 06:00:00+01:00', '2016-01-01 07:00:00+01:00',
               '2016-01-01 08:00:00+01:00', '2016-01-01 09:00:00+01:00',
               '2016-01-01 10:00:00+01:00', '2016-01-01 11:00:00+01:00',
               '2016-01-01 12:00:00+01:00', '2016-01-01 13:00:00+01:00',
               '2016-01-01 14:00:00+01:00', '2016-01-01 15:00:00+01:00'],
              dtype='datetime64[ns, Europe/Paris]', freq='H')

In [147]:
# Si on a déjà un objet DatetimeIndex
times_tz_unaware = pd.date_range('2016-1-1 06:00:00', periods=10, freq='H')
times_tz_unaware

DatetimeIndex(['2016-01-01 06:00:00', '2016-01-01 07:00:00',
               '2016-01-01 08:00:00', '2016-01-01 09:00:00',
               '2016-01-01 10:00:00', '2016-01-01 11:00:00',
               '2016-01-01 12:00:00', '2016-01-01 13:00:00',
               '2016-01-01 14:00:00', '2016-01-01 15:00:00'],
              dtype='datetime64[ns]', freq='H')

In [148]:
# on peut set la timezone avec tz_localize
times_tz_unaware.tz_localize('Europe/Paris')

DatetimeIndex(['2016-01-01 06:00:00+01:00', '2016-01-01 07:00:00+01:00',
               '2016-01-01 08:00:00+01:00', '2016-01-01 09:00:00+01:00',
               '2016-01-01 10:00:00+01:00', '2016-01-01 11:00:00+01:00',
               '2016-01-01 12:00:00+01:00', '2016-01-01 13:00:00+01:00',
               '2016-01-01 14:00:00+01:00', '2016-01-01 15:00:00+01:00'],
              dtype='datetime64[ns, Europe/Paris]', freq='H')

In [149]:
# si on a déjà un objet (DataFrame/Series) ayant comme index un DatetimeIndex
series = pd.Series(np.random.randn(len(times)), index=times_tz_unaware)
series

2016-01-01 06:00:00   -0.648300
2016-01-01 07:00:00    0.206879
2016-01-01 08:00:00    1.018027
2016-01-01 09:00:00   -0.436701
2016-01-01 10:00:00    2.407222
2016-01-01 11:00:00   -1.116102
2016-01-01 12:00:00   -0.593252
2016-01-01 13:00:00    1.617056
2016-01-01 14:00:00    2.032795
2016-01-01 15:00:00    0.526871
Freq: H, dtype: float64

In [153]:
# on peut utiliser tz_localize() sur ce macro objet
# son index subira le tz_localize
series = series.tz_localize('Europe/Paris')
series

2016-01-01 06:00:00+01:00   -0.648300
2016-01-01 07:00:00+01:00    0.206879
2016-01-01 08:00:00+01:00    1.018027
2016-01-01 09:00:00+01:00   -0.436701
2016-01-01 10:00:00+01:00    2.407222
2016-01-01 11:00:00+01:00   -1.116102
2016-01-01 12:00:00+01:00   -0.593252
2016-01-01 13:00:00+01:00    1.617056
2016-01-01 14:00:00+01:00    2.032795
2016-01-01 15:00:00+01:00    0.526871
Freq: H, dtype: float64

In [154]:
# si on veut changer la timezone, utiliser tz_convert
series.tz_convert('US/Eastern')

2016-01-01 00:00:00-05:00   -0.648300
2016-01-01 01:00:00-05:00    0.206879
2016-01-01 02:00:00-05:00    1.018027
2016-01-01 03:00:00-05:00   -0.436701
2016-01-01 04:00:00-05:00    2.407222
2016-01-01 05:00:00-05:00   -1.116102
2016-01-01 06:00:00-05:00   -0.593252
2016-01-01 07:00:00-05:00    1.617056
2016-01-01 08:00:00-05:00    2.032795
2016-01-01 09:00:00-05:00    0.526871
Freq: H, dtype: float64

In [193]:
# datetime avec timezone
# puis convertion en pd.Timestamp
# puis insertion dans une pd.Series
time = "01.12.2016 14:19:20"
dt = pytz.timezone('Europe/Paris').localize(datetime.strptime(time, "%d.%m.%Y %H:%M:%S"))
row = pd.Series({'datetime': pd.Timestamp(dt), 'test': 1}) # pas erreur
row['datetimebis'] = pd.Timestamp(dt) # erreur
row['datetime'], row['datetimebis']

(Timestamp('2016-12-01 14:19:20+0100', tz='Europe/Paris'), 1480598360000000000)