# Series de Tiempo con Pandas

Los datos de series de tiempo son importantes en muchos campos, tales como finanzas, economía, física, marketing, etc

Las series de tiempo pueden ser de **frequencia fija**, es decir, los datos ocurren a un intervalo regular por ej. datos diarios, semanales, cada minuto, cada 15 segundos, etcétera. 
Las series de tiempo también pueden ser **frequencia irregular** donde no difieren en una misma unidad de tiempo los datos.

###  Tipos de datos Date y Time

In [138]:
from datetime import datetime

In [139]:
now = datetime.now()
now

datetime.datetime(2017, 11, 4, 13, 48, 36, 241182)

In [140]:
now.year, now.month, now.day

(2017, 11, 4)

Los objetos del tipo 'datetime' guardan ambos: fecha y hora (hasta microsegundos). 

Los objetos del tipo 'timedelta' representan diferencias temporales entre dos objetos del tipo datetime

In [141]:
delta = datetime.now() - datetime(2018,7,21)
delta

datetime.timedelta(-259, 49768, 169759)

Del mismo modo podemos accesar los días o segundos que restan para un evento

In [142]:
delta.days

-259

In [144]:
delta.seconds

49768

Se pueden añadir o sustraer uno "timedelta" o múltiples "timedeltas" a un objeto del tipo "datetime"

In [19]:
from datetime import timedelta

In [145]:
start = datetime(2011,1,7)

In [146]:
start + timedelta(14)

datetime.datetime(2011, 1, 21, 0, 0)

In [147]:
start - 2*timedelta(14)

datetime.datetime(2010, 12, 10, 0, 0)

#### Convirtiendo datos entre tipo string y datetime

In [23]:
stamp = datetime(2011,1,3)
str(stamp)

'2011-01-03 00:00:00'

In [24]:
stamp.strftime('%Y-%m-%d')

'2011-01-03'

In [148]:
%%html
<h4> Formato objetos datetime </h4>
<table>
    <tr>
        <td><b>Símbolo</b></td> <td><b>Descripción</b></td>
    </tr>
    <tr>
        <td>%Y</td> <td>Año de cuatro dígitos</td>
    </tr>
    <tr>
        <td>%y</td> <td>Año de dos dígitos</td>
    </tr>
    <tr>
        <td>%m</td> <td>Mes de dos dígitos</td>
    </tr>
    <tr>
        <td>%d</td> <td>Día de dos dígitos</td>
    </tr>
    <tr>
        <td>%H</td> <td>Hora 24hrs [00,23]</td>
    </tr>
    <tr>
        <td>%I</td> <td>Hora 12hrs [01,12]</td>
    </tr>
    <tr>
        <td>%M</td> <td>Minutos [00,59]</td>
    </tr>
    <tr>
        <td>%S</td> <td>Segundos [00,60]</td>
    </tr>
    <tr>
        <td>%w</td> <td>Día de la semana [0(domingo),6] </td>
    </tr>
    <tr>
        <td>%U</td> <td>Número de semana [00,53] donde domingo es el primer día de la semana (días antes del primer domingo son "semana 0")</td>
    </tr>
    <tr>
        <td>%W</td> <td>Número de semana [00,53] donde lunes es el primer día de la semana (días antes del primer lunes son "semana 0")</td>
    </tr>
    <tr>
        <td>%F</td> <td>Shortcut para %Y-%m-%d (ej. 2012-4-18) </td>
    </tr>
    <tr>
        <td>%D</td> <td>Shortcut para %m/%d/%y (ej. 04/18/12) </td>
    </tr>
</table>

0,1
Símbolo,Descripción
%Y,Año de cuatro dígitos
%y,Año de dos dígitos
%m,Mes de dos dígitos
%d,Día de dos dígitos
%H,"Hora 24hrs [00,23]"
%I,"Hora 12hrs [01,12]"
%M,"Minutos [00,59]"
%S,"Segundos [00,60]"
%w,"Día de la semana [0(domingo),6]"


Veamos que podemos convertir string a datetime con el método .strptime():

In [26]:
value = '2011-01-03'
datetime.strptime(value,'%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

También podemos aplicar list comprehension para transformar estas fechas

In [149]:
date_strings = ['7/6/2011','8/6/2011']

In [150]:
[datetime.strptime(x, '%m/%d/%Y') for x in date_strings]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

Si nos queremos ahorrar tener que pasarle el formato entonces podemos utilizar el método 'parse' del paquete dateutil (automáticamente instalado junto con Pandas)

In [151]:
from dateutil.parser import parse

In [153]:
parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

In [152]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

Si estamos usando las fechas en español, entonces nos conviene utilizar el parámetro dayfirst=True para indicar esto:

In [32]:
parse('6/12/2011',dayfirst=True)

datetime.datetime(2011, 12, 6, 0, 0)

Dentro de pandas tenemos el método .to_datetime() que es útil para convertir strings 

In [33]:
import numpy as np
import pandas as pd

In [34]:
pd.to_datetime(date_strings)

DatetimeIndex(['2011-07-06', '2011-08-06'], dtype='datetime64[ns]', freq=None)

También es útil manejar las fechas dentro de Pandas porque puede manejar valores faltantes como 'NaT' (Not a Time):

In [35]:
idx = pd.to_datetime(date_strings+[None])
idx

DatetimeIndex(['2011-07-06', '2011-08-06', 'NaT'], dtype='datetime64[ns]', freq=None)

y manejarlo del mismo modo que lo hacemos con otros valores faltantes en Pandas

In [36]:
pd.isnull(idx)

array([False, False,  True], dtype=bool)

### Basics de Series de Tiempo

Escribamos primero un arreglo de datetimes y creemos una serie a partir de estos valores

In [156]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
          datetime(2011, 1, 7), datetime(2011, 1, 8),
          datetime(2011, 1, 10), datetime(2011, 1, 12)]
dates

[datetime.datetime(2011, 1, 2, 0, 0),
 datetime.datetime(2011, 1, 5, 0, 0),
 datetime.datetime(2011, 1, 7, 0, 0),
 datetime.datetime(2011, 1, 8, 0, 0),
 datetime.datetime(2011, 1, 10, 0, 0),
 datetime.datetime(2011, 1, 12, 0, 0)]

In [157]:
ts = pd.Series(np.random.randn(6), index = dates)
ts

2011-01-02   -2.509949
2011-01-05    1.557456
2011-01-07   -0.313922
2011-01-08   -0.131582
2011-01-10    0.664997
2011-01-12   -0.941138
dtype: float64

Vemos que los objetos 'datetime' se colocaron como 'DateTimeIndex'

In [158]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

Como con otras series las operaciones aritméticas se alinean inmediatamente con los valores del índice

In [159]:
ts[::2]

2011-01-02   -2.509949
2011-01-07   -0.313922
2011-01-10    0.664997
dtype: float64

In [160]:
ts + ts[::2]

2011-01-02   -5.019898
2011-01-05         NaN
2011-01-07   -0.627845
2011-01-08         NaN
2011-01-10    1.329995
2011-01-12         NaN
dtype: float64

Los valores escalares del DatetimeIndex son objetos del tipo 'Timestamp'

In [161]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

Como otras series las series de tiempo se pueden referencias por número o por etiqueta 

In [163]:
stamp = ts.index[2]
ts[stamp]

-0.31392249918007636

y se le puede pasar un string como etiqueta que pueda ser interpretado como fecha

In [164]:
ts['1/10/2011']

0.66499742675739582

In [165]:
ts['20110110']

0.66499742675739582

Para una serie de tiempo más larga se le puede pasar sólo el año o el año y el mes para obtener slices de la serie de tiempo

In [167]:
longer_ts = pd.Series(np.random.randn(1000),
                      index=pd.date_range('1/1/2000', periods=1000))
longer_ts

2000-01-01    0.286952
2000-01-02    2.206064
2000-01-03    0.002625
2000-01-04    0.616172
2000-01-05   -1.320211
2000-01-06   -0.305662
2000-01-07   -0.701669
2000-01-08   -0.407538
2000-01-09    0.450551
2000-01-10   -0.132653
2000-01-11   -0.794378
2000-01-12   -0.587878
2000-01-13   -0.087389
2000-01-14   -0.037948
2000-01-15   -0.367451
2000-01-16   -1.616522
2000-01-17   -0.577897
2000-01-18    0.266804
2000-01-19    1.609407
2000-01-20   -0.096757
2000-01-21   -1.022366
2000-01-22   -0.218060
2000-01-23    0.753749
2000-01-24    2.275134
2000-01-25   -1.149947
2000-01-26   -0.199697
2000-01-27    1.811771
2000-01-28   -0.655070
2000-01-29    0.883697
2000-01-30    1.535834
                ...   
2002-08-28   -0.714540
2002-08-29   -0.298323
2002-08-30   -1.299137
2002-08-31   -0.531680
2002-09-01    0.862685
2002-09-02    0.717202
2002-09-03   -0.721397
2002-09-04   -0.023206
2002-09-05    0.906695
2002-09-06   -0.114278
2002-09-07   -0.337870
2002-09-08   -0.816975
2002-09-09 

Por ejemplo si queremos los datos de mayo de 2001, le pasamos '2001-05'

In [168]:
longer_ts['2001-05']

2001-05-01   -0.064373
2001-05-02   -2.107989
2001-05-03    0.305170
2001-05-04   -0.658865
2001-05-05   -0.693836
2001-05-06    0.355535
2001-05-07    0.219839
2001-05-08    0.071385
2001-05-09    0.336658
2001-05-10    0.333152
2001-05-11   -0.832348
2001-05-12    0.567697
2001-05-13   -0.589600
2001-05-14   -0.474116
2001-05-15   -1.757614
2001-05-16   -0.080333
2001-05-17    0.957984
2001-05-18   -0.296813
2001-05-19    0.174226
2001-05-20    0.639365
2001-05-21   -1.642453
2001-05-22   -0.392285
2001-05-23   -0.751945
2001-05-24    1.062404
2001-05-25   -0.651356
2001-05-26   -1.622503
2001-05-27   -0.777887
2001-05-28   -0.587277
2001-05-29    0.014833
2001-05-30   -0.393052
2001-05-31   -0.240559
Freq: D, dtype: float64

o '2001' para todos los datos del año 2001

In [169]:
longer_ts['2001']

2001-01-01   -0.128417
2001-01-02   -0.763194
2001-01-03   -0.798800
2001-01-04    0.703469
2001-01-05    0.640790
2001-01-06    0.145868
2001-01-07    2.900144
2001-01-08   -0.553774
2001-01-09   -0.008786
2001-01-10    0.145508
2001-01-11   -0.037263
2001-01-12    1.071009
2001-01-13    1.298704
2001-01-14   -1.154634
2001-01-15    0.533373
2001-01-16   -0.179007
2001-01-17    0.927779
2001-01-18    0.394618
2001-01-19   -1.739095
2001-01-20   -0.967300
2001-01-21    0.565162
2001-01-22   -0.308244
2001-01-23    0.865799
2001-01-24   -0.608856
2001-01-25   -1.321233
2001-01-26    0.417915
2001-01-27    1.004409
2001-01-28   -1.342711
2001-01-29   -1.606121
2001-01-30   -0.448735
                ...   
2001-12-02   -1.053595
2001-12-03   -0.067052
2001-12-04    0.457242
2001-12-05    0.003908
2001-12-06    0.378643
2001-12-07    0.751217
2001-12-08   -0.278753
2001-12-09   -0.686213
2001-12-10    1.090550
2001-12-11   -1.049149
2001-12-12   -1.749159
2001-12-13   -0.132884
2001-12-14 

Se puede hacer el slicing usando objetos del tipo 'datetime' del mismo modo

In [170]:
ts[datetime(2011,1,7):]

2011-01-07   -0.313922
2011-01-08   -0.131582
2011-01-10    0.664997
2011-01-12   -0.941138
dtype: float64

Si tus etiquetas están en orden cronológico entonces puedes incluir en tu 'query' datos que no están incluidos en el rango para obtenerlo hasta el final como por ejemplo

In [171]:
ts

2011-01-02   -2.509949
2011-01-05    1.557456
2011-01-07   -0.313922
2011-01-08   -0.131582
2011-01-10    0.664997
2011-01-12   -0.941138
dtype: float64

In [172]:
ts['1/6/2011':'1/11/2017']

2011-01-07   -0.313922
2011-01-08   -0.131582
2011-01-10    0.664997
2011-01-12   -0.941138
dtype: float64

Alternativamente se puede utilizar el método .truncate a una serie para obtener los valores anteriores (o posteriores) a una fecha

In [173]:
ts.truncate(after='1/9/2011')

2011-01-02   -2.509949
2011-01-05    1.557456
2011-01-07   -0.313922
2011-01-08   -0.131582
dtype: float64

Todo esto que vimos con Series es igualmente utilizable para DataFrames

In [174]:
pd.date_range?

Nota: veremos un ejemplo de más opciones para el argumento freq más abajo

In [175]:
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
dates

DatetimeIndex(['2000-01-05', '2000-01-12', '2000-01-19', '2000-01-26',
               '2000-02-02', '2000-02-09', '2000-02-16', '2000-02-23',
               '2000-03-01', '2000-03-08', '2000-03-15', '2000-03-22',
               '2000-03-29', '2000-04-05', '2000-04-12', '2000-04-19',
               '2000-04-26', '2000-05-03', '2000-05-10', '2000-05-17',
               '2000-05-24', '2000-05-31', '2000-06-07', '2000-06-14',
               '2000-06-21', '2000-06-28', '2000-07-05', '2000-07-12',
               '2000-07-19', '2000-07-26', '2000-08-02', '2000-08-09',
               '2000-08-16', '2000-08-23', '2000-08-30', '2000-09-06',
               '2000-09-13', '2000-09-20', '2000-09-27', '2000-10-04',
               '2000-10-11', '2000-10-18', '2000-10-25', '2000-11-01',
               '2000-11-08', '2000-11-15', '2000-11-22', '2000-11-29',
               '2000-12-06', '2000-12-13', '2000-12-20', '2000-12-27',
               '2001-01-03', '2001-01-10', '2001-01-17', '2001-01-24',
      

In [176]:
long_df = pd.DataFrame(np.random.randn(100,4),
                      index = dates,
                      columns = ['Aguascalientes', 'Chiapas', 'Puebla', 'Oaxaca'])
long_df.head(5)

Unnamed: 0,Aguascalientes,Chiapas,Puebla,Oaxaca
2000-01-05,1.412637,0.286577,0.240419,0.364763
2000-01-12,0.417312,0.57945,-0.228366,-1.85953
2000-01-19,0.724978,-1.01017,0.003684,-0.825616
2000-01-26,0.805692,1.158387,-0.043756,-0.616672
2000-02-02,-0.044807,0.051633,-0.388271,-0.555211


In [177]:
long_df.loc['5-2001']

Unnamed: 0,Aguascalientes,Chiapas,Puebla,Oaxaca
2001-05-02,-0.347815,-1.280591,-0.075636,-0.770034
2001-05-09,0.779492,0.091049,1.776256,-0.370423
2001-05-16,0.045813,0.547672,0.807856,3.301118
2001-05-23,-1.219285,0.260134,0.78587,0.982327
2001-05-30,-0.806136,0.319105,-0.617221,-1.259636


### Series de tiempo con índices duplicados

In [178]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])

In [179]:
dup_ts = pd.Series(np.arange(5),index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

Podemos revisar que el índice no es único con el atributo is_unique

In [180]:
dup_ts.index.is_unique

False

Así obtendremos valores escalares o series dependiendo de si el valore está duplicado o no

In [181]:
dup_ts['1/3/2000'] #No duplicado

4

In [182]:
dup_ts['1/2/2000'] #Duplicado

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

Supongamos que quieres agregar datos no únicos. Una de las maneras es utilizando gropby y level=0

In [183]:
grouped = dup_ts.groupby(level=0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [184]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

### Rangos de fechas

Recordemos la serie ts

In [185]:
ts

2011-01-02   -2.509949
2011-01-05    1.557456
2011-01-07   -0.313922
2011-01-08   -0.131582
2011-01-10    0.664997
2011-01-12   -0.941138
dtype: float64

Ahora generemos un DatetimIndex para aprender la función date_tange

In [186]:
index = pd.date_range('2012-04-01','2012-06-01')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

Vemos que por default date_range genera datos diarios, también podemos pasarle el argumento 'periods' y la fecha de comienzo 'start' para generar los datos

In [187]:
pd.date_range(start='2012-04-01',periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

Si queremos obtener sólo el último día de trabajo de cada mes podemos utilizar el argumento 'freq' con 'BM'

In [188]:
pd.date_range('2000-01-01','2000-12-01',freq='BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

In [189]:
%%html
<h4> Bases frecuencias date_range </h4>
<table>
    <tr>
        <td><b>Alias</b></td> <td><b>Tipo de Dato</b></td> <td><b>Descripción</b></td>
    </tr>
    <tr>
        <td>D</td> <td>Day</td> <td>Días Calendario</td>
    </tr>
    <tr>
        <td>B</td> <td>BusinessDay</td> <td>Días laborales</td>
    </tr>
    <tr>
        <td>H</td> <td>Hour</td> <td>Cada hora</td>
    </tr>
    <tr>
        <td>min</td> <td>Minute</td> <td>Cada minuto</td>
    </tr>
    <tr>
        <td>S</td> <td>Second</td> <td>Cada segundo</td>
    </tr>
    <tr>
        <td>M</td> <td>MonthEnd</td> <td>Último día calendario del mes</td>
    </tr>
    <tr>
        <td>BM</td> <td>BusinessMonthEnd</td> <td>Último día laboral del mes</td>
    </tr>
    <tr>
        <td>MS</td> <td>MonthBegin</td> <td>Primer día calendario del mes</td>
    </tr>
    <tr>
        <td>BMS</td> <td>BusinessMonthBegin</td> <td>Primer día laboral del mes</td>
    </tr>
    <tr>
        <td>W-MON, W-TUE, ...</td> <td>Week</td> <td>Cada semana en cierto día de la semana</td>
    </tr>
    <tr>
        <td>WOM-1MON</td> <td>WeekOfMont</td> <td>Genera datos semanales en la primera, segunda, tercera o cuarta semana del mes (Ej. WOM-3FRI para el tercer viernes de cada mes</td>
    </tr>
    <tr>
        <td>Q-JAN, Q-FEB, ...</td> <td>QuarterEnd</td> <td>Cada trimestre en el último día calendario de cada mes para el año terminando en el mes indicado</td>
    </tr>
    <tr>
        <td>A-JAN, A-FEB, ....</td> <td>YearEnd</td> <td>Cada año en el último día calendario del mes indicado</td>
    </tr>
</table>

0,1,2
Alias,Tipo de Dato,Descripción
D,Day,Días Calendario
B,BusinessDay,Días laborales
H,Hour,Cada hora
min,Minute,Cada minuto
S,Second,Cada segundo
M,MonthEnd,Último día calendario del mes
BM,BusinessMonthEnd,Último día laboral del mes
MS,MonthBegin,Primer día calendario del mes
BMS,BusinessMonthBegin,Primer día laboral del mes


### Shifting Series de Tiempo

In [81]:
ts = pd.Series(np.random.randint(1,10,4), 
               index=pd.date_range('1/1/2000',periods=4,freq='M'))
ts

2000-01-31    4
2000-02-29    5
2000-03-31    1
2000-04-30    5
Freq: M, dtype: int64

In [82]:
ts.shift(2)

2000-01-31    NaN
2000-02-29    NaN
2000-03-31    4.0
2000-04-30    5.0
Freq: M, dtype: float64

In [83]:
ts.shift(-2)

2000-01-31    1.0
2000-02-29    5.0
2000-03-31    NaN
2000-04-30    NaN
Freq: M, dtype: float64

Un uso común de shift es calcular cambios porcentuales de series de tiempo

In [84]:
ts / ts.shift(1) -1

2000-01-31     NaN
2000-02-29    0.25
2000-03-31   -0.80
2000-04-30    4.00
Freq: M, dtype: float64

Si pasamos el argumento 'freq' entonces dejamos de perder los datos en el shift

In [85]:
ts.shift(2,freq="M")

2000-03-31    4
2000-04-30    5
2000-05-31    1
2000-06-30    5
Freq: M, dtype: int64

In [86]:
ts.shift(3,freq="D")

2000-02-03    4
2000-03-03    5
2000-04-03    1
2000-05-03    5
dtype: int64

### Periodos y aritmética de periodos

In [87]:
p = pd.Period(2007,freq='A-DEC')
p

Period('2007', 'A-DEC')

En este caso Period representa el año completo desde 1º de enero de 2017 hasta el 31 de diciembre de 2017

Podemos entonces convenientemente modificar este objeto por su frequencia

In [88]:
p+5

Period('2012', 'A-DEC')

In [89]:
p -2

Period('2005', 'A-DEC')

Para dos periodos con la misma frequencia, la diferencia es el número de unidades entre ellos

In [91]:
pd.Period('2014',freq='A-DEC') -p

7

Se pueden generar rangos de periodos con la función period_range

In [93]:
rng = pd.period_range('2000-01-01','2000-06-30',freq='M')
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

In [94]:
pd.Series(np.random.randn(6),index=rng)

2000-01   -1.724089
2000-02   -0.617069
2000-03    0.373127
2000-04   -0.313610
2000-05   -0.174441
2000-06    0.874845
Freq: M, dtype: float64

Si tenemos un arreglo de strings, podemos usar sin problema la clase PeriodIndezx para generarlo

In [96]:
values = ['2001Q3', '2002Q2', '2003Q1']

In [97]:
index =  pd.PeriodIndex(values, freq='Q-DEC')
index

PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

Podemos transformar la frecuencia de un periodo utilizando el método asfreq

In [98]:
p = pd.Period('2007', freq='A-DEC')
p

Period('2007', 'A-DEC')

In [99]:
p.asfreq('M',how='start')

Period('2007-01', 'M')

In [100]:
p.asfreq('M',how='end')

Period('2007-12', 'M')

La misma operación podemos hacer con una serie de pandas

In [101]:
rng = pd.period_range('2006', '2009', freq='A-DEC')

In [102]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2006   -0.878989
2007   -0.046284
2008   -1.529993
2009    1.006633
Freq: A-DEC, dtype: float64

In [103]:
ts.asfreq('M', how='start')

2006-01   -0.878989
2007-01   -0.046284
2008-01   -1.529993
2009-01    1.006633
Freq: M, dtype: float64

In [104]:
ts.asfreq('B', how='end')

2006-12-29   -0.878989
2007-12-31   -0.046284
2008-12-31   -1.529993
2009-12-31    1.006633
Freq: B, dtype: float64

### Convirtiendo timestamps en Periodos (y al revés)

In [105]:
rng = pd.date_range('2000-01-01', periods=3, freq='M')

In [106]:
ts = pd.Series(np.random.randn(3), index=rng)
ts

2000-01-31   -0.658264
2000-02-29   -0.869466
2000-03-31   -0.162146
Freq: M, dtype: float64

In [108]:
pts = ts.to_period()
pts

2000-01   -0.658264
2000-02   -0.869466
2000-03   -0.162146
Freq: M, dtype: float64

Como los periodos siempre se refieren a periodos de tiempo que no se cruzan, entonces cada timestamp pertenece siempre a un sólo periodo dada una frecuencia. Veamos otro ejemplo

In [109]:
rng = pd.date_range('1/29/2000', periods=6, freq='D')

In [111]:
ts2 = pd.Series(np.random.randn(6), index=rng)
ts2

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

In [112]:
ts2.to_period('M')

2000-01    0.066898
2000-01   -0.598216
2000-01    0.558223
2000-02    2.529553
2000-02    1.155174
2000-02    0.752012
Freq: M, dtype: float64

Para regresar de nuevo a timestamps se utiliza el método to_timestamp

In [118]:
pts = ts2.to_period()
pts

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

In [119]:
pts.to_timestamp(how='end')

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

### Resampling y conversión de frecuencias 

**Resampling** se refiere al proceso de convertir una serie de tiempo de una frecuencia a otra. Agregar una serie de más alta frecuenca a una serie de baja frecuencia se llama *downsampling*, mientras que convertir una serie de más baja frecuencia a una serie de alta frencuencia se llama *upsampling*

Del mismo modo que funciona groupby, tu llamas primero el método resample y después la medida de agregación que quieres utilizar

In [120]:
rng = pd.date_range('2000-01-01', periods=100, freq='D')

In [121]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2000-01-01   -0.117390
2000-01-02   -0.298963
2000-01-03    1.175240
2000-01-04    0.042609
2000-01-05    0.229503
2000-01-06    0.341104
2000-01-07    1.387376
2000-01-08    1.759029
2000-01-09   -0.781555
2000-01-10    1.918021
2000-01-11   -0.468963
2000-01-12    0.869413
2000-01-13    0.151096
2000-01-14    0.067428
2000-01-15   -1.946418
2000-01-16   -0.264381
2000-01-17    0.677319
2000-01-18   -0.518318
2000-01-19   -1.324571
2000-01-20    0.836496
2000-01-21    0.532353
2000-01-22    0.296363
2000-01-23   -1.866386
2000-01-24   -1.575752
2000-01-25   -0.332869
2000-01-26   -0.206070
2000-01-27    0.218355
2000-01-28   -0.230340
2000-01-29    0.755842
2000-01-30    1.229982
                ...   
2000-03-11    0.454139
2000-03-12    1.196218
2000-03-13   -0.543403
2000-03-14    0.660247
2000-03-15    0.322940
2000-03-16    1.626937
2000-03-17   -0.057225
2000-03-18    0.905796
2000-03-19   -0.928647
2000-03-20    0.036531
2000-03-21   -0.322313
2000-03-22    0.662662
2000-03-23 

In [122]:
 ts.resample('M').mean()

2000-01-31    0.064373
2000-02-29   -0.241875
2000-03-31    0.213399
2000-04-30    0.372284
Freq: M, dtype: float64

In [123]:
ts.resample('M', kind='period').mean()

2000-01    0.064373
2000-02   -0.241875
2000-03    0.213399
2000-04    0.372284
Freq: M, dtype: float64

Para hacer *downsampling* hay dos cosas en las que nos debemos de fijar:
<ol> 
<li> Donde cierra el intervalo </li>
<li> Cómo llamar a cada intervalo de agregación (ya sea con el inicio del intervalo o el final)</li>
</ol>

Veamos un ejemplo

In [124]:
rng = pd.date_range('2000-01-01', periods=12, freq='T')

In [125]:
ts = pd.Series(np.arange(12), index=rng)
ts

2000-01-01 00:00:00     0
2000-01-01 00:01:00     1
2000-01-01 00:02:00     2
2000-01-01 00:03:00     3
2000-01-01 00:04:00     4
2000-01-01 00:05:00     5
2000-01-01 00:06:00     6
2000-01-01 00:07:00     7
2000-01-01 00:08:00     8
2000-01-01 00:09:00     9
2000-01-01 00:10:00    10
2000-01-01 00:11:00    11
Freq: T, dtype: int64

Supongamos que quieres agregar estos datos en grupos de 5 minutos tomando la suma de cada grupo

In [126]:
ts.resample('5min', closed='right').sum()

1999-12-31 23:55:00     0
2000-01-01 00:00:00    15
2000-01-01 00:05:00    40
2000-01-01 00:10:00    11
Freq: 5T, dtype: int64

In [127]:
ts.resample('5min', closed='right', label='right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:05:00    15
2000-01-01 00:10:00    40
2000-01-01 00:15:00    11
Freq: 5T, dtype: int64

Ver este [link](https://www.dropbox.com/s/32jp1r9tovbjpkx/Screenshot%202017-11-03%2023.38.38.png?dl=0)

Ahora veamos que para hacer upsampling no necesitamos medida de agregación. Primero, definimos nuestro dataframe

In [129]:
frame = pd.DataFrame(np.random.randn(2, 4),
                      index=pd.date_range('1/1/2000', periods=2,
                                          freq='W-WED'),
                      columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


In [130]:
df_daily = frame.resample('D').asfreq()
df_daily

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,,,,
2000-01-07,,,,
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


In [131]:
frame.resample('D').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-07,1.54648,0.201085,-0.868298,-0.751121
2000-01-08,1.54648,0.201085,-0.868298,-0.751121
2000-01-09,1.54648,0.201085,-0.868298,-0.751121
2000-01-10,1.54648,0.201085,-0.868298,-0.751121
2000-01-11,1.54648,0.201085,-0.868298,-0.751121
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


De la misma manera podemos decidir el número de periodos a llenar

In [132]:
frame.resample('D').ffill(limit=2)

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-07,1.54648,0.201085,-0.868298,-0.751121
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


o un periodo que no tenga overlap con el anterior

In [133]:
frame.resample('W-THU').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-13,-0.20402,1.363546,-0.4171,2.412191


### Resampling con Periodos

Primero definimos el DataFrame

In [136]:
frame = pd.DataFrame(np.random.randn(24, 4),
                      index=pd.period_range('1-2000', '12-2001',
                                            freq='M'),
                      columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame.head()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01,-0.188508,-1.44843,-1.666069,0.001038
2000-02,0.980678,-0.468383,0.799029,0.254968
2000-03,0.199986,-2.085751,-1.074219,-1.277166
2000-04,1.423189,1.660056,-1.213439,-0.208225
2000-05,-0.147703,1.480924,0.894544,0.980075


Ahora podemos agregar los años utilizando la media como medida de agregación

In [137]:
annual_frame = frame.resample('A-DEC').mean()
annual_frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000,0.506686,-0.265032,-0.336571,-0.000564
2001,-0.725463,-0.084245,0.053198,-0.538653
