# Series de Tiempo con Pandas

Los datos de series de tiempo son importantes en muchos campos, tales como finanzas, economía, física, marketing, etc

Las series de tiempo pueden ser de **frequencia fija**, es decir, los datos ocurren a un intervalo regular por ej. datos diarios, semanales, cada minuto, cada 15 segundos, etcétera. 
Las series de tiempo también pueden ser **frequencia irregular** donde no difieren en una misma unidad de tiempo los datos.

###  Tipos de datos Date y Time

In [3]:
from datetime import datetime

In [4]:
now = datetime.now()
now

datetime.datetime(2018, 9, 17, 18, 15, 28, 388755)

In [5]:
now.year, now.month, now.day

(2018, 9, 17)

Los objetos del tipo 'datetime' guardan ambos: fecha y hora (hasta microsegundos). 

Los objetos del tipo 'timedelta' representan diferencias temporales entre dos objetos del tipo datetime

In [6]:
delta = datetime.now() - datetime(2019,7,21)
delta

datetime.timedelta(-307, 65803, 374079)

Del mismo modo podemos accesar los días o segundos que restan para un evento

In [7]:
delta.days

-307

In [14]:
delta.seconds

65803

Se pueden añadir o sustraer uno "timedelta" o múltiples "timedeltas" a un objeto del tipo "datetime"

In [10]:
from datetime import timedelta

In [11]:
timedelta?

In [16]:
start = datetime(2011,1,7)

In [17]:
start + timedelta(weeks=14)

datetime.datetime(2011, 4, 15, 0, 0)

In [147]:
start - 2*timedelta(14)

datetime.datetime(2010, 12, 10, 0, 0)

#### Convirtiendo datos entre tipo string y datetime

In [18]:
stamp = datetime(2011,1,3)
str(stamp)

'2011-01-03 00:00:00'

In [24]:
stamp.strftime('%Y-%m-%d')

'2011-01-03'

In [19]:
%%html
<h4> Formato objetos datetime </h4>
<table>
    <tr>
        <td><b>Símbolo</b></td> <td><b>Descripción</b></td>
    </tr>
    <tr>
        <td>%Y</td> <td>Año de cuatro dígitos</td>
    </tr>
    <tr>
        <td>%y</td> <td>Año de dos dígitos</td>
    </tr>
    <tr>
        <td>%m</td> <td>Mes de dos dígitos</td>
    </tr>
    <tr>
        <td>%d</td> <td>Día de dos dígitos</td>
    </tr>
    <tr>
        <td>%H</td> <td>Hora 24hrs [00,23]</td>
    </tr>
    <tr>
        <td>%I</td> <td>Hora 12hrs [01,12]</td>
    </tr>
    <tr>
        <td>%M</td> <td>Minutos [00,59]</td>
    </tr>
    <tr>
        <td>%S</td> <td>Segundos [00,60]</td>
    </tr>
    <tr>
        <td>%w</td> <td>Día de la semana [0(domingo),6] </td>
    </tr>
    <tr>
        <td>%U</td> <td>Número de semana [00,53] donde domingo es el primer día de la semana (días antes del primer domingo son "semana 0")</td>
    </tr>
    <tr>
        <td>%W</td> <td>Número de semana [00,53] donde lunes es el primer día de la semana (días antes del primer lunes son "semana 0")</td>
    </tr>
    <tr>
        <td>%F</td> <td>Shortcut para %Y-%m-%d (ej. 2012-4-18) </td>
    </tr>
    <tr>
        <td>%D</td> <td>Shortcut para %m/%d/%y (ej. 04/18/12) </td>
    </tr>
</table>

0,1
Símbolo,Descripción
%Y,Año de cuatro dígitos
%y,Año de dos dígitos
%m,Mes de dos dígitos
%d,Día de dos dígitos
%H,"Hora 24hrs [00,23]"
%I,"Hora 12hrs [01,12]"
%M,"Minutos [00,59]"
%S,"Segundos [00,60]"
%w,"Día de la semana [0(domingo),6]"


Veamos que podemos convertir string a datetime con el método .strptime():

In [26]:
value = '2011-01-03'
datetime.strptime(value,'%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

También podemos aplicar list comprehension para transformar estas fechas

In [22]:
date_strings = ['7/6/2011','8/6/2011']

In [23]:
[datetime.strptime(x, '%m/%d/%Y') for x in date_strings]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

Si nos queremos ahorrar tener que pasarle el formato entonces podemos utilizar el método 'parse' del paquete dateutil (automáticamente instalado junto con Pandas)

In [151]:
from dateutil.parser import parse

In [153]:
parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

In [152]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

Si estamos usando las fechas en español, entonces nos conviene utilizar el parámetro dayfirst=True para indicar esto:

In [32]:
parse('6/12/2011',dayfirst=True)

datetime.datetime(2011, 12, 6, 0, 0)

Dentro de pandas tenemos el método .to_datetime() que es útil para convertir strings 

In [26]:
import numpy as np
import pandas as pd

In [27]:
pd.to_datetime(date_strings)

DatetimeIndex(['2011-07-06', '2011-08-06'], dtype='datetime64[ns]', freq=None)

También es útil manejar las fechas dentro de Pandas porque puede manejar valores faltantes como 'NaT' (Not a Time):

In [28]:
idx = pd.to_datetime(date_strings+[None])
idx

DatetimeIndex(['2011-07-06', '2011-08-06', 'NaT'], dtype='datetime64[ns]', freq=None)

y manejarlo del mismo modo que lo hacemos con otros valores faltantes en Pandas

In [29]:
pd.isnull(idx)

array([False, False,  True], dtype=bool)

### Basics de Series de Tiempo

Escribamos primero un arreglo de datetimes y creemos una serie a partir de estos valores

In [30]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
          datetime(2011, 1, 7), datetime(2011, 1, 8),
          datetime(2011, 1, 10), datetime(2011, 1, 12)]
dates

[datetime.datetime(2011, 1, 2, 0, 0),
 datetime.datetime(2011, 1, 5, 0, 0),
 datetime.datetime(2011, 1, 7, 0, 0),
 datetime.datetime(2011, 1, 8, 0, 0),
 datetime.datetime(2011, 1, 10, 0, 0),
 datetime.datetime(2011, 1, 12, 0, 0)]

In [32]:
ts = pd.Series(np.random.randn(6), index = dates)
ts

2011-01-02   -0.816485
2011-01-05    0.613719
2011-01-07   -0.257603
2011-01-08   -0.163859
2011-01-10   -0.562733
2011-01-12   -0.417053
dtype: float64

Vemos que los objetos 'datetime' se colocaron como 'DateTimeIndex'

In [33]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

Como con otras series las operaciones aritméticas se alinean inmediatamente con los valores del índice

In [34]:
ts[::2]

2011-01-02   -0.816485
2011-01-07   -0.257603
2011-01-10   -0.562733
dtype: float64

In [35]:
ts + ts[::2]

2011-01-02   -1.632970
2011-01-05         NaN
2011-01-07   -0.515207
2011-01-08         NaN
2011-01-10   -1.125466
2011-01-12         NaN
dtype: float64

Los valores escalares del DatetimeIndex son objetos del tipo 'Timestamp'

In [36]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

Como otras series las series de tiempo se pueden referencias por número o por etiqueta 

In [38]:
stamp = ts.index[2]
ts[stamp]

-0.2576034010882351

y se le puede pasar un string como etiqueta que pueda ser interpretado como fecha

In [40]:
ts['1/10/2011']

-0.56273318784431281

In [41]:
ts['20110110']

-0.56273318784431281

Para una serie de tiempo más larga se le puede pasar sólo el año o el año y el mes para obtener slices de la serie de tiempo

In [42]:
longer_ts = pd.Series(np.random.randn(1000),
                      index=pd.date_range('1/1/2000', periods=1000))
longer_ts

2000-01-01   -1.180141
2000-01-02   -0.557750
2000-01-03    1.589858
2000-01-04    1.259812
2000-01-05    0.514947
2000-01-06    0.174379
2000-01-07    1.791147
2000-01-08   -0.489518
2000-01-09   -0.750972
2000-01-10   -0.416163
2000-01-11    0.239928
2000-01-12   -0.041595
2000-01-13   -1.092471
2000-01-14   -1.137174
2000-01-15   -0.226879
2000-01-16   -0.514202
2000-01-17   -0.946615
2000-01-18   -0.860517
2000-01-19   -1.912516
2000-01-20    1.307864
2000-01-21   -0.102828
2000-01-22   -0.213362
2000-01-23    0.474691
2000-01-24   -0.826835
2000-01-25    1.779900
2000-01-26   -0.010835
2000-01-27   -0.170650
2000-01-28   -0.400892
2000-01-29    0.504381
2000-01-30    0.785370
                ...   
2002-08-28    1.985492
2002-08-29   -0.100074
2002-08-30   -0.258173
2002-08-31    1.893423
2002-09-01   -1.491150
2002-09-02   -1.028373
2002-09-03   -0.083623
2002-09-04   -1.166017
2002-09-05   -0.126074
2002-09-06    1.439162
2002-09-07   -0.001791
2002-09-08   -2.392100
2002-09-09 

Por ejemplo si queremos los datos de mayo de 2001, le pasamos '2001-05'

In [43]:
longer_ts['2001-05']

2001-05-01   -0.418285
2001-05-02    2.029133
2001-05-03    0.364339
2001-05-04    1.511139
2001-05-05   -1.180706
2001-05-06   -0.630186
2001-05-07    0.603074
2001-05-08   -0.994316
2001-05-09   -1.238835
2001-05-10   -0.433634
2001-05-11    0.611826
2001-05-12   -1.900219
2001-05-13   -0.902147
2001-05-14   -1.988325
2001-05-15   -0.198434
2001-05-16   -1.869405
2001-05-17   -0.128755
2001-05-18    1.801522
2001-05-19    0.612996
2001-05-20   -0.559729
2001-05-21   -0.049174
2001-05-22    0.197892
2001-05-23   -1.810198
2001-05-24   -1.300882
2001-05-25    2.216526
2001-05-26   -0.389060
2001-05-27    0.269084
2001-05-28    1.431089
2001-05-29   -0.347307
2001-05-30    0.832681
2001-05-31   -0.545024
Freq: D, dtype: float64

o '2001' para todos los datos del año 2001

In [45]:
longer_ts['2001']

2001-01-01    0.784107
2001-01-02    0.892245
2001-01-03    0.360188
2001-01-04    0.240949
2001-01-05    1.541528
2001-01-06   -0.724177
2001-01-07    1.080096
2001-01-08   -0.133751
2001-01-09   -0.199012
2001-01-10    0.215118
2001-01-11    1.092247
2001-01-12    2.324349
2001-01-13   -0.205459
2001-01-14   -0.041789
2001-01-15    1.285835
2001-01-16    0.608668
2001-01-17   -0.998204
2001-01-18   -1.003833
2001-01-19    1.970952
2001-01-20   -0.288855
2001-01-21   -1.032027
2001-01-22   -1.238640
2001-01-23   -1.795488
2001-01-24    1.606465
2001-01-25   -0.130941
2001-01-26    1.742965
2001-01-27   -0.018995
2001-01-28    1.302566
2001-01-29    1.740465
2001-01-30   -1.017074
                ...   
2001-12-02    0.192444
2001-12-03   -0.063717
2001-12-04    1.124253
2001-12-05    0.718540
2001-12-06   -0.157660
2001-12-07    0.553277
2001-12-08    1.038126
2001-12-09    0.801422
2001-12-10   -0.952128
2001-12-11   -1.069121
2001-12-12   -0.098832
2001-12-13   -0.480427
2001-12-14 

Se puede hacer el slicing usando objetos del tipo 'datetime' del mismo modo

In [46]:
ts[datetime(2011,1,7):]

2011-01-07   -0.257603
2011-01-08   -0.163859
2011-01-10   -0.562733
2011-01-12   -0.417053
dtype: float64

Si tus etiquetas están en orden cronológico entonces puedes incluir en tu 'query' datos que no están incluidos en el rango para obtenerlo hasta el final como por ejemplo

In [47]:
ts

2011-01-02   -0.816485
2011-01-05    0.613719
2011-01-07   -0.257603
2011-01-08   -0.163859
2011-01-10   -0.562733
2011-01-12   -0.417053
dtype: float64

In [48]:
ts['1/6/2011':'1/11/2017']

2011-01-07   -0.257603
2011-01-08   -0.163859
2011-01-10   -0.562733
2011-01-12   -0.417053
dtype: float64

Alternativamente se puede utilizar el método .truncate a una serie para obtener los valores anteriores (o posteriores) a una fecha

In [173]:
ts.truncate(after='1/9/2011')

2011-01-02   -2.509949
2011-01-05    1.557456
2011-01-07   -0.313922
2011-01-08   -0.131582
dtype: float64

Todo esto que vimos con Series es igualmente utilizable para DataFrames

In [174]:
pd.date_range?

Nota: veremos un ejemplo de más opciones para el argumento freq más abajo

In [50]:
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
dates

DatetimeIndex(['2000-01-05', '2000-01-12', '2000-01-19', '2000-01-26',
               '2000-02-02', '2000-02-09', '2000-02-16', '2000-02-23',
               '2000-03-01', '2000-03-08', '2000-03-15', '2000-03-22',
               '2000-03-29', '2000-04-05', '2000-04-12', '2000-04-19',
               '2000-04-26', '2000-05-03', '2000-05-10', '2000-05-17',
               '2000-05-24', '2000-05-31', '2000-06-07', '2000-06-14',
               '2000-06-21', '2000-06-28', '2000-07-05', '2000-07-12',
               '2000-07-19', '2000-07-26', '2000-08-02', '2000-08-09',
               '2000-08-16', '2000-08-23', '2000-08-30', '2000-09-06',
               '2000-09-13', '2000-09-20', '2000-09-27', '2000-10-04',
               '2000-10-11', '2000-10-18', '2000-10-25', '2000-11-01',
               '2000-11-08', '2000-11-15', '2000-11-22', '2000-11-29',
               '2000-12-06', '2000-12-13', '2000-12-20', '2000-12-27',
               '2001-01-03', '2001-01-10', '2001-01-17', '2001-01-24',
      

In [51]:
long_df = pd.DataFrame(np.random.randn(100,4),
                      index = dates,
                      columns = ['Aguascalientes', 'Chiapas', 'Puebla', 'Oaxaca'])
long_df.head(5)

Unnamed: 0,Aguascalientes,Chiapas,Puebla,Oaxaca
2000-01-05,0.213972,0.445768,-0.079237,-1.059095
2000-01-12,0.450569,-0.210222,-2.292548,0.324756
2000-01-19,-0.262396,1.22438,-0.605203,-0.097986
2000-01-26,0.375704,-0.340235,0.381192,-0.004631
2000-02-02,0.234973,1.213568,0.386827,-0.838776


In [52]:
long_df.loc['5-2001']

Unnamed: 0,Aguascalientes,Chiapas,Puebla,Oaxaca
2001-05-02,-1.778391,0.522064,0.892437,0.851905
2001-05-09,-0.828413,0.710875,0.234289,0.085367
2001-05-16,-0.007694,1.693775,1.109001,0.500043
2001-05-23,-1.261572,0.048448,0.648618,0.523766
2001-05-30,1.260285,-1.020623,-0.71913,1.271271


### Series de tiempo con índices duplicados

In [53]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])

In [54]:
dup_ts = pd.Series(np.arange(5),index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

Podemos revisar que el índice no es único con el atributo is_unique

In [180]:
dup_ts.index.is_unique

False

Así obtendremos valores escalares o series dependiendo de si el valore está duplicado o no

In [55]:
dup_ts['1/3/2000'] #No duplicado

4

In [56]:
dup_ts['1/2/2000'] #Duplicado

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

Supongamos que quieres agregar datos no únicos. Una de las maneras es utilizando gropby y level=0

In [57]:
grouped = dup_ts.groupby(level=0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [58]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

### Rangos de fechas

Recordemos la serie ts

In [59]:
ts

2011-01-02   -0.816485
2011-01-05    0.613719
2011-01-07   -0.257603
2011-01-08   -0.163859
2011-01-10   -0.562733
2011-01-12   -0.417053
dtype: float64

Ahora generemos un DatetimIndex para aprender la función date_tange

In [60]:
index = pd.date_range('2012-04-01','2012-06-01')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

Vemos que por default date_range genera datos diarios, también podemos pasarle el argumento 'periods' y la fecha de comienzo 'start' para generar los datos

In [61]:
pd.date_range(start='2012-04-01',periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

Si queremos obtener sólo el último día de trabajo de cada mes podemos utilizar el argumento 'freq' con 'BM'

In [62]:
pd.date_range('2000-01-01','2000-12-01',freq='BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

In [189]:
%%html
<h4> Bases frecuencias date_range </h4>
<table>
    <tr>
        <td><b>Alias</b></td> <td><b>Tipo de Dato</b></td> <td><b>Descripción</b></td>
    </tr>
    <tr>
        <td>D</td> <td>Day</td> <td>Días Calendario</td>
    </tr>
    <tr>
        <td>B</td> <td>BusinessDay</td> <td>Días laborales</td>
    </tr>
    <tr>
        <td>H</td> <td>Hour</td> <td>Cada hora</td>
    </tr>
    <tr>
        <td>min</td> <td>Minute</td> <td>Cada minuto</td>
    </tr>
    <tr>
        <td>S</td> <td>Second</td> <td>Cada segundo</td>
    </tr>
    <tr>
        <td>M</td> <td>MonthEnd</td> <td>Último día calendario del mes</td>
    </tr>
    <tr>
        <td>BM</td> <td>BusinessMonthEnd</td> <td>Último día laboral del mes</td>
    </tr>
    <tr>
        <td>MS</td> <td>MonthBegin</td> <td>Primer día calendario del mes</td>
    </tr>
    <tr>
        <td>BMS</td> <td>BusinessMonthBegin</td> <td>Primer día laboral del mes</td>
    </tr>
    <tr>
        <td>W-MON, W-TUE, ...</td> <td>Week</td> <td>Cada semana en cierto día de la semana</td>
    </tr>
    <tr>
        <td>WOM-1MON</td> <td>WeekOfMont</td> <td>Genera datos semanales en la primera, segunda, tercera o cuarta semana del mes (Ej. WOM-3FRI para el tercer viernes de cada mes</td>
    </tr>
    <tr>
        <td>Q-JAN, Q-FEB, ...</td> <td>QuarterEnd</td> <td>Cada trimestre en el último día calendario de cada mes para el año terminando en el mes indicado</td>
    </tr>
    <tr>
        <td>A-JAN, A-FEB, ....</td> <td>YearEnd</td> <td>Cada año en el último día calendario del mes indicado</td>
    </tr>
</table>

0,1,2
Alias,Tipo de Dato,Descripción
D,Day,Días Calendario
B,BusinessDay,Días laborales
H,Hour,Cada hora
min,Minute,Cada minuto
S,Second,Cada segundo
M,MonthEnd,Último día calendario del mes
BM,BusinessMonthEnd,Último día laboral del mes
MS,MonthBegin,Primer día calendario del mes
BMS,BusinessMonthBegin,Primer día laboral del mes


### Shifting Series de Tiempo

In [64]:
ts = pd.Series(np.random.randint(1,10,4), 
               index=pd.date_range('1/1/2000',periods=4,freq='M'))
ts

2000-01-31    5
2000-02-29    1
2000-03-31    6
2000-04-30    3
Freq: M, dtype: int64

In [65]:
ts.shift(2)

2000-01-31    NaN
2000-02-29    NaN
2000-03-31    5.0
2000-04-30    1.0
Freq: M, dtype: float64

In [66]:
ts.shift(-2)

2000-01-31    6.0
2000-02-29    3.0
2000-03-31    NaN
2000-04-30    NaN
Freq: M, dtype: float64

Un uso común de shift es calcular cambios porcentuales de series de tiempo

In [67]:
ts

2000-01-31    5
2000-02-29    1
2000-03-31    6
2000-04-30    3
Freq: M, dtype: int64

In [69]:
ts.shift(1)

2000-01-31    NaN
2000-02-29    5.0
2000-03-31    1.0
2000-04-30    6.0
Freq: M, dtype: float64

In [70]:
ts.shift(1) / ts -1

2000-01-31         NaN
2000-02-29    4.000000
2000-03-31   -0.833333
2000-04-30    1.000000
Freq: M, dtype: float64

Si pasamos el argumento 'freq' entonces dejamos de perder los datos en el shift

In [71]:
ts.shift(2,freq="M")

2000-03-31    5
2000-04-30    1
2000-05-31    6
2000-06-30    3
Freq: M, dtype: int64

In [72]:
ts.shift(3,freq="D")

2000-02-03    5
2000-03-03    1
2000-04-03    6
2000-05-03    3
dtype: int64

### Periodos y aritmética de periodos

In [87]:
p = pd.Period(2007,freq='A-DEC')
p

Period('2007', 'A-DEC')

En este caso Period representa el año completo desde 1º de enero de 2017 hasta el 31 de diciembre de 2017

Podemos entonces convenientemente modificar este objeto por su frequencia

In [88]:
p+5

Period('2012', 'A-DEC')

In [89]:
p -2

Period('2005', 'A-DEC')

Para dos periodos con la misma frequencia, la diferencia es el número de unidades entre ellos

In [91]:
pd.Period('2014',freq='A-DEC') -p

7

Se pueden generar rangos de periodos con la función period_range

In [93]:
rng = pd.period_range('2000-01-01','2000-06-30',freq='M')
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

In [94]:
pd.Series(np.random.randn(6),index=rng)

2000-01   -1.724089
2000-02   -0.617069
2000-03    0.373127
2000-04   -0.313610
2000-05   -0.174441
2000-06    0.874845
Freq: M, dtype: float64

Si tenemos un arreglo de strings, podemos usar sin problema la clase PeriodIndezx para generarlo

In [96]:
values = ['2001Q3', '2002Q2', '2003Q1']

In [97]:
index =  pd.PeriodIndex(values, freq='Q-DEC')
index

PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

Podemos transformar la frecuencia de un periodo utilizando el método asfreq

In [98]:
p = pd.Period('2007', freq='A-DEC')
p

Period('2007', 'A-DEC')

In [99]:
p.asfreq('M',how='start')

Period('2007-01', 'M')

In [100]:
p.asfreq('M',how='end')

Period('2007-12', 'M')

La misma operación podemos hacer con una serie de pandas

In [101]:
rng = pd.period_range('2006', '2009', freq='A-DEC')

In [102]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2006   -0.878989
2007   -0.046284
2008   -1.529993
2009    1.006633
Freq: A-DEC, dtype: float64

In [103]:
ts.asfreq('M', how='start')

2006-01   -0.878989
2007-01   -0.046284
2008-01   -1.529993
2009-01    1.006633
Freq: M, dtype: float64

In [104]:
ts.asfreq('B', how='end')

2006-12-29   -0.878989
2007-12-31   -0.046284
2008-12-31   -1.529993
2009-12-31    1.006633
Freq: B, dtype: float64

### Convirtiendo timestamps en Periodos (y al revés)

In [73]:
rng = pd.date_range('2000-01-01', periods=3, freq='M')

In [74]:
ts = pd.Series(np.random.randn(3), index=rng)
ts

2000-01-31    1.332374
2000-02-29   -0.569791
2000-03-31   -0.537418
Freq: M, dtype: float64

In [75]:
pts = ts.to_period()
pts

2000-01    1.332374
2000-02   -0.569791
2000-03   -0.537418
Freq: M, dtype: float64

Como los periodos siempre se refieren a periodos de tiempo que no se cruzan, entonces cada timestamp pertenece siempre a un sólo periodo dada una frecuencia. Veamos otro ejemplo

In [109]:
rng = pd.date_range('1/29/2000', periods=6, freq='D')

In [111]:
ts2 = pd.Series(np.random.randn(6), index=rng)
ts2

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

In [112]:
ts2.to_period('M')

2000-01    0.066898
2000-01   -0.598216
2000-01    0.558223
2000-02    2.529553
2000-02    1.155174
2000-02    0.752012
Freq: M, dtype: float64

Para regresar de nuevo a timestamps se utiliza el método to_timestamp

In [118]:
pts = ts2.to_period()
pts

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

In [119]:
pts.to_timestamp(how='end')

2000-01-29    0.066898
2000-01-30   -0.598216
2000-01-31    0.558223
2000-02-01    2.529553
2000-02-02    1.155174
2000-02-03    0.752012
Freq: D, dtype: float64

### Resampling y conversión de frecuencias 

**Resampling** se refiere al proceso de convertir una serie de tiempo de una frecuencia a otra. Agregar una serie de más alta frecuenca a una serie de baja frecuencia se llama *downsampling*, mientras que convertir una serie de más baja frecuencia a una serie de alta frencuencia se llama *upsampling*

Del mismo modo que funciona groupby, tu llamas primero el método resample y después la medida de agregación que quieres utilizar

In [120]:
rng = pd.date_range('2000-01-01', periods=100, freq='D')

In [121]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2000-01-01   -0.117390
2000-01-02   -0.298963
2000-01-03    1.175240
2000-01-04    0.042609
2000-01-05    0.229503
2000-01-06    0.341104
2000-01-07    1.387376
2000-01-08    1.759029
2000-01-09   -0.781555
2000-01-10    1.918021
2000-01-11   -0.468963
2000-01-12    0.869413
2000-01-13    0.151096
2000-01-14    0.067428
2000-01-15   -1.946418
2000-01-16   -0.264381
2000-01-17    0.677319
2000-01-18   -0.518318
2000-01-19   -1.324571
2000-01-20    0.836496
2000-01-21    0.532353
2000-01-22    0.296363
2000-01-23   -1.866386
2000-01-24   -1.575752
2000-01-25   -0.332869
2000-01-26   -0.206070
2000-01-27    0.218355
2000-01-28   -0.230340
2000-01-29    0.755842
2000-01-30    1.229982
                ...   
2000-03-11    0.454139
2000-03-12    1.196218
2000-03-13   -0.543403
2000-03-14    0.660247
2000-03-15    0.322940
2000-03-16    1.626937
2000-03-17   -0.057225
2000-03-18    0.905796
2000-03-19   -0.928647
2000-03-20    0.036531
2000-03-21   -0.322313
2000-03-22    0.662662
2000-03-23 

In [122]:
 ts.resample('M').mean()

2000-01-31    0.064373
2000-02-29   -0.241875
2000-03-31    0.213399
2000-04-30    0.372284
Freq: M, dtype: float64

In [123]:
ts.resample('M', kind='period').mean()

2000-01    0.064373
2000-02   -0.241875
2000-03    0.213399
2000-04    0.372284
Freq: M, dtype: float64

Para hacer *downsampling* hay dos cosas en las que nos debemos de fijar:
<ol> 
<li> Donde cierra el intervalo </li>
<li> Cómo llamar a cada intervalo de agregación (ya sea con el inicio del intervalo o el final)</li>
</ol>

Veamos un ejemplo

In [124]:
rng = pd.date_range('2000-01-01', periods=12, freq='T')

In [125]:
ts = pd.Series(np.arange(12), index=rng)
ts

2000-01-01 00:00:00     0
2000-01-01 00:01:00     1
2000-01-01 00:02:00     2
2000-01-01 00:03:00     3
2000-01-01 00:04:00     4
2000-01-01 00:05:00     5
2000-01-01 00:06:00     6
2000-01-01 00:07:00     7
2000-01-01 00:08:00     8
2000-01-01 00:09:00     9
2000-01-01 00:10:00    10
2000-01-01 00:11:00    11
Freq: T, dtype: int64

Supongamos que quieres agregar estos datos en grupos de 5 minutos tomando la suma de cada grupo

In [126]:
ts.resample('5min', closed='right').sum()

1999-12-31 23:55:00     0
2000-01-01 00:00:00    15
2000-01-01 00:05:00    40
2000-01-01 00:10:00    11
Freq: 5T, dtype: int64

In [127]:
ts.resample('5min', closed='right', label='right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:05:00    15
2000-01-01 00:10:00    40
2000-01-01 00:15:00    11
Freq: 5T, dtype: int64

Ver este [link](https://www.dropbox.com/s/32jp1r9tovbjpkx/Screenshot%202017-11-03%2023.38.38.png?dl=0)

Ahora veamos que para hacer upsampling no necesitamos medida de agregación. Primero, definimos nuestro dataframe

In [129]:
frame = pd.DataFrame(np.random.randn(2, 4),
                      index=pd.date_range('1/1/2000', periods=2,
                                          freq='W-WED'),
                      columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


In [130]:
df_daily = frame.resample('D').asfreq()
df_daily

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,,,,
2000-01-07,,,,
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


In [131]:
frame.resample('D').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-07,1.54648,0.201085,-0.868298,-0.751121
2000-01-08,1.54648,0.201085,-0.868298,-0.751121
2000-01-09,1.54648,0.201085,-0.868298,-0.751121
2000-01-10,1.54648,0.201085,-0.868298,-0.751121
2000-01-11,1.54648,0.201085,-0.868298,-0.751121
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


De la misma manera podemos decidir el número de periodos a llenar

In [132]:
frame.resample('D').ffill(limit=2)

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,1.54648,0.201085,-0.868298,-0.751121
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-07,1.54648,0.201085,-0.868298,-0.751121
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.20402,1.363546,-0.4171,2.412191


o un periodo que no tenga overlap con el anterior

In [133]:
frame.resample('W-THU').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-06,1.54648,0.201085,-0.868298,-0.751121
2000-01-13,-0.20402,1.363546,-0.4171,2.412191


### Resampling con Periodos

Primero definimos el DataFrame

In [136]:
frame = pd.DataFrame(np.random.randn(24, 4),
                      index=pd.period_range('1-2000', '12-2001',
                                            freq='M'),
                      columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame.head()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01,-0.188508,-1.44843,-1.666069,0.001038
2000-02,0.980678,-0.468383,0.799029,0.254968
2000-03,0.199986,-2.085751,-1.074219,-1.277166
2000-04,1.423189,1.660056,-1.213439,-0.208225
2000-05,-0.147703,1.480924,0.894544,0.980075


Ahora podemos agregar los años utilizando la media como medida de agregación

In [137]:
annual_frame = frame.resample('A-DEC').mean()
annual_frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000,0.506686,-0.265032,-0.336571,-0.000564
2001,-0.725463,-0.084245,0.053198,-0.538653
