<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/6.Gestion_de_datos/Time_Series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

>[Time Series](#scrollTo=47Zj4ddS4faR)

>>[Convirtiendo entre string y datetime](#scrollTo=Z88BdpN8T-t3)

>>[Time Series](#scrollTo=NPCTOF9VXMeu)

>>>[Indexing, Selection, Subsetting](#scrollTo=JfKZ1NL5XvNq)

>>>[Time Series con Indices duplicados](#scrollTo=fvkvSXOsZ0Tu)

>>>[Generando Date Ranges](#scrollTo=rraIdN98bDzp)

>>[Rango de fechas, frecuencias y remuestreo (Resample)](#scrollTo=jyxVSBw8ag_s)

>>>[Frecuencias y Date Offsets](#scrollTo=7Qv5E8fgcr1T)

>>>[Semana del mes](#scrollTo=xKdc_69VdO6w)

>>>[Desplazamiento de datos](#scrollTo=97gnXsMyd0c0)

>>[Manejo de zona horaria](#scrollTo=xMy-xfR7ecVr)

>>>[Operaciones entre diferentes zonas horarias](#scrollTo=xwoRltCHf3Lc)

>>[Periodos y aritmética de periodos](#scrollTo=jKD07GILgm0P)

>>>[Frecuencias trimestrales](#scrollTo=x8HmzQszhalx)



# Time Series

Los datos de series temporales son una forma importante de datos estructurados en muchos campos diferentes, como finanzas, economía, y física. Todo lo que se observa o mide en muchos puntos en el tiempo forma una serie de tiempo. Las series de tiempo también pueden ser irregulares sin una unidad de tiempo fija o compensación entre unidades. 

Las series temporales pueden presentarse con algunos de los siguientes formatos:

* Marcas de tiempo: Instantes específicos en el tiempo

* Períodos fijos: Como el mes de enero de 2007 o el año completo 2010

* Intervalos de tiempo: Indicados por una marca de tiempo de inicio y fin. Los períodos pueden considerarse casos especiales de intervalos.

* Experimento o tiempo transcurrido: Cada marca de tiempo es una medida de tiempo en relación con un tiempo de inicio particular (por ejemplo, el diámetro de una galleta que se hornea cada segundo desde que se coloca en el horno)


Pandas proporciona muchas herramientas de series de tiempo y algoritmos de datos integrados. Puede trabajar eficientemente con series de tiempo muy grandes, cortar, dividir, agregar y volver a muestrear fácilmente series de tiempo de frecuencia irregular y fija. 




Type	| Description
------|------------
date	| Store calendar date (year, month, day) using the Gregorian calendar
time	| Store time of day as hours, minutes, seconds, and microseconds
datetime	| Stores both date and time
timedelta	| Represents the difference between two datetime values (as days, seconds, and microseconds)
tzinfo	| Base type for storing time zone information



In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
from datetime import timedelta
now = datetime.now()
now

datetime.datetime(2022, 5, 26, 21, 33, 42, 531125)

In [2]:
now.year, now.month, now.day

(2022, 5, 26)

In [3]:
start = datetime(2011, 1, 7)

In [4]:
start + timedelta(12)

datetime.datetime(2011, 1, 19, 0, 0)

In [5]:
start - 2 * timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

## Convirtiendo entre string y datetime

Es posible formatear objetos datetime y Timestamp como cadenas usando str o el método strftime, pasando una especificación de formato

Type | Description
-----|------------
%Y |Four-digit year
%y |Two-digit year
%m |Two-digit month [01, 12]
%d |Two-digit day [01, 31]
%H |Hour (24-hour clock) [00, 23]
%I |Hour (12-hour clock) [01, 12]
%M |Two-digit minute [00, 59]
%S |Second [00, 61] (seconds 60, 61 account for leap seconds)
%w |Weekday as integer [0 (Sunday), 6]
%U |Week number of the year [00, 53]; Sunday is considered the first day of the week, and days before the first Sunday of the year are “week 0”
%W |Week number of the year [00, 53]; Monday is considered the first day of the week, and days before the first Monday of the year are “week 0”
%z |UTC time zone offset as +HHMM or -HHMM; empty if time zone naive
%F |Shortcut for %Y-%m-%d (e.g., 2012-4-18)
%D |Shortcut for %m/%d/%y (e.g., 04/18/12)




In [6]:
stamp = datetime(2011, 1, 3)

In [7]:
str(stamp)

'2011-01-03 00:00:00'

In [8]:
stamp.strftime('%Y-%m-%d')

'2011-01-03'

Puedes usar los códigos de formato para convertir cadenas a fechas usando **datetime.strptime**:

In [9]:
value = '2019-01-03'
type(value)

str

In [10]:
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2019, 1, 3, 0, 0)

In [11]:
datestrs = ['7/6/2019', '8/6/2019']

In [12]:
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2019, 7, 6, 0, 0), datetime.datetime(2019, 8, 6, 0, 0)]

*datetime.strptime* es una forma fácil de parsear datos. Sin embargo, puede ser un poco complejo de generar el formato para cada tiempo, en particular para formatos de fecha.

**dateutil** es capaz de parsear casi cualquier tipo de formato de fecha que le pasemos.

In [13]:
from dateutil.parser import parse
parse('Jan 31, 2019 11:45 AM')

datetime.datetime(2019, 1, 31, 11, 45)

In [14]:
parse('12/6/2011', dayfirst=True) #En caso de que esten trabajando con formato dd/mm/yy

datetime.datetime(2011, 6, 12, 0, 0)

pandas generalmente está orientado a trabajar con arreglos de fechas, ya sea que se use como un índice de eje o una columna en un DataFrame. El método **to_datetime** analiza muchos tipos diferentes de representaciones de fechas. 

In [15]:
datestrs = ['2019-07-06 12:00:00', '2019-08-06 00:00:00']

In [16]:
pd.to_datetime(datestrs)

DatetimeIndex(['2019-07-06 12:00:00', '2019-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

In [17]:
idx = pd.to_datetime(datestrs + [None]) # Agregamos un nulo
idx

DatetimeIndex(['2019-07-06 12:00:00', '2019-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [18]:
# Acceder a un elemento dentro de la lista de datetimes
idx[0].year

2019

In [19]:
'''
NaT (Not a Time) es valor que asigna Pandas a los valores nulos de tipo datetime
'''
pd.isnull(idx)

array([False, False,  True])



---


## Time Series
Un tipo básico de objeto de serie temporal en Pandas es una serie indexada por marcas de tiempo, que a menudo se representa como cadenas de Python u objetos de fecha y hora:

In [20]:
from datetime import datetime
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]
dates

[datetime.datetime(2011, 1, 2, 0, 0),
 datetime.datetime(2011, 1, 5, 0, 0),
 datetime.datetime(2011, 1, 7, 0, 0),
 datetime.datetime(2011, 1, 8, 0, 0),
 datetime.datetime(2011, 1, 10, 0, 0),
 datetime.datetime(2011, 1, 12, 0, 0)]

In [21]:
ts = pd.Series(np.random.randn(6), index=dates)
ts

2011-01-02    2.076966
2011-01-05   -0.087865
2011-01-07   -0.006476
2011-01-08   -1.813098
2011-01-10   -0.578168
2011-01-12    0.538161
dtype: float64

In [22]:
ts + ts[::2] # :: es un slicing con step "n", en este caso 2
# En este caso toma las lineas 1, 3 y 5

2011-01-02    4.153932
2011-01-05         NaN
2011-01-07   -0.012952
2011-01-08         NaN
2011-01-10   -1.156335
2011-01-12         NaN
dtype: float64

### Indexing, Selection, Subsetting

Las series de tiempo se comportan como cualquier otro objeto de Pandas 

In [23]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

In [24]:
ts[stamp]

2.0769661758885407

Para series de tiempo más largas, se puede pasar un año o solo un año y un mes para seleccionar fácilmente segmentos de datos

In [25]:
l_ts = pd.Series(np.random.randn(1000),
                 index=pd.date_range('1/1/2005', periods=1000))
l_ts

2005-01-01   -0.125567
2005-01-02    0.504622
2005-01-03    0.375145
2005-01-04    0.292277
2005-01-05    0.640355
                ...   
2007-09-23   -0.651486
2007-09-24   -0.178650
2007-09-25    1.873790
2007-09-26   -1.331226
2007-09-27    0.901398
Freq: D, Length: 1000, dtype: float64

In [26]:
l_ts['2005']

2005-01-01   -0.125567
2005-01-02    0.504622
2005-01-03    0.375145
2005-01-04    0.292277
2005-01-05    0.640355
                ...   
2005-12-27   -1.398303
2005-12-28    0.304389
2005-12-29   -1.524038
2005-12-30   -0.333713
2005-12-31   -0.662368
Freq: D, Length: 365, dtype: float64

In [27]:
l_ts['2005-04']

2005-04-01   -0.139833
2005-04-02    0.998459
2005-04-03    0.269863
2005-04-04   -0.183357
2005-04-05   -0.470738
2005-04-06   -0.597021
2005-04-07   -1.101709
2005-04-08   -0.695239
2005-04-09   -1.398841
2005-04-10   -0.121121
2005-04-11   -1.870486
2005-04-12   -1.468455
2005-04-13   -0.252851
2005-04-14    0.452297
2005-04-15    0.266670
2005-04-16    0.444805
2005-04-17    0.077348
2005-04-18   -0.047454
2005-04-19    0.879928
2005-04-20    0.218065
2005-04-21    0.777099
2005-04-22   -0.432665
2005-04-23   -1.037235
2005-04-24    2.150152
2005-04-25   -2.016326
2005-04-26   -0.052167
2005-04-27    1.304438
2005-04-28   -0.219923
2005-04-29    0.834296
2005-04-30   -0.546817
Freq: D, dtype: float64

In [28]:
ts

2011-01-02    2.076966
2011-01-05   -0.087865
2011-01-07   -0.006476
2011-01-08   -1.813098
2011-01-10   -0.578168
2011-01-12    0.538161
dtype: float64

In [29]:
ts[datetime(2011, 1, 7):] # También podemos realizar slicing sobre series de tiempo

2011-01-07   -0.006476
2011-01-08   -1.813098
2011-01-10   -0.578168
2011-01-12    0.538161
dtype: float64

### Time Series con Indices duplicados
En algunas aplicaciones, puede haber múltiples observaciones de datos que caen en una marca de tiempo particular. Aquí hay un ejemplo:

In [30]:
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000',
                          '1/2/2000', '1/3/2000'])

In [31]:
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

In [32]:
dup_ts.index.is_unique # Asi chequeamos sobre toda la serie si el indice tiene duplicados

False

In [33]:
dup_ts['1/3/2000']

4

In [34]:
dup_ts['1/2/2000']

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

¿Qué podemos hacer con los índices duplicados? Dependerá del problema en particular, pero una solución posible es quedarse con el promedio con lo visto anteriormente de **groupby**.

Supongamos que deseas agregar los datos que tienen marcas de tiempo no únicas. Una forma de hacerlo es usar groupby y pasar nivel = 0:

In [35]:
grouped = dup_ts.groupby(by=dup_ts.index) # Hacemos el agrupamiento sobre el índice de la serie
grouped.mean()

2000-01-01    0.0
2000-01-02    2.0
2000-01-03    4.0
dtype: float64

In [36]:
# Otra forma de hacer lo mismo
grouped = dup_ts.groupby(level = 0)
grouped.mean()

2000-01-01    0.0
2000-01-02    2.0
2000-01-03    4.0
dtype: float64

In [37]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64



---


### Generando Date Ranges

*pandas.date_range* es responsable de generar un DatetimeIndex con una longitud indicada de acuerdo con una frecuencia particular

In [38]:
index = pd.date_range('2012-04-01', '2012-06-01')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

Por defecto, **date_range** genera marcas de tiempo diarias. 

Si solo pasas una fecha de inicio o finalización, debe pasar varios períodos para generar:

In [39]:
pd.date_range(start='2012-04-01', periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [40]:
pd.date_range(end='2012-06-01', periods=20)

DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')

Las fechas de inicio y finalización definen límites estrictos para el índice de fecha generado. Por ejemplo, si desea un índice de fechas que contenga el último día hábil de cada mes, debe pasar la frecuencia 'BM' y solo las fechas que caen o dentro del intervalo de fechas se incluirá:


Alias	| Offset type	| Description
------|-------------|------------
D	|Day	Calendar daily
B	|BusinessDay	Business daily
H	|Hour	Hourly
T |or min	Minute	Minutely
S	|Second	Secondly
L |or ms	Milli	Millisecond (1/1,000 of 1 second)
U	|Micro	Microsecond (1/1,000,000 of 1 second)
M	|MonthEnd	Last calendar day of month
BM|BusinessMonthEnd	Last business day (weekday) of month
MS|MonthBegin	First calendar day of month
BMS	|BusinessMonthBegin	First weekday of month
W-MON, W-TUE, ...| 	Week	Weekly on given day of week (MON, TUE, WED, THU, FRI, SAT, or SUN)
WOM-1MON, WOM-2MON, ...|	WeekOfMonth	Generate weekly dates in the first, second, third, or fourth week of the month (e.g., WOM-3FRI for the third Friday of each month)
Q-JAN, Q-FEB, ...| 	QuarterEnd	Quarterly dates anchored on last calendar day of each month, for year ending in indicated month (JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC)
BQ-JAN, BQ-FEB, ...| 	BusinessQuarterEnd	Quarterly dates anchored on last weekday day of each month, for year ending in indicated month
QS-JAN, QS-FEB, ...	| QuarterBegin	Quarterly dates anchored on first calendar day of each month, for year ending in indicated month
BQS-JAN, BQS-FEB, ...	| BusinessQuarterBegin	Quarterly dates anchored on first weekday day of each month, for year ending in indicated month
A-JAN, A-FEB, ...	| YearEnd	Annual dates anchored on last calendar day of given month (JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC)
BA-JAN, BA-FEB, ... | 	BusinessYearEnd	Annual dates anchored on last weekday of given month
AS-JAN, AS-FEB, ... | 	YearBegin	Annual dates anchored on first day of given month
BAS-JAN, BAS-FEB, ... | 	BusinessYearBegin	Annual dates anchored on first weekday of given month





---


## Rango de fechas, frecuencias y remuestreo (Resample) 

Las series temporales en Pandas, no deben necesariamente tener frecuencia fija y para muchas aplicaciones esto es suficiente. Sin embargo, a menudo es conveniente trabajar en relación con una frecuencia fija, como diaria, mensual o cada 15 minutos, incluso si eso significa introducir valores faltantes en una serie de tiempo.

Afortunadamente, Pandas tiene un conjunto completo de frecuencias de serie de tiempo estándar y herramientas para volver a muestrear, inferir frecuencias y generar rangos de fechas de frecuencia fija. 

Por ejemplo, se puede convertir la serie de tiempo de muestra en una frecuencia diaria fija llamando a **resample** que colocará por defecto valor=0 en indice agregado.

In [41]:
ts

2011-01-02    2.076966
2011-01-05   -0.087865
2011-01-07   -0.006476
2011-01-08   -1.813098
2011-01-10   -0.578168
2011-01-12    0.538161
dtype: float64

In [42]:
resampler = ts.resample('D') # El parámetro D significa Día
# La salida es un objeto "Resampler" que NO se puede imprimir sin más, es similar a lo que sucede con groupby()!
# Podemos calcularle suma sobre cada valor para ver los nuevos valores resultantes del resampler:
resampler.sum()

2011-01-02    2.076966
2011-01-03    0.000000
2011-01-04    0.000000
2011-01-05   -0.087865
2011-01-06    0.000000
2011-01-07   -0.006476
2011-01-08   -1.813098
2011-01-09    0.000000
2011-01-10   -0.578168
2011-01-11    0.000000
2011-01-12    0.538161
Freq: D, dtype: float64

La agregación de datos de frecuencia más alta a frecuencia más baja se denomina **disminución de muestreo**, mientras que la conversión de frecuencia más baja a frecuencia más alta se denomina **muestreo superior**. 

Veamos unos ejemplos más complejos con resample:

In [43]:
rng = pd.date_range('2000-01-01', periods=100, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2000-01-01    0.589573
2000-01-02    1.612793
2000-01-03   -0.047063
2000-01-04   -1.236442
2000-01-05   -1.161945
                ...   
2000-04-05    0.160210
2000-04-06   -0.235003
2000-04-07   -0.321735
2000-04-08   -1.595350
2000-04-09   -0.664736
Freq: D, Length: 100, dtype: float64

Tenemos una Serie con frecuencia diaria y la resampleamos a mensual, quedandonos con el promedio de los valores de cada mes.

In [44]:
ts.resample('M').mean()

2000-01-31   -0.079233
2000-02-29   -0.169528
2000-03-31   -0.110004
2000-04-30   -0.639602
Freq: M, dtype: float64

In [45]:
ts.resample('M', kind='period').mean() # Cambiamos la forma de visualizar

2000-01   -0.079233
2000-02   -0.169528
2000-03   -0.110004
2000-04   -0.639602
Freq: M, dtype: float64

Ahora generaremos un dataset con frecuencias de tiempo

In [46]:
rng = pd.date_range('2000-01-01', periods=12, freq='T')
ts = pd.Series(np.arange(12), index=rng)
ts

2000-01-01 00:00:00     0
2000-01-01 00:01:00     1
2000-01-01 00:02:00     2
2000-01-01 00:03:00     3
2000-01-01 00:04:00     4
2000-01-01 00:05:00     5
2000-01-01 00:06:00     6
2000-01-01 00:07:00     7
2000-01-01 00:08:00     8
2000-01-01 00:09:00     9
2000-01-01 00:10:00    10
2000-01-01 00:11:00    11
Freq: T, dtype: int64

In [47]:
ts.resample('5min', closed='right').sum() 

1999-12-31 23:55:00     0
2000-01-01 00:00:00    15
2000-01-01 00:05:00    40
2000-01-01 00:10:00    11
Freq: 5T, dtype: int64

### Frecuencias y Date Offsets

Las frecuencias en  Pandas se componen de una frecuencia base y un multiplicador. 

Las frecuencias base se refieren típicamente por un alias de cadena, como 'M' para mensual o 'H' para cada hora. Para cada frecuencia base, hay un objeto definido generalmente denominado desplazamiento de fecha. 

In [48]:
from pandas.tseries.offsets import Hour, Minute
hour = Hour()
hour

<Hour>

In [49]:
four_hours = Hour(4)
four_hours

<4 * Hours>

In [50]:
Hour(2) + Minute(30)

<150 * Minutes>

In [51]:
from pandas.tseries.offsets import Day, MonthEnd
now = datetime(2022, 5, 23)

In [52]:
now + 3 * Day()

Timestamp('2022-05-26 00:00:00')

En la mayoría de las aplicaciones, nunca necesitarías crear explícitamente uno de estos objetos, en su lugar, utilizas un alias de cadena como 'H' o '4H' buscandolo en la tabla de arriba.

In [53]:
pd.date_range('2000-01-01', '2000-01-03 23:59', freq='4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

### Semana del mes

Una clase de frecuencia útil es "semana del mes", comenzando con WOM. Esto le permite obtener fechas como el cuarto lunes de cada mes:

In [54]:
rng = pd.date_range('2022-05-01', '2022-08-01', freq='WOM-4MON')
list(rng)

[Timestamp('2022-05-23 00:00:00', freq='WOM-4MON'),
 Timestamp('2022-06-27 00:00:00', freq='WOM-4MON'),
 Timestamp('2022-07-25 00:00:00', freq='WOM-4MON')]

### Desplazamiento de datos 
"Desplazamiento" se refiere a mover datos hacia atrás y hacia adelante a través del tiempo. 

Tanto Series como DataFrame tienen un método para realizar este tipo de cambios, sin modificar el índice:

In [55]:
ts = pd.Series(np.random.randn(4),
               index=pd.date_range('1/1/2000', periods=4, freq='M'))
ts

2000-01-31    1.908053
2000-02-29    0.224063
2000-03-31   -0.930562
2000-04-30   -0.404521
Freq: M, dtype: float64

In [56]:
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31    1.908053
2000-04-30    0.224063
Freq: M, dtype: float64

In [57]:
ts.shift(-2)

2000-01-31   -0.930562
2000-02-29   -0.404521
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64



---


## Manejo de zona horaria
Trabajar con zonas horarias generalmente se considera una de las partes más desagradables de la manipulación de series temporales. 

Como resultado, muchos usuarios de series de tiempo eligen trabajar con series de tiempo en hora universal coordinada o UTC. Las zonas horarias se expresan como compensaciones de UTC; Por ejemplo, Nueva York está cuatro horas menos que UTC durante el horario de verano y cinco horas menos durante el resto del año.

En Python, la información de zona horaria proviene de la biblioteca **pytz**, que expone la base de datos Olson, una compilación de información de zona horaria mundial. Esto es especialmente importante para los datos históricos porque las fechas de transición del horario de verano (DST) (e incluso las compensaciones UTC) se han cambiado varias veces según los gobiernos locales. 

Observación: El estándar UTC es un estándar de 1970 que reemplazó al estandar previo "GMT", pero ambos dan la misma hora.


In [None]:
import pytz
#pytz.common_timezones[-5:]
#Si queremos ver todas las tz disponibles:
for tz in pytz.all_timezones:
  print(tz)

In [59]:
tz = pytz.timezone('America/Argentina/Buenos_Aires')

<DstTzInfo 'America/Argentina/Buenos_Aires' LMT-1 day, 20:06:00 STD>

In [61]:
rng = pd.date_range('3/9/2021 9:30', periods=6, freq='D') 
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2021-03-09 09:30:00    0.531945
2021-03-10 09:30:00   -0.775029
2021-03-11 09:30:00   -0.071211
2021-03-12 09:30:00   -1.050570
2021-03-13 09:30:00   -1.449809
2021-03-14 09:30:00   -0.681159
Freq: D, dtype: float64

In [62]:
print(ts.index) # Si miramos el indice, vemos que por defecto lo crea sin TZ

DatetimeIndex(['2021-03-09 09:30:00', '2021-03-10 09:30:00',
               '2021-03-11 09:30:00', '2021-03-12 09:30:00',
               '2021-03-13 09:30:00', '2021-03-14 09:30:00'],
              dtype='datetime64[ns]', freq='D')


In [63]:
pd.date_range('3/9/2021 9:30', periods=10, freq='D', tz='UTC') # Podemos agregar TZ como parametro

DatetimeIndex(['2021-03-09 09:30:00+00:00', '2021-03-10 09:30:00+00:00',
               '2021-03-11 09:30:00+00:00', '2021-03-12 09:30:00+00:00',
               '2021-03-13 09:30:00+00:00', '2021-03-14 09:30:00+00:00',
               '2021-03-15 09:30:00+00:00', '2021-03-16 09:30:00+00:00',
               '2021-03-17 09:30:00+00:00', '2021-03-18 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [64]:
ts_utc = ts.tz_localize('UTC')
ts_utc # Ahora vemos que se agregó +00:00 (es decir el offset de UTC)

2021-03-09 09:30:00+00:00    0.531945
2021-03-10 09:30:00+00:00   -0.775029
2021-03-11 09:30:00+00:00   -0.071211
2021-03-12 09:30:00+00:00   -1.050570
2021-03-13 09:30:00+00:00   -1.449809
2021-03-14 09:30:00+00:00   -0.681159
Freq: D, dtype: float64

Una vez que una serie de tiempo se ha localizado en una zona horaria particular, se puede convertir a otra zona horaria con *tz_convert*

In [65]:
ts_utc.tz_convert('America/Argentina/Buenos_Aires') # Ahora se modificó el índice por UTC - 3 (Hora de Buenos Aires)

2021-03-09 06:30:00-03:00    0.531945
2021-03-10 06:30:00-03:00   -0.775029
2021-03-11 06:30:00-03:00   -0.071211
2021-03-12 06:30:00-03:00   -1.050570
2021-03-13 06:30:00-03:00   -1.449809
2021-03-14 06:30:00-03:00   -0.681159
Freq: D, dtype: float64

### Operaciones entre diferentes zonas horarias
Si se combinan dos series de tiempo con diferentes zonas horarias, el resultado será normalizado en UTC. 

Esto es transparente para el usuario y no requiere hacer conversiones.

In [66]:
rng = pd.date_range('3/7/2012 9:30', periods=10, freq='B') #B es Business Daily
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-03-07 09:30:00   -1.093471
2012-03-08 09:30:00    0.156390
2012-03-09 09:30:00    0.565077
2012-03-12 09:30:00    1.302212
2012-03-13 09:30:00   -0.224500
2012-03-14 09:30:00    0.395180
2012-03-15 09:30:00    0.716483
2012-03-16 09:30:00    0.340443
2012-03-19 09:30:00    0.137996
2012-03-20 09:30:00   -3.612079
Freq: B, dtype: float64

A la serie no le asignamos UTC ni ningún otro Timezone, vamos a darle alguno:

In [67]:
ts1 = ts.tz_localize('Europe/London') # A un conjunto de datos los situaremos en London
ts2 = ts1[2:].tz_convert('Europe/Moscow') # Y ahora a otro conjunto lo cambiaremos a Moscow

In [68]:
ts1.index 

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-19 09:30:00+00:00', '2012-03-20 09:30:00+00:00'],
              dtype='datetime64[ns, Europe/London]', freq=None)

In [69]:
ts2.index

DatetimeIndex(['2012-03-09 13:30:00+04:00', '2012-03-12 13:30:00+04:00',
               '2012-03-13 13:30:00+04:00', '2012-03-14 13:30:00+04:00',
               '2012-03-15 13:30:00+04:00', '2012-03-16 13:30:00+04:00',
               '2012-03-19 13:30:00+04:00', '2012-03-20 13:30:00+04:00'],
              dtype='datetime64[ns, Europe/Moscow]', freq=None)

In [72]:
result = ts1 + ts2 #Ahora sumamos los valores de ambas series 
# ¿En qué timezone estará la serie resultante?
result.index

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-19 09:30:00+00:00', '2012-03-20 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq=None)

In [73]:
# El resultado es:
result

2012-03-07 09:30:00+00:00         NaN
2012-03-08 09:30:00+00:00         NaN
2012-03-09 09:30:00+00:00    1.130154
2012-03-12 09:30:00+00:00    2.604423
2012-03-13 09:30:00+00:00   -0.449000
2012-03-14 09:30:00+00:00    0.790360
2012-03-15 09:30:00+00:00    1.432965
2012-03-16 09:30:00+00:00    0.680886
2012-03-19 09:30:00+00:00    0.275992
2012-03-20 09:30:00+00:00   -7.224158
dtype: float64

## Periodos y aritmética de periodos

Los períodos representan períodos de tiempo, como días, meses, trimestres o años. La clase Period representa este tipo de datos, que requiere una cadena o un entero y una frecuencia.

En este caso, el objeto Período representa el intervalo de tiempo completo desde el 1 de enero de 2007 hasta el 31 de diciembre de 2007, inclusive.
Convenientemente, sumar y restar enteros de períodos tiene el efecto de cambiar según su frecuencia definida.

In [74]:
p = pd.Period(2007, freq='A-DEC')
p

Period('2007', 'A-DEC')

In [75]:
p + 5

Period('2012', 'A-DEC')

Puedes pensar en el Período ('2007', 'A-DEC') como una especie de cursor que apunta a un lapso de tiempo, subdividido por períodos mensuales. Para un año fiscal que termina en un mes que no sea diciembre, los subperíodos mensuales correspondientes son diferentes:

In [76]:
p = pd.Period('2007', freq='A-JUN')
p

Period('2007', 'A-JUN')

In [77]:
p.asfreq('M', 'start')

Period('2006-07', 'M')

In [78]:
p.asfreq('M', 'end')

Period('2007-06', 'M')

### Frecuencias trimestrales
Los datos trimestrales son estándar en contabilidad, finanzas y otros campos. Se informan muchos datos trimestrales en relación con el final del año fiscal, generalmente el último calendario o día hábil de uno de los 12 meses del año. 


Por lo tanto, el período 2021T4 tiene un significado diferente dependiendo del final del año fiscal. 

Pandas admite las 12 frecuencias trimestrales posibles como por ejemplo Q-JAN, donde Q-JAN significa "Quarter end en enero":

In [79]:
p = pd.Period('2021T4', freq='Q-JAN')
p
# El 4° TRIMESTRE, finaliza en enero del año siguiente.
# 1° T: 02/2021 hasta 04/2021
# 2° T: 04/2021 hasta 07/2021
# 3° T: 07/2021 hasta 10/2021
# 4° T: 10/2021 hasta 01/2022 

Period('2022Q1', 'Q-JAN')

In [80]:
p.asfreq('M', 'start')

Period('2021-02', 'M')

In [81]:
p.asfreq('M', 'end')

Period('2021-04', 'M')