<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/6.Gestion_de_datos/Time_Series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

>[Time Series](#scrollTo=47Zj4ddS4faR)

>>[Convirtiendo entre string y datetime](#scrollTo=Z88BdpN8T-t3)

>>[Time Series](#scrollTo=NPCTOF9VXMeu)

>>>[Indexing, Selection, Subsetting](#scrollTo=JfKZ1NL5XvNq)

>>>[Time Series con Indices duplicados](#scrollTo=fvkvSXOsZ0Tu)

>>>[Generando Date Ranges](#scrollTo=rraIdN98bDzp)

>>[Rango de fechas, frecuencias y remuestreo (Resample)](#scrollTo=jyxVSBw8ag_s)

>>>[Frecuencias y Date Offsets](#scrollTo=7Qv5E8fgcr1T)

>>>[Semana del mes](#scrollTo=xKdc_69VdO6w)

>>>[Desplazamiento de datos](#scrollTo=97gnXsMyd0c0)

>>[Manejo de zona horaria](#scrollTo=xMy-xfR7ecVr)

>>>[Operaciones entre diferentes zonas horarias](#scrollTo=xwoRltCHf3Lc)

>>[Periodos y aritmética de periodos](#scrollTo=jKD07GILgm0P)

>>>[Frecuencias trimestrales](#scrollTo=x8HmzQszhalx)



# Time Series

Los datos de series temporales son una forma importante de datos estructurados en muchos campos diferentes, como finanzas, economía, y física. Todo lo que se observa o mide en muchos puntos en el tiempo forma una serie de tiempo. Las series de tiempo también pueden ser irregulares sin una unidad de tiempo fija o compensación entre unidades.

Las series temporales pueden presentarse con algunos de los siguientes formatos:

* Marcas de tiempo: Instantes específicos en el tiempo

* Períodos fijos: Como el mes de enero de 2007 o el año completo 2010

* Intervalos de tiempo: Indicados por una marca de tiempo de inicio y fin. Los períodos pueden considerarse casos especiales de intervalos.

* Experimento o tiempo transcurrido: Cada marca de tiempo es una medida de tiempo en relación con un tiempo de inicio particular (por ejemplo, el diámetro de una galleta que se hornea cada segundo desde que se coloca en el horno)


Pandas proporciona muchas herramientas de series de tiempo y algoritmos de datos integrados. Puede trabajar eficientemente con series de tiempo muy grandes, cortar, dividir, agregar y volver a muestrear fácilmente series de tiempo de frecuencia irregular y fija.




Type	| Description
------|------------
date	| Store calendar date (year, month, day) using the Gregorian calendar
time	| Store time of day as hours, minutes, seconds, and microseconds
datetime	| Stores both date and time
timedelta	| Represents the difference between two datetime values (as days, seconds, and microseconds)
tzinfo	| Base type for storing time zone information



In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
from datetime import timedelta
now = datetime.now()
now

In [None]:
now.year, now.month, now.day

In [None]:
start = datetime(2011, 1, 7)
start

In [None]:
start + timedelta(12)

In [None]:
delta = 2 * timedelta(12)
delta

In [None]:
start - delta

## Convirtiendo entre string y datetime

Es posible formatear objetos datetime y Timestamp como cadenas usando str o el método strftime, pasando una especificación de formato

Type | Description
-----|------------
%Y |Four-digit year
%y |Two-digit year
%m |Two-digit month [01, 12]
%d |Two-digit day [01, 31]
%H |Hour (24-hour clock) [00, 23]
%I |Hour (12-hour clock) [01, 12]
%M |Two-digit minute [00, 59]
%S |Second [00, 61] (seconds 60, 61 account for leap seconds)
%w |Weekday as integer [0 (Sunday), 6]
%U |Week number of the year [00, 53]; Sunday is considered the first day of the week, and days before the first Sunday of the year are “week 0”
%W |Week number of the year [00, 53]; Monday is considered the first day of the week, and days before the first Monday of the year are “week 0”
%z |UTC time zone offset as +HHMM or -HHMM; empty if time zone naive
%F |Shortcut for %Y-%m-%d (e.g., 2012-4-18)
%D |Shortcut for %m/%d/%y (e.g., 04/18/12)




In [None]:
stamp = datetime(2011, 1, 3)
stamp

In [None]:
str(stamp)

In [None]:
stamp.strftime('%Y-%m-%d')

Puedes usar los códigos de formato para convertir cadenas a fechas usando **datetime.strptime**:

In [None]:
value = '2019-01-03'
type(value)

In [None]:
datetime.strptime(value, '%Y-%m-%d')

In [None]:
datestrs = ['7/6/2019', '8/6/2019']

In [None]:
[datetime.strptime(x, '%d/%m/%Y') for x in datestrs]

*datetime.strptime* es una forma fácil de parsear datos. Sin embargo, puede ser un poco complejo de generar el formato para cada tiempo, en particular para formatos de fecha.

**dateutil** es capaz de parsear casi cualquier tipo de formato de fecha que le pasemos.

In [None]:
from dateutil.parser import parse
parse('Jan 31, 2019 11:45 AM')

In [None]:
parse('12/6/2011', dayfirst=True) #En caso de que esten trabajando con formato dd/mm/yy

pandas generalmente está orientado a trabajar con arreglos de fechas, ya sea que se use como un índice de eje o una columna en un DataFrame. El método **to_datetime** analiza muchos tipos diferentes de representaciones de fechas.

In [None]:
datestrs = ['2019-07-06 12:00:00', '2019-08-06 00:00:00']

In [None]:
pd.to_datetime(datestrs)

In [None]:
idx = pd.to_datetime(datestrs + [None]) # Agregamos un nulo
idx

In [None]:
# Acceder a un elemento dentro de la lista de datetimes
idx[0].year

In [None]:
'''
NaT (Not a Time) es valor que asigna Pandas a los valores nulos de tipo datetime
'''
pd.isnull(idx)



---


## Time Series
Un tipo básico de objeto de serie temporal en Pandas es una serie indexada por marcas de tiempo, que a menudo se representa como cadenas de Python u objetos de fecha y hora:

In [None]:
from datetime import datetime
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]
dates

In [None]:
ts = pd.Series(np.random.randn(6), index=dates)
ts

In [None]:
ts + ts[::2] # :: es un slicing con step "n", en este caso 2
# En este caso toma las lineas 1, 3 y 5

### Indexing, Selection, Subsetting

Las series de tiempo se comportan como cualquier otro objeto de Pandas

In [None]:
stamp = ts.index[0]
stamp

In [None]:
ts[stamp]

Para series de tiempo más largas, se puede pasar un año o solo un año y un mes para seleccionar fácilmente segmentos de datos

In [None]:
l_ts = pd.Series(np.random.randn(1000),
                 index=pd.date_range('1/1/2005', periods=1000))
l_ts

In [None]:
l_ts['2005']

In [None]:
l_ts['2005-04']

In [None]:
ts

In [None]:
ts[datetime(2011, 1, 7):] # También podemos realizar slicing sobre series de tiempo

### Time Series con Indices duplicados
En algunas aplicaciones, puede haber múltiples observaciones de datos que caen en una marca de tiempo particular. Aquí hay un ejemplo:

In [None]:
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000',
                          '1/2/2000', '1/3/2000'])

In [None]:
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts

In [None]:
dup_ts.index.is_unique # Asi chequeamos sobre toda la serie si el indice tiene duplicados

In [None]:
dup_ts['1/3/2000']

In [None]:
dup_ts['1/2/2000']

¿Qué podemos hacer con los índices duplicados? Dependerá del problema en particular, pero una solución posible es quedarse con el promedio con lo visto anteriormente de **groupby**.

Supongamos que deseas agregar los datos que tienen marcas de tiempo no únicas. Una forma de hacerlo es usar groupby y pasar nivel = 0:

In [None]:
grouped = dup_ts.groupby(by=dup_ts.index) # Hacemos el agrupamiento sobre el índice de la serie
grouped.mean()

In [None]:
# Otra forma de hacer lo mismo
grouped = dup_ts.groupby(level = 0)
grouped.mean()

In [None]:
grouped.count()



---


### Generando Date Ranges

*pandas.date_range* es responsable de generar un DatetimeIndex con una longitud indicada de acuerdo con una frecuencia particular

In [None]:
index = pd.date_range('2012-04-01', '2012-06-01')
index

Por defecto, **date_range** genera marcas de tiempo diarias.

Si solo pasas una fecha de inicio o finalización, debe pasar varios períodos para generar:

In [None]:
pd.date_range(start='2012-04-01', periods=20)

In [None]:
pd.date_range(end='2012-06-01', periods=20)

Las fechas de inicio y finalización definen límites estrictos para el índice de fecha generado. Por ejemplo, si desea un índice de fechas que contenga el último día hábil de cada mes, debe pasar la frecuencia 'BM' y solo las fechas que caen o dentro del intervalo de fechas se incluirá:


Alias	| Offset type	| Description
------|-------------|------------
D	|Day	Calendar daily
B	|BusinessDay	Business daily
H	|Hour	Hourly
T |or min	Minute	Minutely
S	|Second	Secondly
L |or ms	Milli	Millisecond (1/1,000 of 1 second)
U	|Micro	Microsecond (1/1,000,000 of 1 second)
M	|MonthEnd	Last calendar day of month
BM|BusinessMonthEnd	Last business day (weekday) of month
MS|MonthBegin	First calendar day of month
BMS	|BusinessMonthBegin	First weekday of month
W-MON, W-TUE, ...| 	Week	Weekly on given day of week (MON, TUE, WED, THU, FRI, SAT, or SUN)
WOM-1MON, WOM-2MON, ...|	WeekOfMonth	Generate weekly dates in the first, second, third, or fourth week of the month (e.g., WOM-3FRI for the third Friday of each month)
Q-JAN, Q-FEB, ...| 	QuarterEnd	Quarterly dates anchored on last calendar day of each month, for year ending in indicated month (JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC)
BQ-JAN, BQ-FEB, ...| 	BusinessQuarterEnd	Quarterly dates anchored on last weekday day of each month, for year ending in indicated month
QS-JAN, QS-FEB, ...	| QuarterBegin	Quarterly dates anchored on first calendar day of each month, for year ending in indicated month
BQS-JAN, BQS-FEB, ...	| BusinessQuarterBegin	Quarterly dates anchored on first weekday day of each month, for year ending in indicated month
A-JAN, A-FEB, ...	| YearEnd	Annual dates anchored on last calendar day of given month (JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, or DEC)
BA-JAN, BA-FEB, ... | 	BusinessYearEnd	Annual dates anchored on last weekday of given month
AS-JAN, AS-FEB, ... | 	YearBegin	Annual dates anchored on first day of given month
BAS-JAN, BAS-FEB, ... | 	BusinessYearBegin	Annual dates anchored on first weekday of given month





---


## Rango de fechas, frecuencias y remuestreo (Resample)

Las series temporales en Pandas, no deben necesariamente tener frecuencia fija y para muchas aplicaciones esto es suficiente. Sin embargo, a menudo es conveniente trabajar en relación con una frecuencia fija, como diaria, mensual o cada 15 minutos, incluso si eso significa introducir valores faltantes en una serie de tiempo.

Afortunadamente, Pandas tiene un conjunto completo de frecuencias de serie de tiempo estándar y herramientas para volver a muestrear, inferir frecuencias y generar rangos de fechas de frecuencia fija.

Por ejemplo, se puede convertir la serie de tiempo de muestra en una frecuencia diaria fija llamando a **resample** que colocará por defecto valor=0 en indice agregado.

In [None]:
ts

In [None]:
resampler = ts.resample('D') # El parámetro D significa Día
# La salida es un objeto "Resampler" que NO se puede imprimir sin más, es similar a lo que sucede con groupby()!
# Podemos calcularle suma sobre cada valor para ver los nuevos valores resultantes del resampler:
resampler.sum()
#resampler

La agregación de datos de frecuencia más alta a frecuencia más baja se denomina **disminución de muestreo**, mientras que la conversión de frecuencia más baja a frecuencia más alta se denomina **muestreo superior**.

Veamos unos ejemplos más complejos con resample:

In [None]:
rng = pd.date_range('2000-01-01', periods=100, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

Tenemos una Serie con frecuencia diaria y la resampleamos a mensual, quedandonos con el promedio de los valores de cada mes.

In [None]:
ts.resample('M').mean()

In [None]:
ts.resample('M', kind='period').mean() # Cambiamos la forma de visualizar

Ahora generaremos un dataset con frecuencias de tiempo

In [None]:
rng = pd.date_range('2000-01-01', periods=12, freq='T')
ts = pd.Series(np.arange(12), index=rng)
ts

In [None]:
ts.resample('5min', closed='left').sum()

### Frecuencias y Date Offsets

Las frecuencias en  Pandas se componen de una frecuencia base y un multiplicador.

Las frecuencias base se refieren típicamente por un alias de cadena, como 'M' para mensual o 'H' para cada hora. Para cada frecuencia base, hay un objeto definido generalmente denominado desplazamiento de fecha.

In [None]:
from pandas.tseries.offsets import Hour, Minute
hour = Hour()


In [None]:
four_hours = Hour(4)
four_hours

In [None]:
Hour(2) + Minute(30)

In [None]:
from pandas.tseries.offsets import Day, MonthEnd
now = datetime(2022, 5, 23)

In [None]:
now + 3 * Day()

En la mayoría de las aplicaciones, nunca necesitarías crear explícitamente uno de estos objetos, en su lugar, utilizas un alias de cadena como 'H' o '4H' buscandolo en la tabla de arriba.

In [None]:
pd.date_range('2000-01-01', '2000-01-03 23:59', freq='4h')

### Semana del mes

Una clase de frecuencia útil es "semana del mes", comenzando con WOM. Esto le permite obtener fechas como el cuarto lunes de cada mes:

In [None]:
rng = pd.date_range('2022-05-01', '2022-08-01', freq='WOM-4MON')
list(rng)

### Desplazamiento de datos
"Desplazamiento" se refiere a mover datos hacia atrás y hacia adelante a través del tiempo.

Tanto Series como DataFrame tienen un método para realizar este tipo de cambios, sin modificar el índice:

In [None]:
ts = pd.Series(np.random.randn(4),
               index=pd.date_range('1/1/2000', periods=4, freq='M'))
ts

In [None]:
ts.shift(2)

In [None]:
ts.shift(-2)



---


## Manejo de zona horaria
Trabajar con zonas horarias generalmente se considera una de las partes más desagradables de la manipulación de series temporales.

Como resultado, muchos usuarios de series de tiempo eligen trabajar con series de tiempo en hora universal coordinada o UTC. Las zonas horarias se expresan como compensaciones de UTC; Por ejemplo, Nueva York está cuatro horas menos que UTC durante el horario de verano y cinco horas menos durante el resto del año.

En Python, la información de zona horaria proviene de la biblioteca **pytz**, que expone la base de datos Olson, una compilación de información de zona horaria mundial. Esto es especialmente importante para los datos históricos porque las fechas de transición del horario de verano (DST) (e incluso las compensaciones UTC) se han cambiado varias veces según los gobiernos locales.

Observación: El estándar UTC es un estándar de 1970 que reemplazó al estandar previo "GMT", pero ambos dan la misma hora.


In [None]:
import pytz
#pytz.common_timezones[-5:]
#Si queremos ver todas las tz disponibles:
for tz in pytz.all_timezones:
  print(tz)

In [None]:
tz = pytz.timezone('America/Argentina/Buenos_Aires')
print(tz)

In [None]:
rng = pd.date_range('3/9/2021 9:30', periods=6, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

In [None]:
print(ts.index) # Si miramos el indice, vemos que por defecto lo crea sin TZ

In [None]:
pd.date_range('3/9/2021 9:30', periods=10, freq='D', tz='UTC') # Podemos agregar TZ como parametro

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc # Ahora vemos que se agregó +00:00 (es decir el offset de UTC)

Una vez que una serie de tiempo se ha localizado en una zona horaria particular, se puede convertir a otra zona horaria con *tz_convert*

In [None]:
ts_utc.tz_convert('America/Argentina/Buenos_Aires') # Ahora se modificó el índice por UTC - 3 (Hora de Buenos Aires)

### Operaciones entre diferentes zonas horarias
Si se combinan dos series de tiempo con diferentes zonas horarias, el resultado será normalizado en UTC.

Esto es transparente para el usuario y no requiere hacer conversiones.

In [None]:
rng = pd.date_range('3/7/2012 9:30', periods=10, freq='B') #B es Business Daily
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

A la serie no le asignamos UTC ni ningún otro Timezone, vamos a darle alguno:

In [None]:
ts1 = ts.tz_localize('Europe/London') # A un conjunto de datos los situaremos en London
ts2 = ts1[2:].tz_convert('Europe/Moscow') # Y ahora a otro conjunto lo cambiaremos a Moscow

In [None]:
ts1.index

In [None]:
ts2.index

In [None]:
result = ts1 + ts2 #Ahora sumamos los valores de ambas series
# ¿En qué timezone estará la serie resultante?
result.index

In [None]:
# El resultado es:
result

## Periodos y aritmética de periodos

Los períodos representan períodos de tiempo, como días, meses, trimestres o años. La clase Period representa este tipo de datos, que requiere una cadena o un entero y una frecuencia.

En este caso, el objeto Período representa el intervalo de tiempo completo desde el 1 de enero de 2007 hasta el 31 de diciembre de 2007, inclusive.
Convenientemente, sumar y restar enteros de períodos tiene el efecto de cambiar según su frecuencia definida.

In [None]:
p = pd.Period(2007, freq='A-DEC')
p

In [None]:
p + 5

Puedes pensar en el Período ('2007', 'A-DEC') como una especie de cursor que apunta a un lapso de tiempo, subdividido por períodos mensuales. Para un año fiscal que termina en un mes que no sea diciembre, los subperíodos mensuales correspondientes son diferentes:

In [None]:
p = pd.Period('2007', freq='A-JUN')
p

In [None]:
p.asfreq('M', 'start')

In [None]:
p.asfreq('M', 'end')

### Frecuencias trimestrales
Los datos trimestrales son estándar en contabilidad, finanzas y otros campos. Se informan muchos datos trimestrales en relación con el final del año fiscal, generalmente el último calendario o día hábil de uno de los 12 meses del año.


Por lo tanto, el período 2021T4 tiene un significado diferente dependiendo del final del año fiscal.

Pandas admite las 12 frecuencias trimestrales posibles como por ejemplo Q-JAN, donde Q-JAN significa "Quarter end en enero":

In [None]:
p = pd.Period('2021T1', freq='Q-JAN')
p
# El 4° TRIMESTRE, finaliza en enero del año siguiente.
# 1° T: 02/2021 hasta 04/2021
# 2° T: 04/2021 hasta 07/2021
# 3° T: 07/2021 hasta 10/2021
# 4° T: 10/2021 hasta 01/2022

In [None]:
p.asfreq('M', 'start')

In [None]:
p.asfreq('M', 'end')