# Pandas + Dates in Python

In [2]:
#Importamos pandas sobre el acrónimo pd
import pandas as pd
import numpy as np
import datetime

**Pandas** tiene 3 estructuras principales:
* Series
* Data Frames
* Índices

### Resumen de creación de series

In [2]:
# Nos creamos un objeto tipo serie, tambien se podría hacer desde un array numpy
data = pd.Series([0.25, 0.5, 0.75, 1.0])

# Mostramos el resultado. Hay índices por defecto, y también hay inferencia de tipo (dtype.)
print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


Como podemos ver, por defecto los índices que coge son [0,1,2,...,i,...)

In [4]:
# Podemos acceder a los valores:
print(data.index)

# Y al tipo de dato:
print(type(data.index))

# Y al tipo de dato de la serie en si
print(type(data.values))

# O al tipo de dato de un dato en concreto, utiliza los tipos de numpy
print(type(data[0]), type(data.values[0]))

RangeIndex(start=0, stop=4, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>
<class 'numpy.ndarray'>
<class 'numpy.float64'> <class 'numpy.float64'>


Como antes, podemos acceder al indexado normal de la Serie, como si fuera un numpy array.

In [10]:
# Clase de la serie, una 'Series'
print(type(data))

# Podemos slicear
print(data[1:3])

# Podemos utilizar cosas que utilizabamos para numpy arrays
print(data.dtype)
print(data.shape)

<class 'pandas.core.series.Series'>
1    0.50
2    0.75
dtype: float64
float64
(4,)


Podríamos haber puesto el índice que queríamos:

In [11]:
# Nos creamos un objeto pandas series modificando los índices
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])

# Mostramos el resultado
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [13]:
# Podríamos accedes al vector por indexado clásico o por "key"
print(data[0])
print(data['a'])

0.25
0.25


# Fechas - Numpy & Pandas & Base Python

Pandas fue desarrollado en el contexto de modelización financiera, por lo que es de esperar que contenga un amplio conjunto de herramientas para trabajar con fechas, tiempo y datos indexados a patir de fechas. Los tipos de fechas que podemos encontrar son los siguientes:

* **Time Stamps**: hacen referencia o momentos concretos en el tiempo (4 julio de 2015 07:00:01).

* **Intervalos de tiempo**: hace referencia a un intervalo de tiempo entre un momento inicial y un momento final. Los periodos usualmente hacen referencia a intervalos temporales uniformes.

* **Time deltas**: también conocidos como como duraciones hacen referencia a una longitud exacta del tiempo (22.56 segundos).

# Objetos de tiempo nativos en python: datetime y dateutil

In [25]:
# Modulo por defecto para fechas
from datetime import *

# Tenemos "date"
fecha_0 = date(2015, 7, 4)
print('Fechas con datetime.date:', '\t',fecha_0, '\n')

# Tenemos "datetime"
fecha_1 = datetime(year = 2015, month = 7, day = 4)
print('Fechas con datetime.datetime:', '\t',fecha_1, '\n')

# Tenemos "time"
fecha_2 = time(hour = 12, minute= 3)
print('Fechas con datetime.time:', '\t',fecha_2, '\n')


Fechas con datetime.date: 	 2015-07-04 

Fechas con datetime.datetime: 	 2015-07-04 00:00:00 

Fechas con datetime.time: 	 12:03:00 



In [51]:
# Son comparables date y datime? (DATE hereda de DATETIME)
print(fecha_0,'|' ,fecha_1, '\n','Are equal? ', fecha_0 == fecha_1)
print(fecha_0, '|',fecha_1, '\n','Are the same? ', fecha_0 is fecha_1, '\n\n')

print(type(date.today()), ' is by default of type datetime.date')

2015-07-04 | 2015-07-04 00:00:00 
 Are equal?  False
2015-07-04 | 2015-07-04 00:00:00 
 Are the same?  False 


<class 'datetime.date'>  is by default of type datetime.date


In [34]:
# Para sacar el dia de la semana, por ejemplo
print(fecha_0.strftime('%A'))
print(fecha_1.strftime('%A'))

Saturday
Saturday


#### Introduciendo los timedelta:

In [45]:
fecha_3 = datetime(year = 2018, month = 7, day = 4, hour = 4, minute = 3)
fecha_delta = fecha_3 - fecha_1
print(fecha_delta, ' is of type ', type(fecha_delta))

1096 days, 4:03:00  is of type  <class 'datetime.timedelta'>


In [3]:
# datetime.timedelta es un espacio de tiempo
prueba = datetime.timedelta(minutes = 1)

datetime.datetime(year=2017, month=10, day=24, hour=4, minute=3, second=10, microsecond=7199) + prueba
# Sumamos un minuto!

datetime.datetime(2017, 10, 24, 4, 4, 10, 7199)

# Objetos temporales en Numpy:  datetime64

In [100]:
# Se puede crear parecido a en OracleDB. 
# Varias cosas a tener en cuenta:
## Como forzamos dtype, el 2 se convierte automaticamente en fecha, y automaticamente escoge [D] como unidad básica

date = np.array(['2015-01-01',2], dtype = np.datetime64)
print(repr(date))

date_2 = np.array(['2015'], dtype = np.datetime64)
print(repr(date_2))

# Aún con distinta unidad, podrían ser iguales:
print('date[0] == date_2 ? ', date[0] == date_2[0])

# Y esto claro sería igual a hacer:
date_3 = np.datetime64('2015')

# Los tres son lo mismo
print('Todas iguales?  ',date_3 == date_2[0] == date[0])

array(['2015-01-01', '1970-01-03'], dtype='datetime64[D]')
array(['2015'], dtype='datetime64[Y]')
date[0] == date_2 ?  True
Todas iguales?   True


#### Las fechas de numpy ya tienen propiedades más intuitivas:

In [85]:
print(date[0],' => SE PUEDE SUMAR => ' ,date[0] + 1)

2015-01-01  => SE PUEDE SUMAR =>  2015-01-02


Esto nos permite hace un array de numpy tipado (**Los arrays de numpy tienen el mismo  tipo de dato en todas sus elementos**) 

In [94]:
# Indirectamente aprovechándonos de las propiedades vectoriales:
print(date[0] + np.arange(3))

# O directamente, ya con arrange
print(np.arange('2015-01-01', '2015-01-03', dtype = 'datetime64[D]'))

# Cada hora
print(np.arange('2015-01-01', '2015-01-03', dtype = 'datetime64[h]')[1:10], '... CADA HORA')

['2015-01-01' '2015-01-02' '2015-01-03']
['2015-01-01' '2015-01-02']
['2015-01-01T01' '2015-01-01T02' '2015-01-01T03' '2015-01-01T04'
 '2015-01-01T05' '2015-01-01T06' '2015-01-01T07' '2015-01-01T08'
 '2015-01-01T09'] ... CADA HORA


In [97]:
# Como antes podemos hacer TIMEDELTAS64

intervalo = date[0] - date_2[0]
print(type(intervalo), intervalo)

<class 'numpy.timedelta64'> 0 days


In [4]:
numpy1 = np.datetime64('2017-10-24T05:30:45.67')
numpy2 = np.timedelta64(1, 'h')
numpy1 + numpy2

numpy.datetime64('2017-10-24T06:30:45.670')

# Tiempo utilizando Pandas

Pandas nos permite **combinar** **datetime** y **dateutil** con el almacenamiento eficiente y vectorizado de **np.datetime64**.

In [112]:
# El format es opcional, lo hace más rápido
date_5 = pd.to_datetime('2015-01-01', format='%Y-%m-%d')

# Esto será un timestamp de pandas, que de alguna manera unifica lo visto hasta ahora. 
# Es parecido al datetime, o datetime64 pero con muchas mas funcionalidades
print(type(date_5))
print(date_5)
print(repr(date_5))

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2015-01-01 00:00:00
Timestamp('2015-01-01 00:00:00')


#####  Comparable con datetime o numpy?

In [146]:
# Se puede comparar con objetos de numpy?
date_10 = datetime(2015,1,1)
print(type(date[0]), type(date_10), type(date_5))
print(date[0], '|',date_10,'|' ,date_5)

print('datetime vs numpy =','\t' , date_10 == date[0]) 
print('datetime vs pandas =','\t' , date_10 == date_5)
print('numpy vs pandas =' ,'\t', date[0] == date_5)
print('numpy vs datetime =','\t' , date[0] == date_10)

<class 'numpy.datetime64'> <class 'datetime.datetime'> <class 'pandas._libs.tslibs.timestamps.Timestamp'>
2015-01-01 | 2015-01-01 00:00:00 | 2015-01-01 00:00:00
datetime vs numpy= 	 False
datetime vs pandas= 	 True
numpy vs pandas= 	 False
numpy vs datetime= 	 False


In [121]:
# Podemos utilizar operaciones vectorizadas como con el de numpy
date_5 + pd.to_timedelta(np.arange(6), 'D')

DatetimeIndex(['2015-01-01', '2015-01-02', '2015-01-03', '2015-01-04',
               '2015-01-05', '2015-01-06'],
              dtype='datetime64[ns]', freq=None)

### Caso de uso normal con Pandas

In [124]:
my_ts = np.random.random(10)*10
print(my_ts)

[0.73174554 2.2614398  0.07447543 2.6853462  8.48639668 7.03198704
 7.63606629 6.45308008 9.10659668 2.81816803]


In [131]:
# Nuestra serie será de unos días de este més, así que creamos el índice
# Para metérselo a la Serie de Pandas.
index_1 = pd.to_datetime('2018-09-10') + pd.to_timedelta(np.arange(10), 'D')
index_2 = pd.date_range('2018-09-10', periods = 10, freq = 'D')

# Are equal! 
print(index_1 == index_2, '\n')

my_ts = pd.Series(my_ts, index = index)
print(my_ts, '\n')

print(type(my_ts.index))
print(type(index_1))

[ True  True  True  True  True  True  True  True  True  True] 

2018-09-10    0.731746
2018-09-11    2.261440
2018-09-12    0.074475
2018-09-13    2.685346
2018-09-14    8.486397
2018-09-15    7.031987
2018-09-16    7.636066
2018-09-17    6.453080
2018-09-18    9.106597
2018-09-19    2.818168
Freq: D, dtype: float64 

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [132]:
# Y podemos indexar por fecha
my_ts['2018-09-10']

0.7317455386218663

Los tipos de datos más fundamentales son los objetos **TimeStamps** y los **DatetimeIndex**. Aunque estos objetos puede invocarse de forma directa, es más común hacer uso de **pd.to_datetime()**, la cual puede parsear una gran variedad de formatos. Si a esta función le pasamos una única fecha de lugar a una marca en el tiempo, en cambio si le pasamos un rango de fechas da lugar a un **DatetimeIndex**.

In [65]:
# Uno solo se convierte en timestamp
ex1 = pd.to_datetime('2018-09-09')
type(ex1)

pandas._libs.tslibs.timestamps.Timestamp

In [67]:
# Varios se convierten en DatetimeIndex
ex2 = pd.to_datetime(['2018-09-09','20150708'])
type(ex2)

pandas.core.indexes.datetimes.DatetimeIndex

### Operaciones con tipos e fechas

In [72]:
# Diferencias entre fechas, como uno es un array queda un TimedeltaIndex, sino seria un timedelta!
ex2 - pd.to_datetime('2018-09-09')

TimedeltaIndex(['0 days', '-1159 days'], dtype='timedelta64[ns]', freq=None)

## Rangos de fechas mejores:

In [75]:
index = pd.to_datetime('2018-09-10') + pd.to_timedelta(np.arange(10), 'D')
index

DatetimeIndex(['2018-09-10', '2018-09-11', '2018-09-12', '2018-09-13',
               '2018-09-14', '2018-09-15', '2018-09-16', '2018-09-17',
               '2018-09-18', '2018-09-19'],
              dtype='datetime64[ns]', freq=None)

In [80]:
# Se podría poner 'D','M', etc
pd.date_range('2018-09-10','2018-09-19', freq = 'D')

DatetimeIndex(['2018-09-10', '2018-09-11', '2018-09-12', '2018-09-13',
               '2018-09-14', '2018-09-15', '2018-09-16', '2018-09-17',
               '2018-09-18', '2018-09-19'],
              dtype='datetime64[ns]', freq='D')

In [81]:
pd.date_range('2015-07-03', periods = 10)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10',
               '2015-07-11', '2015-07-12'],
              dtype='datetime64[ns]', freq='D')

* **D**: diario.

* **W**: semanal.

* **M**: mensual (fin de mes).

* **Q**: cuatrimestral.

* **A**: anual.

* **H**: nivel horario.

* **T**: a nivel de minutos.

* **S**: a nivel de segundos.

* **L**: a nivel de milisegundos.

* **U**: a nivel de microsegundos.

* **N**: a nivel de nanosegundos.

In [108]:
ex3 = pd.to_datetime('2018-09-09')
ex4 = datetime.datetime(2018,9,9)
print(ex3,ex4)
print(ex3 == ex4)
print(type(ex3))
type(ex4)

2018-09-09 00:00:00 2018-09-09 00:00:00
True
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


datetime.datetime

In [118]:
ex7 = datetime.date(2018,9,9)
print(ex7)
print(ex4)
print(ex4 == ex7)

2018-09-09
2018-09-09 00:00:00
False


# Caso normal, con Timestamps de pandas

In [147]:
my_ts = np.random.random(10)*10
print(my_ts)

[9.30550138 9.2879722  2.73641602 0.6773163  4.4004079  9.90108756
 1.85640156 4.96419737 7.35061259 6.72635982]


#### Por día

In [150]:
index = pd.date_range('2015-07-03', periods = len(my_ts), freq = 'D')

print(index, '\n')
my_pd_ts = pd.Series(my_ts, index = index)
print(my_pd_ts)

type(my_pd_ts.index)

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10',
               '2015-07-11', '2015-07-12'],
              dtype='datetime64[ns]', freq='D') 

2015-07-03    9.305501
2015-07-04    9.287972
2015-07-05    2.736416
2015-07-06    0.677316
2015-07-07    4.400408
2015-07-08    9.901088
2015-07-09    1.856402
2015-07-10    4.964197
2015-07-11    7.350613
2015-07-12    6.726360
Freq: D, dtype: float64


pandas.core.indexes.datetimes.DatetimeIndex

### Por hora

In [164]:
index = pd.date_range('2015-07-03', periods = len(my_ts), freq = 'h')

print(index, '\n')
my_pd_ts = pd.Series(my_ts, index = index)
print(my_pd_ts)

type(my_pd_ts.index)

DatetimeIndex(['2015-07-03 00:00:00', '2015-07-03 01:00:00',
               '2015-07-03 02:00:00', '2015-07-03 03:00:00',
               '2015-07-03 04:00:00', '2015-07-03 05:00:00',
               '2015-07-03 06:00:00', '2015-07-03 07:00:00',
               '2015-07-03 08:00:00', '2015-07-03 09:00:00'],
              dtype='datetime64[ns]', freq='H') 

2015-07-03 00:00:00    9.305501
2015-07-03 01:00:00    9.287972
2015-07-03 02:00:00    2.736416
2015-07-03 03:00:00    0.677316
2015-07-03 04:00:00    4.400408
2015-07-03 05:00:00    9.901088
2015-07-03 06:00:00    1.856402
2015-07-03 07:00:00    4.964197
2015-07-03 08:00:00    7.350613
2015-07-03 09:00:00    6.726360
Freq: H, dtype: float64


pandas.core.indexes.datetimes.DatetimeIndex

###  JOIN!!

In [204]:
index = pd.date_range('2018-09-10', periods = len(my_ts), freq = '2D')
my_pd_ts = pd.DataFrame({'Cantidad':my_ts}, index = index)
print(my_pd_ts)

            Cantidad
2018-09-10  9.305501
2018-09-12  9.287972
2018-09-14  2.736416
2018-09-16  0.677316
2018-09-18  4.400408
2018-09-20  9.901088
2018-09-22  1.856402
2018-09-24  4.964197
2018-09-26  7.350613
2018-09-28  6.726360


In [203]:
# Como vemos, faltan días. Desde el último día, hacemos la lista hacia atras de los días completos que cogimos. Imaginemos que cogimos 20 días
# Y solo aparecieron esos:

# Creamos el dataframe con todos
tempo = pd.to_datetime('2018-09-28') - pd.to_timedelta(np.arange(20), 'D')
tempo_ts = pd.DataFrame({'Cantidad': 0}, index = tempo)
tempo_ts

Unnamed: 0,Cantidad
2018-09-28,0
2018-09-27,0
2018-09-26,0
2018-09-25,0
2018-09-24,0
2018-09-23,0
2018-09-22,0
2018-09-21,0
2018-09-20,0
2018-09-19,0


In [242]:
# Hacemos join
tempo_ts.join(my_pd_ts,lsuffix = '_completo', rsuffix = '_original')



Unnamed: 0,Cantidad_completo,Cantidad_original
2018-09-28,0,6.72636
2018-09-27,0,
2018-09-26,0,7.350613
2018-09-25,0,
2018-09-24,0,4.964197
2018-09-23,0,
2018-09-22,0,1.856402
2018-09-21,0,
2018-09-20,0,9.901088
2018-09-19,0,


In [243]:
pd.merge(tempo_ts, my_pd_ts, how = "left",left_index = True, right_index = True)


Unnamed: 0,Cantidad_x,Cantidad_y
2018-09-28,0,6.72636
2018-09-27,0,
2018-09-26,0,7.350613
2018-09-25,0,
2018-09-24,0,4.964197
2018-09-23,0,
2018-09-22,0,1.856402
2018-09-21,0,
2018-09-20,0,9.901088
2018-09-19,0,


# Simulacro outliers

In [225]:
dias = 10
base = datetime.datetime.today()
date_list = [base - datetime.timedelta(days=x) for x in range(0, dias) if x%2 == 0]
date_list

[datetime.datetime(2018, 9, 28, 14, 10, 49, 203021),
 datetime.datetime(2018, 9, 26, 14, 10, 49, 203021),
 datetime.datetime(2018, 9, 24, 14, 10, 49, 203021),
 datetime.datetime(2018, 9, 22, 14, 10, 49, 203021),
 datetime.datetime(2018, 9, 20, 14, 10, 49, 203021)]

In [226]:
importes = np.random.random(5)*10
fechas = date_list

In [233]:
data = pd.DataFrame({"Importes": importes}, index = pd.Series(map(datetime.datetime.date, fechas), dtype = 'object'), )
data

Unnamed: 0,Importes
2018-09-28,4.468132
2018-09-26,1.361555
2018-09-24,8.439119
2018-09-22,5.836842
2018-09-20,1.621609


In [236]:
base1 = datetime.date.today()
date_list1 = [base1 - datetime.timedelta(days=x) for x in range(0, dias)]
complete_data = pd.DataFrame(index = date_list1)
complete_data

2018-09-28
2018-09-27
2018-09-26
2018-09-25
2018-09-24
2018-09-23
2018-09-22
2018-09-21
2018-09-20
2018-09-19


In [240]:
complete = complete_data.join(data)
complete

Unnamed: 0,Importes
2018-09-28,4.468132
2018-09-27,
2018-09-26,1.361555
2018-09-25,
2018-09-24,8.439119
2018-09-23,
2018-09-22,5.836842
2018-09-21,
2018-09-20,1.621609
2018-09-19,


In [244]:
complete_2 = pd.merge(complete_data, data, how = "left",left_index = True, right_index = True)
complete_2

Unnamed: 0,Importes
2018-09-28,4.468132
2018-09-27,
2018-09-26,1.361555
2018-09-25,
2018-09-24,8.439119
2018-09-23,
2018-09-22,5.836842
2018-09-21,
2018-09-20,1.621609
2018-09-19,
