

## Introducción

Este cuaderno ofrece una introducción al manejo de datos temporales en Python. El objetivo es comprender de las características que tienen los datos temporales

# Configuración



In [5]:
#%pip install pandas
#%pip install numpy
#%pip install datetime

In [6]:
pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


### Importar módulos

Primer paso en todo proyecto de Data Science. Importar los módulos que contienen las bibliotecas y funciones necesarias para realizar la tarea. En este cuaderno usaremos funciones básicas para manipular datos temporales.

In [7]:
# Source: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html


import numpy as np
import pandas as pd
from datetime import datetime, timezone, time, timedelta, date
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter(action='ignore', category=FutureWarning)


# SSL to overcome problem with ssl whn applying pd.read_csv()
import ssl
ssl._create_default_https_context = ssl._create_unverified_context



## Operaciones básicas de tiempo



### Datetime

Formato más completo. Ofrece información al nivel del microsegundos 

In [8]:

datetime_today = datetime.now()
datetime_today


datetime.datetime(2024, 1, 22, 19, 34, 7, 711975)

También se puede combinar con strings

In [9]:
print('La fecha ahora es -> ' +  str(datetime.now()))
display(datetime.now())

La fecha ahora es -> 2024-01-22 19:34:07.738646


datetime.datetime(2024, 1, 22, 19, 34, 7, 738646)

### Date

Este formato ofrece información solo de la fecha, no de la hora - e.g. (año, mes y día)

In [10]:
display(date.today())

datetime.date(2024, 1, 22)


Se puede ofrecer otro formato de la fecha y combinar con _strings_ considerando `print()`

In [11]:
print('La fecha hoy es: ' + str(date.today()))

La fecha hoy es: 2024-01-22


### Time
Esta librería sirve para manipular la información de la hora - e.g. hora, minuto, segundo, componente de la variable tiempo.

In [12]:
print('La hora es: ' ,  datetime.now().time())

La hora es:  19:34:07.778283


In [13]:
time_now = datetime.now().time()
print('El tiempo es: ' ,  time_now)

El tiempo es:  19:34:07.796701


In [14]:
print('What type is time now object?',  type(time_now))

What type is time now object? <class 'datetime.time'>


### Timedelta

Esta función está integrada en `datetime` y se utiliza normalmente para calcular diferencias entre fechas

In [15]:
date_now =  datetime.now()
print(date_now)


2024-01-22 19:34:07.818135


In [16]:
date_a_bit_later =  datetime.now() + timedelta(hours=17) # Cuál va a ser la fecha dentro de 17h
print(date_a_bit_later)

2024-01-23 12:34:07.834731


In [17]:
timedelta_diff = date_a_bit_later - date_now
display(timedelta_diff)

datetime.timedelta(seconds=61200, microseconds=16596)

In [18]:
print(timedelta_diff)

17:00:00.016596


### Timezone

La mayoría de las marcas de tiempo que se muestran se han referido a un único huso horario - tiempo universal coordinado (UTC por sus siglas en inglés). Sin embargo, es posible que nos interese trabajar con otros husos horarios.

In [19]:
time_now = datetime.now()
print(time_now)

2024-01-22 19:34:07.867149


In [20]:
display(time_now.tzinfo)

None

In [21]:
# Set explicitly the timezone

time_utc = datetime.now(tz = timezone.utc)
display(time_utc)


display(time_utc.tzinfo)

datetime.datetime(2024, 1, 22, 18, 34, 7, 900094, tzinfo=datetime.timezone.utc)

datetime.timezone.utc



## Manipulando datos temporales


A veces necesitamos crear información temporal basada en una marca de tiempo que se usa como referencia.

### Creando fechas y horas específicas

In [22]:
# Specific date 

my_date =  date(day = 15, month = 5, year = 2023)
print(my_date)

2023-05-15


In [23]:
alt_date = date(2023, 5, 15)
print(alt_date)

2023-05-15


In [24]:
# Specific time of the day

my_time = time(12, 7, 6)
print(my_time)

12:07:06


In [25]:
# Create a timestamp

date_time = datetime(2023,5,15,12,4,5)

print(date_time)

2023-05-15 12:04:05


In [26]:

# Combinar variables date y tiempo 

print(datetime.combine(my_date, my_time))

2023-05-15 12:07:06


In [27]:

# Cuánto son 123 horas?

hours123 = timedelta(hours = 123)
print(hours123)

5 days, 3:00:00


In [28]:
# Cuánto son 123 horas en segundos?

hours123.total_seconds()

442800.0

### Creando fechas y horas a partir de un _string_

In [29]:
# Viene la información en formato string
my_str_date = "2021/05/03 18:25:05.346197"

# Create date object in given time format yyyy-mm-dd
my_date = datetime.strptime(my_str_date, '%Y/%m/%d %H:%M:%S.%f')

print(my_date)
print('Type: ',type(my_date))
print('Type: ',type(my_str_date))

2021-05-03 18:25:05.346197
Type:  <class 'datetime.datetime'>
Type:  <class 'str'>


<br>



## Transformar y procesar datos temporales


Hasta ahora, no hemos modificado los datos que recibimos. Sin embargo, podemos hacerlo y este tipo de operaciones son bastante comunes cuando aplicamos algoritmos y modelos de series temporales. Entre los tipos de operaciones que se pueden hacer

### Modificar los componentes de la fecha

In [30]:
datetime_today = datetime.now()

print('My date and time is now: ' + str(datetime_today))

My date and time is now: 2024-01-22 19:38:49.101057


In [31]:
# Utilizando replace 

datetime_today_1 = datetime_today.replace(year = 2024) # se pueden utilizar otros parámetros como month, day, hour, minute, second, microsecond

print('My date and time next year will be: ' + str(datetime_today_1))

My date and time next year will be: 2024-01-22 19:38:49.101057


### Obtener atributos del tiempo

In [32]:
print('MarcaDeTiempo completa: ' +  str(datetime_today))
print('Año: ' +  str(datetime_today.year))
print('Mes: ' +  str(datetime_today.month))
print('Dia: ' +  str(datetime_today.day))
print('Hora: ' +  str(datetime_today.hour))
print('Minuto: ' +  str(datetime_today.minute))
print('Segundo: ' +  str(datetime_today.second))
print('MicroSegundo: ' +  str(datetime_today.microsecond))
print('DiaSemana: ' +  str(datetime_today.weekday()))
print('ISO-DiaSemana: ' +  str(datetime_today.isoweekday()))


MarcaDeTiempo completa: 2024-01-22 19:38:49.101057
Año: 2024
Mes: 1
Dia: 22
Hora: 19
Minuto: 38
Segundo: 49
MicroSegundo: 101057
DiaSemana: 0
ISO-DiaSemana: 1


### Modificar el formato de la fecha

Esto se usa para modificar el formato de la marca de tiempo y establecer un orden y formato definido del año, mes y día.

In [34]:
date_time_str = '2018-29-06' # Formato ee.uu.
display(date_time_str) # Se puede usar 'display' para ver dos operaciones de una misma celda
date_time_obj = datetime.strptime(date_time_str,  '%Y-%d-%m')

print(date_time_obj)

'2018-29-06'

2018-06-29 00:00:00


In [35]:
# Change '-' by '/' or the order the attributes

display(datetime.strftime(date_time_obj,  '%d/%m/%Y'))

display(datetime.strftime(date_time_obj,  '%Y-%m-%d'))

'29/06/2018'

'2018-06-29'

También se pueden extraer partes específicas de la fecha como el año, el mes, el día, etc...

In [36]:

now = datetime.now()

year = now.strftime("%Y") # year, month y day lo dejaría en formato str o int
display(type(year))
print("year:", year)

month = now.strftime("%m") # M mayúscula es minuto
print("month:", month)

day = now.strftime("%d")
print("day:", day)

time = now.strftime("%H:%M:%S")
print("time:", time)

date_time = now.strftime("%m/%d/%Y, %H:%M:%S") # Solo este se queda en formato datetime
print("date and time:",date_time)

str

year: 2024
month: 01
day: 22
time: 19:48:53
date and time: 01/22/2024, 19:48:53


### Operaciones de tiempo


In [37]:
# Only with dates
datediff = date.today() - date(1990,7,23)
print(datediff)

12236 days, 0:00:00


In [38]:
# Adding time 

datetimediff = datetime.now() - datetime(1990,7,23, 12, 13,5)
print(datetimediff)

12236 days, 7:38:44.934769


In [39]:
# Calculating  intervals 

past = date.today() - timedelta(days=1000)


print("The date 1000 days ago was:", past)

print("past is:", type(past))

The date 1000 days ago was: 2021-04-27
past is: <class 'datetime.date'>




## Trabajar con fechas y tiempo en Pandas

### Crear secuencias

In [40]:
# Genera secuencia de fechas con pd.date_range()
# Frecuencia puede ser diaria, mensual, anual, etc.

date_var_seq = pd.date_range('2023-05-15', periods=5, freq='D') # Sacamos 5 períodos de 5 días
date_var_seq

DatetimeIndex(['2023-05-15', '2023-05-16', '2023-05-17', '2023-05-18',
               '2023-05-19'],
              dtype='datetime64[ns]', freq='D')

In [41]:
# Esas secuencias se pueden convertir en otras escructuras de datos

datelist = pd.date_range('2023-05-15', periods=5, freq='D').to_list()
df_dates = pd.DataFrame(datelist)

display(datelist)
display(df_dates)

[Timestamp('2023-05-15 00:00:00'),
 Timestamp('2023-05-16 00:00:00'),
 Timestamp('2023-05-17 00:00:00'),
 Timestamp('2023-05-18 00:00:00'),
 Timestamp('2023-05-19 00:00:00')]

Unnamed: 0,0
0,2023-05-15
1,2023-05-16
2,2023-05-17
3,2023-05-18
4,2023-05-19


In [42]:
display(pd.DataFrame(datelist, columns = ['date_var']))

Unnamed: 0,date_var
0,2023-05-15
1,2023-05-16
2,2023-05-17
3,2023-05-18
4,2023-05-19


In [43]:
df = pd.DataFrame(datelist, columns = ['date_var']) 
# Para hacer date_var índice
df.set_index('date_var', inplace=True) # usando drop=False se mantiene la columna como variable
df

2023-05-15
2023-05-16
2023-05-17
2023-05-18
2023-05-19


<font color='orange'>

### Ejercicio

Vamos a crear un _data frame_ que contenga 100 marcas de tiempo por hora a partir de hoy en adelante referidas a dos zonas horarias diferentes: `UTC` y `US/Eastern`. Luego seleccione las observaciones donde el día es el mismo para ambas zonas horarias

*Pista*: Considera `tz_localize` y `tz_convert` para tus operaciones. Trabaja con series en lugar de índices. 
</b> </font>

In [47]:
# Tu código va aquí
time_var_seq= pd.date_range('2024-01-22', periods=100, freq='H')

time_series= pd.Series(time_var_seq)

time_series_utc= time_series.dt.tz_localize('UTC')

time_series_est= time_series_utc.dt.tz_convert('US/Eastern')

df_dates= pd.DataFrame({'utc':time_series_utc,
                        'est': time_series_est})

df_dates.loc[df_dates['utc'].dt.day == df_dates['est'].dt.day]


Unnamed: 0,utc,est
5,2024-01-22 05:00:00+00:00,2024-01-22 00:00:00-05:00
6,2024-01-22 06:00:00+00:00,2024-01-22 01:00:00-05:00
7,2024-01-22 07:00:00+00:00,2024-01-22 02:00:00-05:00
8,2024-01-22 08:00:00+00:00,2024-01-22 03:00:00-05:00
9,2024-01-22 09:00:00+00:00,2024-01-22 04:00:00-05:00
...,...,...
91,2024-01-25 19:00:00+00:00,2024-01-25 14:00:00-05:00
92,2024-01-25 20:00:00+00:00,2024-01-25 15:00:00-05:00
93,2024-01-25 21:00:00+00:00,2024-01-25 16:00:00-05:00
94,2024-01-25 22:00:00+00:00,2024-01-25 17:00:00-05:00


### Cargar información de fuentes externas

In [68]:
link = 'https://gist.githubusercontent.com/s2t2/04484ca6fcf36d9660e5/raw/d9964e04193b7fba938b750bcf107bfcfb07bc86/amzn.csv'

#import ssl
#ssl._create_default_https_context = ssl._create_unverified_context

In [None]:
df_amzn = pd.read_csv(link)
display(df_amzn.head(4))
display(df_amzn.info())

In [None]:
# Sort by date
df_amzn= df_amzn.sort_values(by = 'date').reset_index(drop = True)
df_amzn.head(3)

### Transformar a datos temporales

`date` es un objeto que no está interpretado como fecha. Necesitamos convertirlo a `datetime`. 


In [None]:
df_amzn['date'] = pd.to_datetime(df_amzn['date'] )
display(df_amzn.head(5))
display(df_amzn.info())


### Fijar el índice de fecha

Usando la variable fecha como índice. Esto es útil para gestionar series temporales.

In [None]:
df_amzn = df_amzn.set_index('date')
df_amzn.head(3)

In [211]:
# What is the index?

df_amzn.index[0:5] # First 5 observations

### Filtrar información basada en tiempo

In [None]:
display(df_amzn.head(10))
display(df_amzn.info())

In [None]:
# Revisa los datos

df_amzn.sort_values(by = 'date').loc['2012'].head(3)

In [None]:
# Selecciona los tres primeros datos del mes de mayo de 2012
df_amzn.sort_index().loc['2012-05'].head(3)

In [None]:
# Info de Febrero

display(df_amzn[df_amzn.index.month == 2].sort_index().head(5))
display(df_amzn[df_amzn.index.month == 2].sort_index().tail(5))

# Select info from February 2012 

display(df_amzn[(df_amzn.index.month == 2) & (df_amzn.index.year == 2012)].sort_index().head(5))


Los filtros se pueden hacer considerando dos fechas diferentes (marcas de tiempo) usando `between`

In [None]:
# Get the close values from 2 February 2014 to 6 Februrary 2014

df_amzn = df_amzn.sort_index()
df_amzn_date = df_amzn.reset_index()
df_amzn_date[df_amzn_date['date'].between('2014-02-02', '2014-02-06')]

### Obtener los atributos de fecha

Esta es una opción interesante para la ingeniería de características en series temporales.

In [None]:
df = pd.date_range(end='2020-06-02', periods=70, freq='10min').to_frame(index = False).rename(columns = {0:'date_col'})

df.head(3)

In [None]:
# Create time features

df['year'] = df.date_col.dt.year
df['month'] = df.date_col.dt.month
df['day'] = df.date_col.dt.day
df['hour'] = df.date_col.dt.hour
df['minute'] = df.date_col.dt.minute
df['second'] = df.date_col.dt.second
df['microsecond'] = df.date_col.dt.microsecond
df.head(5)

In [None]:
df.info()

In [None]:
df['weekday'] = df.date_col.dt.weekday
df.head(5)

### Operaciones agrupadas

Se pueden realizar operaciones agrupadas usando `pd.Grouper`. [Aquí](https://pandas.pydata.org/docs/reference/api/pandas.Grouper.html) se encuentran todas las formas con las que se puede agrupar.

In [None]:
# Estadísiticas mensuales y trimestrales

print("Estadísticas mensuales: \n \n ", df_amzn.groupby(pd.Grouper(freq='M')).agg([len, sum, np.mean, np.std]).head(3))

print( '---------------------------------------- \n' 
       '----------------------------------------')

print("Sumas trimestrales: \n \n ", df_amzn.groupby(pd.Grouper(freq='3M')).sum().head(3))



### Operaciones a través de filas


Estas operaciones son claves para el cálculo de la estacionariedad utilizando `shift()`

In [None]:
# Create a variable with the previous observation

df_amzn['close_previous'] = df_amzn['close'].shift()
df_amzn

In [None]:
# Create a variable with the next observation

df_amzn['close_next'] = df_amzn['close'].shift(periods = -1)
df_amzn

In [None]:
 # Calculate differences between observation of a variable

df_amzn['diff'] = df_amzn.close.diff()
df_amzn[['close', 'diff']].head(4) 

In [None]:
# Calculate the difference between each two rows

df_amzn['diff_2'] = df_amzn.close.diff(2)
df_amzn[['close', 'diff_2']].head(4)


In [None]:
# Calculate the percentage changes 

df_amzn['pct_change']  = df_amzn.sort_index().close.pct_change()
df_amzn[['close', 'diff','pct_change']].head(4)


In [None]:
# Operations considering a time window 
# Example: Sum within a period of 3 days

df_amzn['wdow'] = df_amzn.close.rolling(window=3).sum()
df_amzn[['close', 'wdow']].head(8)



## Visualización de datos temporales

In [11]:
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
import seaborn as sns
import pandas as pd

### Histogramas

Este gráfico es bueno para comprobar cómo se distribuyen los datos. Atención a los valores atípicos

In [None]:

px.histogram(df_amzn['close'])


Los histogramas se pueden personalizar para proporcionar más detalles sobre la muestra

In [None]:
fig = px.histogram(df_amzn.close,
                   nbins = 1000,
                   histnorm = 'percent',
                   marginal = 'box',
                  title = '<b>Amazon Stocks</b> - Histogram')
fig.update_layout(showlegend=False)
fig.update_xaxes(title='Value of Amazon Stock', row=1, col=1)

### Gráficos de líneas

Buenos gráficos para representar la tendencia de la variable en el tiempo. La variable de fecha normalmente se suele situar en el eje X.

In [None]:
fig = px.line(df_amzn['close'])
fig

In [None]:
px.area(df_amzn['close'])


### Gráficos agrupados

In [None]:
df_amzn = df_amzn[['close']]
df_amzn.head()

In [None]:
df_amzn.info()

In [None]:
df_amzn['date'] =pd.to_datetime(df_amzn['date'])
df_amzn.head(5)

In [None]:
df_amzn['wday'] = df_amzn.date.dt.day_name()

In [None]:

wday_df = df_amzn[['wday', 'close']].groupby('wday').sum()
display(wday_df)

wday_df = wday_df.reset_index()




 <font color='orange'>

## Ejercicio


Importa el enlace a continuación y configura el campo de fecha como un índice de fecha. Obtén estadísticas descriptivas y haz un gráfico con los días de la semana ordenados de más a menos nacimientos. También calcula el porcentaje de cambio de nacimientos con respecto al día anterior.

</b> </font>

In [None]:
link_births = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv'