Trabajar con atributos datetime y zonas horarias

Acceder a los atributos de columna datetime usando .dt
Ya que pandas se basa en tipos de datos que son nativos de Python (así como algunos de distintas librerías), los tipos de datos pueden volverse un poco complicados a veces.

Recuerda que en pandas, los objetos datetime están representados por el tipo de datos TimeStamp. Para obtener, por ejemplo, el atributo year del primer valor Timestamp de la columna 'InvoiceDate', utiliza el siguiente código:

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/OnlineRetail.csv')

# convierte 'InvoiceDate' a datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

print(df['InvoiceDate'][0].year) # devuelve el año del primer InvoiceDate

#2010

Si bien podemos acceder a todos los atributos de los valores individuales de Timestamp de esta manera, no podemos hacerlo para valores de Series Timestamp. Mira lo que ocurre cuando intentamos obtener el atributo day para la columna 'InvoiceDate' entera:

In [None]:
import pandas as pd

df = pd.read_csv('OnlineRetail.csv')
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')
df['day'] = df['InvoiceDate'].day

"""---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
...
...
...
AttributeError: 'Series' object has no attribute 'day'"""

Obtenemos un error porque df['InvoiceDate'] es un objeto Series, el cual no tiene un atributo day, a pesar de que sí lo tienen los valores individuales Timestamp dentro de Series.

Para obtener atributos para todas las columnas de datos datetime, usa en su lugar el objeto accesor .dt.

Por ejemplo, podemos crear un DataFrame 'df_days' que contenga el atributo day para cada valor en la columna 'InvoiceDate':

In [None]:
import pandas as pd 

df = pd.read_csv('/datasets/OnlineRetail.csv')
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

df_days = df['InvoiceDate'].dt.day
print(df_days.sample(5, random_state=42))

"""
33553    17
9427      6
199       1
12447     6
39489    21
Name: InvoiceDate, dtype: int64"""

¡Ningún error esta vez! Recuerda que si quieres accesar los atributos de toda una columna de datos datetime, debes usar el accesor .dt de la columna datetime y no la propia columna.

Existen muchos más atributos datetime (materiales en inglés) disponibles en pandas, así que utiliza los que necesites para el problema en cuestión.

Trabajar con husos horarios

Hay algunos escenarios comunes que tienen que ver con las zonas horarias que te encontrarás al trabajar con datos datetime.

Tus datos pueden venir de diferentes zonas geográficas en donde cada ubicación registra estos datos usando su hora local. O puede que estés trabajando con valores datetime registrados en una zona horaria, pero necesites presentar los resultados de tu análisis a un público que esté en otra.

En cualquier caso, debes saber cómo convertir entre distintas zonas horarias sin confundirte. Es ahí donde nos son útiles .dt.tz_localize() y .dt.tz_convert(). El primero te permite asignar una zona horaria a una columna datetime para que tus datos "tengan conocimiento" de su zona horaria. El segundo te permite convertir una columna "con conocimiento de su zona horaria" en una zona horaria distinta.

Veamos cómo funciona en la práctica. Vamos a asignar el huso horario UTC a la columna 'InvoiceDate':

In [None]:
import pandas as pd 

df = pd.read_csv('/datasets/OnlineRetail.csv')
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

df['InvoiceDate'] = df['InvoiceDate'].dt.tz_localize('UTC')

print(df['InvoiceDate'].sample(5, random_state=42))

"""
33553   2010-12-17 12:38:00+00:00
9427    2010-12-06 09:58:00+00:00
199     2010-12-01 13:21:00+00:00
12447   2010-12-06 16:57:00+00:00
39489   2010-12-21 15:19:00+00:00
Name: InvoiceDate, dtype: datetime64[ns, UTC]"""

¿Notaste que ahora el dtype de la columna contiene información sobre el huso horario UTC?

¿Qué pasaría si necesitáramos mostrar datos a alguien en Nueva York que prefiere ver los valores datetime en su hora local?

En este caso, pasaremos 'America/New_York' al método .dt.tz_convert():

In [None]:
import pandas as pd 

df = pd.read_csv('OnlineRetail.csv')
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

df['InvoiceDate'] = df['InvoiceDate'].dt.tz_localize('UTC')

df['InvoiceDate_NYC'] = df['InvoiceDate'].dt.tz_convert('America/New_York')

print(df['InvoiceDate_NYC'].sample(5, random_state=42))

"""
33553   2010-12-17 07:38:00-05:00
9427    2010-12-06 04:58:00-05:00
199     2010-12-01 08:21:00-05:00
12447   2010-12-06 11:57:00-05:00
39489   2010-12-21 10:19:00-05:00
Name: InvoiceDate_NYC, dtype: datetime64[ns, America/New_York]"""

Ahora vemos dos cosas:

El dtype de la nueva columna 'InvoiceDate_NYC' ahora contiene la información America/New_York en vez de UTC.

Los valores datetime son diferentes. Difieren por 5 horas exactamente porque Nueva York, como en la mayor parte de Norteamérica, tiene el horario estándar del este (UTC-5) durante el invierno y el horario de verano del este (UTC-4) el resto del año.

Este artículo de Wikipedia (materiales en inglés) contiene una lista con los nombres de cada zona horaria estándar que puedes usar con .dt.tz_convert().

1.

Crea una variable dt_months con el mes de la columna 'timestamp' de la tabla position. Utiliza el accesor .dt con el atributo month para extraer el número del mes.

Muestra las primeras cinco filas de la tabla dt_months usando el método head()

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')
position['timestamp'] = pd.to_datetime(position['timestamp'], format='%Y-%m-%dT%H:%M:%S')

dt_months = position['timestamp'].dt.month

print(dt_months.head(5))# escribe tu código aquí

"""
0    2
1    2
2    2
3    2
4    2
Name: timestamp, dtype: int64"""

2.

Usando la columna 'timestamp', crea un nuevo DataFrame llamado 'dt_toronto' que contenga todos los datetimes que se ubican en la zona horaria 'America/Toronto'. Muestra las primeras 5 filas de tu resultado.

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')
position['timestamp'] = pd.to_datetime(position['timestamp'], format='%Y-%m-%dT%H:%M:%S')

dt_toronto = position['timestamp'].dt.tz_localize('America/Toronto')

print(dt_toronto.head(5))# escribe tu código aquí

"""
0   2019-02-04 13:22:34-05:00
1   2019-02-06 15:30:54-05:00
2   2019-02-08 14:53:45-05:00
3   2019-02-10 16:50:22-05:00
4   2019-02-12 14:16:28-05:00
Name: timestamp, dtype: datetime64[ns, America/Toronto]"""

3.

Usa el nuevo DataFrame 'dt_toronto', convierte los datetime a la zona horaria 'Australia/Brisbane' y guarda el resultado en la nueva variable llamada 'dt_brisbane'. Muestra las primeras cinco filas.

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')
position['timestamp'] = pd.to_datetime(position['timestamp'], format='%Y-%m-%dT%H:%M:%S')
dt_toronto = position['timestamp'].dt.tz_localize('America/Toronto')

dt_brisbane = dt_toronto.dt.tz_convert('Australia/Brisbane') 

print(dt_brisbane.head(5)) #escribe tu código aquí

"""Resultado
0   2019-02-05 04:22:34+10:00
1   2019-02-07 06:30:54+10:00
2   2019-02-09 05:53:45+10:00
3   2019-02-11 07:50:22+10:00
4   2019-02-13 05:16:28+10:00
Name: timestamp, dtype: datetime64[ns, Australia/Brisbane]"""