Trabajar con fechas y horas
La librería pandas es útil para mucho más que solo convertir strings y números. También puede manejar datos de fecha y horas.

En esta lección, te mostraremos cómo sacarle el mayor provecho. Echa un vistazo al siguiente video y después vuelve aquí para aprender todo sobre esto.

En el mundo se usan muchos formatos diferentes de fecha. Por ejemplo, se prefiere el orden día/mes/año en muchos países, de modo que el 8 de marzo de 2010 se escribe 08/03/2010. Sin embargo, en Estados Unidos se usa principalmente el formato mes/día/año, así que 08/03/2010 sería el 3 de agosto.



Excel puede comprender ambos formatos, pero tiene límites. Cuando cargas datos desde una base de datos, puede que tengas valores como 2019-08-03Z17:25:00 y 03, Aug 19, 5:25 PM en el mismo archivo, y definitivamente Excel no podrá desenredar la madeja.

Así que, cuando quieras asegurarte de que tus fechas y horas se hayan almacenado correctamente, o quieras hacer cálculos con ellas, deberás usar el formato datetime de Python.

Convertir a datetime
Imagina que en nuestro conjunto de datos OnlineRetail.csv, el sitio web de la compañía no puede procesar algunas solicitudes de compra en horas pico.

El equipo de infraestructura de la compañía puede configurar un proceso automatizado para agregar más servidores web virtualizados justo a tiempo para procesar más solicitudes. Solo necesitan a alguien que les diga cuáles son las horas pico.

Veamos si podemos ayudar.

Cargaremos de nuevo el conjunto de datos y mostraremos algunas filas aleatorias.

In [None]:
import pandas as pd 

df = pd.read_csv('/datasets/OnlineRetail.csv')
print(df.head())

"""InvoiceNo StockCode                          Description  Quantity  \
0    536520     21123  SET/10 IVORY POLKADOT PARTY CANDLES       1.0
1    536520     21124   SET/10 BLUE POLKADOT PARTY CANDLES       1.0
2    536520     21122   SET/10 PINK POLKADOT PARTY CANDLES       1.0
3    536520     84378        SET OF 3 HEART COOKIE CUTTERS       1.0
4    536520     21985    PACK OF 12 HEARTS DESIGN TISSUES       12.0

            InvoiceDate UnitPrice  CustomerID         Country
0  2010-12-01T12:43:00Z      1.25     14729.0  United Kingdom
1  2010-12-01T12:43:00Z      1.25     14729.0  United Kingdom
2  2010-12-01T12:43:00Z      1.25     14729.0  United Kingdom
3  2010-12-01T12:43:00Z      1.25     14729.0  United Kingdom
4  2010-12-01T12:43:00Z      0.29     14729.0  United Kingdom"""

La columna 'InvoiceDate' contiene la fecha y hora de cuando se emitió la factura del pedido.

De las lecciones anteriores, sabemos que la columna 'InvoiceDate' tiene el tipo de datos object.

Vamos a corroborar esto mirando el atributo dtype:

In [None]:
print(df['InvoiceDate'].dtype)

#object

Por ahora, 'InvoiceDate' almacena sus valores como un tipo string. Sin embargo, si queremos hacer cualquier tipo de operación de fecha u hora con esos valores, necesitamos convertirlos al tipo datetime. Esto lo podemos lograr con el método to_datetime() de pandas.

Formatear valores datetime

El método to_datetime() se usa para convertir fechas de un tipo de datos string al tipo de datos datetime. Al llamar al método, debemos usar el parámetro format=, el cual toma un string especificando cómo se formatean las fechas. Los códigos de formato señalados por el símbolo % se utilizan para especificar el formato.

Por ejemplo, podemos convertir el string 2010-12-17T12:38:00Z (un formato ISO 8601) a objeto datetime pasando el string de formato correcto al parámetro format=: %Y-%m-%dT%H:%M:%SZ.

In [1]:
import pandas as pd

string_date = '2010-12-17T12:38:00Z'
datetime_date = pd.to_datetime(string_date, format='%Y-%m-%dT%H:%M:%SZ')

print(type(string_date))
print(type(datetime_date))
print(datetime_date)


<class 'str'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2010-12-17 12:38:00


"<class 'str'>\n<class 'pandas._libs.tslibs.timestamps.Timestamp'>\n2010-12-17 12:38:00"

Después de llamar to_datetime() con nuestra fecha basada en strings y el string de formato, podemos tener ahora un objeto con el tipo de datos Timestamps. El tipo Timestamp de pandas es equivalente al tipo datetime de Python, así que usaremos el término "datetime" para referirnos a ambas.

Observa que el formato del objeto datetime es distinto al del string original: 2010-12-17T12:38:00Z. En el objeto datetime, tenemos YYYY-MM-DD HH:MM:SS: 2010-12-17 12:38:00. Sin importar cómo se formateó el string original, el tipo datetime tendrá este formato uniforme.

Cómo funcionan los códigos de formato

¿Cómo sabíamos que el patrón de código para '2010-12-17T12:38:00Z' debía ser '%Y-%m-%dT%H:%M:%SZ'? Porque el código representa una generalización del string. Cada elemento de fecha y hora se convierte en un símbolo que le dice a pandas cómo interpretarlo.

Por ejemplo, %Y al inicio del patrón especifica que el valor de año ocurre en la ubicación de los strings en 'InvoiceDate'. Los guiones, dos puntos y letras T y Z  en el string datetime se reproducen en el patrón de formato: "primero el año, luego un guion, el mes, luego otro guion, etc.".

Hay muchos símbolos de formato, pero solamente unos cuantos los usarás con regularidad. Por ejemplo:

- %d: día del mes (01 a 31).
- %m: mes (01 a 12).
- %Y: año en cuatro dígitos (2019).
- %y: año en dos dígitos (19).
- %H: hora en formato de 24 horas.
- %I: hora en formato de 12 horas.
- %M: minutos (00 a 59).
- %S: segundos (00 a 59).

Aquí https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior (materiales en inglés) podrás encontrar una lista completa de todos los símbolos de formato datetime.

Práctica

¡Vamos a hacer la prueba! Te daremos datetimes como strings y tú escribirás el string de formato correspondiente que debes usar para el argumento format= en to_datetime().

Supón que estamos usando un horario de 24 horas.

Pregunta

'20-12-2002Z04:31:00'

r - '%d-%m-%YZ%H:%M:%S'

¡Buen trabajo! ¡Has aprobado el cuestionario con honores! ¡Sigue con el buen trabajo!

¡Excelente trabajo!

Pregunta

'5/13/13 12:04:00', ten cuidado, la fecha está en formato de los EE. UU.

r - '%m/%d/%y %H:%M:%S'

¡Buen trabajo! ¡Has aprobado el cuestionario con honores! ¡Sigue con el buen trabajo!

¡Perfecto!

Buscar objetos datetime

Veamos ahora si nuestros datos cambian en cuanto a la apariencia y el tipo de datos tras usar to_datetime():

In [None]:
import pandas as pd 

df = pd.read_csv('/datasets/OnlineRetail.csv')
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

print(df.head())
print()
df.info()

"""InvoiceNo StockCode                          Description  Quantity  \
0    536520     21123  SET/10 IVORY POLKADOT PARTY CANDLES       1.0   
1    536520     21124   SET/10 BLUE POLKADOT PARTY CANDLES       1.0   
2    536520     21122   SET/10 PINK POLKADOT PARTY CANDLES       1.0   
3    536520     84378        SET OF 3 HEART COOKIE CUTTERS       1.0   
4    536520     21985    PACK OF 12 HEARTS DESIGN TISSUES       12.0   

          InvoiceDate UnitPrice  CustomerID         Country  
0 2010-12-01 12:43:00      1.25     14729.0  United Kingdom  
1 2010-12-01 12:43:00      1.25     14729.0  United Kingdom  
2 2010-12-01 12:43:00      1.25     14729.0  United Kingdom  
3 2010-12-01 12:43:00      1.25     14729.0  United Kingdom  
4 2010-12-01 12:43:00      0.29     14729.0  United Kingdom  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   InvoiceNo    50000 non-null  object        
 1   StockCode    50000 non-null  object        
 2   Description  49857 non-null  object        
 3   Quantity     50000 non-null  float64       
 4   InvoiceDate  50000 non-null  datetime64[ns]
 5   UnitPrice    50000 non-null  object        
 6   CustomerID   31599 non-null  float64       
 7   Country      50000 non-null  object        
dtypes: datetime64[ns](1), float64(2), object(5)
memory usage: 3.1+ MB"""

¿Puedes ver que los valores mostrados se ven diferente que antes? Eso es porque ahora la columna 'InvoiceDate' es datetime. Aunque los valores se vean diferentes, la información de los strings originales aún sigue ahí.

Ahora, el tipo de datos de la columna datetime es un objeto datetime64[ns]. Las letras [ns] se refieren al formato de tiempo basado en nanosegundos que especifica la precisión del objeto DateTime.

Ejercicios

Ejercicio 1

Hemos recibido un nuevo conjunto de datos de nuestros colegas. Los datos se almacenan en un archivo llamado position.csv y contiene datos sobre calificaciones en motores de búsqueda durante los últimos tres meses. Lee el archivo CSV y guárdalo en una variable llamada position. Muestra las primeras quince filas.

Ruta de archivo: /datasets/position.csv

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')# escribe tu código aquí

print(position.head(15))

"""Resultado
              timestamp  level   page_id
0   2019-02-04T13:22:34      1  6ukoNykP
1   2019-02-06T15:30:54      1  Q62R1Ue7
2   2019-02-08T14:53:45      1  GmfSxgPs
3   2019-02-10T16:50:22      2  M56OK96C
4   2019-02-12T14:16:28      1  q2fqVqPc
5   2019-02-14T15:10:45      1  LioXfSPk
6   2019-02-16T14:52:23      3  bQXWpQ2z
7   2019-02-18T15:45:33      2  gsFVGOTy
8   2019-02-20T16:35:12      3  zVuiSTm1
9   2019-02-22T15:52:27      1  kuULtbnm
10  2019-02-24T12:39:30      2  MKDhBt9L
11  2019-02-26T12:45:10      3  FEgRztcr
12  2019-03-04T15:34:46      4  OUBWQSCl
13  2019-03-06T14:20:57      5  6YeTUHgm
14  2019-03-08T12:34:43      6  zlrBrZ0d"""

Ejercicio 2

Llama al método info() en position para echar un vistazo a la información general de los datos.

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')

position.info()# escribe tu código aquí

"""Resultado
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   timestamp  39 non-null     object
 1   level      39 non-null     int64 
 2   page_id    39 non-null     object
dtypes: int64(1), object(2)
memory usage: 1.0+ KB"""

Ejercicio 3

Procesa los datos de hora en la columna 'timestamp' convirtiéndolos de string a datetime. Después, muestra las primeras filas en la tabla position usando el método head(). 

Aquí tienes un ejemplo de fecha que puedes usar como una plantilla del formato del Ejercicio 1: 2019-02-04T13:22:34.

In [None]:
import pandas as pd

position = pd.read_csv('/datasets/position.csv')

position['timestamp'] = pd.to_datetime(position['timestamp'], format='%Y-%m-%dT%H:%M:%S')# escribe tu código aquí
print(position.head()) # escribe tu código aquí

"""Resultado
            timestamp  level   page_id
0 2019-02-04 13:22:34      1  6ukoNykP
1 2019-02-06 15:30:54      1  Q62R1Ue7
2 2019-02-08 14:53:45      1  GmfSxgPs
3 2019-02-10 16:50:22      2  M56OK96C
4 2019-02-12 14:16:28      1  q2fqVqPc"""