# Datos Relacionados al Tiempo

Ahora vamos a sumergirnos en el mundo de los datos temporales con Pandas, y cuando digo datos temporales me refiero a los que **indican fechas y horas**, que es información con la que muy frecuentemente te vas a encontrar en tus datos de origen.

Entonces, el objetivo de esta lección es que aprendamos:
- cómo manejar fechas y horas
- cómo realizar conversiones entre diferentes formatos
- cómo utilizar operaciones temporales para analizar nuestros datos

Para la **creación de series temporales**, Pandas nos ofrece **tipos de datos específicos** para fechas y horas, lo que facilita trabajar con este tipo de información.

Vamos a crear nuestra primera serie temporal:

In [1]:
import pandas as pd

In [2]:
fechas = pd.Series(pd.date_range('20240101', periods=6))
fechas

0   2024-01-01
1   2024-01-02
2   2024-01-03
3   2024-01-04
4   2024-01-05
5   2024-01-06
dtype: datetime64[ns]

Tomemos el primero de esos elementos, y veamos de qué **tipo de datos** se trata.

In [3]:
type(fechas[0])

pandas._libs.tslibs.timestamps.Timestamp

In [4]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='D'))
fechas

0   2024-01-01
1   2024-01-02
2   2024-01-03
3   2024-01-04
4   2024-01-05
5   2024-01-06
dtype: datetime64[ns]

Este ejemplo nos muestra 6 períodos de tiempo que se inician el 1 de enero de 2024, y que van de a un día en un día hasta completar los 6 períodos.

¿Y por qué saltea de a 1 día a la vez y no de otra manera? Porque `date_range()` tiene un parámetro que se llama `freq`, y que sirve para ajustar la frecuencia. Por defecto, `freq` viene programado para ir por día:

In [5]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='D'))
fechas

0   2024-01-01
1   2024-01-02
2   2024-01-03
3   2024-01-04
4   2024-01-05
5   2024-01-06
dtype: datetime64[ns]

Pero puedo modificar ese argumento para que vaya por meses (M), años (Y), horas (H), minutos (MIN) o segundos(S)

In [6]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='M'))
fechas

0   2024-01-31
1   2024-02-29
2   2024-03-31
3   2024-04-30
4   2024-05-31
5   2024-06-30
dtype: datetime64[ns]

In [7]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='Y'))
fechas

0   2024-12-31
1   2025-12-31
2   2026-12-31
3   2027-12-31
4   2028-12-31
5   2029-12-31
dtype: datetime64[ns]

In [8]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='H'))
fechas

0   2024-01-01 00:00:00
1   2024-01-01 01:00:00
2   2024-01-01 02:00:00
3   2024-01-01 03:00:00
4   2024-01-01 04:00:00
5   2024-01-01 05:00:00
dtype: datetime64[ns]

In [9]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='MIN'))
fechas

0   2024-01-01 00:00:00
1   2024-01-01 00:01:00
2   2024-01-01 00:02:00
3   2024-01-01 00:03:00
4   2024-01-01 00:04:00
5   2024-01-01 00:05:00
dtype: datetime64[ns]

In [10]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='S'))
fechas

0   2024-01-01 00:00:00
1   2024-01-01 00:00:01
2   2024-01-01 00:00:02
3   2024-01-01 00:00:03
4   2024-01-01 00:00:04
5   2024-01-01 00:00:05
dtype: datetime64[ns]

Y a su vez, puedo especificar períodos de tiempo más personalizados, agregando la cantidad antes de la letra.

In [11]:
fechas = pd.Series(pd.date_range('20240101', periods=6, freq='5D'))
fechas

0   2024-01-01
1   2024-01-06
2   2024-01-11
3   2024-01-16
4   2024-01-21
5   2024-01-26
dtype: datetime64[ns]

Eso en cuanto a crear tus propias series de tiempo.

Pero de todos modos esto no va a ser de los más frecuente en el trabajo diario de un científico de datos. Lo que sí puede sucederte con mucha frecuencia, es que recibas datos que contienen **columnas con fechas**, pero que en realidad están cargadas como **strings**, y vas a necesitar **convertirlas en tipos de datos de fecha**. Lo veamos con un ejemplo:

In [12]:
ruta = 'C:/Users/Win10/Downloads/00 - FEDE/Udemy/Python para Data Science/Día 7/7 - Datos Relacionados al Tiempo/Mercado de Valores España.csv'
df = pd.read_csv(ruta)
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio
0,ANA,02/01/2019,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518
1,ANA,03/01/2019,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687
2,ANA,04/01/2019,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162
3,ANA,07/01/2019,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504
4,ANA,08/01/2019,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409
...,...,...,...,...,...,...,...,...,...,...
8570,VIS,09/12/2019,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710
8571,VIS,10/12/2019,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201
8572,VIS,11/12/2019,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169
8573,VIS,12/12/2019,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731


Tomemos el primero de los elementos de la columna **Fecha**.

In [13]:
df['Fecha'][0]

'02/01/2019'

Estrictamente aquí podemos ver una fecha, pero esas comillas me hacen pensar que podría tratarse de un string ¿lo comprobemos?

In [14]:
type(df['Fecha'][0])

str

Efectivamente, ese dato se ve como una fecha, pero en realidad es un dato de tipo `str`.

Esto no es lo ideal porque, como sabes, con los strings, por más que parezcan números y tengan forma de números, no podemos hacer ¿qué cosa?... Operaciones.

Entonces cuando tengas DataFrames que contienen fechas, pero que en realidad son strings, tenemos que hacer una operación para **convertirlos en datos de fecha** propiamente dichos.

Para ese objetivo, Pandas incluye un método llamado `to_datetime()`, que nos pide un string, y un formato de fecha.

In [15]:
df['Fecha'] = pd.to_datetime(df['Fecha'], format='%d/%m/%Y')
df

Unnamed: 0,Ticker,Fecha,Cierre,Referencia,Volumen,Rotacion,Ultimo,Alto,Bajo,Promedio
0,ANA,2019-01-02,74.80,73.90,156300,11621188.98,74.80,75.16,72.38,74.3518
1,ANA,2019-01-03,76.34,74.80,140331,10632703.64,76.34,76.60,74.54,75.7687
2,ANA,2019-01-04,76.62,76.34,130309,10010838.76,76.62,77.40,76.40,76.8162
3,ANA,2019-01-07,77.14,76.62,63349,4855724.92,77.14,77.30,75.62,76.6504
4,ANA,2019-01-08,78.24,77.14,99300,7749464.70,78.24,78.46,77.00,78.0409
...,...,...,...,...,...,...,...,...,...,...
8570,VIS,2019-12-09,48.70,48.76,40236,1958325.66,48.70,48.96,48.44,48.6710
8571,VIS,2019-12-10,48.16,48.70,60198,2895965.78,48.16,48.74,47.70,48.1201
8572,VIS,2019-12-11,47.96,48.16,63000,3012462.12,47.96,48.42,47.52,47.8169
8573,VIS,2019-12-12,48.42,47.96,50218,2429199.80,48.42,48.66,47.76,48.3731


Ahora volvamos a individualizar el primero de sus elementos (el mismo que seleccionamos antes).

In [16]:
df['Fecha'][0]

Timestamp('2019-01-02 00:00:00')

Ahora sí que no parece un string. ¿Qué tipo de datos tenemos aquí?

In [17]:
type(df['Fecha'][0])

pandas._libs.tslibs.timestamps.Timestamp

Avancemos. Ahora veamos cómo podemos **extraer información más específica** de este tipo de datos.

Tomemos un registro cualquiera:

In [18]:
df['Fecha'][44]

Timestamp('2019-03-05 00:00:00')

Ahora supongamos que quiero extraer el año:

In [19]:
anio = df['Fecha'][44].year
anio

2019

Probemos con el més:

In [20]:
mes = df['Fecha'][44].month
mes

3

Y así podrías seguir extrayendo el resto de la información (.day / .hour / .minute / .second)

También podemos manipular las fechas de nuestro DataFrame, agregando o restando días, horas o minutos.

In [21]:
df_mas_5_dias = df['Fecha'] + pd.Timedelta(days=5)
df_mas_5_dias

0      2019-01-07
1      2019-01-08
2      2019-01-09
3      2019-01-12
4      2019-01-13
          ...    
8570   2019-12-14
8571   2019-12-15
8572   2019-12-16
8573   2019-12-17
8574   2019-12-18
Name: Fecha, Length: 8575, dtype: datetime64[ns]

Con esto hemos aprendido a manejar datos temporales en Pandas, una habilidad esencial para muchos análisis de datos.

Con estas herramientas, vas a poder explorar series temporales y realizar análisis temporales complejos.