<center>
<img src="imgs/tutorail.webp"  alt="drawing" width="50%"/>
</center>

# Fechas y horas nativas en Python: módulos `datetime` y ``dateutil``

El módulo __datetime__ proporciona las clases para manejar fechas y horas. 

Las clases que existen son:

* __datetime__ Fechas y horas de manera conjunta (mas, día, año, hora, minuto, segundo y microsegundo)

* __data__ Fechas (mes, día, año)

* __time__ Horas independientes de las fechas

* __timedelta__ Un peridodo de tiempo

* __tzinfo__ Clase para gestionar la zonas horarias

In [32]:
#! pip install datetime
from datetime import datetime, date, time, timedelta
import pandas as pd

Podemos crear distintos objetos tipo fecha, hora etc

In [27]:
# Create Date object
date(year=2021, month=1, day=10)

datetime.date(2021, 1, 10)

In [28]:
# Create Time object
time(hour=14, minute=15, second=25)

datetime.time(14, 15, 25)

In [29]:
# Create Datetime object
datetime(year=2021, month=1, day=10, hour=14, minute=15, second=25)

datetime.datetime(2021, 1, 10, 14, 15, 25)

Podemos obtener la fecha y hora  de hoy

In [33]:
now = datetime.now()
print(now)
type(now)

2022-09-11 16:34:01.310990


datetime.datetime

Podemos obtener el año, mes y día por separado

In [3]:
now.year, now.month, now.day

(2022, 9, 11)

Generamos un objeto datetime a partir de el año, mes y día

In [14]:
fecha_naci = datetime(1968, 5, 3)
fecha_naci

datetime.datetime(1968, 5, 3, 0, 0)

In [15]:

edad = (datetime.today() - fecha_naci)
edad

datetime.timedelta(days=19854, seconds=34906, microseconds=786075)

In [16]:
print(datetime.today().year - fecha_naci.year)

54


In [10]:
import pandas as pd

In [17]:
pd.to_datetime(fecha_naci).day_name()

'Friday'

## Conversión entre datimes y strings

El módulo datetime tiene dos métodos para pasar strings a fechas y viceversa:

* __strptime:__ de string a DateTime object

* __strftime:__ de DateTime object a string

__String a DateTime__

<left>
<img src="imgs/strptime.png"  alt="drawing" width="30%"/>
</left>

In [5]:
fecha = datetime.strptime('08-04-2021', '%d-%m-%Y')

__DateTime a String__

<left>
<img src="imgs/strftime.png"  alt="drawing" width="30%"/>
</left>

In [6]:
datetime.strftime(fecha, '%d/%m/%Y')

'08/04/2021'

__String to String__ en formato diferente

<left>
<img src="imgs/strtostr_time.png"  alt="drawing" width="50%"/>
</left>

In [8]:
datetime.strptime('08-04-2021', '%d-%m-%Y').strftime('%d/%m/%Y')

'08/04/2021'

Convertir toda una lista

In [10]:
datestrs = ['7/6/2011', '8/6/2011', '9/6/2011']
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2011, 7, 6, 0, 0),
 datetime.datetime(2011, 8, 6, 0, 0),
 datetime.datetime(2011, 9, 6, 0, 0)]

__Los códigos para dar formatos a las fechas y horas, son:__

<left>
<img src="imgs/formatos hora.png"  alt="drawing" width="50%"/>
</left>

* Usando el módulo __dateutil__ Puedes parsear fechas usando strings con muchos formatos

In [11]:
from dateutil.parser import parse

In [12]:
parse('2022-05-03')

datetime.datetime(2011, 1, 3, 0, 0)

In [15]:
parse('May 31, 1968 10:45 PM')

datetime.datetime(1968, 5, 31, 22, 45)

In [16]:
parse('6/12/2021', dayfirst=True)

datetime.datetime(2021, 12, 6, 0, 0)


- El poder de  ``datetime`` y ``dateutil`` viene dado por su flexibilidad y sintaxis fácil.
- Se pueden usar estos objetos y sus métodos para llevar a cabo casi cualquier operación. 
- Su limitación viene al trabajar con vectores grandes: las listas de objetos datetime de Python son menos eficiente comparado con pandas o numpy

También se puede avanzar o retroceder desde una fecha usando __relativedelta__ del módulo dateutil

In [36]:
from dateutil.relativedelta import relativedelta

In [39]:
# Add one day
datetime.today() + timedelta(days=1)

datetime.datetime(2022, 9, 12, 16, 36, 22, 350922)

In [None]:
# Add one month
now+relativedelta(months=+1)

datetime.datetime(2022, 10, 11, 16, 34, 1, 310990)

## Time series en Pandas

- Pandas tiene los objetos ``Timestamp`` que combinan la facilidad de  ``datetime`` y ``dateutil`` con una implementación vectorizada eficiente.

- Usando los objetos ``Timestamp``, pandas construye un ``DatetimeIndex``  para ser usado como índice en ``Series`` o ``DataFrame``.

- Las clases de Pandas para series temporales son:

    * ``Timestamp``: reemplazo de ``datetime``, basado en el sistema más eficiente de ``numpy.datetime64``. La estructura del índice asociada será ``DatetimeIndex``.
    * ``Period``: para periodos de tiempo. La estructura del índice asociado es ``PeriodIndex``.
    * ``Timedelta``: para variación de tiempo o duración (más eficiente que ``datetime.timedelta``). La estructura del índice asociado es ``TimedeltaIndex``.

- Los tipos más básicos son ``Timestamp`` y ``DatetimeIndex``.

- La forma más común de crear objetos de este tipo es usando la función ``pd.to_datetime()`` .

- Puede parsear una gran variedad de formatos.
 
- Pasar una fecha a esta función produce un ``Timestamp``; pasar una serie de fechas por defecto devuelve un ``DatetimeIndex``:

In [100]:
power_data = pd.read_csv("data/Power_consumption.csv")

In [95]:
power_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4383 entries, 0 to 4382
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Date         4383 non-null   object 
 1   Time         4383 non-null   object 
 2   Consumption  4383 non-null   float64
 3   Wind         2920 non-null   float64
 4   Solar        2188 non-null   float64
dtypes: float64(3), object(2)
memory usage: 171.3+ KB


In [96]:
power_data.index

RangeIndex(start=0, stop=4383, step=1)

In [108]:
power_data['Date'] = pd.to_datetime(power_data['Date'])
power_data['Time'] = pd.to_datetime(power_data['Time'])
power_data.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4383 entries, 2006-01-01 16:34:01.310990 to 2017-12-31 06:34:01.310990
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         4383 non-null   datetime64[ns]
 1   Time         4383 non-null   datetime64[ns]
 2   Consumption  4383 non-null   float64       
 3   Wind         2920 non-null   float64       
 4   Solar        2188 non-null   float64       
dtypes: datetime64[ns](2), float64(3)
memory usage: 205.5 KB


In [109]:
power_data.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4383 entries, 2006-01-01 16:34:01.310990 to 2017-12-31 06:34:01.310990
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Date         4383 non-null   datetime64[ns]
 1   Time         4383 non-null   datetime64[ns]
 2   Consumption  4383 non-null   float64       
 3   Wind         2920 non-null   float64       
 4   Solar        2188 non-null   float64       
dtypes: datetime64[ns](2), float64(3)
memory usage: 205.5 KB


In [112]:
# Extract the Day, Month and Year
# Year
power_data['year'] = power_data.Date.dt.year
# Month
power_data['month'] = power_data.Date.dt.month
# Day
power_data['day'] = power_data.Date.dt.day

In [103]:
power_data = pd.read_csv("data/Power_consumption.csv")

In [104]:
power_data['Datetime'] = pd.to_datetime(power_data['Date'] + ' ' + power_data['Time'])
power_data = power_data.set_index('Datetime')
power_data.index

DatetimeIndex(['2006-01-01 16:34:01.310990', '2006-01-02 17:34:01.310990',
               '2006-01-03 18:34:01.310990', '2006-01-04 19:34:01.310990',
               '2006-01-05 20:34:01.310990', '2006-01-06 21:34:01.310990',
               '2006-01-07 22:34:01.310990', '2006-01-08 23:34:01.310990',
               '2006-01-09 00:34:01.310990', '2006-01-10 01:34:01.310990',
               ...
               '2017-12-22 21:34:01.310990', '2017-12-23 22:34:01.310990',
               '2017-12-24 23:34:01.310990', '2017-12-25 00:34:01.310990',
               '2017-12-26 01:34:01.310990', '2017-12-27 02:34:01.310990',
               '2017-12-28 03:34:01.310990', '2017-12-29 04:34:01.310990',
               '2017-12-30 05:34:01.310990', '2017-12-31 06:34:01.310990'],
              dtype='datetime64[ns]', name='Datetime', length=4383, freq=None)

In [75]:
power_data_dates = pd.read_csv('data/Power_consumption.csv', parse_dates = [['Date','Time']], index_col = 0)

In [79]:
power_data_dates.index

DatetimeIndex(['2006-01-01 16:34:01.310990', '2006-01-02 17:34:01.310990',
               '2006-01-03 18:34:01.310990', '2006-01-04 19:34:01.310990',
               '2006-01-05 20:34:01.310990', '2006-01-06 21:34:01.310990',
               '2006-01-07 22:34:01.310990', '2006-01-08 23:34:01.310990',
               '2006-01-09 00:34:01.310990', '2006-01-10 01:34:01.310990',
               ...
               '2017-12-22 21:34:01.310990', '2017-12-23 22:34:01.310990',
               '2017-12-24 23:34:01.310990', '2017-12-25 00:34:01.310990',
               '2017-12-26 01:34:01.310990', '2017-12-27 02:34:01.310990',
               '2017-12-28 03:34:01.310990', '2017-12-29 04:34:01.310990',
               '2017-12-30 05:34:01.310990', '2017-12-31 06:34:01.310990'],
              dtype='datetime64[ns]', name='Date_Time', length=4383, freq=None)