## Ingenería de las variables de fecha y hora

Las variables de fecha y hora son un tipo especial de variables categóricas. Dada su naturaleza, estas variables tienen una gran variedad de categorías o etiquetas, cada una correspondiente a una parte de la fecha o de la hora.

Las variables de fecha, cuando se procesan adecuadamente, pueden enriquecer altamente los datos. Por ejemplo, de una variable fecha se puede extraer:

- Semana del año
- Mes
- Trimestre
- Semester
- Año
- Día (número)
- Día de la semana
- Es fin de semana?
- Diferencia entre dos fechas ya sea en años, meses, días, etc

Las variables de fecha no deberían ser usadas como una variable categórica cuando se construye un modelo de machine learning. No solamente, porque estas pueden tener una multitud de categorías, pero también porque cuando se evalúa un modelo, lo más probable es que la variables de fecha estén en el futuro. Por lo tanto estas categorías puede que sean diferentes de las que estaban en el set de entrenamiento, y por lo tanto las que fueron usadas para entrenar el modelo de machine learning.


## En este demo: 

En este demo, usaremos los datos de Préstamos Peer to Peer, de la compañía financiera de peer to peer para extraer las diferentes variables a partir de la información de fecha y hora 

- Para descargar los datos, por favor referirse a la lección de **Datos** en la  **Sección 1** del curso.

In [28]:
import pandas as pd
import numpy as np

import datetime

In [29]:
# carguemos los datos

use_cols = ['date_issued', 'date_last_payment']

data = pd.read_csv('../loan.csv', usecols=use_cols)

data.head()

Unnamed: 0,date_issued,date_last_payment
0,2013-06-11,2016-01-14
1,2014-05-08,2016-01-25
2,2013-10-26,2014-09-26
3,2015-08-20,2016-01-26
4,2014-07-22,2016-01-11


In [30]:
# procesemos la información de fechas
# actualmente de tipo cadena ('string') y 
# cambiarlas a un formato 'datetime' 

data['issue_dt'] = pd.to_datetime(data['date_issued'])
data['last_pymnt_dt'] = pd.to_datetime(data['date_last_payment'])

data[['date_issued','issue_dt','date_last_payment', 'last_pymnt_dt']].head()

Unnamed: 0,date_issued,issue_dt,date_last_payment,last_pymnt_dt
0,2013-06-11,2013-06-11,2016-01-14,2016-01-14
1,2014-05-08,2014-05-08,2016-01-25,2016-01-25
2,2013-10-26,2013-10-26,2014-09-26,2014-09-26
3,2015-08-20,2015-08-20,2016-01-26,2016-01-26
4,2014-07-22,2014-07-22,2016-01-11,2016-01-11


### Extraer la semana del año 

In [31]:
# Extraer la semana del año de la información
# de fechas, que varía del 1 al 52

data['issue_dt_week'] = data['issue_dt'].dt.isocalendar().week

data[['issue_dt', 'issue_dt_week']].head()

Unnamed: 0,issue_dt,issue_dt_week
0,2013-06-11,24
1,2014-05-08,19
2,2013-10-26,43
3,2015-08-20,34
4,2014-07-22,30


In [32]:
data['issue_dt_week'].unique()

<IntegerArray>
[24, 19, 43, 34, 30, 39, 12,  7, 52, 47, 14, 44, 46, 17,  8,  2, 25, 51, 15,
 11, 36, 21, 16, 49, 23,  6, 40, 29, 38, 33, 27, 28, 41, 20, 50,  9,  5, 32,
 45, 10, 42, 48,  4,  1, 26, 13, 37,  3, 22, 35, 18, 31]
Length: 52, dtype: UInt32

### Extraer mes 

In [33]:
# Extraer el mes de la fecha - 1 a 12

data['issue_dt_month'] = data['issue_dt'].dt.month

data[['issue_dt', 'issue_dt_month']].head()

Unnamed: 0,issue_dt,issue_dt_month
0,2013-06-11,6
1,2014-05-08,5
2,2013-10-26,10
3,2015-08-20,8
4,2014-07-22,7


In [34]:
data['issue_dt_month'].unique()

array([ 6,  5, 10,  8,  7,  9,  3,  2, 12, 11,  4,  1], dtype=int64)

### Extraer trimestre 

In [35]:
# Extraer el trimestre de la variable fecha
# valores 1 a 4

data['issue_dt_quarter'] = data['issue_dt'].dt.quarter

data[['issue_dt', 'issue_dt_quarter']].head()

Unnamed: 0,issue_dt,issue_dt_quarter
0,2013-06-11,2
1,2014-05-08,2
2,2013-10-26,4
3,2015-08-20,3
4,2014-07-22,3


In [36]:
data['issue_dt_quarter'].unique()

array([2, 4, 3, 1], dtype=int64)

### Extraer  semestre

In [37]:
# También podemos extraer el semestre : 1 o 2

data['issue_dt_semester'] = np.where(data['issue_dt_quarter'].isin([1,2]), 1, 2)

data.head()

Unnamed: 0,date_issued,date_last_payment,issue_dt,last_pymnt_dt,issue_dt_week,issue_dt_month,issue_dt_quarter,issue_dt_semester
0,2013-06-11,2016-01-14,2013-06-11,2016-01-14,24,6,2,1
1,2014-05-08,2016-01-25,2014-05-08,2016-01-25,19,5,2,1
2,2013-10-26,2014-09-26,2013-10-26,2014-09-26,43,10,4,2
3,2015-08-20,2016-01-26,2015-08-20,2016-01-26,34,8,3,2
4,2014-07-22,2016-01-11,2014-07-22,2016-01-11,30,7,3,2


In [38]:
data['issue_dt_semester'].unique()

array([1, 2])

###  Extraer año

In [39]:
# Extraer año

data['issue_dt_year'] = data['issue_dt'].dt.year

data[['issue_dt', 'issue_dt_year']].head()

Unnamed: 0,issue_dt,issue_dt_year
0,2013-06-11,2013
1,2014-05-08,2014
2,2013-10-26,2013
3,2015-08-20,2015
4,2014-07-22,2014


In [40]:
data['issue_dt_year'].unique()

array([2013, 2014, 2015, 2011, 2009, 2012, 2010, 2008, 2007], dtype=int64)

### Extraer días en varios formatos

In [41]:
# día - valor numérica del 1-31

data['issue_dt_day'] = data['issue_dt'].dt.day

data[['issue_dt', 'issue_dt_day']].head()

Unnamed: 0,issue_dt,issue_dt_day
0,2013-06-11,11
1,2014-05-08,8
2,2013-10-26,26
3,2015-08-20,20
4,2014-07-22,22


In [42]:
data['issue_dt_day'].unique()

array([11,  8, 26, 20, 22, 21, 27, 14, 25,  4, 13, 23, 19, 18, 24, 17,  6,
        1, 12, 10,  5,  3,  7,  2,  9, 16, 15], dtype=int64)

In [43]:
# día de la semana - del 0 al 6

data['issue_dt_dayofweek'] = data['issue_dt'].dt.dayofweek

data[['issue_dt', 'issue_dt_dayofweek']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2013-06-11,1
1,2014-05-08,3
2,2013-10-26,5
3,2015-08-20,3
4,2014-07-22,1


In [44]:
data['issue_dt_dayofweek'].unique()

array([1, 3, 5, 2, 6, 4, 0], dtype=int64)

In [45]:
# día de la semana - nombre del día

data['issue_dt_dayofweek'] = data['issue_dt'].dt.day_name()

data[['issue_dt', 'issue_dt_dayofweek']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2013-06-11,Tuesday
1,2014-05-08,Thursday
2,2013-10-26,Saturday
3,2015-08-20,Thursday
4,2014-07-22,Tuesday


In [46]:
data['issue_dt_dayofweek'].unique()

array(['Tuesday', 'Thursday', 'Saturday', 'Wednesday', 'Sunday', 'Friday',
       'Monday'], dtype=object)

In [47]:
# fué la aplicación hecha en un fin de semana?

data['issue_dt_is_weekend'] = np.where(data['issue_dt_dayofweek'].isin(['Sunday', 'Saturday']), 1,0)

data[['issue_dt', 'issue_dt_dayofweek','issue_dt_is_weekend']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek,issue_dt_is_weekend
0,2013-06-11,Tuesday,0
1,2014-05-08,Thursday,0
2,2013-10-26,Saturday,1
3,2015-08-20,Thursday,0
4,2014-07-22,Tuesday,0


In [48]:
data['issue_dt_is_weekend'].unique()

array([0, 1])

### Extraer el tiempo pasado entre dos fechas


In [49]:
# quizás sea más interesante, extraer
# la diferencia entre dos fechas

data['issue_dt'] - data['last_pymnt_dt']

0      -947 days
1      -627 days
2      -335 days
3      -159 days
4      -538 days
          ...   
9995   -293 days
9996   -312 days
9997   -253 days
9998   -404 days
9999   -362 days
Length: 10000, dtype: timedelta64[ns]

In [50]:
# el mismo cálculo que en la celda anterior, pero simplemente
# tomando el valor de la diferencia

(data['last_pymnt_dt'] - data['issue_dt']).dt.days.head()

0    947
1    627
2    335
3    159
4    538
dtype: int64

In [51]:
# calculemos el número de meses transcurridos
# entre dos fechas

data['months_passed'] = (data['last_pymnt_dt'] - data['issue_dt']) / np.timedelta64(1, 'M')
data['months_passed'] = np.round(data['months_passed'],0)

data[['last_pymnt_dt', 'issue_dt','months_passed']].head()

Unnamed: 0,last_pymnt_dt,issue_dt,months_passed
0,2016-01-14,2013-06-11,31.0
1,2016-01-25,2014-05-08,21.0
2,2014-09-26,2013-10-26,11.0
3,2016-01-26,2015-08-20,5.0
4,2016-01-11,2014-07-22,18.0


In [52]:
# o calculemos la diferencia de una fecha
# al día de hoy

(datetime.datetime.today() - data['issue_dt']).head()

0   2791 days 00:50:12.183862
1   2460 days 00:50:12.183862
2   2654 days 00:50:12.183862
3   1991 days 00:50:12.183862
4   2385 days 00:50:12.183862
Name: issue_dt, dtype: timedelta64[ns]

In [53]:
(datetime.datetime.today() - data['issue_dt']).unique()

array([241145412228273000, 212547012228273000, 229308612228273000, ...,
       329619012228273000, 368153412228273000, 348627012228273000],
      dtype='timedelta64[ns]')