## Ingenería de las variables de fecha y hora

Las variables de fecha y hora son un tipo especial de variables categóricas. Dada su propia naturaleza, estas variables tienen una gran variedad de categorías o etiquetas, cada una correspondiente a una parte de la fecha o de la hora.

Las variables de fecha, cuando se procesan adecuadamente, pueden enriquecer altamente los datos. Por ejemplo, de una variable fecha se puede extraer:

- Semana del año
- Mes
- Trimestre
- Semester
- Año
- Día (número)
- Día de la semana
- Es fin de semana?
- Diference entre fechas en años, meses, días, etc

Las variables de fecha no deberían ser usadas como una variable categórica cuando se construye un modelo de machine learning. No solamente, porque estas pueden tener una multitud de categorías, pero también porque cuando se evalúa un modelo, lo más probable es que la variables de fecha estén en el futuro, y por lo tanto estas categorías puede que sean diferentes de las que estaban en el set de entrenamiento, y por lo tanto las que fueron usadas para entrenar el modelo de machine learning.


## En este demo: 

En este demo, usaremos los datos de Préstamos Peer to Peer, de la compañía financiera **Lending Club** para extraer las diferentes variables a partir de la información de fecha y hora 

- Para descargar los datos, por favor referirse a la lección de **Datos** en la  **Sección 1** del curso.

In [1]:
import pandas as pd
import numpy as np

import datetime

In [2]:
# carguemos los datos del Lending Club con unas pocas
# columnas y unas observaciones para facilitar el demo

use_cols = ['issue_d', 'last_pymnt_d']
data = pd.read_csv('../loan.csv', usecols=use_cols, nrows=10000)

data.head()

Unnamed: 0,issue_d,last_pymnt_d
0,Dec-2018,Feb-2019
1,Dec-2018,Feb-2019
2,Dec-2018,Feb-2019
3,Dec-2018,Feb-2019
4,Dec-2018,Feb-2019


In [3]:
# procesemos la información de fechas
# actualmente de tipo cadena ('string') y 
# cambiarlas a un formato 'datetime' 

data['issue_dt'] = pd.to_datetime(data.issue_d)
data['last_pymnt_dt'] = pd.to_datetime(data.last_pymnt_d)

data[['issue_d','issue_dt','last_pymnt_d', 'last_pymnt_dt']].head()

Unnamed: 0,issue_d,issue_dt,last_pymnt_d,last_pymnt_dt
0,Dec-2018,2018-12-01,Feb-2019,2019-02-01
1,Dec-2018,2018-12-01,Feb-2019,2019-02-01
2,Dec-2018,2018-12-01,Feb-2019,2019-02-01
3,Dec-2018,2018-12-01,Feb-2019,2019-02-01
4,Dec-2018,2018-12-01,Feb-2019,2019-02-01


### Extraer la semana del año 

In [4]:
# Extraer la semana del año de la información
# de fechas, que varía del 1 al 52

data['issue_dt_week'] = data['issue_dt'].dt.week

data[['issue_dt', 'issue_dt_week']].head()

Unnamed: 0,issue_dt,issue_dt_week
0,2018-12-01,48
1,2018-12-01,48
2,2018-12-01,48
3,2018-12-01,48
4,2018-12-01,48


In [5]:
data['issue_dt_week'].unique()

array([48])

### Extraer mes 

In [6]:
# Extraer el mes de la fecha - 1 a 12

data['issue_dt_month'] = data['issue_dt'].dt.month

data[['issue_dt', 'issue_dt_month']].head()

Unnamed: 0,issue_dt,issue_dt_month
0,2018-12-01,12
1,2018-12-01,12
2,2018-12-01,12
3,2018-12-01,12
4,2018-12-01,12


In [7]:
data['issue_dt_month'].unique()

array([12])

### Extraer trimestre 

In [8]:
# Extraer el trimestre de la variable fecha
# valores 1 a 4

data['issue_dt_quarter'] = data['issue_dt'].dt.quarter

data[['issue_dt', 'issue_dt_quarter']].head()

Unnamed: 0,issue_dt,issue_dt_quarter
0,2018-12-01,4
1,2018-12-01,4
2,2018-12-01,4
3,2018-12-01,4
4,2018-12-01,4


In [9]:
data['issue_dt_quarter'].unique()

array([4])

### Extraer  semestre

In [10]:
# Tambien podemos extraer el semestre : 1 o 2

data['issue_dt_semester'] = np.where(data['issue_dt_quarter'].isin([1,2]), 1, 2)

data.head()

Unnamed: 0,issue_d,last_pymnt_d,issue_dt,last_pymnt_dt,issue_dt_week,issue_dt_month,issue_dt_quarter,issue_dt_semester
0,Dec-2018,Feb-2019,2018-12-01,2019-02-01,48,12,4,2
1,Dec-2018,Feb-2019,2018-12-01,2019-02-01,48,12,4,2
2,Dec-2018,Feb-2019,2018-12-01,2019-02-01,48,12,4,2
3,Dec-2018,Feb-2019,2018-12-01,2019-02-01,48,12,4,2
4,Dec-2018,Feb-2019,2018-12-01,2019-02-01,48,12,4,2


In [11]:
data['issue_dt_semester'].unique()

array([2])

###  Extraer año

In [12]:
# Extraer año

data['issue_dt_year'] = data['issue_dt'].dt.year

data[['issue_dt', 'issue_dt_year']].head()

Unnamed: 0,issue_dt,issue_dt_year
0,2018-12-01,2018
1,2018-12-01,2018
2,2018-12-01,2018
3,2018-12-01,2018
4,2018-12-01,2018


In [13]:
data['issue_dt_year'].unique()

array([2018])

### Extraer días en varios formatos

In [14]:
# día - valor numérica del 1-31

data['issue_dt_day'] = data['issue_dt'].dt.day

data[['issue_dt', 'issue_dt_day']].head()

Unnamed: 0,issue_dt,issue_dt_day
0,2018-12-01,1
1,2018-12-01,1
2,2018-12-01,1
3,2018-12-01,1
4,2018-12-01,1


In [15]:
data['issue_dt_day'].unique()

array([1])

In [16]:
# día de la semana - del 0 al 6

data['issue_dt_dayofweek'] = data['issue_dt'].dt.dayofweek

data[['issue_dt', 'issue_dt_dayofweek']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2018-12-01,5
1,2018-12-01,5
2,2018-12-01,5
3,2018-12-01,5
4,2018-12-01,5


In [17]:
data['issue_dt_dayofweek'].unique()

array([5])

In [18]:
# día de la semana - nombre del día

data['issue_dt_dayofweek'] = data['issue_dt'].dt.weekday_name

data[['issue_dt', 'issue_dt_dayofweek']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek
0,2018-12-01,Saturday
1,2018-12-01,Saturday
2,2018-12-01,Saturday
3,2018-12-01,Saturday
4,2018-12-01,Saturday


In [19]:
data['issue_dt_dayofweek'].unique()

array(['Saturday'], dtype=object)

In [20]:
# fuá la aplicación hecha en el fin de semana?

data['issue_dt_is_weekend'] = np.where(data['issue_dt_dayofweek'].isin(['Sunday', 'Saturday']), 1,0)

data[['issue_dt', 'issue_dt_dayofweek','issue_dt_is_weekend']].head()

Unnamed: 0,issue_dt,issue_dt_dayofweek,issue_dt_is_weekend
0,2018-12-01,Saturday,1
1,2018-12-01,Saturday,1
2,2018-12-01,Saturday,1
3,2018-12-01,Saturday,1
4,2018-12-01,Saturday,1


In [21]:
data['issue_dt_is_weekend'].unique()

array([1])

### Extraer el tiempo pasado entre dos fechas


In [22]:
# quizás sea más interesante, extraer
# la diferencia entre dos fechas

data['issue_dt'] - data['last_pymnt_dt']

0      -62 days
1      -62 days
2      -62 days
3      -62 days
4      -62 days
5      -62 days
6      -62 days
7      -62 days
8      -62 days
9      -62 days
10     -62 days
11     -62 days
12     -62 days
13     -62 days
14     -62 days
15     -62 days
16     -62 days
17     -62 days
18     -62 days
19     -62 days
20     -62 days
21     -62 days
22     -62 days
23     -62 days
24     -62 days
25     -62 days
26     -62 days
27     -62 days
28     -62 days
29     -62 days
         ...   
9970   -62 days
9971   -62 days
9972        NaT
9973   -62 days
9974   -62 days
9975   -62 days
9976   -62 days
9977   -62 days
9978   -62 days
9979   -62 days
9980   -62 days
9981   -62 days
9982   -62 days
9983   -62 days
9984   -62 days
9985   -62 days
9986   -62 days
9987   -62 days
9988   -62 days
9989   -62 days
9990   -62 days
9991   -62 days
9992   -62 days
9993   -62 days
9994   -62 days
9995   -62 days
9996   -62 days
9997   -62 days
9998   -62 days
9999   -62 days
Length: 10000, dtype: ti

In [23]:
# el mismo cálculo que en la celda anterior, pero simplemente
# tomando el valor de la diferencia

(data['last_pymnt_dt'] - data['issue_dt']).dt.days.head()

0    62.0
1    62.0
2    62.0
3    62.0
4    62.0
dtype: float64

In [24]:
# calculemos el número de meses transcurridos
# entre dos fechas

data['months_passed'] = (data['last_pymnt_dt'] - data['issue_dt']) / np.timedelta64(1, 'M')
data['months_passed'] = np.round(data['months_passed'],0)

data[['last_pymnt_dt', 'issue_dt','months_passed']].head()

Unnamed: 0,last_pymnt_dt,issue_dt,months_passed
0,2019-02-01,2018-12-01,2.0
1,2019-02-01,2018-12-01,2.0
2,2019-02-01,2018-12-01,2.0
3,2019-02-01,2018-12-01,2.0
4,2019-02-01,2018-12-01,2.0


In [25]:
# o calcular la diferencia de una fecha
# al día de hoy

(datetime.datetime.today() - data['issue_dt']).head()

0   517 days 22:55:29.975231
1   517 days 22:55:29.975231
2   517 days 22:55:29.975231
3   517 days 22:55:29.975231
4   517 days 22:55:29.975231
Name: issue_dt, dtype: timedelta64[ns]

In [26]:
(datetime.datetime.today() - data['issue_dt']).unique()

array([44751329984103000], dtype='timedelta64[ns]')