# Data preparation

En este notebook quiero utilizar los datos que tenemos para crear un tabla que este limpia y lista para ser consumida por la etapa de modeling.

El objetivo del modeling en este caso es predecir el número de usuarios activos para cierto día y cierta hora del día. En este sentido la tabla que quiero debe tener las columnas:
* dia
* hora
* usuarios_activos (target)

Donde el día sea de lunes a domingo, las horas de 00 a 23 y los usuarios activos un entero.

Luego aplicaremos modelos predictivos para poder estimar el número de usuarios activos para un día y una hora dada.


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")

In [3]:
# Leyendo los datos
estaciones = pd.read_csv('ecobiciestaciones.csv')
viajes = pd.read_csv('2018-06.csv')

In [4]:
viajes.head()

Unnamed: 0,Genero_Usuario,Edad_Usuario,Bici,Ciclo_Estacion_Retiro,Fecha_Retiro,Hora_Retiro,Ciclo_Estacion_Arribo,Fecha_Arribo,Hora_Arribo
0,M,31,8871,170,01/06/2018,0:00:11,133,01/06/2018,0:18:39
1,M,37,10700,123,01/06/2018,0:00:31,52,01/06/2018,0:08:16
2,M,43,6763,9,01/06/2018,0:00:45,9,01/06/2018,0:42:43
3,M,23,10316,55,01/06/2018,0:00:52,111,01/06/2018,0:13:29
4,M,23,15304,139,01/06/2018,0:00:57,155,01/06/2018,0:19:33


In [9]:
from datetime import datetime

0          01/06/2018 0:00:11
1          01/06/2018 0:00:31
2          01/06/2018 0:00:45
3          01/06/2018 0:00:52
4          01/06/2018 0:00:57
5          01/06/2018 0:01:11
6          01/06/2018 0:01:13
7          01/06/2018 0:01:25
8          01/06/2018 0:01:26
9          01/06/2018 0:01:37
10         01/06/2018 0:01:49
11         01/06/2018 0:01:54
12         01/06/2018 0:01:58
13         01/06/2018 0:02:04
14         01/06/2018 0:02:04
15         01/06/2018 0:02:24
16         01/06/2018 0:02:34
17         01/06/2018 0:02:51
18         01/06/2018 0:03:15
19         01/06/2018 0:03:29
20         01/06/2018 0:03:52
21         01/06/2018 0:04:04
22         01/06/2018 0:04:19
23         01/06/2018 0:04:46
24         01/06/2018 0:04:54
25         01/06/2018 0:04:55
26         01/06/2018 0:05:10
27         01/06/2018 0:05:30
28         01/06/2018 0:05:45
29         01/06/2018 0:05:58
                 ...         
690091    29/06/2018 23:54:34
690092    29/06/2018 23:54:39
690093    

In [29]:
# concatenar Hora_Retiro y Fecha_Retiro
viajes.fecha_hora_retiro = viajes.Fecha_Retiro+' '+viajes.Hora_Retiro

In [32]:
# convertir fecha y hora a datetime
viajes.fecha_hora_retiro.head()

def convierte_fecha(str_fecha_hora):
    return datetime.strptime(str_fecha_hora, '%d/%m/%Y %H:%M:%S')

viajes.datetime = viajes.fecha_hora_retiro.map(convierte_fecha)

In [70]:
# extraer dia de la semana
def dia_de_semana(datetime_obj):
    dia_numero = datetime_obj.weekday()
    if dia_numero == 0:
        return 'Lunes'
    elif dia_numero == 1:
        return 'Martes'
    elif dia_numero == 3:
        return 'Miercoles'
    elif dia_numero == 4:
        return 'Jueves'
    elif dia_numero == 5:
        return 'Viernes'
    elif dia_numero == 6:
        return 'Sabado'
    elif dia_numero == 7:
        return 'Domingo'
viajes['dia_semana'] = viajes.datetime.map(dia_de_semana)

In [67]:
# extraer la hora
viajes['hora'] = viajes.datetime.map(lambda x : x.hour)

In [73]:
# agrupar por dia y hora y tomar el conteo (en teoria esta es la tabla final)
viajes.groupby(['dia_semana','hora']).Bici.count()

dia_semana  hora
Jueves      0         466
            5         712
            6        2936
            7        8776
            8       14818
            9       10256
            10       6441
            11       5776
            12       6192
            13       7480
            14      10244
            15      12232
            16       9026
            17       9958
            18      11944
            19       9846
            20       4084
            21       2953
            22       2247
            23       1415
Lunes       0         152
            5         580
            6        2510
            7        7029
            8       12724
            9        9030
            10       5116
            11       4279
            12       4460
            13       5605
                    ...  
Sabado      14       3542
            15       2822
            16       2701
            17       2416
            18       2327
            19       2406
            20       