In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
civica = pd.read_excel('./datos.xlsx')
civica.columns

Index(['TARJETA', 'HORA', 'ESTACION'], dtype='object')

In [3]:
civica.head()

Unnamed: 0,TARJETA,HORA,ESTACION
0,1819201,20:32:53,INDUSTRIALES MP
1,1815736,20:33:27,INDUSTRIALES MP
2,1811678,20:29:02,PARQUE BERRIO
3,1809680,20:29:13,INDUSTRIALES
4,1805109,20:33:26,LÍNEA 2 BUSES


<div class='alert alert-warning'>
Primero ordenamos por número de tarjeta y hora de manera ascendente.
</div>

In [4]:
civica2 = civica.sort_values(by=['TARJETA', 'HORA'])
civica2.head()

Unnamed: 0,TARJETA,HORA,ESTACION
254788,197,13:33:43,CARIBE
310672,401,07:42:24,NIQUIA
167890,420,17:06:49,NUTIBARA
110499,420,17:51:39,ALIMENTADOR CUENCA 6
346125,696,06:22:11,AYURA


<div class='alert alert-warning'>
Crear variable llamada **SECUENCIA** la cual identifica el número de transacción realizada, teniendo en cuenta la hora de uso.
</div>

In [5]:
civica2.shape

(562031, 3)

In [6]:
# primero organizo por hora.
orden_hora = civica.sort_values(by=['HORA'])

In [7]:
# creo array de números consecutivos y lo agrego al dataFrame
secuencia = np.arange(1, 562032)
orden_hora['SECUENCIA'] = secuencia

In [8]:
# vuelvo a ordenar por TARJETA y HORA
civica2 = orden_hora.sort_values(by=['TARJETA', 'HORA'])
civica2.head()

Unnamed: 0,TARJETA,HORA,ESTACION,SECUENCIA
254788,197,13:33:43,CARIBE,280020
310672,401,07:42:24,NIQUIA,145168
167890,420,17:06:49,NUTIBARA,381520
110499,420,17:51:39,ALIMENTADOR CUENCA 6,425506
346125,696,06:22:11,AYURA,76624


<div class='alert alert-warning'>
Selecciono tarjetas que tuvieron entre 2 y 6 transacciones.
</div>

In [9]:
conteo = civica2.groupby(['TARJETA'])
conteo = conteo['TARJETA'].value_counts()
# quito multiIndex
conteo.index = conteo.index.get_level_values(0)
mask = ((conteo >= 2) & (conteo <= 6))
mask.head()

TARJETA
197    False
401    False
420     True
696    False
711    False
Name: TARJETA, dtype: bool

In [10]:
conteo.head()

TARJETA
197    1
401    1
420    2
696    1
711    1
Name: TARJETA, dtype: int64

In [11]:
# Dejo solo las tarjetas que cumplen
conteo = conteo[mask]
conteo.head()

TARJETA
420     2
885     3
908     2
929     2
1173    2
Name: TARJETA, dtype: int64

In [12]:
# Creo array de booleanos, con True donde las tarjetas cumplen
array = []
for i in civica2['TARJETA']:
    if(i in conteo):
        array.append(True)
    else:
        array.append(False)
        
len(array)
        

562031

In [13]:
# dataFrame a partir de array para crear mascara
array = np.array(array)
mask = pd.DataFrame(data=array,
                    index=civica2.index,
                    columns=['TARJETA'])

mask.head()

Unnamed: 0,TARJETA
254788,False
310672,False
167890,True
110499,True
346125,False


In [20]:
## Creo mascara con True solo para tarjetas que cumplen
mask2 = civica2[mask]['TARJETA'].notnull()
# Aplico mascara para obtener nuevo dataframe
newCivica = civica2[mask2]
newCivica.head()

Unnamed: 0,TARJETA,HORA,ESTACION,SECUENCIA
167890,420,17:06:49,NUTIBARA,381520
110499,420,17:51:39,ALIMENTADOR CUENCA 6,425506
362682,885,06:26:13,GARDEL,80472
318339,885,06:38:46,HOSPITAL,92093
42771,885,21:07:31,ALIMENTADOR CUENCA 6,538679


<div class='alert alert-warning'>
Crear variable llamada **PERIODO** y agrupar las transacciones por intervalos de 30 minutos.
</div>

In [15]:
# ordeno por hora.
newCivica = newCivica.sort_values(by=['HORA'])
newCivica.head()

Unnamed: 0,TARJETA,HORA,ESTACION,SECUENCIA
538359,2754180,00:04:36,ALIMENTADOR CUENCA 3,2
327281,2944431,03:37:07,ALIMENTADOR CUENCA 3,11
327282,2937539,03:40:44,ALIMENTADOR CUENCA 3,16
327289,2739045,03:44:41,ALIMENTADOR CUENCA 3,24
327290,2370149,03:44:44,ALIMENTADOR CUENCA 3,25


In [16]:
# crear array con intervalos de tiempo
import datetime
horas = []
for i in range(24):
    horas.append(datetime.time(i, 0, 0))
    horas.append(datetime.time(i, 30, 0))
    
horas

[datetime.time(0, 0),
 datetime.time(0, 30),
 datetime.time(1, 0),
 datetime.time(1, 30),
 datetime.time(2, 0),
 datetime.time(2, 30),
 datetime.time(3, 0),
 datetime.time(3, 30),
 datetime.time(4, 0),
 datetime.time(4, 30),
 datetime.time(5, 0),
 datetime.time(5, 30),
 datetime.time(6, 0),
 datetime.time(6, 30),
 datetime.time(7, 0),
 datetime.time(7, 30),
 datetime.time(8, 0),
 datetime.time(8, 30),
 datetime.time(9, 0),
 datetime.time(9, 30),
 datetime.time(10, 0),
 datetime.time(10, 30),
 datetime.time(11, 0),
 datetime.time(11, 30),
 datetime.time(12, 0),
 datetime.time(12, 30),
 datetime.time(13, 0),
 datetime.time(13, 30),
 datetime.time(14, 0),
 datetime.time(14, 30),
 datetime.time(15, 0),
 datetime.time(15, 30),
 datetime.time(16, 0),
 datetime.time(16, 30),
 datetime.time(17, 0),
 datetime.time(17, 30),
 datetime.time(18, 0),
 datetime.time(18, 30),
 datetime.time(19, 0),
 datetime.time(19, 30),
 datetime.time(20, 0),
 datetime.time(20, 30),
 datetime.time(21, 0),
 datetime.

In [17]:
# crear array periodo sengun corresponda la hora en newcivica dentro de horas.
periodo = []
for i in newCivica['HORA']:
    ban = 0
    for h in range(len(horas)):
        p = horas[h] > i
        if (p):
            periodo.append(h)
            ban = 1
            break
    if (ban == 0):
        periodo.append(48)

In [18]:
Periodo = pd.DataFrame(data=periodo,
                    index=newCivica.index,
                    columns=['PERIODO'])
Periodo.head()

Unnamed: 0,PERIODO
538359,1
327281,8
327282,8
327289,8
327290,8


In [19]:
newCivica = pd.concat([newCivica, Periodo], axis=1)
newCivica.head()

Unnamed: 0,TARJETA,HORA,ESTACION,SECUENCIA,PERIODO
538359,2754180,00:04:36,ALIMENTADOR CUENCA 3,2,1
327281,2944431,03:37:07,ALIMENTADOR CUENCA 3,11,8
327282,2937539,03:40:44,ALIMENTADOR CUENCA 3,16,8
327289,2739045,03:44:41,ALIMENTADOR CUENCA 3,24,8
327290,2370149,03:44:44,ALIMENTADOR CUENCA 3,25,8
