# Parking Data aggregation

## Prueba para 1 dataset (proceso descriptivo)

In [8]:
import pandas as pd
from datetime import datetime

2020-07-13 10:47:37


In [18]:
# leemos el dataset para ver su formato
df = pd.read_csv('./data/parkings_JULIO/101Libertad.csv', sep=";")
print(df)



         _id  recvTimeTs             recvTime          entityId  attrValue
0     222747  1594637257  2020-07-13T10:47:37  Aparcamiento:101         46
1     222748  1594637498  2020-07-13T10:51:38  Aparcamiento:101         51
2     222749  1594637618  2020-07-13T10:53:38  Aparcamiento:101         52
3     222750  1594637738  2020-07-13T10:55:38  Aparcamiento:101         49
4     222751  1594637858  2020-07-13T10:57:38  Aparcamiento:101         55
...      ...         ...                  ...               ...        ...
7038  229785  1596235592  2020-07-31T22:46:32  Aparcamiento:101        316
7039  229786  1596235953  2020-07-31T22:52:33  Aparcamiento:101        317
7040  229787  1596236673  2020-07-31T23:04:33  Aparcamiento:101        316
7041  229788  1596236793  2020-07-31T23:06:33  Aparcamiento:101        319
7042  229789  1596239553  2020-07-31T23:52:33  Aparcamiento:101        320

[7043 rows x 5 columns]
         _id  recvTimeTs             recvTime          entityId  attrValue 

In [9]:
# transformamos una de sus fechas de string a fecha
datetime_str = '2020-07-13T10:47:37'
datetime_object = datetime.strptime(datetime_str, '%Y-%m-%dT%H:%M:%S')
print(datetime_object)

2020-07-13 10:47:37


In [19]:
# creamos un parser para leer bien las fechas
def parser(x):
    return datetime.strptime(x, '%Y-%m-%dT%H:%M:%S')

df = pd.read_csv('./data/parkings_JULIO/101Libertad.csv', sep=";", parse_dates=[2], date_parser=parser)
print(df)


         _id  recvTimeTs            recvTime          entityId  attrValue
0     222747  1594637257 2020-07-13 10:47:37  Aparcamiento:101         46
1     222748  1594637498 2020-07-13 10:51:38  Aparcamiento:101         51
2     222749  1594637618 2020-07-13 10:53:38  Aparcamiento:101         52
3     222750  1594637738 2020-07-13 10:55:38  Aparcamiento:101         49
4     222751  1594637858 2020-07-13 10:57:38  Aparcamiento:101         55
...      ...         ...                 ...               ...        ...
7038  229785  1596235592 2020-07-31 22:46:32  Aparcamiento:101        316
7039  229786  1596235953 2020-07-31 22:52:33  Aparcamiento:101        317
7040  229787  1596236673 2020-07-31 23:04:33  Aparcamiento:101        316
7041  229788  1596236793 2020-07-31 23:06:33  Aparcamiento:101        319
7042  229789  1596239553 2020-07-31 23:52:33  Aparcamiento:101        320

[7043 rows x 5 columns]
         _id  recvTimeTs            recvTime          entityId  attrValue  \
0     3261

In [12]:
# agregamos los datos por horas usando la media
df2 = df.set_index('recvTime').resample('H').mean()
df2



Unnamed: 0_level_0,_id,recvTimeTs,attrValue
recvTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-07-13 10:00:00,222749.5,1.594638e+09,52.000000
2020-07-13 11:00:00,222765.5,1.594640e+09,104.500000
2020-07-13 12:00:00,222790.5,1.594643e+09,171.708333
2020-07-13 13:00:00,222815.0,1.594647e+09,196.080000
2020-07-13 14:00:00,222840.5,1.594651e+09,169.692308
...,...,...,...
2020-07-31 19:00:00,229728.0,1.596224e+09,251.592593
2020-07-31 20:00:00,229750.0,1.596227e+09,285.235294
2020-07-31 21:00:00,229766.5,1.596231e+09,301.875000
2020-07-31 22:00:00,229780.5,1.596235e+09,313.500000


In [15]:
# functions
def parser(x):
    return datetime.strptime(x, '%Y-%m-%dT%H:%M:%S')


def read_and_resample(datapath):
    df = pd.read_csv(datapath, sep=";", parse_dates=[2], date_parser=parser)
    df2 = df.set_index('recvTime').resample('H').mean()    
    return df2

## Hacemos el resample y agregamos los datasets por zonas y fechas

In [32]:
# Zona 1: La Vega y La libertad -- espacio total = 312 + 330 = 642
lavega = read_and_resample('./data/parkings_JULIO/102LaVega.csv')
print(lavega.shape) # tiene una columna más, llena de NaNs que ignoramos
libertad = read_and_resample('./data/parkings_JULIO/101Libertad.csv')
print(libertad.shape)
merge=libertad.merge(lavega, how='inner', on='recvTime')
merge['free'] = merge['attrValue_x'] + merge['attrValue_y']
zone1 = merge[[ 'free']]
print(zone1)

(446, 4)
(446, 3)
                           free
recvTime                       
2020-07-13 10:00:00  167.363636
2020-07-13 11:00:00  246.157895
2020-07-13 12:00:00  351.465909
2020-07-13 13:00:00  404.080000
2020-07-13 14:00:00  362.413238
...                         ...
2020-07-31 19:00:00  512.900285
2020-07-31 20:00:00  554.235294
2020-07-31 21:00:00  572.875000
2020-07-31 22:00:00  586.000000
2020-07-31 23:00:00  592.333333

[446 rows x 1 columns]


In [None]:
# Zona 2.1: Alfonso X + CentroFama + MoralesMeseguer -- espacio total = 305 + 162+ 220 = 687

alfonsox = read_and_resample('./data/parkings_JULIO/103AlfonsoX.csv')
print(lavega.shape) # tiene una columna más, llena de NaNs que ignoramos
libertad = read_and_resample('./data/parkings_JULIO/101Libertad.csv')
print(libertad.shape)
merge=libertad.merge(lavega, how='inner', on='recvTime')
merge['free'] = merge['attrValue_x'] + merge['attrValue_y']
zone1 = merge[[ 'free']]
print(zone1)