# Parking Data aggregation

## Prueba para 1 dataset (proceso descriptivo)

In [1]:
import pandas as pd
from datetime import datetime

In [2]:
# leemos el dataset para ver su formato
df = pd.read_csv('./data/parkings_JULIO/101Libertad.csv', sep=";")
print(df)

         _id  recvTimeTs             recvTime          entityId  attrValue
0     222747  1594637257  2020-07-13T10:47:37  Aparcamiento:101         46
1     222748  1594637498  2020-07-13T10:51:38  Aparcamiento:101         51
2     222749  1594637618  2020-07-13T10:53:38  Aparcamiento:101         52
3     222750  1594637738  2020-07-13T10:55:38  Aparcamiento:101         49
4     222751  1594637858  2020-07-13T10:57:38  Aparcamiento:101         55
...      ...         ...                  ...               ...        ...
7038  229785  1596235592  2020-07-31T22:46:32  Aparcamiento:101        316
7039  229786  1596235953  2020-07-31T22:52:33  Aparcamiento:101        317
7040  229787  1596236673  2020-07-31T23:04:33  Aparcamiento:101        316
7041  229788  1596236793  2020-07-31T23:06:33  Aparcamiento:101        319
7042  229789  1596239553  2020-07-31T23:52:33  Aparcamiento:101        320

[7043 rows x 5 columns]


In [3]:
# transformamos una de sus fechas de string a fecha
datetime_str = '2020-07-13T10:47:37'
datetime_object = datetime.strptime(datetime_str, '%Y-%m-%dT%H:%M:%S')
print(datetime_object)

2020-07-13 10:47:37


In [4]:
# creamos un parser para leer bien las fechas
def parser(x):
    return datetime.strptime(x, '%Y-%m-%dT%H:%M:%S')

df = pd.read_csv('./data/parkings_JULIO/101Libertad.csv', sep=";", parse_dates=[2], date_parser=parser)
print(df)


         _id  recvTimeTs            recvTime          entityId  attrValue
0     222747  1594637257 2020-07-13 10:47:37  Aparcamiento:101         46
1     222748  1594637498 2020-07-13 10:51:38  Aparcamiento:101         51
2     222749  1594637618 2020-07-13 10:53:38  Aparcamiento:101         52
3     222750  1594637738 2020-07-13 10:55:38  Aparcamiento:101         49
4     222751  1594637858 2020-07-13 10:57:38  Aparcamiento:101         55
...      ...         ...                 ...               ...        ...
7038  229785  1596235592 2020-07-31 22:46:32  Aparcamiento:101        316
7039  229786  1596235953 2020-07-31 22:52:33  Aparcamiento:101        317
7040  229787  1596236673 2020-07-31 23:04:33  Aparcamiento:101        316
7041  229788  1596236793 2020-07-31 23:06:33  Aparcamiento:101        319
7042  229789  1596239553 2020-07-31 23:52:33  Aparcamiento:101        320

[7043 rows x 5 columns]


In [15]:
# agregamos los datos por horas usando la media
df2 = df.set_index('recvTime').resample('H').mean()
# interpolamos los valores faltantes
# The method data.interpolate accepts the input parameter limit, which defines the maximum number of consecutive NaNs to be substituted by interpolation.
df3 = df2['attrValue'].interpolate(limit=6)
print(df3)

recvTime
2020-07-13 10:00:00     52.000000
2020-07-13 11:00:00    104.500000
2020-07-13 12:00:00    171.708333
2020-07-13 13:00:00    196.080000
2020-07-13 14:00:00    169.692308
                          ...    
2020-07-31 19:00:00    251.592593
2020-07-31 20:00:00    285.235294
2020-07-31 21:00:00    301.875000
2020-07-31 22:00:00    313.500000
2020-07-31 23:00:00    318.333333
Freq: H, Name: attrValue, Length: 446, dtype: float64


14

In [6]:
# functions
def parser(x):
    return datetime.strptime(x, '%Y-%m-%dT%H:%M:%S')

def read_and_resample(datapath, interp = 0):
    df = pd.read_csv(datapath, sep=";", parse_dates=[2], date_parser=parser)
    df2 = df.set_index('recvTime').resample('H').mean()
    if(interp!=0):
        df3 = df2['attrValue'].interpolate(limit=interp)
    return df2

## Hacemos el resample y agregamos los datasets por zonas y fechas

In [12]:
lavega = read_and_resample('./data/parkings_JULIO/102LaVega.csv')
lavega_inter = lavega['attrValue'].interpolate()
lavega_inter.to_csv("./data/parkings_JULIO/lavega_inter.csv",sep=";",index=True)


In [17]:
# Zona 1: La Vega y La libertad -- espacio total = 312 + 330 = 642
lavega = read_and_resample('./data/parkings_JULIO/102LaVega.csv')
print(lavega.shape) # tiene una columna más, llena de NaNs que ignoramos
libertad = read_and_resample('./data/parkings_JULIO/101Libertad.csv')
print(libertad.shape)
merge=libertad.merge(lavega, how='inner', on='recvTime')
merge['free'] = merge['attrValue_x'] + merge['attrValue_y']
zone1 = merge[[ 'free']]
print(zone1)
zone1.to_csv("./data/parkings_JULIO/zone1.csv",sep=";",index=True)
# to do: comprobar por qué hay tantos vacíos y si cuando no coinciden los huecos, directamente no aparece
# el problema podría ser que se sumara a cero, ver que no pasa

(446, 4)
(446, 3)
                           free
recvTime                       
2020-07-13 10:00:00  167.363636
2020-07-13 11:00:00  246.157895
2020-07-13 12:00:00  351.465909
2020-07-13 13:00:00  404.080000
2020-07-13 14:00:00  362.413238
...                         ...
2020-07-31 19:00:00  512.900285
2020-07-31 20:00:00  554.235294
2020-07-31 21:00:00  572.875000
2020-07-31 22:00:00  586.000000
2020-07-31 23:00:00  592.333333

[446 rows x 1 columns]


In [18]:
# Zona 2.1: Alfonso X + CentroFama + MoralesMeseguer -- espacio total = 305 + 162+ 220 = 687

alfonsox = read_and_resample('./data/parkings_JULIO/103AlfonsoX.csv')
print(alfonsox.shape) # tiene una columna más, llena de NaNs que ignoramos
centrofama = read_and_resample('./data/parkings_JULIO/104Centrofama.csv')
print(centrofama.shape)
mm = read_and_resample('./data/parkings_JULIO/105MoralesMeseguer.csv')
print(mm.shape)
merge1=alfonsox.merge(centrofama, how='inner', on='recvTime')
merge2=merge1.merge(mm, how='inner', on='recvTime')
merge2['free'] = merge2['attrValue_x'] + merge2['attrValue_y'] + merge2['attrValue']
zone2_1 = merge2[[ 'free']]
print(zone2_1)
print(zone2_1.shape)
zone2_1.isna().sum()
# no coinciden las fechas de los datasets
alfonsox.to_csv("./data/parkings_JULIO/alfonsox.csv",sep=";",index=True)

(412, 4)
(302, 4)
(446, 4)
                     free
recvTime                 
2020-07-19 00:00:00   NaN
2020-07-19 01:00:00   NaN
2020-07-19 02:00:00   NaN
2020-07-19 03:00:00   NaN
2020-07-19 04:00:00   NaN
...                   ...
2020-07-30 09:00:00   NaN
2020-07-30 10:00:00   NaN
2020-07-30 11:00:00   NaN
2020-07-30 12:00:00   NaN
2020-07-30 13:00:00   NaN

[278 rows x 1 columns]
(278, 1)
