# Dataset: Flujo Vehicular por Unidades de Peaje AUSA

by Alina Martinez - [Github](https://github.com/martinezalina/illia-p4)

## Objetivo

Generar un dataset en **CSV de lectura rápida** del flujo vehicular por Unidades de Peaje AUSA de año 2020 basado en los datasets oficiales, provistos en https://data.buenosaires.gob.ar/dataset/flujo-vehicular-por-unidades-peaje-ausa.

El procesamiento inicial de los XLS provistos, tienen una demora superior a los CSV. Es por ello que se opta por hacer un preprocesamiento y almacenar un CSV, listo para continuar trabajando en el proyecto principal.


## Librerías

In [1]:
# Importamos las Librerías que vamos a utilizar

from IPython.display import display, Markdown
import warnings

#Warnings
warnings.filterwarnings('ignore')

In [2]:
import pandas as pd
import numpy as np

## Configuro Notebook

In [3]:
# Format round off to two decimal places in pandas 
pd.options.display.float_format = '{: .2f}'.format

## Lectura de los Dataset

In [4]:
# Para cambiar la modalidad de carga de los datasets a CDN, descomentar la segunda línea.

cdn_mode = False
#cdn_mode = True

if cdn_mode:
  data_2020_Q1 = pd.read_excel('https://cdn.buenosaires.gob.ar/datosabiertos/datasets/ausa/flujo-vehicular-por-unidades-peaje-ausa/flujo-vehicular-2020%20ene-abr.xlsx')
  data_2020_Q2 = pd.read_excel('https://cdn.buenosaires.gob.ar/datosabiertos/datasets/ausa/flujo-vehicular-por-unidades-peaje-ausa/flujo-vehicular-2020-2.xlsx')
  data_2020_Q3 = pd.read_excel('https://cdn.buenosaires.gob.ar/datosabiertos/datasets/ausa/flujo-vehicular-por-unidades-peaje-ausa/flujo-vehicular-20203.xlsx')
else:
  data_2020_Q1 = pd.read_excel('./datasets/flujo-vehicular-2020-q1.xlsx')
  data_2020_Q2 = pd.read_excel('./datasets/flujo-vehicular-2020-q2.xlsx')
  data_2020_Q3 = pd.read_excel('./datasets/flujo-vehicular-2020-q3.xlsx')

In [5]:
data_2020_Q1

Unnamed: 0.1,Unnamed: 0,periodo,fecha,mes,dia,dia_fecha,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,0,2020,2020-01-01 00:00:00,enero,Miércoles,1,0,1,ALBERDI,Auto,Efectivo,Efectivo,Centro,24
1,1,2020,2020-01-01 00:00:00,enero,Miércoles,1,0,1,ALBERDI,Auto,Efectivo,Efectivo,Provincia,80
2,2,2020,2020-01-01 00:00:00,enero,Miércoles,1,0,1,ALBERDI,Auto,Rec.Deuda,Paso en Infracción,Provincia,1
3,3,2020,2020-01-01 00:00:00,enero,Miércoles,1,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Centro,1
4,4,2020,2020-01-01 00:00:00,enero,Miércoles,1,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
821921,821921,2020,2020-04-30,abril,Jueves,30,23,0,PB2,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,2
821922,821922,2020,2020-04-30,abril,Jueves,30,23,0,PB2,Pesados 6 Ejes,Tag,Tag - PosPago OCR,Centro,1
821923,821923,2020,2020-04-30,abril,Jueves,30,23,0,PB4,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,12
821924,821924,2020,2020-04-30,abril,Jueves,30,23,0,PB4,Pesados 6 Ejes,Violación,Violación - Normal,Centro,1


In [6]:
data_2020_Q2

Unnamed: 0.1,Unnamed: 0,periodo,fecha,mes,dia,dia_fecha,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,821926.00,2020,2020-05-01,mayo,Viernes,1,0,1,ALBERDI,Auto,Tag,Tag - PosPago,Provincia,5
1,821927.00,2020,2020-05-01,mayo,Viernes,1,0,1,ALBERDI,Auto,Tag,Tag - PosPago OCR,Provincia,2
2,821928.00,2020,2020-05-01,mayo,Viernes,1,0,1,AVELLANEDA,Auto,Tag,Tag - PosPago,Centro,30
3,821929.00,2020,2020-05-01,mayo,Viernes,1,0,1,AVELLANEDA,Auto,Tag,Tag - PosPago,Provincia,25
4,821930.00,2020,2020-05-01,mayo,Viernes,1,0,1,AVELLANEDA,Auto,Tag,Tag - PosPago OCR,Centro,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
806150,,2020,2020-08-31 00:00:00,agosto,Lunes,31,23,0,PB1,Pesados 6 Ejes,Tag,Tag - PosPago,Provincia,17
806151,,2020,2020-08-31 00:00:00,agosto,Lunes,31,23,0,PB1,Pesados 6 Ejes,Violación,Violación - Normal,Provincia,2
806152,,2020,2020-08-31 00:00:00,agosto,Lunes,31,23,0,PB4,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,24
806153,,2020,2020-08-31 00:00:00,agosto,Lunes,31,23,0,PB4,Pesados 6 Ejes,Tag,Tag - PosPago OCR,Centro,1


In [7]:
data_2020_Q3

Unnamed: 0,periodo,fecha,mes,dia,dia_fecha,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,2020,2020-09-01,septiembre,Martes,1,0,1,ALBERDI,Auto,Efectivo,Efectivo,Provincia,10.00
1,2020,2020-09-01,septiembre,Martes,1,0,1,ALBERDI,Auto,Exento,Exento - Otros motivos,Provincia,2.00
2,2020,2020-09-01,septiembre,Martes,1,0,1,ALBERDI,Auto,Exento,Exento - Reglamento,Provincia,3.00
3,2020,2020-09-01,septiembre,Martes,1,0,1,ALBERDI,Auto,Tag,Tag - PosPago,Centro,2.00
4,2020,2020-09-01,septiembre,Martes,1,0,1,ALBERDI,Auto,Tag,Tag - PosPago,Provincia,8.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
905657,2020,2020-12-31,diciembre,Jueves,31,21,22,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 6 Ejes,Tag,Tag - PosPago OCR,Centro,1.00
905658,2020,2020-12-31,diciembre,Jueves,31,21,22,DELLEPIANE LINIERS,Pesados 6 Ejes,Tag,Tag - PosPago,Provincia,1.00
905659,2020,2020-12-31,diciembre,Jueves,31,21,22,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,1.00
905660,2020,2020-12-31,diciembre,Jueves,31,22,23,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,2.00


## Concatenación

In [8]:
# Unifico datasets
data_2020_full = pd.concat([data_2020_Q1, data_2020_Q2,data_2020_Q3])

# Quito columnas que no son necesarias
data_2020_full.drop(columns = ['Unnamed: 0','mes','dia_fecha'], inplace = True)

data_2020_full

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Efectivo,Efectivo,Centro,24.00
1,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Efectivo,Efectivo,Provincia,80.00
2,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en Infracción,Provincia,1.00
3,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Centro,1.00
4,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.00
...,...,...,...,...,...,...,...,...,...,...,...
905657,2020,2020-12-31 00:00:00,Jueves,21,22,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 6 Ejes,Tag,Tag - PosPago OCR,Centro,1.00
905658,2020,2020-12-31 00:00:00,Jueves,21,22,DELLEPIANE LINIERS,Pesados 6 Ejes,Tag,Tag - PosPago,Provincia,1.00
905659,2020,2020-12-31 00:00:00,Jueves,21,22,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,1.00
905660,2020,2020-12-31 00:00:00,Jueves,22,23,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,2.00


## Exploro campo observaciones

Mi hipótesis es es que el campo observaciones está intimamente ligado con la modalidad de pago. Es por ello que decido explorar los diferentes textos que existen, agrupados por modalidad de pago.

In [9]:
print('Forma de Pago en 2020','\n')
print(data_2020_full['forma_pago'].unique())

Forma de Pago en 2020 

['Efectivo' 'Rec.Deuda' 'Tarjeta Magnética' 'Tag' 'Exento' 'Violación'
 'CPP' 'Mercado Pago']


### Modalidad Efectivo

In [10]:
d_efectivo = data_2020_full[data_2020_full['forma_pago'] == 'Efectivo']
d_efectivo

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Efectivo,Efectivo,Centro,24.00
1,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Efectivo,Efectivo,Provincia,80.00
11,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Efectivo,Efectivo,Centro,542.00
12,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Efectivo,Efectivo,Provincia,596.00
31,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERSLEPIANE CENTRO,Auto,Efectivo,Efectivo,Centro,369.00
...,...,...,...,...,...,...,...,...,...,...,...
905321,2020,2020-12-30 00:00:00,Miércoles,6,7,DELLEPIANE LINIERS,Pesados 6 Ejes,Efectivo,Efectivo,Provincia,1.00
905383,2020,2020-12-30 00:00:00,Miércoles,11,12,DELLEPIANE LINIERS,Pesados 6 Ejes,Efectivo,Efectivo,Provincia,1.00
905399,2020,2020-12-30 00:00:00,Miércoles,12,13,DELLEPIANE LINIERS,Pesados 6 Ejes,Efectivo,Efectivo,Provincia,1.00
905416,2020,2020-12-30 00:00:00,Miércoles,13,14,ILLIA,Pesados 6 Ejes,Efectivo,Efectivo,Provincia,4.00


In [11]:
d_efectivo['observacion'].unique()

array(['Efectivo'], dtype=object)

Como se puede observar, para la modalidad de pago efectivo no aporta mayor información el campo observaciones.

### Modalidad Rec. Deuda

In [12]:
d_rec_deuda = data_2020_full[data_2020_full['forma_pago'] == 'Rec.Deuda']
d_rec_deuda

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
2,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en Infracción,Provincia,1.00
3,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Centro,1.00
4,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.00
15,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Rec.Deuda,Paso en Infracción,Centro,7.00
16,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Rec.Deuda,Paso en Infracción,Provincia,9.00
...,...,...,...,...,...,...,...,...,...,...,...
904901,2020,2020-12-28 00:00:00,Lunes,16,17,DELLEPIANE LINIERS,Pesados 6 Ejes,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.00
905177,2020,2020-12-29 00:00:00,Martes,16,17,DELLEPIANE LINIERS,Pesados 6 Ejes,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.00
905195,2020,2020-12-29 00:00:00,Martes,17,18,DELLEPIANE LINIERS,Pesados 6 Ejes,Rec.Deuda,Paso en Infracción,Provincia,1.00
905334,2020,2020-12-30 00:00:00,Miércoles,7,8,DELLEPIANE LINIERS,Pesados 6 Ejes,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.00


In [13]:
d_rec_deuda['observacion'].unique()

array(['Paso en Infracción', 'Paso en infracción con Multa LPR',
       'Paso a facturar - (colectivo)', 'Paso en Infracción con Multa'],
      dtype=object)

Es interesante observar que bajo esta modalidad, cambia la modalidad de identificar *Infración* por *Rec.Deuda*. Si bien se agrega información en el campo observaciones, no se explicita si es cobrada en el momento o queda informada para ser cobrada en el futuro.

### Modalidad Tarjeta Magnética

In [14]:
d_t_mag = data_2020_full[data_2020_full['forma_pago'] == 'Tarjeta Magnética']
d_t_mag

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
5,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tarjeta Magnética,T.Magnética Disc.,Centro,4.00
19,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Tarjeta Magnética,T.Magnética Disc.,Centro,12.00
20,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Tarjeta Magnética,T.Magnética Disc.,Provincia,10.00
36,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERSLEPIANE CENTRO,Auto,Tarjeta Magnética,T.Magnética Disc.,Centro,5.00
47,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERS,Auto,Tarjeta Magnética,T.Magnética Disc.,Provincia,8.00
...,...,...,...,...,...,...,...,...,...,...,...
868748,2020,2020-12-30 00:00:00,Miércoles,16,17,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 2 Ejes,Tarjeta Magnética,T.Magnética Disc.,Centro,1.00
868801,2020,2020-12-30 00:00:00,Miércoles,17,18,DELLEPIANE LINIERS,Pesados 2 Ejes,Tarjeta Magnética,T.Magnética Disc.,Provincia,1.00
868895,2020,2020-12-30 00:00:00,Miércoles,19,20,ILLIA,Pesados 2 Ejes,Tarjeta Magnética,T.Magnética Disc.,Centro,1.00
869402,2020,2020-12-31 00:00:00,Jueves,14,15,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 2 Ejes,Tarjeta Magnética,T.Magnética Disc.,Centro,1.00


In [15]:
d_t_mag['observacion'].unique()

array(['T.Magnética Disc.'], dtype=object)

Gracias a esta exploración, se puede saber que es la nueva modalidad de identificar a la modalidad que años anteriores nombraban como *TARJETA DISCAPACIDAD*.

### Modalidad Tag

In [16]:
d_tag = data_2020_full[data_2020_full['forma_pago'] == 'Tag']
d_tag

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
6,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tag,Tag - PosPago,Centro,9.00
7,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tag,Tag - PosPago,Provincia,56.00
8,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tag,Tag - PosPago OCR,Centro,4.00
9,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tag,Tag - PosPago OCR,Provincia,14.00
10,2020,2020-01-01 00:00:00,Miércoles,0,1,ALBERDI,Auto,Tag,Tag - PrePago,Centro,1.00
...,...,...,...,...,...,...,...,...,...,...,...
905657,2020,2020-12-31 00:00:00,Jueves,21,22,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 6 Ejes,Tag,Tag - PosPago OCR,Centro,1.00
905658,2020,2020-12-31 00:00:00,Jueves,21,22,DELLEPIANE LINIERS,Pesados 6 Ejes,Tag,Tag - PosPago,Provincia,1.00
905659,2020,2020-12-31 00:00:00,Jueves,21,22,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,1.00
905660,2020,2020-12-31 00:00:00,Jueves,22,23,ILP,Pesados 6 Ejes,Tag,Tag - PosPago,Centro,2.00


In [17]:
d_tag['observacion'].unique()

array(['Tag - PosPago', 'Tag - PosPago OCR', 'Tag - PrePago',
       'Tag - PrePago OCR', 'Metrobus no hab. TAG pospago',
       'Metrobus no hab. OCR pospago', 'Metrobus no hab. TAG prepago',
       'Metrobus no hab. OCR prepago', 'Tag - Exento'], dtype=object)

Según lo investigado en la página oficial de Ausa [link](https://www.ausa.com.ar/novedades/ahora-podes-tener-tu-telepase-sin-tarjeta-de-credito/) se puede apreciar como *Telepase* pasa a ser *Tag* y lo lista como inminentemente el único médio de pago válido.

Las diferencias que encontramos entre *PosPago* y *PrePago* son las modalidades que ofrece el sistema. Por otro lado, se puede observar que con la tecnología del *Telepase*, ya identifican a los *Exento*.

Finalmente, nos encontramos con las observaciones sobre *Metrobus*, en donde están por un lado se encuentran las modalidades de pre y pospago, y por el otro, dos tipos de tecnología: TAG u OCR (es posible que esta última haga referencia a la que se utiliza para el reconocimeinto de patentes - [Link](https://es.wikipedia.org/wiki/Reconocimiento_autom%C3%A1tico_de_matr%C3%ADculas)).

### Modalidad Exento

In [18]:
d_exento = data_2020_full[data_2020_full['forma_pago'] == 'Exento']
d_exento

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
13,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Exento,Exento - Reglamento,Centro,7.00
14,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Exento,Exento - Reglamento,Provincia,4.00
32,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERSLEPIANE CENTRO,Auto,Exento,Exento - Otros motivos,Centro,4.00
33,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERSLEPIANE CENTRO,Auto,Exento,Exento - Reglamento,Centro,3.00
43,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERS,Auto,Exento,Exento - Otros motivos,Provincia,1.00
...,...,...,...,...,...,...,...,...,...,...,...
895042,2020,2020-12-21 00:00:00,Lunes,23,0,ILLIA,Pesados 5 Ejes,Exento,Exento - Otros motivos,Centro,1.00
897339,2020,2020-12-29 00:00:00,Martes,7,8,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 5 Ejes,Exento,Exento - Reglamento,Centro,1.00
897953,2020,2020-12-30 00:00:00,Miércoles,16,17,DELLEPIANE LINIERS,Pesados 5 Ejes,Exento,Exento - Reglamento,Provincia,1.00
902127,2020,2020-12-16 00:00:00,Miércoles,13,14,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 6 Ejes,Exento,Exento - Reglamento,Centro,1.00


In [19]:
d_exento['observacion'].unique()

array(['Exento - Reglamento', 'Exento - Otros motivos',
       'Exento - Demora en cobro'], dtype=object)

Se puede apreciar que expone subtipos de modalidad *Exento*. Probablemente sea útil a la hora de trabajar con este subgrupo.

### Modalidad Violación

In [20]:
d_violacion = data_2020_full[data_2020_full['forma_pago'] == 'Violación']
d_violacion

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
29,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Violación,Violación - Normal,Centro,3.00
30,2020,2020-01-01 00:00:00,Miércoles,0,1,AVELLANEDA,Auto,Violación,Violación - Normal,Provincia,2.00
41,2020,2020-01-01 00:00:00,Miércoles,0,1,DELLEPIANE LINIERSLEPIANE CENTRO,Auto,Violación,Violación - Normal,Centro,1.00
70,2020,2020-01-01 00:00:00,Miércoles,0,1,ILLIA,Auto,Violación,Violación - Normal,Provincia,1.00
73,2020,2020-01-01 00:00:00,Miércoles,0,1,ILP,Auto,Violación,Violación - Normal,Centro,2.00
...,...,...,...,...,...,...,...,...,...,...,...
905616,2020,2020-12-31 00:00:00,Jueves,13,14,ILP,Pesados 6 Ejes,Violación,Violación - Normal,Centro,1.00
905625,2020,2020-12-31 00:00:00,Jueves,14,15,ILP,Pesados 6 Ejes,Violación,Violación - Normal,Centro,2.00
905639,2020,2020-12-31 00:00:00,Jueves,16,17,ILP,Pesados 6 Ejes,Violación,Violación - Normal,Provincia,1.00
905644,2020,2020-12-31 00:00:00,Jueves,17,18,ILP,Pesados 6 Ejes,Violación,Violación - Normal,Centro,1.00


In [21]:
d_violacion['observacion'].unique()

array(['Violación - Normal', 'Violación - Via Liberada',
       'Violación - Rebote', 'Violación - Repetitiva',
       'Violación - Vía Cerrada'], dtype=object)

Se observa diferentes subgrupos para esta modalidad.

### Modalidad CPP

In [22]:
d_cpp = data_2020_full[data_2020_full['forma_pago'] == 'CPP']
d_cpp

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
619205,2020,2020-03-18 00:00:00,Miércoles,10,11,AVELLANEDA,Auto,CPP,Obs CPP,Centro,3.00
619321,2020,2020-03-18 00:00:00,Miércoles,11,12,AVELLANEDA,Auto,CPP,Obs CPP,Centro,28.00
619445,2020,2020-03-18 00:00:00,Miércoles,12,13,AVELLANEDA,Auto,CPP,Obs CPP,Centro,30.00
621520,2020,2020-03-18 00:00:00,Miércoles,10,11,AVELLANEDA,N/D,CPP,Obs CPP,Centro,4.00
621547,2020,2020-03-18 00:00:00,Miércoles,11,12,AVELLANEDA,N/D,CPP,Obs CPP,Centro,2.00
...,...,...,...,...,...,...,...,...,...,...,...
155552,2020,2020-05-01,Viernes,9,10,AVELLANEDA,Pesados 6 Ejes,CPP,Obs CPP,Centro,2.00
155583,2020,2020-05-01,Viernes,12,13,AVELLANEDA,Pesados 6 Ejes,CPP,Obs CPP,Provincia,2.00
155595,2020,2020-05-01,Viernes,13,14,AVELLANEDA,Pesados 6 Ejes,CPP,Obs CPP,Centro,1.00
155596,2020,2020-05-01,Viernes,13,14,AVELLANEDA,Pesados 6 Ejes,CPP,Obs CPP,Provincia,1.00


In [23]:
d_cpp['observacion'].unique()

array(['Obs CPP'], dtype=object)

El campo observaciones no aporta mayor información para este caso, dado que en todos el texto es el mismo "Obs CPP".

### Modalidad Mercado Pago

In [24]:
d_mp = data_2020_full[data_2020_full['forma_pago'] == 'Mercado Pago']
d_mp

Unnamed: 0,periodo,fecha,dia,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
674478,2020,2020-12-21 00:00:00,Lunes,8,9,PB1,Auto,Mercado Pago,Mercado Pago,Provincia,1.00
674519,2020,2020-12-21 00:00:00,Lunes,11,12,PB1,Auto,Mercado Pago,Mercado Pago,Provincia,1.00
674531,2020,2020-12-21 00:00:00,Lunes,11,12,PB4,Auto,Mercado Pago,Mercado Pago,Centro,1.00
674535,2020,2020-12-21 00:00:00,Lunes,12,13,PB1,Auto,Mercado Pago,Mercado Pago,Provincia,1.00
674596,2020,2020-12-21 00:00:00,Lunes,16,17,PB2,Auto,Mercado Pago,Mercado Pago OCR,Centro,1.00
...,...,...,...,...,...,...,...,...,...,...,...
897540,2020,2020-12-29 00:00:00,Martes,16,17,ILP,Pesados 5 Ejes,Mercado Pago,Mercado Pago,Centro,1.00
897552,2020,2020-12-29 00:00:00,Martes,17,18,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 5 Ejes,Mercado Pago,Mercado Pago,Centro,1.00
897597,2020,2020-12-29 00:00:00,Martes,19,20,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 5 Ejes,Mercado Pago,Mercado Pago,Centro,1.00
897924,2020,2020-12-30 00:00:00,Miércoles,15,16,DELLEPIANE LINIERSLEPIANE CENTRO,Pesados 5 Ejes,Mercado Pago,Mercado Pago,Centro,1.00


In [25]:
d_mp['observacion'].unique()

array(['Mercado Pago', 'Mercado Pago OCR',
       'Metrobus no hab. TAG Mercado Pago'], dtype=object)

Se aprecian diferentes subgrupos bajo la modalidad *mercado Pago*.

### Conclusión

Se puede validar la hipótesis donde el campo observaciones está intimamente ligado a la modalidad de pago.
En ocaciones, denota que se pueden obtener subgrupos o mayor información. En otros casos como en el de *Efectivo*, no aporta más datos.

Fue importante poder explorarlo para poder detectar por ej, que la modalidad *Tarjeta Magnética* es la nueva nomenclatura para *Tarjeta Discapacidad*.

## Unifico criterios

Para que tengan una coherencia con los años anteriores, unifico criterios en los términos utilizados. 


In [26]:
# Modifico Naming de forma de pago
data_2020_full['forma_pago'] = data_2020_full['forma_pago'].replace({
    'Efectivo':'EFECTIVO',
    'Tarjeta Magnética':'TARJETA DISCAPACIDAD',
    'Tag':'TELEPASE',
    'Exento':'EXENTO',
    'Rec.Deuda':'INFRACCION',
})

In [27]:
# Verifico modalidades de pago
data_2020_full['forma_pago'].unique()

array(['EFECTIVO', 'INFRACCION', 'TARJETA DISCAPACIDAD', 'TELEPASE',
       'EXENTO', 'Violación', 'CPP', 'Mercado Pago'], dtype=object)

In [28]:
print('Estaciones en 2020','\n')
print(data_2020_full['estacion'].unique())

Estaciones en 2020 

['ALBERDI' 'AVELLANEDA' 'DELLEPIANE LINIERSLEPIANE CENTRO'
 'DELLEPIANE LINIERS' 'ILLIA' 'ILP' 'PB1' 'PB3' 'PB4' 'RETIRO' 'SALGUERO'
 'SARMIENTO' 'PB2']


In [29]:
# Unifico estaciones
data_2020_full['estacion'] = data_2020_full['estacion'].str.title()
data_2020_full['estacion'] = data_2020_full['estacion'].replace({
    'Ilp':'Illia',
    'Pb1':'PDB',
    'Pb2':'PDB',
    'Pb3':'PDB',
    'Pb4':'PDB',
    'Dellepiane Linierslepiane Centro':'Dellepiane',
    'Dellepiane Liniers':'Dellepiane',
})

In [30]:
# Verifico estaciones
data_2020_full['estacion'].unique()

array(['Alberdi', 'Avellaneda', 'Dellepiane', 'Illia', 'PDB', 'Retiro',
       'Salguero', 'Sarmiento'], dtype=object)

## Disminución del dataset

Con el objetivo de disminuir el tamaño del dataset, y ya habiendo explorado el campo *observaciones*, procedo a eliminarlo.

In [31]:
data_2020 = data_2020_full.copy()

In [32]:
# Quito el campo observaciones
data_2020.drop(columns = ['observacion'], inplace = True)

Para evitar el error de github "*this exceeds GitHub's file size limit of 100.00 MB*", realizaré dos datasets

In [33]:

#Pasamos la columna fecha a formato datetime, y le unimos la hora_fin como hora
data_2020['fecha2'] = pd.to_datetime(data_2020.fecha) + pd.to_timedelta(data_2020.hora_fin, unit = 'h')

#Quitamos las columnas que ya no vamos a utilizar
data_2020.drop(columns=['fecha','dia','periodo','hora_inicio','hora_fin'], inplace = True)

#Corregimos el nombre de fecha2 a fecha
data_2020.rename(columns = {'fecha2':'fecha'}, inplace = True) 

#Reordenamos el dataset por fecha
data_2020.sort_values('fecha', inplace = True)
data_2020.reset_index(drop=True, inplace = True)

data_2020


Unnamed: 0,estacion,tipo_vehiculo,forma_pago,sentido,cantidad_pasos,fecha
0,PDB,Pesados 4 Ejes,TELEPASE,Provincia,3.00,2020-01-01 00:00:00
1,Dellepiane,Auto,EXENTO,Provincia,6.00,2020-01-01 00:00:00
2,Dellepiane,Auto,EFECTIVO,Provincia,443.00,2020-01-01 00:00:00
3,Dellepiane,Auto,TELEPASE,Centro,2.00,2020-01-01 00:00:00
4,Dellepiane,Auto,TELEPASE,Centro,7.00,2020-01-01 00:00:00
...,...,...,...,...,...,...
2533738,Alberdi,Auto,TELEPASE,Centro,18.00,2020-12-31 23:00:00
2533739,Alberdi,Auto,Mercado Pago,Centro,2.00,2020-12-31 23:00:00
2533740,Alberdi,Auto,Mercado Pago,Provincia,1.00,2020-12-31 23:00:00
2533741,Avellaneda,Auto,TELEPASE,Provincia,5.95,2020-12-31 23:00:00


In [34]:
data_2020_s1 = data_2020[
                     (data_2020['fecha'] <= '2020-06-30 23:00:00')
                    ]
data_2020_s1

Unnamed: 0,estacion,tipo_vehiculo,forma_pago,sentido,cantidad_pasos,fecha
0,PDB,Pesados 4 Ejes,TELEPASE,Provincia,3.00,2020-01-01 00:00:00
1,Dellepiane,Auto,EXENTO,Provincia,6.00,2020-01-01 00:00:00
2,Dellepiane,Auto,EFECTIVO,Provincia,443.00,2020-01-01 00:00:00
3,Dellepiane,Auto,TELEPASE,Centro,2.00,2020-01-01 00:00:00
4,Dellepiane,Auto,TELEPASE,Centro,7.00,2020-01-01 00:00:00
...,...,...,...,...,...,...
1205363,Avellaneda,Pesados 4 Ejes,EFECTIVO,Provincia,1.00,2020-06-30 23:00:00
1205364,Sarmiento,N/D,Violación,Provincia,8.00,2020-06-30 23:00:00
1205365,Illia,Pesados 4 Ejes,Violación,Centro,1.00,2020-06-30 23:00:00
1205366,Avellaneda,Pesados 4 Ejes,EFECTIVO,Centro,2.00,2020-06-30 23:00:00


In [35]:
data_2020_s2 = data_2020[
                     (data_2020['fecha'] > '2020-06-30 23:00:00')
                    ]
data_2020_s2

Unnamed: 0,estacion,tipo_vehiculo,forma_pago,sentido,cantidad_pasos,fecha
1205368,Avellaneda,Moto,INFRACCION,Provincia,1.00,2020-07-01 00:00:00
1205369,Avellaneda,Moto,EFECTIVO,Provincia,14.00,2020-07-01 00:00:00
1205370,Dellepiane,N/D,Violación,Centro,1.00,2020-07-01 00:00:00
1205371,Avellaneda,Moto,TELEPASE,Centro,1.00,2020-07-01 00:00:00
1205372,Alberdi,Moto,EFECTIVO,Provincia,1.00,2020-07-01 00:00:00
...,...,...,...,...,...,...
2533738,Alberdi,Auto,TELEPASE,Centro,18.00,2020-12-31 23:00:00
2533739,Alberdi,Auto,Mercado Pago,Centro,2.00,2020-12-31 23:00:00
2533740,Alberdi,Auto,Mercado Pago,Provincia,1.00,2020-12-31 23:00:00
2533741,Avellaneda,Auto,TELEPASE,Provincia,5.95,2020-12-31 23:00:00


Valido que tenga todos los rows:

In [36]:
if (data_2020.shape[0] == (data_2020_s1.shape[0] + data_2020_s2.shape[0])):
    print('Es correcto')
else:
    print('Revisar separación de semestres')

Es correcto


## Exporto CSV

In [37]:
# Exporto 
data_2020_s1.to_csv('datasets/flujo-vehicular-2020-S1.csv', index = False)
data_2020_s2.to_csv('datasets/flujo-vehicular-2020-S2.csv', index = False)

In [38]:
# Verifico exportación

check_1 = pd.read_csv('./datasets/flujo-vehicular-2020-S1.csv')
check_1

Unnamed: 0,estacion,tipo_vehiculo,forma_pago,sentido,cantidad_pasos,fecha
0,PDB,Pesados 4 Ejes,TELEPASE,Provincia,3.00,2020-01-01 00:00:00
1,Dellepiane,Auto,EXENTO,Provincia,6.00,2020-01-01 00:00:00
2,Dellepiane,Auto,EFECTIVO,Provincia,443.00,2020-01-01 00:00:00
3,Dellepiane,Auto,TELEPASE,Centro,2.00,2020-01-01 00:00:00
4,Dellepiane,Auto,TELEPASE,Centro,7.00,2020-01-01 00:00:00
...,...,...,...,...,...,...
1205363,Avellaneda,Pesados 4 Ejes,EFECTIVO,Provincia,1.00,2020-06-30 23:00:00
1205364,Sarmiento,N/D,Violación,Provincia,8.00,2020-06-30 23:00:00
1205365,Illia,Pesados 4 Ejes,Violación,Centro,1.00,2020-06-30 23:00:00
1205366,Avellaneda,Pesados 4 Ejes,EFECTIVO,Centro,2.00,2020-06-30 23:00:00


In [39]:
check_2 = pd.read_csv('./datasets/flujo-vehicular-2020-S2.csv')
check_2

Unnamed: 0,estacion,tipo_vehiculo,forma_pago,sentido,cantidad_pasos,fecha
0,Avellaneda,Moto,INFRACCION,Provincia,1.00,2020-07-01 00:00:00
1,Avellaneda,Moto,EFECTIVO,Provincia,14.00,2020-07-01 00:00:00
2,Dellepiane,N/D,Violación,Centro,1.00,2020-07-01 00:00:00
3,Avellaneda,Moto,TELEPASE,Centro,1.00,2020-07-01 00:00:00
4,Alberdi,Moto,EFECTIVO,Provincia,1.00,2020-07-01 00:00:00
...,...,...,...,...,...,...
1328370,Alberdi,Auto,TELEPASE,Centro,18.00,2020-12-31 23:00:00
1328371,Alberdi,Auto,Mercado Pago,Centro,2.00,2020-12-31 23:00:00
1328372,Alberdi,Auto,Mercado Pago,Provincia,1.00,2020-12-31 23:00:00
1328373,Avellaneda,Auto,TELEPASE,Provincia,5.95,2020-12-31 23:00:00
