In [15]:
#Importamos librerías
import pandas as pd

In [16]:
#https://cdn.buenosaires.gob.ar/datosabiertos/datasets/ausa/flujo-vehicular-por-unidades-peaje-ausa/flujo-vehicular-2020.csv
input_file_name = 'vehiculos.csv'

In [17]:
#Definimos el archivo donde guardar el set de datos luego de la limpieza y normalización
output_file_name = "vehiculos.xlsx"
output_sheet_name = "vehiculos"

In [18]:
#Carga del dataframe
df_vehiculos = pd.read_csv(input_file_name)

In [19]:
#Previsualización de los primeros registros
df_vehiculos.head()

Unnamed: 0,periodo,fecha,mes,dia,dia_fecha,hora_inicio,hora_fin,estacion,tipo_vehiculo,forma_pago,observacion,sentido,cantidad_pasos
0,2020.0,2020-01-01 00:00:00,enero,Miércoles,1.0,0.0,1.0,ALBERDI,Auto,Efectivo,Efectivo,Centro,24.0
1,2020.0,2020-01-01 00:00:00,enero,Miércoles,1.0,0.0,1.0,ALBERDI,Auto,Efectivo,Efectivo,Provincia,80.0
2,2020.0,2020-01-01 00:00:00,enero,Miércoles,1.0,0.0,1.0,ALBERDI,Auto,Rec.Deuda,Paso en Infracción,Provincia,1.0
3,2020.0,2020-01-01 00:00:00,enero,Miércoles,1.0,0.0,1.0,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Centro,1.0
4,2020.0,2020-01-01 00:00:00,enero,Miércoles,1.0,0.0,1.0,ALBERDI,Auto,Rec.Deuda,Paso en infracción con Multa LPR,Provincia,1.0


In [20]:
#Cantidad de filas y columnas
df_vehiculos.shape

(2533743, 13)

In [21]:
#Imputación del año según fecha de origen
df_vehiculos["Año"] = pd.DatetimeIndex(df_vehiculos['fecha']).year

In [22]:
#Imputación del mes según fecha de origen
df_vehiculos["Mes"] = pd.DatetimeIndex(df_vehiculos['fecha']).month

In [23]:
#Imputación del tipo de registro
df_vehiculos['Tipo'] = 'Vehículos'

In [24]:
#Imputación del campo para contar los registros al momento de agrupar los datos
df_vehiculos['Id'] = df_vehiculos.index

In [31]:
#Agrupación de datos
df = df_vehiculos.groupby(['Año','Mes','Tipo'],as_index=False).count()[['Año','Mes','Tipo','Id']].rename({'Id':'Total'},axis=1)
df

Unnamed: 0,Año,Mes,Tipo,Total
0,2020,1,Vehículos,248546
1,2020,2,Vehículos,232209
2,2020,3,Vehículos,197980
3,2020,4,Vehículos,143191
4,2020,5,Vehículos,171215
5,2020,6,Vehículos,212227
6,2020,7,Vehículos,209202
7,2020,8,Vehículos,213511
8,2020,9,Vehículos,219852
9,2020,10,Vehículos,226641


In [27]:
#Definición de intervalo según distribución de datos
df['Total'] = df['Total'].astype(int)
df['Intervalo']=pd.cut(df['Total'],10,labels=[1,2,3,4,5,6,7,8,9,10])
df

Unnamed: 0,Año,Mes,Tipo,Total,Intervalo
0,2020,1,Vehículos,248546,10
1,2020,2,Vehículos,232209,9
2,2020,3,Vehículos,197980,6
3,2020,4,Vehículos,143191,1
4,2020,5,Vehículos,171215,3
5,2020,6,Vehículos,212227,7
6,2020,7,Vehículos,209202,7
7,2020,8,Vehículos,213511,7
8,2020,9,Vehículos,219852,8
9,2020,10,Vehículos,226641,8


In [28]:
#Definición relación de los datos entre diciembre y enero
enero = df.loc[ df.Mes == 1, ['Intervalo']].iloc[0,0]
diciembre = df.loc[ df.Mes == 12, ['Intervalo']].iloc[0,0]
diciembre_enero = int(((diciembre - enero)/enero)*100)
if diciembre_enero > 0:
    diciembre_enero = '+' + str(diciembre_enero) + ' %'
else:
    diciembre_enero = str(diciembre_enero) + ' %'

In [29]:
#Imputación relación de los datos entre diciembre y enero
df['Diciembre Vs Enero'] = diciembre_enero
df

Unnamed: 0,Año,Mes,Tipo,Total,Intervalo,Diciembre Vs Enero
0,2020,1,Vehículos,248546,10,-10 %
1,2020,2,Vehículos,232209,9,-10 %
2,2020,3,Vehículos,197980,6,-10 %
3,2020,4,Vehículos,143191,1,-10 %
4,2020,5,Vehículos,171215,3,-10 %
5,2020,6,Vehículos,212227,7,-10 %
6,2020,7,Vehículos,209202,7,-10 %
7,2020,8,Vehículos,213511,7,-10 %
8,2020,9,Vehículos,219852,8,-10 %
9,2020,10,Vehículos,226641,8,-10 %


In [30]:
#Resguardo de los datos para su posterior análisis 
writer = pd.ExcelWriter(output_file_name, engine='xlsxwriter')

df.to_excel(writer, index=False, sheet_name=output_sheet_name)

workbook  = writer.book
worksheet = writer.sheets[output_sheet_name]

format = workbook.add_format()
format.set_align('center')
format.set_align('vcenter')

worksheet.set_column('A:F', 30, format)

writer.save()