In [1]:
#Importamos librerías
import pandas as pd

In [2]:
#Archivo donde tomamos el set de datos correspondiente a bicicletas para su limpieza y normalización
#https://cdn.buenosaires.gob.ar/datosabiertos/datasets/transporte/bicicletas-publicas/recorridos-realizados-2020.zip
input_file_name = 'bicicletas.csv'

In [3]:
#Definimos el archivo donde guardar el set de datos luego de la limpieza y normalización
output_file_name = "bicicletas.xlsx"
output_sheet_name = "bicicletas"

In [4]:
#Carga del dataframe
df_bicicletas = pd.read_csv(input_file_name)

In [5]:
#Previsualización de los primeros registros
df_bicicletas.head()

Unnamed: 0,duracion_recorrido,id_estacion_origen,fecha_origen_recorrido,nombre_estacion_origen,fecha_destino_recorrido,id_estacion_destino,nombre_estacion_destino,id_usuario,direccion_estacion_origen,long_estacion_origen,lat_estacion_origen,direccion_estacion_destino,long_estacion_destino,lat_estacion_destino,periodo
0,882,116,2020-12-31 23:54:22,116 - HOSPITAL ALEMÁN,2021-01-01 00:09:04,214.0,142 - Armenia y Gorriti,666202,Beruti & Ecuador,-58.402586,-34.592171,Armenia 1525 y Gorriti,-58.428972,-34.590541,2020
1,894,116,2020-12-29 12:39:18,116 - HOSPITAL ALEMÁN,2020-12-29 12:54:12,214.0,142 - Armenia y Gorriti,332689,Beruti & Ecuador,-58.402586,-34.592171,Armenia 1525 y Gorriti,-58.428972,-34.590541,2020
2,1361,116,2020-12-21 21:21:38,116 - HOSPITAL ALEMÁN,2020-12-21 21:44:19,214.0,142 - Armenia y Gorriti,57949,Beruti & Ecuador,-58.402586,-34.592171,Armenia 1525 y Gorriti,-58.428972,-34.590541,2020
3,1010,116,2020-12-20 21:58:19,116 - HOSPITAL ALEMÁN,2020-12-20 22:15:09,214.0,142 - Armenia y Gorriti,454846,Beruti & Ecuador,-58.402586,-34.592171,Armenia 1525 y Gorriti,-58.428972,-34.590541,2020
4,1490,116,2020-12-20 13:32:53,116 - HOSPITAL ALEMÁN,2020-12-20 13:57:43,214.0,142 - Armenia y Gorriti,690975,Beruti & Ecuador,-58.402586,-34.592171,Armenia 1525 y Gorriti,-58.428972,-34.590541,2020


In [6]:
#Cantidad de filas y columnas
df_bicicletas.shape

(2002945, 15)

In [7]:
#Imputación del año según fecha de origen
df_bicicletas['Año'] = pd.DatetimeIndex(df_bicicletas['fecha_origen_recorrido']).year

In [8]:
#Imputación del mes según fecha de origen
df_bicicletas['Mes'] = pd.DatetimeIndex(df_bicicletas['fecha_origen_recorrido']).month

In [9]:
#Imputación del tipo de registro
df_bicicletas['Tipo'] = 'Bicicletas'

In [10]:
#Imputación del campo para contar los registros al momento de agrupar los datos
df_bicicletas['Id'] = df_bicicletas.index

In [11]:
#Agrupación de datos
df = df_bicicletas.groupby(['Año','Mes','Tipo'],as_index=False).count()[['Año','Mes','Tipo','Id']].rename({'Id':'Total'},axis=1)

In [12]:
#Imputación de registro para el mes de abril 2020 donde no hay datos
df = df.append({'Año': 2020, 'Mes' : 4, 'Tipo' : 'Bicicletas', 'Total' : '0'}, ignore_index=True)

In [13]:
#Reordenamiento de datos
df.Año = df.Año.astype(int)
df.Mes = df.Mes.astype(int)
df = df.sort_values(by=['Año','Mes']).reset_index(drop=True)
df

Unnamed: 0,Año,Mes,Tipo,Total
0,2020,1,Bicicletas,159233
1,2020,2,Bicicletas,116965
2,2020,3,Bicicletas,52951
3,2020,4,Bicicletas,0
4,2020,5,Bicicletas,20235
5,2020,6,Bicicletas,69707
6,2020,7,Bicicletas,98328
7,2020,8,Bicicletas,248180
8,2020,9,Bicicletas,273719
9,2020,10,Bicicletas,323130


In [14]:
#Definición de intervalo según distribución de datos
df['Total'] = df['Total'].astype(int)
df['Intervalo']=pd.cut(df['Total'],10,labels=[1,2,3,4,5,6,7,8,9,10])
df

Unnamed: 0,Año,Mes,Tipo,Total,Intervalo
0,2020,1,Bicicletas,159233,5
1,2020,2,Bicicletas,116965,4
2,2020,3,Bicicletas,52951,2
3,2020,4,Bicicletas,0,1
4,2020,5,Bicicletas,20235,1
5,2020,6,Bicicletas,69707,3
6,2020,7,Bicicletas,98328,3
7,2020,8,Bicicletas,248180,8
8,2020,9,Bicicletas,273719,9
9,2020,10,Bicicletas,323130,10


In [15]:
#Definición relación de los datos entre diciembre y enero
enero = df.loc[ df.Mes == 1, ['Intervalo']].iloc[0,0]
diciembre = df.loc[ df.Mes == 12, ['Intervalo']].iloc[0,0]
diciembre_enero = int(((diciembre - enero)/enero)*100)
if diciembre_enero > 0:
    diciembre_enero = '+' + str(diciembre_enero) + ' %'
else:
    diciembre_enero = str(diciembre_enero) + ' %'

In [16]:
#Imputación relación de los datos entre diciembre y enero
df['Diciembre Vs Enero'] = diciembre_enero
df

Unnamed: 0,Año,Mes,Tipo,Total,Intervalo,Diciembre Vs Enero
0,2020,1,Bicicletas,159233,5,+100 %
1,2020,2,Bicicletas,116965,4,+100 %
2,2020,3,Bicicletas,52951,2,+100 %
3,2020,4,Bicicletas,0,1,+100 %
4,2020,5,Bicicletas,20235,1,+100 %
5,2020,6,Bicicletas,69707,3,+100 %
6,2020,7,Bicicletas,98328,3,+100 %
7,2020,8,Bicicletas,248180,8,+100 %
8,2020,9,Bicicletas,273719,9,+100 %
9,2020,10,Bicicletas,323130,10,+100 %


In [17]:
#Resguardo de los datos para su posterior análisis 
writer = pd.ExcelWriter(output_file_name, engine='xlsxwriter')

df.to_excel(writer, index=False, sheet_name=output_sheet_name)

workbook  = writer.book
worksheet = writer.sheets[output_sheet_name]

format = workbook.add_format()
format.set_align('center')
format.set_align('vcenter')

worksheet.set_column('A:F', 30, format)

writer.save()