In [1]:
import pandas as pd

# Introducción
Comenzaré trabajando con el Dataset de Datos.gob.ar que contiene la cantidad usuarios del sistema SUBE por día y tipo de transporte, diferenciando por medio de transporte como colectivo, lancha, subte y tren.

In [2]:
df = pd.read_csv("datasets/SUBE - Cantidad de tarjetas (usuarios) por día./total-usuarios-por-dia.csv")

df

Unnamed: 0,indice_tiempo,total,colectivo,lancha,subte,tren
0,2020-01-01,966457,907421,40,72180,112267
1,2020-01-02,3879833,3564004,94,511136,719721
2,2020-01-03,4213711,3886005,106,536129,779512
3,2020-01-04,2899714,2728108,129,232491,461000
4,2020-01-05,1785016,1687791,94,127770,203694
...,...,...,...,...,...,...
1628,2024-06-17,1919584,1819782,712,121361,219517
1629,2024-06-18,5357011,5064390,975,453898,706859
1630,2024-06-19,5416986,5146011,1227,419124,717365
1631,2024-06-20,2242155,2108424,1140,162581,286177


# Calculo de promedio de usuarios diarios del Sistema SUBE
Obtendré el promedio de usuarios diarios del sistema por cada año

In [3]:
# indice_tiempo_por_defecto is representing a Date, but it's being red from .csv as object
# Can be converted to datetime like this:
df['indice_tiempo'] = pd.to_datetime(df['indice_tiempo'])
# Dataframe can now be filtered by Date

In [4]:
# I want to obtain total daily for each year
# I will store them inside a dictionary

#First i will obtain all years for 'indice_tiempo'column
years = list({i for i in df['indice_tiempo'].dt.year})

total_daily_users_per_year = { }
amount_of_registries_per_year = { }
average_users_per_day_per_year = { }

# I create a key for each possible year in the dictionary for each dictionary
# This way it's easier to save and read data for each year without having to use an if statement
for year in years:
    total_daily_users_per_year[year] = 0
    average_users_per_day_per_year[year] = 0
    amount_of_registries_per_year[year] = 0

for index, row in df.iterrows():
    total_daily_users_per_year[row['indice_tiempo'].year] += row['total']
    amount_of_registries_per_year[row['indice_tiempo'].year] += 1

for year, users_for_year in total_daily_users_per_year.items():
    average_users_per_day_per_year[year] = users_for_year / amount_of_registries_per_year[year]

print("Promedio diario anual de usuarios del sistema SUBE: ")
for year in years:
    print(f"{year}: {round(average_users_per_day_per_year[year], 2)}")

Promedio diario anual de usuarios del sistema SUBE: 
2020: 1819076.99
2021: 2782789.47
2022: 3876544.17
2023: 4278644.76
2024: 3884683.15


## Análisis y conclusiones
- En 2020 y 2021 se muestran cantidades de usuarios mucho menores en promedio, uno podría suponer que por el aislamiento obligatorio decretado por la pandemia de COVID-19.
- Si bien 2024 parece mostrar números similares hay que tener en cuenta que al momento de este análisis no resulta del todo representativo ya que el año todavía está en curso.

## Siguientes pasos
- A partir de los numeros menores observados durante la pandemia quizás sea interesante realizar un histograma para visualizar la evolución de viajes diarios.
- Más allá de la suposición de que el número es menor por acontecimientos extraordinarios (pandemia) no estaría demás chequear el dataset en búsqueda de inconsistencias o outliers sobresalientes.
- El promedio no es representativo para el año 2024, al momento no concluido, pero si los meses completados. Calcular los promedios mensuales puede dar nueva información 
- Se están utilizando los datos de usuarios totales por día. Puede resultar interesante ver que parte del total representa cada tipo de transporte en el total de usuarios (teniendo en cuenta que debe haber muchos usuarios diarios que utilizan más de un tipo de transporte, demostrado por la diferencia entre total y sumatoria de todos los transportes).
- Me gustaría encontrar diferencias de cantidad de usuarios entre días tipo (laborales-no laborables, feriados). Tambien, por que no, entre los distintos días laborables.

# Storage de información accesible para otros notebooks

In [5]:
%store df
%store years

Stored 'df' (DataFrame)
Stored 'years' (list)
