<a href="https://colab.research.google.com/github/francusi/CoderDS/blob/main/ProyectoDSParteIBarrionuevo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto Final DS
## Entrega N° 1
---

## Abstract

Este proyecto se centra en el análisis exploratorio de los datos de usos del sistema de transporte público SUBE en la ciudad de Rosario, provincia de Santa Fe, utilizando datasets provistos por la entidad SUBE que abarcan los años 2022, 2023 y parte de 2024. Cada dataset contiene aproximadamente 450 mil registros con información detallada sobre cada transacción, incluyendo fecha, empresa, línea, tipo de transporte, jurisdicción y cantidad de usos.

El objetivo principal es explorar y comprender los patrones de uso del transporte público en Rosario a través de un análisis descriptivo y temporal. Se buscará identificar tendencias en la cantidad de pasajeros a lo largo del tiempo (diaria y mensualmente), analizar la distribución de usos por línea y empresa, y detectar posibles patrones estacionales o cambios significativos en la demanda. Para ello, se aplicarán técnicas de análisis univariado y bivariado, complementadas con visualizaciones de datos utilizando librerías como pandas, Matplotlib y Seaborn.

Este análisis inicial proporcionará una visión clara del comportamiento de los usuarios del transporte público en la zona de estudio.


---



## Preguntas / Hipótesis de Interés

1.  ¿Cómo ha evolucionado la cantidad total de usos del transporte público en Rosario a lo largo del tiempo (diario y mensual) entre 2022 y 2024?
2.  ¿Existen patrones estacionales o tendencias claras en el uso del transporte público (por ejemplo, diferencias entre días de semana y fines de semana, o variaciones a lo largo de los meses/años)?
3.  ¿Cuáles son las líneas y empresas de transporte con mayor volumen de usos en Rosario?
4.  ¿Varía la distribución de usos entre líneas y empresas a lo largo del tiempo?
5.  Un pequeño subconjunto de líneas de transporte concentra la mayor parte de los usos totales en la ciudad.








## Objetivo del Proyecto

El objetivo principal de este proyecto es realizar un análisis exploratorio y descriptivo de los datos de uso del sistema de transporte público SUBE en la ciudad de Rosario entre 2022 y 2024. Se busca comprender los patrones de comportamiento de los usuarios, identificar tendencias temporales (diarias, mensuales y anuales), analizar la distribución de usos por líneas y empresas, y validar o refutar las hipótesis planteadas. Este análisis proporcionará una base sólida para entender la dinámica del transporte público en la región y podrá servir como punto de partida para estudios más avanzados, como la optimización de rutas o la planificación de servicios.


---



In [20]:
# Carga de datasets SUBE desde mi repositorio google drive (2022, 2023, 2024)

from google.colab import drive
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

drive.mount('/content/drive')

# Rutas a los archivos
base_path = "/content/drive/MyDrive/CURSOS/DS1-CD/Datasets/"
files = {
    "2022": base_path + "dat-sube-usos-2022.csv",
    "2023": base_path + "dat-sube-usos-2023.csv",
    "2024": base_path + "dat-sube-usos-2024.csv",
}

# Leo datasets y guardo en un diccionario
dfs = {}
for year, path in files.items():
    dfs[year] = pd.read_csv(path)
    dfs[year]["anio"] = int(year)  # agregar columna de año como indice

# Unimos todo en un solo DataFrame
df = pd.concat(dfs.values(), ignore_index=True)
print("Tamaño del dataset:", df.shape)
df.head()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Tamaño del dataset: (1416304, 11)


Unnamed: 0,DIA_TRANSPORTE,NOMBRE_EMPRESA,LINEA,AMBA,TIPO_TRANSPORTE,JURISDICCION,PROVINCIA,MUNICIPIO,CANTIDAD,DATO_PRELIMINAR,anio
0,2022-01-01,MUNICIPALIDAD DE MERCEDES PROVINCIA DE BUENOS ...,1,SI,COLECTIVO,MUNICIPAL,BUENOS AIRES,MERCEDES,10,NO,2022
1,2022-01-01,MUNICIPALIDAD DE MERCEDES PROVINCIA DE BUENOS ...,2B,SI,COLECTIVO,MUNICIPAL,BUENOS AIRES,MERCEDES,19,NO,2022
2,2022-01-01,EMPRESA BATAN S.A.,BS_AS_LINEA 715M,NO,COLECTIVO,MUNICIPAL,BUENOS AIRES,GENERAL PUEYRREDON,1418,NO,2022
3,2022-01-01,COMPAÑIA DE TRANSPORTE VECINAL S.A.,BS_AS_LINEA_326,SI,COLECTIVO,PROVINCIAL,BUENOS AIRES,SN,675,NO,2022
4,2022-01-01,EMPRESA DE TRANSPORTE PERALTA RAMOS SACI,BS_AS_LINEA_512,NO,COLECTIVO,MUNICIPAL,BUENOS AIRES,GENERAL PUEYRREDON,1906,NO,2022


In [21]:
# Filtrar por Provincia y Municipio
df_filtered = df[(df['PROVINCIA'] == 'SANTA FE') & (df['MUNICIPIO'] == 'ROSARIO')].copy()

# Mostrar el tamaño del dataset filtrado y las primeras filas
print("Tamaño del dataset filtrado:", df_filtered.shape)
df_filtered.head()

Tamaño del dataset filtrado: (27693, 11)


Unnamed: 0,DIA_TRANSPORTE,NOMBRE_EMPRESA,LINEA,AMBA,TIPO_TRANSPORTE,JURISDICCION,PROVINCIA,MUNICIPIO,CANTIDAD,DATO_PRELIMINAR,anio
487365,2023-02-10,MOVI ROSARIO S.A.U,LINEA_115,NO,COLECTIVO,MUNICIPAL,SANTA FE,ROSARIO,28,NO,2023
489621,2023-02-12,MOVI ROSARIO S.A.U,LINEA_115,NO,COLECTIVO,MUNICIPAL,SANTA FE,ROSARIO,3,NO,2023
490839,2023-02-13,MOVI ROSARIO S.A.U,LINEA_115,NO,COLECTIVO,MUNICIPAL,SANTA FE,ROSARIO,1,NO,2023
509121,2023-02-28,MOVI ROSARIO S.A.U,LINEA_112,NO,COLECTIVO,MUNICIPAL,SANTA FE,ROSARIO,1,NO,2023
509122,2023-02-28,MOVI ROSARIO S.A.U,LINEA_115_AEROPUERTO,NO,COLECTIVO,MUNICIPAL,SANTA FE,ROSARIO,1,NO,2023
