In [15]:
# Obtener el resumen de viajes antes de la limpieza de datos
# de /clean_data/{unit}/{unit}_pre_trips_summary.csv

import pandas as pd
import os
import sys
from pathlib import Path

# Obtener el resumen de viajes antes de la limpieza de datos
# de /joined_data/{unit}/{unit}_joined.csv
def get_pre_trips_summary(unit):
    file_path = Path(f"D:/2025/UVG/Tesis/repos/backend/joined_data/{unit}_joined.csv")
    if not file_path.exists():
        print(f"El archivo {file_path} no existe.")
        sys.exit(1)

    df = pd.read_csv(file_path)
    number_of_rows = df.shape[0]
    print(f"Unidad: {unit}, Número de filas antes de limpieza: {number_of_rows}")
    return number_of_rows

In [16]:
JOINED_DATA = Path("D:/2025/UVG/Tesis/repos/backend/joined_data")
if not JOINED_DATA.exists():
    print(f"No existe el directorio {JOINED_DATA}. Fin.")
units = [d.name.split("_")[0] for d in JOINED_DATA.iterdir()]

if not units:
    print(f"No se encontraron unidades en {JOINED_DATA}. Fin.")
    
total_rows = 0
for unit in units:
    total_rows += get_pre_trips_summary(unit)
    
print(f"Número total de filas antes de limpieza: {total_rows}")

Unidad: u049, Número de filas antes de limpieza: 226541
Unidad: u050, Número de filas antes de limpieza: 7989
Unidad: u051, Número de filas antes de limpieza: 113470
Unidad: u052, Número de filas antes de limpieza: 46394
Unidad: u053, Número de filas antes de limpieza: 81276
Unidad: u055, Número de filas antes de limpieza: 137414
Unidad: u056, Número de filas antes de limpieza: 135802
Unidad: u057, Número de filas antes de limpieza: 209848
Unidad: u058, Número de filas antes de limpieza: 1765
Unidad: u059, Número de filas antes de limpieza: 308320
Unidad: u060, Número de filas antes de limpieza: 28904
Unidad: u061, Número de filas antes de limpieza: 4647
Unidad: u062, Número de filas antes de limpieza: 247905
Unidad: u063, Número de filas antes de limpieza: 306084
Unidad: u064, Número de filas antes de limpieza: 409120
Unidad: u066, Número de filas antes de limpieza: 187935
Unidad: u067, Número de filas antes de limpieza: 347426
Unidad: u068, Número de filas antes de limpieza: 411482
U

In [19]:
# Número total de filas después de la limpieza de datos
CLEAN_DATA_DIR = Path("D:/2025/UVG/Tesis/repos/backend/clean_data")
if not CLEAN_DATA_DIR.exists():
    print(f"No existe el directorio {CLEAN_DATA_DIR}. Fin.")
units = [p.name for p in CLEAN_DATA_DIR.iterdir() if p.is_dir() and p.name != "maps"]
if not units:
    print(f"No se encontraron unidades en {CLEAN_DATA_DIR}. Fin.")
    
total_useful_units = 0
total_cleaned_rows = 0
for unit in units:
    summary_file = CLEAN_DATA_DIR / unit / f"{unit}_post_trips_summary.csv"
    if not summary_file.exists():
        print(f"El archivo {summary_file} no existe. Saltando unidad {unit}.")
        continue
    df_summary = pd.read_csv(summary_file)
    cleaned_rows = df_summary['puntos'].sum()
    total_cleaned_rows += cleaned_rows
    print(f"Unidad: {unit}, Número de filas después de limpieza: {cleaned_rows}")
    if cleaned_rows > 0:
        total_useful_units += 1
        
print(f"Número total de filas después de limpieza: {total_cleaned_rows}")
print(f"Número total de unidades útiles después de limpieza: {total_useful_units}")

Unidad: u049, Número de filas después de limpieza: 118834
Unidad: u050, Número de filas después de limpieza: 5495
Unidad: u051, Número de filas después de limpieza: 56810
Unidad: u052, Número de filas después de limpieza: 15551
Unidad: u053, Número de filas después de limpieza: 63514
Unidad: u055, Número de filas después de limpieza: 89552
Unidad: u056, Número de filas después de limpieza: 89627
Unidad: u057, Número de filas después de limpieza: 92598
Unidad: u058, Número de filas después de limpieza: 0
Unidad: u059, Número de filas después de limpieza: 194050
Unidad: u060, Número de filas después de limpieza: 15990
Unidad: u061, Número de filas después de limpieza: 100
Unidad: u062, Número de filas después de limpieza: 101079
Unidad: u063, Número de filas después de limpieza: 162224
Unidad: u064, Número de filas después de limpieza: 264044
Unidad: u066, Número de filas después de limpieza: 133345
Unidad: u067, Número de filas después de limpieza: 225324
Unidad: u068, Número de filas d

In [20]:
# Número total de filas después de la ingeniería de características
FEATURES_READY_DIR = Path("D:/2025/UVG/Tesis/repos/backend/features_ready_without_idle_rows")
if not FEATURES_READY_DIR.exists():
    print(f"No existe el directorio {FEATURES_READY_DIR}. Fin.")
feature_files = list(FEATURES_READY_DIR.glob("*.parquet"))
if not feature_files:
    print(f"No se encontraron archivos de características en {FEATURES_READY_DIR}. Fin.")
total_featured_rows = 0
total_useful_units = 0
for feature_file in feature_files:
    df_features = pd.read_parquet(feature_file)
    featured_rows = df_features.shape[0]
    total_featured_rows += featured_rows
    total_useful_units += 1
    print(f"Archivo: {feature_file.name}, Número de filas después de ingeniería de características: {featured_rows}")
print(f"Número total de filas después de ingeniería de características: {total_featured_rows}")
print(f"Número total de unidades útiles: {total_useful_units}")


Archivo: u049_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 98584
Archivo: u050_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 4992
Archivo: u051_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 48946
Archivo: u052_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 13079
Archivo: u053_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 58236
Archivo: u055_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 76797
Archivo: u056_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 76769
Archivo: u057_trips_with_next_station_features.parquet, Número de filas después de ingeniería de características: 77778
Archivo: u059_trips_with_next_station_fea