# Pre-Procesamiento de datos

In [1]:
import numpy as np
import pandas as pd

#EXPLICACION DE QUE VOY A AHCER

In [2]:
standard_cols = [
    'id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido',
    'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen',
    'long_estacion_origen', 'lat_estacion_origen',
    'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino',
    'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino',
    'id_usuario', 'modelo_bicicleta', 'genero'
]

## 1) Dataset Trips 2020

In [3]:
df_trips_2020 = pd.read_csv('../data/raw/recorridos/trips_2020.csv')

In [4]:
print(f'Tamaño del dataset original: {df_trips_2020.shape}')
print("Features del archivo:")
print(df_trips_2020.columns.tolist())

Tamaño del dataset original: (2415597, 18)
Features del archivo:
['Unnamed: 0', 'Id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'género']


In [5]:
# Renombrar columnas para que coincidan con el formato estándar
df_trips_2020 = df_trips_2020.rename(columns={
    'Id_recorrido': 'id_recorrido',
    'género': 'genero'
})

# Eliminar columnas basura
df_trips_2020 = df_trips_2020.drop(columns=['Unnamed: 0', 'X'], errors='ignore')

In [7]:
missing_cols = [col for col in standard_cols if col not in df_trips_2020.columns]
if missing_cols:
    print("Faltan las siguientes columnas:", missing_cols)
else:
    df_trips_2020 = df_trips_2020[standard_cols]
    print("Columnas reordenadas correctamente.")

Columnas reordenadas correctamente.


1.1) Saco las comas en "duracion_recorrido"

In [8]:
df_trips_2020['duracion_recorrido'] = df_trips_2020['duracion_recorrido'].str.replace(',', '', regex=False)
df_trips_2020['duracion_recorrido'] = pd.to_numeric(df_trips_2020['duracion_recorrido'], errors='coerce')

1.2) Extraigo solo números de IDs y convertir a enteros

In [9]:
for col in ['id_recorrido', 'id_usuario', 'id_estacion_origen', 'id_estacion_destino']:
    df_trips_2020[col] = df_trips_2020[col].str.extract(r'(\d+)')[0].astype('Int64')

1.3) Convierto fechas a datetime

In [10]:
df_trips_2020['fecha_origen_recorrido'] = pd.to_datetime(df_trips_2020['fecha_origen_recorrido'], errors='coerce')
df_trips_2020['fecha_destino_recorrido'] = pd.to_datetime(df_trips_2020['fecha_destino_recorrido'], errors='coerce')

1.4) Arreglo latitud y longitud destino, las separo

In [11]:
coords_split = df_trips_2020['lat_estacion_destino'].str.split(',', expand=True)

df_trips_2020['lat_estacion_destino'] = pd.to_numeric(coords_split[0], errors='coerce')
df_trips_2020['long_estacion_destino'] = pd.to_numeric(coords_split[1], errors='coerce')

In [12]:
df_trips_2020.to_csv('../data/processed/recorridos/trips_2020.csv', index=False)
print("Archivo guardado exitosamente en data/processed/recorridos/trips_2020.csv")

Archivo guardado exitosamente en data/processed/recorridos/trips_2020.csv


## 2) Dataset Trips 2021

In [16]:
df_trips_2021 = pd.read_csv('../data/raw/recorridos/trips_2021.csv')
print(f'Tamaño del dataset original: {df_trips_2021.shape}')
print("Features del archivo:")
print(df_trips_2021.columns.tolist())

  df_trips_2021 = pd.read_csv('../data/raw/recorridos/trips_2021.csv')


Tamaño del dataset original: (2860091, 19)
Features del archivo:
['Unnamed: 0', 'Id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'género', 'Género']


In [17]:
# Renombrar columnas para que coincidan con el formato estándar
df_trips_2021 = df_trips_2021.rename(columns={
    'Id_recorrido': 'id_recorrido',
    'género': 'genero'
})

# Eliminar columnas basura
df_trips_2021 = df_trips_2021.drop(columns=['Unnamed: 0', 'Género'], errors='ignore')
print("Columnas después de limpiar:")
print(df_trips_2021.columns.tolist())

missing_cols = [col for col in standard_cols if col not in df_trips_2021.columns]
if missing_cols:
    print("Faltan las siguientes columnas:", missing_cols)
else:
    df_trips_2021 = df_trips_2021[standard_cols]
    print("Columnas reordenadas correctamente.")

Columnas después de limpiar:
['id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'genero']
Columnas reordenadas correctamente.


In [18]:
df_trips_2021['duracion_recorrido'] = df_trips_2021['duracion_recorrido'].str.replace(',', '', regex=False)
df_trips_2021['duracion_recorrido'] = pd.to_numeric(df_trips_2021['duracion_recorrido'], errors='coerce')
for col in ['id_recorrido', 'id_usuario', 'id_estacion_origen', 'id_estacion_destino']:
    df_trips_2021[col] = df_trips_2021[col].str.extract(r'(\d+)')[0].astype('Int64')
df_trips_2021['fecha_origen_recorrido'] = pd.to_datetime(df_trips_2021['fecha_origen_recorrido'], errors='coerce')
df_trips_2021['fecha_destino_recorrido'] = pd.to_datetime(df_trips_2021['fecha_destino_recorrido'], errors='coerce')

coords_split = df_trips_2021['lat_estacion_destino'].str.split(',', expand=True)

df_trips_2021['lat_estacion_destino'] = pd.to_numeric(coords_split[0], errors='coerce')
df_trips_2021['long_estacion_destino'] = pd.to_numeric(coords_split[1], errors='coerce')

In [19]:
df_trips_2021.to_csv('../data/processed/recorridos/trips_2021.csv', index=False)
print("Archivo guardado exitosamente en data/processed/recorridos/trips_2021.csv")

Archivo guardado exitosamente en data/processed/recorridos/trips_2021.csv


## 3) Dataset Trips 2022

In [20]:
df_trips_2022 = pd.read_csv('../data/raw/recorridos/trips_2022.csv')
print(f'Tamaño del dataset original: {df_trips_2022.shape}')
print("Features del archivo:")
print(df_trips_2022.columns.tolist())

Tamaño del dataset original: (2922805, 19)
Features del archivo:
['Unnamed: 0', 'X', 'Id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'Género']


In [21]:
# Renombrar columnas para que coincidan con el formato estándar
df_trips_2022 = df_trips_2022.rename(columns={
    'Id_recorrido': 'id_recorrido',
    'Género': 'genero'
})

# Eliminar columnas basura
df_trips_2022 = df_trips_2022.drop(columns=['Unnamed: 0', 'X'], errors='ignore')
print("Columnas después de limpiar:")
print(df_trips_2022.columns.tolist())

missing_cols = [col for col in standard_cols if col not in df_trips_2022.columns]
if missing_cols:
    print("Faltan las siguientes columnas:", missing_cols)
else:
    df_trips_2022 = df_trips_2022[standard_cols]
    print("Columnas reordenadas correctamente.")

Columnas después de limpiar:
['id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'genero']
Columnas reordenadas correctamente.


In [22]:
df_trips_2022['duracion_recorrido'] = df_trips_2022['duracion_recorrido'].str.replace(',', '', regex=False)
df_trips_2022['duracion_recorrido'] = pd.to_numeric(df_trips_2022['duracion_recorrido'], errors='coerce')
for col in ['id_recorrido', 'id_usuario', 'id_estacion_origen', 'id_estacion_destino']:
    df_trips_2022[col] = df_trips_2022[col].str.extract(r'(\d+)')[0].astype('Int64')
df_trips_2022['fecha_origen_recorrido'] = pd.to_datetime(df_trips_2022['fecha_origen_recorrido'], errors='coerce')
df_trips_2022['fecha_destino_recorrido'] = pd.to_datetime(df_trips_2022['fecha_destino_recorrido'], errors='coerce')

In [23]:
df_trips_2022.to_csv('../data/processed/recorridos/trips_2022.csv', index=False)
print("Archivo guardado exitosamente en data/processed/recorridos/trips_2022.csv")

Archivo guardado exitosamente en data/processed/recorridos/trips_2022.csv


## 4) Dataset Trips 2023

In [24]:
df_trips_2023 = pd.read_csv('../data/raw/recorridos/trips_2023.csv')
print(f'Tamaño del dataset original: {df_trips_2023.shape}')
print("Features del archivo:")
print(df_trips_2023.columns.tolist())

Tamaño del dataset original: (2622331, 18)
Features del archivo:
['Unnamed: 0', 'Id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'género']


In [25]:
df_trips_2023 = df_trips_2023.rename(columns={
    'Id_recorrido': 'id_recorrido',
    'género': 'genero'
})

# Eliminar columnas basura
df_trips_2023 = df_trips_2023.drop(columns=['Unnamed: 0'], errors='ignore')
print("Columnas después de limpiar:")
print(df_trips_2023.columns.tolist())

missing_cols = [col for col in standard_cols if col not in df_trips_2023.columns]
if missing_cols:
    print("Faltan las siguientes columnas:", missing_cols)
else:
    df_trips_2023 = df_trips_2023[standard_cols]
    print("Columnas reordenadas correctamente.")

Columnas después de limpiar:
['id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'genero']
Columnas reordenadas correctamente.


In [26]:
df_trips_2023['duracion_recorrido'] = df_trips_2023['duracion_recorrido'].str.replace(',', '', regex=False)
df_trips_2023['duracion_recorrido'] = pd.to_numeric(df_trips_2023['duracion_recorrido'], errors='coerce')
for col in ['id_recorrido', 'id_usuario', 'id_estacion_origen', 'id_estacion_destino']:
    df_trips_2023[col] = df_trips_2023[col].str.extract(r'(\d+)')[0].astype('Int64')
df_trips_2023['fecha_origen_recorrido'] = pd.to_datetime(df_trips_2023['fecha_origen_recorrido'], errors='coerce')
df_trips_2023['fecha_destino_recorrido'] = pd.to_datetime(df_trips_2023['fecha_destino_recorrido'], errors='coerce')

In [27]:
df_trips_2023.to_csv('../data/processed/recorridos/trips_2023.csv', index=False)
print("Archivo guardado exitosamente en data/processed/recorridos/trips_2023.csv")

Archivo guardado exitosamente en data/processed/recorridos/trips_2023.csv


## 5) Dataset Trips 2024

In [28]:
df_trips_2024 = pd.read_csv('../data/raw/recorridos/trips_2024.csv')

In [29]:
print(f'Tamaño del dataset original: {df_trips_2024.shape}')
print("Features del archivo:")
print(df_trips_2024.columns.tolist())

Tamaño del dataset original: (3559284, 17)
Features del archivo:
['id_recorrido', 'duracion_recorrido', 'fecha_origen_recorrido', 'id_estacion_origen', 'nombre_estacion_origen', 'direccion_estacion_origen', 'long_estacion_origen', 'lat_estacion_origen', 'fecha_destino_recorrido', 'id_estacion_destino', 'nombre_estacion_destino', 'direccion_estacion_destino', 'long_estacion_destino', 'lat_estacion_destino', 'id_usuario', 'modelo_bicicleta', 'genero']


In [30]:
df_trips_2024['fecha_origen_recorrido'] = pd.to_datetime(df_trips_2024['fecha_origen_recorrido'], errors='coerce')
# Filtrar: solo fechas hasta agosto 2024 inclusive
df_trips_2024 = df_trips_2024[df_trips_2024['fecha_origen_recorrido'].dt.month <= 8]
print(f"Filas restantes luego del filtro: {df_trips_2024.shape[0]}")

Filas restantes luego del filtro: 2155645


In [31]:
df_trips_2024.to_csv('../data/processed/recorridos/trips_2024.csv', index=False)
print("Archivo guardado exitosamente en data/processed/recorridos/trips_2024.csv")

Archivo guardado exitosamente en data/processed/recorridos/trips_2024.csv


## 1) Dataset Usuarios 2020

In [208]:
df_usuarios_2020 = pd.read_csv('../data/raw/usuarios/usuarios_ecobici_2020.csv')
df_usuarios_2020.drop(columns=['Customer.Has.Dni..Yes...No.'], inplace=True)
df_usuarios_2020['fecha_alta'] = pd.to_datetime(df_usuarios_2020['fecha_alta'], errors='coerce')

df_usuarios_2020 = df_usuarios_2020.rename(columns={
    'ID_usuario': 'id_usuario',
    'genero_usuario': 'genero'
})
df_usuarios_2020['edad_usuario'] = pd.to_numeric(df_usuarios_2020['edad_usuario'], errors='coerce').astype('Int64')
df_usuarios_2020.to_csv('../data/processed/usuarios/usuarios_2020.csv', index=False)
print("Archivo guardado exitosamente en data/processed/usuarios/usuarios_2020.csv")

Archivo guardado exitosamente en data/processed/usuarios/usuarios_2020.csv


## 2) Dataset Usuarios 2021

In [209]:
df_usuarios_2021 = pd.read_csv('../data/raw/usuarios/usuarios_ecobici_2021.csv')
df_usuarios_2021.drop(columns=['Customer.Has.Dni..Yes...No.'], inplace=True)
df_usuarios_2021['fecha_alta'] = pd.to_datetime(df_usuarios_2021['fecha_alta'], errors='coerce')

df_usuarios_2021 = df_usuarios_2021.rename(columns={
    'ID_usuario': 'id_usuario',
    'genero_usuario': 'genero'
})
df_usuarios_2021['edad_usuario'] = pd.to_numeric(df_usuarios_2021['edad_usuario'], errors='coerce').astype('Int64')
df_usuarios_2021.to_csv('../data/processed/usuarios/usuarios_2021.csv', index=False)
print("Archivo guardado exitosamente en data/processed/usuarios/usuarios_2021.csv")

Archivo guardado exitosamente en data/processed/usuarios/usuarios_2021.csv


## 3) Dataset Usuarios 2022

In [210]:
df_usuarios_2022 = pd.read_csv('../data/raw/usuarios/usuarios_ecobici_2022.csv')
df_usuarios_2022.drop(columns=['Customer.Has.Dni..Yes...No.'], inplace=True)
df_usuarios_2022['fecha_alta'] = pd.to_datetime(df_usuarios_2022['fecha_alta'], errors='coerce')


df_usuarios_2022 = df_usuarios_2022.rename(columns={
    'ID_usuario': 'id_usuario',
    'genero_usuario': 'genero'
})
df_usuarios_2022['edad_usuario'] = pd.to_numeric(df_usuarios_2022['edad_usuario'], errors='coerce').astype('Int64')
df_usuarios_2022.to_csv('../data/processed/usuarios/usuarios_2022.csv', index=False)
print("Archivo guardado exitosamente en data/processed/usuarios/usuarios_2022.csv")

Archivo guardado exitosamente en data/processed/usuarios/usuarios_2022.csv


## 4) Dataset Usuarios 2023

In [211]:
df_usuarios_2023 = pd.read_csv('../data/raw/usuarios/usuarios_ecobici_2023.csv',low_memory=False)
df_usuarios_2023.drop(columns=['Customer.Has.Dni..Yes...No.'], inplace=True)
df_usuarios_2023['fecha_alta'] = pd.to_datetime(df_usuarios_2023['fecha_alta'], errors='coerce')

df_usuarios_2023 = df_usuarios_2023.rename(columns={
    'ID_usuario': 'id_usuario',
    'genero_usuario': 'genero'
})
df_usuarios_2023['edad_usuario'] = pd.to_numeric(df_usuarios_2023['edad_usuario'], errors='coerce').astype('Int64')
df_usuarios_2023.to_csv('../data/processed/usuarios/usuarios_2023.csv', index=False)
print("Archivo guardado exitosamente en data/processed/usuarios/usuarios_2023.csv")

Archivo guardado exitosamente en data/processed/usuarios/usuarios_2023.csv


## 5) Dataset Usuarios 2024

In [212]:
df_usuarios_2024 = pd.read_csv('../data/raw/usuarios/usuarios_ecobici_2024.csv')
df_usuarios_2024['fecha_alta'] = pd.to_datetime(df_usuarios_2024['fecha_alta'], errors='coerce')
df_usuarios_2024 = df_usuarios_2024.rename(columns={
    'genero_usuario': 'genero'
})
df_usuarios_2024 = df_usuarios_2024[df_usuarios_2024['fecha_alta'].dt.month <= 8]
print(f"Filas restantes luego del filtro: {df_usuarios_2024.shape[0]}")
df_usuarios_2024.to_csv('../data/processed/usuarios/usuarios_2024.csv', index=False)
print("Archivo guardado exitosamente en data/processed/usuarios/usuarios_2024.csv")

Filas restantes luego del filtro: 115204
Archivo guardado exitosamente en data/processed/usuarios/usuarios_2024.csv


## Union de datasets de años a un solo dataset

In [216]:
files = [
    '../data/processed/recorridos/trips_2022.csv',
    '../data/processed/recorridos/trips_2023.csv',
    '../data/processed/recorridos/trips_2024.csv'
]

dfs = [pd.read_csv(f) for f in files]
trips = pd.concat(dfs, ignore_index=True)

print(f"Total de filas combinadas: {trips.shape[0]}")

trips.to_csv('../data/processed/trips.csv', index=False)
print("Archivo guardado exitosamente en: data/preprocessed/trips.csv")

Total de filas combinadas: 7700781
Archivo guardado exitosamente en: data/preprocessed/trips.csv


In [217]:
files = [
    '../data/processed/usuarios/usuarios_2020.csv',
    '../data/processed/usuarios/usuarios_2021.csv',
    '../data/processed/usuarios/usuarios_2022.csv',
    '../data/processed/usuarios/usuarios_2023.csv',
    '../data/processed/usuarios/usuarios_2024.csv'
]

dfs = [pd.read_csv(f) for f in files]
trips = pd.concat(dfs, ignore_index=True)

print(f"Total de filas combinadas: {trips.shape[0]}")

trips.to_csv('../data/processed/usuarios.csv', index=False)
print("Archivo guardado exitosamente en: data/preprocessed/usuarios.csv")

Total de filas combinadas: 546010
Archivo guardado exitosamente en: data/preprocessed/usuarios.csv


In [15]:
# Eliminar filas con NaN solo en las columnas de estaciones
df_2020_filtrado = df_trips_2020.dropna(subset=['id_estacion_origen', 'id_estacion_destino'])

# Crear conjunto de estaciones únicas
estaciones = sorted(set(df_2020_filtrado['id_estacion_origen']).union(
                    set(df_2020_filtrado['id_estacion_destino'])))

n_est = len(estaciones)
print(estaciones)
print(f'Cantidad de estaciones: {n_est}')

[2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 17, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 35, 36, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 62, 63, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 98, 99, 101, 102, 104, 105, 106, 107, 110, 111, 112, 114, 115, 116, 117, 118, 119, 120, 121, 122, 124, 126, 127, 128, 130, 131, 132, 134, 135, 137, 138, 141, 143, 144, 146, 148, 149, 150, 151, 152, 153, 154, 155, 156, 158, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 210, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 238, 239, 240, 241, 242, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 2

In [32]:
# Eliminar filas con NaN solo en las columnas de estaciones
df_2021_filtrado = df_trips_2021.dropna(subset=['id_estacion_origen', 'id_estacion_destino'])

# Crear conjunto de estaciones únicas
estaciones_2021 = sorted(set(df_2021_filtrado['id_estacion_origen']).union(
                    set(df_2021_filtrado['id_estacion_destino'])))

n_est_2021 = len(estaciones_2021)
print(estaciones_2021)
print(f'Cantidad de estaciones: {n_est_2021}')



# Eliminar filas con NaN solo en las columnas de estaciones
df_2022_filtrado = df_trips_2022.dropna(subset=['id_estacion_origen', 'id_estacion_destino'])

# Crear conjunto de estaciones únicas
estaciones_2022 = sorted(set(df_2022_filtrado['id_estacion_origen']).union(
                    set(df_2022_filtrado['id_estacion_destino'])))

n_est_2022 = len(estaciones_2022)
print(estaciones_2022)
print(f'Cantidad de estaciones: {n_est_2022}')



# Eliminar filas con NaN solo en las columnas de estaciones
df_2023_filtrado = df_trips_2023.dropna(subset=['id_estacion_origen', 'id_estacion_destino'])

# Crear conjunto de estaciones únicas
estaciones_2023 = sorted(set(df_2023_filtrado['id_estacion_origen']).union(
                    set(df_2023_filtrado['id_estacion_destino'])))

n_est_2023 = len(estaciones_2023)
print(estaciones_2023)
print(f'Cantidad de estaciones: {n_est_2023}')



# Eliminar filas con NaN solo en las columnas de estaciones
df_2024_filtrado = df_trips_2024.dropna(subset=['id_estacion_origen', 'id_estacion_destino'])

# Crear conjunto de estaciones únicas
estaciones_2024 = sorted(set(df_2024_filtrado['id_estacion_origen']).union(
                    set(df_2024_filtrado['id_estacion_destino'])))

n_est_2024 = len(estaciones_2024)
print(estaciones_2024)
print(f'Cantidad de estaciones: {n_est_2024}')

[2, 3, 4, 5, 6, 7, 8, 9, 12, 13, 14, 17, 20, 21, 22, 23, 24, 25, 26, 27, 29, 30, 32, 33, 35, 36, 38, 41, 42, 43, 44, 45, 46, 48, 49, 50, 51, 54, 56, 58, 59, 60, 61, 63, 64, 65, 66, 68, 69, 70, 71, 73, 74, 75, 76, 77, 79, 80, 82, 83, 84, 85, 86, 87, 89, 91, 92, 93, 94, 95, 96, 98, 99, 101, 104, 105, 107, 111, 112, 114, 116, 117, 118, 120, 121, 124, 126, 128, 130, 131, 132, 134, 135, 137, 138, 144, 146, 149, 150, 151, 152, 153, 155, 156, 158, 161, 162, 163, 164, 165, 166, 167, 168, 169, 171, 172, 174, 175, 176, 179, 181, 182, 183, 184, 186, 187, 188, 189, 190, 191, 193, 194, 196, 197, 199, 200, 202, 203, 204, 205, 206, 207, 210, 212, 213, 214, 215, 216, 219, 220, 222, 223, 227, 229, 230, 231, 232, 235, 236, 237, 239, 241, 242, 245, 247, 248, 249, 251, 252, 254, 255, 257, 258, 261, 262, 263, 265, 267, 268, 269, 270, 271, 273, 275, 277, 278, 280, 281, 284, 288, 289, 291, 294, 299, 301, 302, 304, 307, 308, 309, 310, 311, 316, 318, 322, 323, 324, 327, 329, 333, 335, 336, 340, 342, 348, 353, 

In [33]:
estaciones_totales = set(estaciones).union(estaciones_2021, estaciones_2022, estaciones_2023, estaciones_2024)
print(f"Cantidad total de estaciones únicas (2020-2024): {len(estaciones_totales)}")


Cantidad total de estaciones únicas (2020-2024): 501


In [36]:
solo_2020 = set(estaciones) - set(estaciones_2021) - set(estaciones_2022) - set(estaciones_2023) - set(estaciones_2024)
print(f"Estaciones únicas de 2020: {len(solo_2020)} → {sorted(solo_2020)}")

solo_2021 = set(estaciones_2021) - set(estaciones_2024) - set(estaciones_2022) - set(estaciones_2023) - set(estaciones)
print(f"Estaciones únicas de 2021: {len(solo_2021)} → {sorted(solo_2021)}")

solo_2022 = set(estaciones_2022) - set(estaciones_2021) - set(estaciones_2024) - set(estaciones_2023) - set(estaciones)
print(f"Estaciones únicas de 2022: {len(solo_2022)} → {sorted(solo_2022)}")

solo_2023 = set(estaciones_2023) - set(estaciones_2021) - set(estaciones_2022) - set(estaciones_2024) - set(estaciones)
print(f"Estaciones únicas de 2023: {len(solo_2023)} → {sorted(solo_2023)}")

solo_2024 = set(estaciones_2024) - set(estaciones_2021) - set(estaciones_2022) - set(estaciones_2023) - set(estaciones)
print(f"Estaciones únicas de 2024: {len(solo_2024)} → {sorted(solo_2024)}")


Estaciones únicas de 2020: 103 → [11, 15, 19, 39, 40, 47, 52, 53, 55, 62, 72, 78, 88, 90, 106, 110, 115, 119, 127, 141, 143, 154, 170, 173, 180, 185, 192, 195, 201, 217, 218, 221, 224, 225, 226, 238, 240, 244, 246, 250, 256, 266, 272, 274, 276, 279, 282, 283, 285, 286, 287, 290, 292, 293, 295, 296, 297, 298, 300, 303, 305, 306, 312, 314, 317, 319, 320, 321, 325, 326, 328, 332, 338, 339, 341, 343, 345, 347, 350, 351, 352, 354, 356, 377, 380, 388, 389, 390, 391, 394, 396, 397, 398, 399, 401, 404, 405, 406, 409, 411, 415, 421, 430]
Estaciones únicas de 2021: 0 → []
Estaciones únicas de 2022: 0 → []
Estaciones únicas de 2023: 1 → [523]
Estaciones únicas de 2024: 17 → [539, 540, 541, 542, 543, 544, 545, 546, 547, 548, 549, 550, 551, 552, 553, 554, 556]
