In [71]:
import pandas as pd
from unidecode import unidecode
import warnings


In [73]:
# Ignorar advertencias en futuras versiones de pandas
warnings.simplefilter(action='ignore', category=FutureWarning)

#  limpiar y estandarizar nombres de columnas ---
def clean_col_names(df):
    """
    Convierte los nombres de las columnas a un formato estándar:
    minúsculas, sin acentos y con guiones bajos en lugar de espacios.
    """
    cols = df.columns
    new_cols = []
    for col in cols:
        new_col = unidecode(col.lower().replace(' ', '_').replace('.', ''))
        new_cols.append(new_col)
    df.columns = new_cols
    return df


In [85]:
# 1) Lee archivos
viajes = pd.read_csv('../data/raw/viajes_04.csv', encoding='latin-1', dtype=str)  
estaciones = pd.read_csv('../data/raw/estaciones_catalogo.csv', encoding='latin-1', dtype=str)
snapshots = pd.read_csv('../data/raw/snapshots_dia1.csv', encoding='latin-1', dtype=str)
# 2) guardar copias
viajes.to_csv('../data/interim/viajes_04.csv', index=False)
est.to_csv('../data/interim/estaciones_catalogo.csv', index=False)
snaps.to_csv('../data/interim/snapshots_dia1.csv', index=False)

In [93]:


viajes = pd.read_csv('../data/interim/viajes_04.csv', encoding='latin-1', dtype=str)  
viajes = clean_col_names(viajes)
# Combinar fecha y hora en una sola columna datetime
viajes['fecha_retiro'] = pd.to_datetime(viajes['fecha_retiro'] + ' ' + viajes['hora_retiro'], format='%d/%m/%Y %H:%M:%S', errors='coerce')
viajes['fecha_arribo'] = pd.to_datetime(viajes['fecha_arribo'] + ' ' + viajes['hora_arribo'], format='%d/%m/%Y %H:%M:%S', errors='coerce')
# borrar  columnas de hora originales, 
viajes = viajes.drop(columns=['hora_retiro', 'hora_arribo'])
# Renombrar columna de estación 
viajes = viajes.rename(columns={'ciclo_estacion_retiro': 'id_estacion_retiro', 'ciclo_estacionarribo': 'id_estacion_arribo'})

estaciones = pd.read_csv('../data/interim/estaciones_catalogo.csv', encoding='latin-1', dtype=str)  
estaciones = clean_col_names(estaciones)
# Renombrar columna de estación para unirla con los otros dataframes
estaciones = estaciones.rename(columns={'num_cicloe': 'id_estacion'})

snapshots = pd.read_csv('../data/interim/snapshots_dia1.csv', encoding='latin-1', dtype=str) 
snapshots = clean_col_names(snapshots)

# Leer las fechas como UTC
snapshots['run_ts_utc'] = pd.to_datetime(snapshots['run_ts'], errors='coerce', utc=True)
snapshots['last_reported_utc'] = pd.to_datetime(snapshots['last_reported'], errors='coerce', utc=True)

# Convertir las fechas de UTC a la zona horaria de CDMX
snapshots['run_ts'] = snapshots['run_ts_utc'].dt.tz_convert('America/Mexico_City')
snapshots['last_reported'] = snapshots['last_reported_utc'].dt.tz_convert('America/Mexico_City')

snapshots = snapshots.drop(columns=['run_ts_utc', 'last_reported_utc'])
snapshots = snapshots.rename(columns={'station_id': 'id_estacion'})

# Convertir columnas de fecha a datetime
snapshots['run_ts'] = pd.to_datetime(snapshots['run_ts'], errors='coerce')
snapshots['last_reported'] = pd.to_datetime(snapshots['last_reported'], errors='coerce')

# Renombrar columna de estación para consistencia
snapshots = snapshots.rename(columns={'station_id': 'id_estacion'})

print("\\n" + "="*50)
print("VERIFICACIÓN DE DATOS PROCESADOS")
print("="*50)

print("\\n--- Viajes ---")
print(viajes.info())
print(viajes.head())

print("\\n--- Estaciones ---")
print(estaciones.info())
print(estaciones.head())

print("\\n--- Snapshots ---")
print(snapshots.info())
print(snapshots.head())



VERIFICACIÓN DE DATOS PROCESADOS
\n--- Viajes ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1727987 entries, 0 to 1727986
Data columns (total 7 columns):
 #   Column              Dtype         
---  ------              -----         
 0   genero_usuario      object        
 1   edad_usuario        object        
 2   bici                object        
 3   id_estacion_retiro  object        
 4   fecha_retiro        datetime64[ns]
 5   id_estacion_arribo  object        
 6   fecha_arribo        datetime64[ns]
dtypes: datetime64[ns](2), object(5)
memory usage: 92.3+ MB
None
  genero_usuario edad_usuario     bici id_estacion_retiro        fecha_retiro  \
0              F           22  2586485            107-108 2025-03-31 23:34:46   
1              M           50  8152522                384 2025-03-31 23:43:51   
2              M           24  4219945                021 2025-03-31 23:42:36   
3              M           32  2286540            271-272 2025-03-31 23:57:16   
4       

In [89]:
# Verificar información básica de cada dataset
print("Información del dataset de viajes:")
print(viajes.info())
print("\nEstadísticas descriptivas de viajes:")
print(viajes.describe())

print("\nInformación del dataset de estaciones:")
print(estaciones.info())
print("\nEstadísticas descriptivas de estaciones:")
print(estaciones.describe())

print("\nInformación del dataset de snapshots:")
print(snapshots.info())
print("\nEstadísticas descriptivas de snapshots:")
print(snapshots.describe())


Información del dataset de viajes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1727987 entries, 0 to 1727986
Data columns (total 7 columns):
 #   Column              Dtype         
---  ------              -----         
 0   genero_usuario      object        
 1   edad_usuario        object        
 2   bici                object        
 3   id_estacion_retiro  object        
 4   fecha_retiro        datetime64[ns]
 5   id_estacion_arribo  object        
 6   fecha_arribo        datetime64[ns]
dtypes: datetime64[ns](2), object(5)
memory usage: 92.3+ MB
None

Estadísticas descriptivas de viajes:
                        fecha_retiro                   fecha_arribo
count                        1727987                        1727987
mean   2025-04-15 21:54:00.534546432  2025-04-15 22:11:31.716403712
min              2022-12-13 16:07:51            2025-04-01 00:00:12
25%              2025-04-08 06:39:31     2025-04-08 06:51:22.500000
50%              2025-04-15 13:05:12            20


Valores nulos en viajes:
Genero_Usuario             1
Edad_Usuario             119
Bici                       0
Ciclo_Estacion_Retiro      0
Fecha_Retiro               0
Hora_Retiro                0
Ciclo_EstacionArribo       0
Fecha_Arribo               0
Hora_Arribo                0
dtype: int64

Valores nulos en estaciones:
sistema       312
num_cicloe    312
calle_prin    312
calle_secu    312
colonia       312
alcaldia      312
latitud       312
longitud      312
sitio_de_e    312
estatus       312
dtype: int64

Valores nulos en snapshots:
run_ts                0
station_id            0
name                  0
address          159772
lat                   0
lon                   0
capacity              0
bikes_avail           0
docks_avail           0
is_installed          0
is_renting            0
is_returning          0
last_reported         0
pct_full           1693
dtype: int64


In [55]:
# Crear columna de duración del viaje
def calcular_duracion(row):
    inicio = datetime.datetime.combine(row['Fecha_Retiro'], row['Hora_Retiro'])
    fin = datetime.datetime.combine(row['Fecha_Arribo'], row['Hora_Arribo'])
    duracion = (fin - inicio).total_seconds() / 60  # duración en minutos
    return duracion

viajes['duracion_minutos'] = viajes.apply(calcular_duracion, axis=1)

# Filtrar datos para las 4 colonias de interés
# Por ejemplo, si las colonias son "Acacias", "Roma", "Condesa" y "Polanco"
colonias_interes = ["Hipodromo Condesa", "Condesa", "San Miguel Chapultepec", "Escandon", "Hipodromo"]  # Ajustar según las colonias mencionadas
estaciones_filtradas = estaciones[estaciones['colonia'].isin(colonias_interes)]

In [14]:
!jupyter nbconvert --to html "00_setup_basico.ipynb"

[NbConvertApp] Converting notebook 00_setup_basico.ipynb to html
[NbConvertApp] Writing 281258 bytes to 00_setup_basico.html
