### Uniendo todos los meses en un solo dataframe por año

Dos carpetas:
- data pura (extraída)
- data limpia (después de muestrear)

Se hizo un subsampleo, porque originalmente eran millones de datos. 

In [114]:
import os
import pandas as pd
import glob
import random

In [109]:
def unir_csv_ecobici(directorio, patron, muestra_tamaño=1000, semilla=42):
    """
    Une una muestra de los archivos CSV de Ecobici en un DataFrame

    Args:
        directorio (str): Ruta al directorio donde se encuentran los archivos CSV.
        patron (str): Patrón para encontrar los archivos.
        muestra_tamaño (int): Número de filas a muestrear de cada archivo.
        semilla (int): Semilla para reproducibilidad del muestreo aleatorio.
        
    Returns:
        pandas.DataFrame: DataFrame combinado con las muestras de los datos
    """
    # Patrón para encontrar archivos que coincidan con el formato
    ruta_patron = os.path.join(directorio, patron)
    
    # Lista para almacenar los DataFrames individuales
    dfs = []
    # Establecer semilla para reproducibilidad
    random.seed(semilla)
    
    # Buscar todos los archivos que coincidan con el patrón
    archivos = glob.glob(ruta_patron)
    for archivo in archivos:
        try:
            # Extraer el nombre del archivo
            nombre_archivo = os.path.basename(archivo)
            print(f"Procesando archivo: {nombre_archivo}")
            
            # Leer el archivo CSV
            df = pd.read_csv(archivo)
            
            # Tomar una muestra si el DataFrame tiene más filas que muestra_tamaño
            if len(df) > muestra_tamaño:
                df_muestra = df.sample(n=muestra_tamaño, random_state=semilla)
                print(f"  Muestra tomada: {muestra_tamaño} de {len(df)} registros")
            else:
                df_muestra = df
                print(f"  Archivo completo (menos de {muestra_tamaño} registros): {len(df)} registros")
            
            # Agregar información del mes/año al DataFrame
            mes_año = nombre_archivo.split('.')[0]  # Asumiendo formato "YYYY-MM.csv"
            df_muestra['archivo_origen'] = mes_año
            dfs.append(df_muestra)
        except Exception as e:
            print(f"Error al procesar {nombre_archivo}: {str(e)}")
    
    if dfs:
        df_combinado = pd.concat(dfs, ignore_index=True)
        print(f"Total de registros después del muestreo: {len(df_combinado)}")
        return df_combinado
    else:
        print(f"No se encontraron archivos con el patrón: {ruta_patron}")
        return pd.DataFrame()  


if __name__ == "__main__":
    os.makedirs("./data_limpia", exist_ok=True) # ubicación/path actual
    
    MUESTRA_TAMAÑO = 10000 
    
    print("Procesando archivos de 2011...")
    df_ecobici_2011 = unir_csv_ecobici("data_pura", "2011-*.csv", muestra_tamaño=MUESTRA_TAMAÑO)
    
    print("\nProcesando archivos de 2012...")
    df_ecobici_2012 = unir_csv_ecobici("data_pura", "2012-*.csv", muestra_tamaño=MUESTRA_TAMAÑO)
    
    print("\nProcesando archivos de 2023...")
    df_ecobici_2023 = unir_csv_ecobici("data_pura", "2023-*.csv", muestra_tamaño=MUESTRA_TAMAÑO)
    
    print("\nProcesando archivos de 2024...")
    df_ecobici_2024 = unir_csv_ecobici("data_pura", "2024-*.csv", muestra_tamaño=MUESTRA_TAMAÑO)
    
    # Mostrar resumen
    print("\n--- RESUMEN ---")
    print(f"Total de registros en muestra 2011: {len(df_ecobici_2011)}")
    print(f"Total de registros en muestra 2012: {len(df_ecobici_2012)}")
    print(f"Total de registros en muestra 2023: {len(df_ecobici_2023)}")
    print(f"Total de registros en muestra 2024: {len(df_ecobici_2024)}")
    
    # Guardar los DataFrames muestreados
    if not df_ecobici_2011.empty:
        df_ecobici_2011.to_csv(os.path.join("./data_limpia", "ecobici_2011_muestra.csv"), index=False)
        print("Muestra de 2011 guardada correctamente")
    
    if not df_ecobici_2012.empty:
        df_ecobici_2012.to_csv(os.path.join("./data_limpia", "ecobici_2012_muestra.csv"), index=False)
        print("Muestra de 2012 guardada correctamente")
    
    if not df_ecobici_2023.empty:
        df_ecobici_2023.to_csv(os.path.join("./data_limpia", "ecobici_2023_muestra.csv"), index=False)
        print("Muestra de 2023 guardada correctamente")
    
    if not df_ecobici_2024.empty:
        df_ecobici_2024.to_csv(os.path.join("./data_limpia", "ecobici_2024_muestra.csv"), index=False)
        print("Muestra de 2024 guardada correctamente")

Procesando archivos de 2011...
Procesando archivo: 2011-01.csv
  Muestra tomada: 10000 de 194027 registros
Procesando archivo: 2011-02.csv
  Muestra tomada: 10000 de 213473 registros
Procesando archivo: 2011-03.csv
  Muestra tomada: 10000 de 263132 registros
Procesando archivo: 2011-04.csv


  df = pd.read_csv(archivo)


  Muestra tomada: 10000 de 226501 registros
Procesando archivo: 2011-05.csv
  Muestra tomada: 10000 de 238118 registros
Procesando archivo: 2011-06.csv
  Muestra tomada: 10000 de 220447 registros
Procesando archivo: 2011-07.csv
  Muestra tomada: 10000 de 188102 registros
Procesando archivo: 2011-08.csv
  Muestra tomada: 10000 de 212463 registros
Procesando archivo: 2011-09.csv
  Muestra tomada: 10000 de 207894 registros
Procesando archivo: 2011-10.csv
  Muestra tomada: 10000 de 200880 registros
Procesando archivo: 2011-11.csv
  Muestra tomada: 10000 de 198242 registros
Procesando archivo: 2011-12.csv
  Muestra tomada: 10000 de 179684 registros
Total de registros después del muestreo: 120000

Procesando archivos de 2012...
Procesando archivo: 2012-01.csv
  Muestra tomada: 10000 de 192272 registros
Procesando archivo: 2012-02.csv
  Muestra tomada: 10000 de 186300 registros
Procesando archivo: 2012-03.csv
  Muestra tomada: 10000 de 205314 registros
Procesando archivo: 2012-04.csv
  Muestr

df2023.drop(columns=["Fecha_Arribo"])
df2024.drop(columns=["Fecha_Arribo"])

In [117]:
df2011 = pd.read_csv("data_limpia/ecobici_2011_muestra.csv")
df2012 = pd.read_csv("data_limpia/ecobici_2012_muestra.csv")
df2023 = pd.read_csv("data_limpia/ecobici_2023_muestra.csv")
df2024 = pd.read_csv("data_limpia/ecobici_2024_muestra.csv")

### Mucha data!

In [94]:
df2011 = pd.read_csv("data_limpia/ecobici_2011_completo.csv")
df2012 = pd.read_csv("data_limpia/ecobici_2012_completo.csv")
df2024 = pd.read_csv("data_limpia/ecobici_2023_completo.csv")

  df2011 = pd.read_csv("data_limpia/ecobici_2011_completo.csv")
  df2024 = pd.read_csv("data_limpia/ecobici_2024_completo.csv")


MemoryError: Unable to allocate 600. MiB for an array with shape (8, 9834501) and data type object