# Consolidación de todos los años [2006-2024]

In [1]:
import pandas as pd
import os
import glob

# Ruta de la carpeta donde están los archivos sueltos
carpeta_procesados = os.path.join("..", "data", "processed")
ruta_salida = os.path.join(carpeta_procesados, "data_consolidado.csv")

# Lista para almacenar los dataframes
dataframes = []

# Buscar todos los archivos CSV directamente dentro de "processed" (ignorar subcarpetas)
archivos_csv = glob.glob(os.path.join(carpeta_procesados, "*.csv"))

# Iterar por cada archivo CSV encontrado
for ruta_archivo in archivos_csv:
    try:
        # Leer el archivo CSV
        print(f"Procesando archivo: {ruta_archivo}")
        df = pd.read_csv(ruta_archivo)

        # Si el archivo tiene datos, agregar al dataframe
        dataframes.append(df)
    except Exception as e:
        print(f"Error procesando el archivo {ruta_archivo}: {e}")

# Verificar si hay dataframes para consolidar
if dataframes:
    # Concatenar todos los dataframes
    df_consolidado = pd.concat(dataframes, ignore_index=True)

    # Guardar el archivo consolidado en un nuevo CSV
    df_consolidado.to_csv(ruta_salida, index=False)
    print(f"Archivo consolidado guardado en: {ruta_salida}")
else:
    print("No se encontraron archivos CSV para consolidar.")


Procesando archivo: ..\data\processed\data2006-2010.csv
Procesando archivo: ..\data\processed\data2011-2015.csv
Procesando archivo: ..\data\processed\data2016-2019.csv
Procesando archivo: ..\data\processed\data2020-2024.csv
Archivo consolidado guardado en: ..\data\processed\data_consolidado.csv


In [4]:
# listar nombres de las columnas de los datos consolidados
df_consolidado = pd.read_csv(ruta_salida)
df_consolidado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6614 entries, 0 to 6613
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   FECHA                  3651 non-null   object 
 1   KITENI                 3651 non-null   float64
 2   PS#1                   5153 non-null   float64
 3   PS#2                   5152 non-null   float64
 4   PS#3                   5153 non-null   float64
 5   PS#4                   5153 non-null   float64
 6   Num                    1461 non-null   float64
 7   Año                    2963 non-null   float64
 8   Mes                    2963 non-null   float64
 9   Día                    1461 non-null   float64
 10  Horas                  1461 non-null   object 
 11  Base Operativa Kiteni  1461 non-null   float64
 12  PS-1                   1461 non-null   float64
 13  PS-2                   1461 non-null   float64
 14  PS-3                   1461 non-null   float64
 15  PS-4

In [5]:
import pandas as pd
import os
import glob

# Ruta de la carpeta donde están los archivos sueltos
carpeta_procesados = os.path.join("..", "data", "processed")

# Lista de archivos CSV a procesar
archivos_csv = glob.glob(os.path.join(carpeta_procesados, "*.csv"))

# Crear un diccionario para almacenar columnas por archivo
columnas_por_archivo = {}

# Iterar por cada archivo CSV
for ruta_archivo in archivos_csv:
    try:
        # Leer el archivo CSV
        df = pd.read_csv(ruta_archivo)

        # Registrar las columnas del archivo
        columnas_por_archivo[os.path.basename(ruta_archivo)] = list(df.columns)
    except Exception as e:
        print(f"Error procesando el archivo {ruta_archivo}: {e}")

# Comparar las columnas del dataframe consolidado con las de cada archivo
columnas_en_consolidado = df_consolidado.columns
reporte_columnas = {}

for columna in columnas_en_consolidado:
    archivos_con_columna = []
    for archivo, columnas in columnas_por_archivo.items():
        if columna in columnas:
            archivos_con_columna.append(archivo)
    reporte_columnas[columna] = archivos_con_columna

# Mostrar el reporte de columnas y sus archivos de origen
for columna, archivos in reporte_columnas.items():
    print(f"Columna '{columna}' se encuentra en los archivos: {archivos}")


Columna 'FECHA' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data_consolidado.csv']
Columna 'KITENI' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data_consolidado.csv']
Columna 'PS#1' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data2020-2024.csv', 'data_consolidado.csv']
Columna 'PS#2' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data2020-2024.csv', 'data_consolidado.csv']
Columna 'PS#3' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data2020-2024.csv', 'data_consolidado.csv']
Columna 'PS#4' se encuentra en los archivos: ['data2006-2010.csv', 'data2011-2015.csv', 'data2020-2024.csv', 'data_consolidado.csv']
Columna 'Num' se encuentra en los archivos: ['data2016-2019.csv', 'data_consolidado.csv']
Columna 'Año' se encuentra en los archivos: ['data2016-2019.csv', 'data2020-2024.csv', 'data_consolidado.csv']
Columna 'Mes' se encuentra en los archiv