In [10]:
import os
import pandas as pd



def procesar_archivo(nombre_archivo, filtro_regex, input_dir, output_dir):
    """
    Procesa un archivo CSV aplicando un filtro y guarda el resultado en otro archivo CSV.
    Si el archivo ya ha sido generado previamente, lo carga y muestra.

    Args:
        nombre_archivo (str): Nombre del archivo (sin extensión) que deseas procesar.
        filtro_regex (str): Expresión regular para filtrar filas.
        input_dir (str): Directorio de entrada donde se encuentra el archivo CSV.
        output_dir (str): Directorio donde se guardará el archivo filtrado.

    Returns:
        pd.DataFrame: DataFrame generado o cargado.
    """
    # Configuración para visualizar todas las columnas en la misma línea
    pd.set_option('display.expand_frame_repr', False)
    pd.set_option('display.max_columns', None)
    pd.set_option('display.max_rows', 10)
    pd.set_option('display.width', 1000)

    try:
        # Construir rutas completas
        file = os.path.join(input_dir, f"{nombre_archivo}.csv")
        output_path = os.path.join(output_dir, f"{nombre_archivo}_filtrado.csv")
        
        # Verificar si el archivo filtrado ya existe
        if os.path.exists(output_path):
            print(f"El archivo filtrado ya existe. Cargando desde: {output_path}")
            df_filtrado = pd.read_csv(output_path)
            print("DataFrame generado previamente:")
            print(df_filtrado)
            return df_filtrado
        
        # Leer el archivo CSV con encabezado en la línea 2 (header=1)
        df = pd.read_csv(file, delimiter=',', header=1, on_bad_lines='skip')

        # Reemplazar NaN por cadena vacía (si es necesario)
        df = df.fillna('')

        # Verificar si la columna 'IDENTIFICADOR' existe y aplicar el filtro
        if 'IDENTIFICADOR' not in df.columns:
            raise KeyError(f"La columna 'IDENTIFICADOR' no existe en el archivo {file}.")

        df_filtrado = df[df['IDENTIFICADOR'].str.contains(filtro_regex, case=False, na=False)]

        # Mostrar el DataFrame generado
        print("DataFrame generado:")
        print(df_filtrado)

        # Crear directorio de salida si no existe
        os.makedirs(output_dir, exist_ok=True)

        # Guardar el DataFrame filtrado
        df_filtrado.to_csv(output_path, index=False)
        print(f"Archivo filtrado guardado en: {output_path}")
        return df_filtrado

    except Exception as e:
        print(f"Error al procesar el archivo {nombre_archivo}: {e}")
    

In [11]:
#Ejemplo de uso

# Cargar y preparar el filtro
ref = pd.read_csv(filtro_csv)
filtro_regex = '|'.join(ref['PALABRAS'].dropna().tolist())

# Definir rutas
input_dir = '../data/data_WF'
output_dir = '../data/processed_wf'
filtro_csv = '../data/filter/filtro.csv'

nombre_archivo = 'Tabulados_Fza_Trabajo - Table 12'
df_resultado = procesar_archivo(nombre_archivo, filtro_regex, input_dir, output_dir)

El archivo filtrado ya existe. Cargando desde: ../data/processed_wf/Tabulados_Fza_Trabajo - Table 12_filtrado.csv
DataFrame generado previamente:
                                        IDENTIFICADOR 1ER SEMESTRE 2020 2DO SEMESTRE 2020 1ER SEMESTRE 2021 2DO SEMESTRE 2021 1ER SEMESTRE 2022 2DO SEMESTRE 2022 1ER SEMESTRE 2023
0                                    POBLACIÓN ACTIVA        15,352,447        14,654,357        14,709,394        14,316,792        14,610,572        14,443,669        14,190,834
1                                         ANALFABETOS           120,152           112,429           127,841           121,839           126,234           130,052            87,240
2                                           SIN NIVEL            50,445            46,074            45,145            45,476            52,828            40,038            22,174
3               PRIMARIA (A)  (PRIMERO A SEXTO GRADO)         2,461,851         2,325,231         2,379,925         2,339,732         

In [8]:
import os
import pandas as pd

def guardar_dataframe(dataframe, output_dir, nombre_archivo):
    """
    Guarda un DataFrame en un archivo CSV en la ruta especificada. 
    Si el archivo ya existe, lo carga y muestra en lugar de sobrescribirlo.

    Args:
        dataframe (pd.DataFrame): El DataFrame que se desea guardar.
        output_dir (str): Directorio donde se guardará el archivo.
        nombre_archivo (str): Nombre del archivo (sin extensión).

    Returns:
        pd.DataFrame: DataFrame cargado (si ya existía el archivo) o recién guardado.
    """
    try:
        # Construir la ruta completa del archivo
        output_path = os.path.join(output_dir, f"{nombre_archivo}.csv")
        
        # Verificar si el archivo ya existe
        if os.path.exists(output_path):
            print(f"El archivo ya existe. Cargando desde: {output_path}")
            df_existente = pd.read_csv(output_path)
            print("DataFrame existente:")
            print(df_existente)
            return df_existente
        
        # Crear el directorio si no existe
        os.makedirs(output_dir, exist_ok=True)
        
        # Guardar el DataFrame en un archivo CSV
        dataframe.to_csv(output_path, index=False)
        print(f"Archivo guardado en: {output_path}")
        return dataframe

    except Exception as e:
        print(f"Error al guardar el DataFrame: {e}")

In [None]:
#Ejemplo de uso

nombre_archivo = 'Tabulados_Fza_Trabajo - Table 12_filtrado'
df = nombre_archivo
df_resultado = guardar_dataframe(df, output_dir, nombre_archivo)

El archivo ya existe. Cargando desde: ../data/processed_wf/Tabulados_Fza_Trabajo - Table 12_filtrado.csv
DataFrame existente:
                                        IDENTIFICADOR 1ER SEMESTRE 2020 2DO SEMESTRE 2020 1ER SEMESTRE 2021 2DO SEMESTRE 2021 1ER SEMESTRE 2022 2DO SEMESTRE 2022 1ER SEMESTRE 2023
0                                    POBLACIÓN ACTIVA        15,352,447        14,654,357        14,709,394        14,316,792        14,610,572        14,443,669        14,190,834
1                                         ANALFABETOS           120,152           112,429           127,841           121,839           126,234           130,052            87,240
2                                           SIN NIVEL            50,445            46,074            45,145            45,476            52,828            40,038            22,174
3               PRIMARIA (A)  (PRIMERO A SEXTO GRADO)         2,461,851         2,325,231         2,379,925         2,339,732         2,271,236         2,