In [1]:
# Instalar la librería necesaria para que Pandas pueda leer archivos .xlsx
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl

   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openpyxl]
   -------------------- ------------------- 1/2 [openp

In [2]:
import pandas as pd
import numpy as np

# Definimos la ruta al nuevo archivo
ruta_excel = '../data/DataSet-Obras-Publicas-23-07-2025.xlsx'

# Cargamos el archivo usando pd.read_excel
# Nota: Los archivos Excel grandes pueden tardar más en cargar que los CSV.
try:
    df_raw = pd.read_excel(ruta_excel, engine='openpyxl')
    print("Archivo Excel cargado exitosamente.")
    
    print("\n--- Vista Previa de los Datos (Primeras 5 filas) ---")
    display(df_raw.head())

    print("\n--- Información General del DataFrame ---")
    df_raw.info(verbose=True, show_counts=True)

except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta: {ruta_excel}")

Archivo Excel cargado exitosamente.

--- Vista Previa de los Datos (Primeras 5 filas) ---


Unnamed: 0,codigo Entidad,Entidad Pública,Código INFOBRAS,Nombre de obra,Modalidad de ejecución de la obra,¿Corresponde a un saldo de Obra?,Código INFOBRAS de obra inicial,Naturaleza de la obra,Tipo de obra - Clasificador Nivel 1,Tipo de obra - Clasificador Nivel 2,...,¿Tiene recepción total?,Fecha de recepción,¿Tiene liquidación de obra?,Fecha de aprobación de liquidación de obra,Costo de la obra en soles,¿Corresponde la transferencia a otra entidad?,Fecha de transferencia,Tipo de entidad que recepciona la obra,Año de primer devengado,Monto Total devengado del proyecto
0,4338.0,HOSPITAL CHANCAY Y SERVICIOS BÁSICOS DE SALUD ...,4,IMPLEMENTACIÓN DE LA CAPACIDAD RESOLUTIVA DE L...,Administración directa,Si,,Mejoramiento,Salud,Atención Médica,...,,,,,,,,,,
1,608.0,PROYECTO ESPECIAL CHAVIMOCHIC,6,CONSTRUCCION DE CANALES INTEGRADORES VALLE VIRU,Contrata,Si,,Construcción/Creación,Agricultura,Riego,...,Si,31/03/2012,Si,29/10/2014,37740948 23,,,,,
2,1317.0,MUNICIPALIDAD DISTRITAL DE YANAHUARA,7,CULMINACION DE LA PAVIMENTACION DE LA AVENIDA ...,Contrata,Si,,Construcción/Creación,Transportes Y Comunicaciones,Transporte Urbano,...,Si,31/03/2012,,,,,,,,
3,1317.0,MUNICIPALIDAD DISTRITAL DE YANAHUARA,8,ALCANTARILLADO PLUVIAL DE LA ZONA TRADICIONAL ...,Contrata,Si,,Mejoramiento,Vivienda Construcción Y Saneamiento,Saneamiento Urbano Y Rural,...,Si,31/08/2012,,,,,,,,
4,608.0,PROYECTO ESPECIAL CHAVIMOCHIC,9,AMPLIACION DEL SISTEMA DE DISTRIBUCION SECUNDA...,Contrata,Si,,Ampliación,Energía Y Minas,Energía Eléctrica,...,Si,31/03/2012,Si,31/05/2012,229430 21,,,,,



--- Información General del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180941 entries, 0 to 180940
Data columns (total 113 columns):
 #    Column                                            Non-Null Count   Dtype  
---   ------                                            --------------   -----  
 0    codigo Entidad                                    180930 non-null  float64
 1    Entidad Pública                                   180930 non-null  object 
 2    Código INFOBRAS                                   180941 non-null  int64  
 3    Nombre de obra                                    180941 non-null  object 
 4    Modalidad de ejecución de la obra                 180941 non-null  object 
 5    ¿Corresponde a un saldo de Obra?                  179808 non-null  object 
 6    Código INFOBRAS de obra inicial                   1133 non-null    float64
 7    Naturaleza de la obra                             180925 non-null  object 
 8    Tipo de obra - Clasificador N

In [4]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y lo limpia paso a paso.
    """
    # PASO FUNDAMENTAL: Siempre trabajar sobre una copia.
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada. Se ha creado una copia de los datos.")

    # --- PASITO 1: BLINDAJE DE DATOS DE TEXTO ---
    print("  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    print(f"     - Se han limpiado los espacios de {len(cols_texto)} columnas de texto.")

    # --- PASITO 2: ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS ---
    print("  -> Pasito 2: Estandarizando nombres de columnas a snake_case...")
    df.columns = (df.columns.str.lower()
                  .str.replace(' ', '_', regex=False)
                  .str.replace('¿', '', regex=False)
                  .str.replace('?', '', regex=False)
                  .str.replace('(', '', regex=False)
                  .str.replace(')', '', regex=False)
                  .str.replace(':', '', regex=False)
                  .str.replace('.', '', regex=False)
                  .str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
    print("     - Nombres de columnas estandarizados.")

    # --- PASITO 3: REPARACIÓN ESTRUCTURAL (RENOMBRADO) ---
    print("  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...")
    rename_dict = {
        'ruc1': 'ruc_supervisor',
        'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor',
        'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente',
        'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente',
        'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente',
        'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)
    print("     - Columnas duplicadas han sido renombradas para mayor claridad.")

    # --- PASITO 4: PODA DE COLUMNAS INÚTILES ---
    print("  -> Pasito 4: Podando columnas inútiles (casi vacías)...")
    cols_a_podar = [
        'fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica',
        'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn'
    ]
    df = df.drop(columns=cols_a_podar, errors='ignore')
    print(f"     - Se han podado {len(cols_a_podar)} columnas no informativas.")
    
    # El final de nuestra función por ahora
    print("\nLimpieza inicial completada.")
    return df


In [5]:
# Llamamos a nuestra función de limpieza completa y guardamos el resultado
df_limpio = clean_infobras_data(df_raw)

# Verificamos el resultado final
print("\n--- Vista Previa del DataFrame Limpio ---")
display(df_limpio.head())

print("\n--- Columnas del DataFrame Limpio ---")
print(df_limpio.columns.tolist())

Función de limpieza iniciada. Se ha creado una copia de los datos.
  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...
     - Se han limpiado los espacios de 85 columnas de texto.
  -> Pasito 2: Estandarizando nombres de columnas a snake_case...
     - Nombres de columnas estandarizados.
  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...
     - Columnas duplicadas han sido renombradas para mayor claridad.
  -> Pasito 4: Podando columnas inútiles (casi vacías)...
     - Se han podado 6 columnas no informativas.

Limpieza inicial completada.

--- Vista Previa del DataFrame Limpio ---


Unnamed: 0,codigo_entidad,entidad_publica,codigo_infobras,nombre_de_obra,modalidad_de_ejecucion_de_la_obra,corresponde_a_un_saldo_de_obra,codigo_infobras_de_obra_inicial,naturaleza_de_la_obra,tipo_de_obra_-_clasificador_nivel_1,tipo_de_obra_-_clasificador_nivel_2,...,tiene_recepcion_total,fecha_de_recepcion,tiene_liquidacion_de_obra,fecha_de_aprobacion_de_liquidacion_de_obra,costo_de_la_obra_en_soles,corresponde_la_transferencia__a_otra_entidad,fecha_de_transferencia,tipo_de_entidad_que_recepciona_la_obra,ano_de_primer_devengado,monto_total_devengado_del_proyecto
0,4338.0,HOSPITAL CHANCAY Y SERVICIOS BÁSICOS DE SALUD ...,4,IMPLEMENTACIÓN DE LA CAPACIDAD RESOLUTIVA DE L...,Administración directa,Si,,Mejoramiento,Salud,Atención Médica,...,,,,,,,,,,
1,608.0,PROYECTO ESPECIAL CHAVIMOCHIC,6,CONSTRUCCION DE CANALES INTEGRADORES VALLE VIRU,Contrata,Si,,Construcción/Creación,Agricultura,Riego,...,Si,31/03/2012,Si,29/10/2014,37740948 23,,,,,
2,1317.0,MUNICIPALIDAD DISTRITAL DE YANAHUARA,7,CULMINACION DE LA PAVIMENTACION DE LA AVENIDA ...,Contrata,Si,,Construcción/Creación,Transportes Y Comunicaciones,Transporte Urbano,...,Si,31/03/2012,,,,,,,,
3,1317.0,MUNICIPALIDAD DISTRITAL DE YANAHUARA,8,ALCANTARILLADO PLUVIAL DE LA ZONA TRADICIONAL ...,Contrata,Si,,Mejoramiento,Vivienda Construcción Y Saneamiento,Saneamiento Urbano Y Rural,...,Si,31/08/2012,,,,,,,,
4,608.0,PROYECTO ESPECIAL CHAVIMOCHIC,9,AMPLIACION DEL SISTEMA DE DISTRIBUCION SECUNDA...,Contrata,Si,,Ampliación,Energía Y Minas,Energía Eléctrica,...,Si,31/03/2012,Si,31/05/2012,229430 21,,,,,



--- Columnas del DataFrame Limpio ---
['codigo_entidad', 'entidad_publica', 'codigo_infobras', 'nombre_de_obra', 'modalidad_de_ejecucion_de_la_obra', 'corresponde_a_un_saldo_de_obra', 'codigo_infobras_de_obra_inicial', 'naturaleza_de_la_obra', 'tipo_de_obra_-_clasificador_nivel_1', 'tipo_de_obra_-_clasificador_nivel_2', 'tipo_de_obra_-_clasificador_nivel_3', 'estado_de_ejecucion', 'marca_reconstruccion_con_cambios_si/no', 'marca_reactivacion_economicas_si/no', 'n_informes_de_monitores_ciudadanos', 'n_denuncias_vinculadas', 'n_informes_de_control', 'n_comentarios_ciudadanos', 'es_una_obra_de_caracter_reservado', 'nivel_de_gobierno', 'sector_de_la_entidad', 'codigo_unico_de_inversion', 'codigo_snip', 'nombre_proyecto', 'estado_del_proyecto', 'tipo_formato', 'monto_viable/aprobado', 'monto_viable_actualizado', 'fecha_de_actualizacion', 'n_obras_relacionadas_al_proyecto', 'departamento', 'provincia', 'distrito', 'direccion_o_informacion_de_referencia', 'tipo_de_ubicacion_exacta/referencia

In [7]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y lo limpia paso a paso.
    """
    # PASO FUNDAMENTAL: Siempre trabajar sobre una copia.
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada. Se ha creado una copia de los datos.")

    # --- PASITO 1: BLINDAJE DE DATOS DE TEXTO ---
    print("  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    print(f"     - Se han limpiado los espacios de {len(cols_texto)} columnas de texto.")

    # --- PASITO 2: ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS ---
    print("  -> Pasito 2: Estandarizando nombres de columnas a snake_case...")
    df.columns = (df.columns.str.lower()
                  .str.replace(' ', '_', regex=False)
                  .str.replace('¿', '', regex=False)
                  .str.replace('?', '', regex=False)
                  .str.replace('(', '', regex=False)
                  .str.replace(')', '', regex=False)
                  .str.replace(':', '', regex=False)
                  .str.replace('.', '', regex=False)
                  .str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
    print("     - Nombres de columnas estandarizados.")

    # --- PASITO 3: REPARACIÓN ESTRUCTURAL (RENOMBRADO) ---
    print("  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...")
    rename_dict = {
        'ruc1': 'ruc_supervisor',
        'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor',
        'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente',
        'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente',
        'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente',
        'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)
    print("     - Columnas duplicadas han sido renombradas para mayor claridad.")

    # --- PASITO 4: PODA DE COLUMNAS INÚTILES ---
    print("  -> Pasito 4: Podando columnas inútiles (casi vacías)...")
    cols_a_podar = [
        'fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica',
        'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn'
    ]
    df = df.drop(columns=cols_a_podar, errors='ignore')
    print(f"     - Se han podado {len(cols_a_podar)} columnas no informativas.")
    
    # --- PASITO 5: TRANSFORMACIÓN DE FECHAS ---
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = [
        'fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 
        'fecha_inicio_supervision', 'fecha_fin_supervision', 
        'fecha_inicio_labores_residente', 'fecha_fin_labores_residente',
        'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra',
        'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance',
        'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra',
        'fecha_de_finalizacion_real', 'fecha_de_recepcion',
        'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia'
    ]
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
    print(f"     - Se han convertido {len(columnas_de_fecha)} columnas a formato de fecha.")
    
    # --- PASITO 6: TRANSFORMACIÓN DE NÚMEROS ---
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = [
        'monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 
        'monto_aprobado_en_soles', 'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor',
        'porcentaje_de_terreno_entregado', 'avance_fisico_programado_acumulado_%',
        'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado',
        'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 
        'monto_de_ejecucion_financiera_de_la_obra', 'monto_de_adicionales_de_obra_en_soles',
        'monto_de_adicionales_de_supervision_en_soles', 'monto_de_deductivos_de_obra_en_soles',
        'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto'
    ]
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')
    print(f"     - Se han decontaminado y convertido {len(columnas_numericas_contaminadas)} columnas a formato numérico.")
    
    # El final de nuestra función por ahora
    print("\nLimpieza de estructura y tipos completada.")
    return df

In [8]:
# Llamamos a nuestra función de limpieza completa y guardamos el resultado
df_limpio = clean_infobras_data(df_raw)

# Verificamos el resultado final, especialmente los tipos de datos
print("\n--- Información del DataFrame Tras Limpieza de Tipos ---")
df_limpio.info()

Función de limpieza iniciada. Se ha creado una copia de los datos.
  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...
     - Se han limpiado los espacios de 85 columnas de texto.
  -> Pasito 2: Estandarizando nombres de columnas a snake_case...
     - Nombres de columnas estandarizados.
  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...
     - Columnas duplicadas han sido renombradas para mayor claridad.
  -> Pasito 4: Podando columnas inútiles (casi vacías)...
     - Se han podado 6 columnas no informativas.
  -> Pasito 5: Transformando columnas de fecha...


  df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')


     - Se han convertido 16 columnas a formato de fecha.
  -> Pasito 6: Decontaminando y transformando columnas numéricas...
     - Se han decontaminado y convertido 18 columnas a formato numérico.

Limpieza de estructura y tipos completada.

--- Información del DataFrame Tras Limpieza de Tipos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180941 entries, 0 to 180940
Columns: 108 entries, codigo_entidad to monto_total_devengado_del_proyecto
dtypes: datetime64[ns](16), float64(29), int64(16), object(47)
memory usage: 149.1+ MB


In [10]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y ejecuta una pipeline 
    completa de limpieza y preprocesamiento de datos.
    """
    # PASO FUNDAMENTAL: Trabajar sobre una copia.
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada. Se ha creado una copia de los datos.")

    # --- PASITO 1: BLINDAJE DE DATOS DE TEXTO ---
    print("  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    print(f"     - Se han limpiado los espacios de {len(cols_texto)} columnas de texto.")

    # --- PASITO 2: ESTANDARIZACIÓN DE NOMBRES DE COLUMNAS ---
    print("  -> Pasito 2: Estandarizando nombres de columnas a snake_case...")
    df.columns = (df.columns.str.lower()
                  .str.replace(' ', '_', regex=False).str.replace('¿', '', regex=False)
                  .str.replace('?', '', regex=False).str.replace('(', '', regex=False)
                  .str.replace(')', '', regex=False).str.replace(':', '', regex=False)
                  .str.replace('.', '', regex=False).str.normalize('NFKD')
                  .str.encode('ascii', errors='ignore').str.decode('utf-8'))
    print("     - Nombres de columnas estandarizados.")

    # --- PASITO 3: REPARACIÓN ESTRUCTURAL (RENOMBRADO) ---
    print("  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...")
    rename_dict = {
        'ruc1': 'ruc_supervisor', 'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor', 'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente', 'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente', 'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente', 'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)
    print("     - Columnas duplicadas han sido renombradas.")

    # --- PASITO 4: PODA DE COLUMNAS INÚTILES ---
    print("  -> Pasito 4: Podando columnas inútiles (casi vacías)...")
    cols_a_podar = [
        'fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica',
        'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn'
    ]
    df = df.drop(columns=cols_a_podar, errors='ignore')
    print(f"     - Se han podado {len(cols_a_podar)} columnas no informativas.")
    
    # --- PASITO 5: TRANSFORMACIÓN DE FECHAS ---
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = [
        'fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 'fecha_inicio_supervision', 'fecha_fin_supervision',
        'fecha_inicio_labores_residente', 'fecha_fin_labores_residente', 'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra',
        'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance', 'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra',
        'fecha_de_finalizacion_real', 'fecha_de_recepcion', 'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia'
    ]
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
    print(f"     - Se han convertido {len(columnas_de_fecha)} columnas a formato de fecha.")
    
    # --- PASITO 6: TRANSFORMACIÓN DE NÚMEROS ---
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = [
        'monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 'monto_aprobado_en_soles',
        'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor', 'porcentaje_de_terreno_entregado',
        'avance_fisico_programado_acumulado_%', 'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado',
        'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 'monto_de_ejecucion_financiera_de_la_obra',
        'monto_de_adicionales_de_obra_en_soles', 'monto_de_adicionales_de_supervision_en_soles',
        'monto_de_deductivos_de_obra_en_soles', 'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto'
    ]
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')
    print(f"     - Se han decontaminado y convertido {len(columnas_numericas_contaminadas)} columnas a formato numérico.")

    # --- PASITO 7: MANEJO ESTRATÉGICO DE NULOS ---
    print("  -> Pasito 7: Manejando valores nulos estratégicamente...")
    df['causal_de_paralizacion'] = df['causal_de_paralizacion'].fillna('No Paralizada')
    df['corresponde_a_un_saldo_de_obra'] = df['corresponde_a_un_saldo_de_obra'].fillna('No')
    print("     - Nulos con significado implícito han sido rellenados.")
    
    columnas_categoricas_clave = ['departamento', 'provincia', 'distrito', 'modalidad_de_ejecucion_de_la_obra', 'estado_de_ejecucion']
    for col in columnas_categoricas_clave:
        if col in df.columns:
            df[col] = df[col].fillna('Desconocido')
    print("     - Nulos en columnas categóricas clave rellenados con 'Desconocido'.")
    
    columnas_numericas = df.select_dtypes(include=np.number).columns.tolist()
    df[columnas_numericas] = df[columnas_numericas].fillna(0)
    print(f"     - Nulos en {len(columnas_numericas)} columnas numéricas rellenados con 0.")

    # El final de nuestra función
    print("\n¡PROCESO DE LIMPIEZA COMPLETADO!")
    return df

In [11]:
# Llamamos a nuestra función de limpieza completa y final
df_limpio_final = clean_infobras_data(df_raw)

# Verificación definitiva de nulos
nulos_restantes = df_limpio_final.isna().sum().sum()

print(f"\n--- Verificación Final de Nulos ---")
print(f"Número total de valores nulos restantes en el DataFrame: {nulos_restantes}")

if nulos_restantes == 0:
    print("¡FELICIDADES! El DataFrame está completamente limpio de valores nulos.")
else:
    print("Aún quedan algunos nulos. Revisa las columnas de tipo 'datetime' o las que no se rellenaron.")

# Exportamos el resultado final a un nuevo archivo para no confundirlo con los anteriores.
df_limpio_final.to_csv('../data/infobras_limpio_final.csv', index=False)
print("\nArchivo 'infobras_limpio_final.csv' exportado exitosamente.")

Función de limpieza iniciada. Se ha creado una copia de los datos.
  -> Pasito 1: Blindando columnas de texto (eliminando espacios)...
     - Se han limpiado los espacios de 85 columnas de texto.
  -> Pasito 2: Estandarizando nombres de columnas a snake_case...
     - Nombres de columnas estandarizados.
  -> Pasito 3: Reparando estructura (renombrando columnas duplicadas)...
     - Columnas duplicadas han sido renombradas.
  -> Pasito 4: Podando columnas inútiles (casi vacías)...
     - Se han podado 6 columnas no informativas.
  -> Pasito 5: Transformando columnas de fecha...


  df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')


     - Se han convertido 16 columnas a formato de fecha.
  -> Pasito 6: Decontaminando y transformando columnas numéricas...
     - Se han decontaminado y convertido 18 columnas a formato numérico.
  -> Pasito 7: Manejando valores nulos estratégicamente...
     - Nulos con significado implícito han sido rellenados.
     - Nulos en columnas categóricas clave rellenados con 'Desconocido'.
     - Nulos en 45 columnas numéricas rellenados con 0.

¡PROCESO DE LIMPIEZA COMPLETADO!

--- Verificación Final de Nulos ---
Número total de valores nulos restantes en el DataFrame: 3563693
Aún quedan algunos nulos. Revisa las columnas de tipo 'datetime' o las que no se rellenaron.

Archivo 'infobras_limpio_final.csv' exportado exitosamente.


In [14]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y ejecuta una pipeline 
    completa de limpieza y preprocesamiento de datos. VERSIÓN 2.1
    """
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada. Se ha creado una copia de los datos.")

    # Pasitos 1-6 (sin cambios)
    print("  -> Pasito 1: Blindando columnas de texto...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    
    print("  -> Pasito 2: Estandarizando nombres de columnas...")
    df.columns = (df.columns.str.lower().str.replace(' ', '_', regex=False).str.replace('¿', '', regex=False).str.replace('?', '', regex=False).str.replace('(', '', regex=False).str.replace(')', '', regex=False).str.replace(':', '', regex=False).str.replace('.', '', regex=False).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

    print("  -> Pasito 3: Reparando estructura...")
    rename_dict = {
        'ruc1': 'ruc_supervisor', 'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor', 'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente', 'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente', 'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente', 'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)

    print("  -> Pasito 4: Podando columnas inútiles...")
    cols_a_podar = ['fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica', 'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn']
    df = df.drop(columns=cols_a_podar, errors='ignore')
    
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = ['fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 'fecha_inicio_supervision', 'fecha_fin_supervision', 'fecha_inicio_labores_residente', 'fecha_fin_labores_residente', 'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra', 'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance', 'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra', 'fecha_de_finalizacion_real', 'fecha_de_recepcion', 'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia']
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
    
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = ['monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 'monto_aprobado_en_soles', 'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor', 'porcentaje_de_terreno_entregado', 'avance_fisico_programado_acumulado_%', 'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado', 'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 'monto_de_ejecucion_financiera_de_la_obra', 'monto_de_adicionales_de_obra_en_soles', 'monto_de_adicionales_de_supervision_en_soles', 'monto_de_deductivos_de_obra_en_soles', 'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto']
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')

    # --- PASITO 7: MANEJO ESTRATÉGICO DE NULOS (VERSIÓN CORREGIDA) ---
    print("  -> Pasito 7: Manejando valores nulos estratégicamente...")
    df['causal_de_paralizacion'] = df['causal_de_paralizacion'].fillna('No Paralizada')
    df['corresponde_a_un_saldo_de_obra'] = df['corresponde_a_un_saldo_de_obra'].fillna('No')
    print("     - Nulos con significado implícito han sido rellenados.")
    
    columnas_categoricas_clave = ['departamento', 'provincia', 'distrito', 'modalidad_de_ejecucion_de_la_obra', 'estado_de_ejecucion']
    for col in columnas_categoricas_clave:
        if col in df.columns:
            df[col] = df[col].fillna('Desconocido')
    print("     - Nulos en columnas categóricas clave rellenados con 'Desconocido'.")
    
    columnas_numericas = df.select_dtypes(include=np.number).columns.tolist()
    df[columnas_numericas] = df[columnas_numericas].fillna(0)
    print(f"     - Nulos en {len(columnas_numericas)} columnas numéricas rellenados con 0.")
    
    # --- LA CORRECCIÓN ESTÁ AQUÍ: USAMOS UN BUCLE FOR ---
    # 7.D: Imputamos con "No Aplica" los nulos en las columnas de texto restantes, una por una.
    columnas_object = df.select_dtypes(include=['object']).columns.tolist()
    for col in columnas_object:
        df[col] = df[col].fillna('No Aplica')
    print(f"     - Nulos en {len(columnas_object)} columnas de texto restantes rellenados con 'No Aplica'.")

    print("\n¡PROCESO DE LIMPIEZA COMPLETADO!")
    return df

In [15]:
df_limpio_final = clean_infobras_data(df_raw)

print("\n--- Verificación Final de Nulos ---")
nulos_restantes = df_limpio_final.isna().sum()
print(f"Número total de nulos restantes: {nulos_restantes.sum()}")
print("\nColumnas que todavía contienen nulos (deberían ser solo fechas):")
print(nulos_restantes[nulos_restantes > 0])

Función de limpieza iniciada. Se ha creado una copia de los datos.
  -> Pasito 1: Blindando columnas de texto...
  -> Pasito 2: Estandarizando nombres de columnas...
  -> Pasito 3: Reparando estructura...
  -> Pasito 4: Podando columnas inútiles...
  -> Pasito 5: Transformando columnas de fecha...


  df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')


  -> Pasito 6: Decontaminando y transformando columnas numéricas...
  -> Pasito 7: Manejando valores nulos estratégicamente...
     - Nulos con significado implícito han sido rellenados.
     - Nulos en columnas categóricas clave rellenados con 'Desconocido'.
     - Nulos en 45 columnas numéricas rellenados con 0.
     - Nulos en 47 columnas de texto restantes rellenados con 'No Aplica'.

¡PROCESO DE LIMPIEZA COMPLETADO!

--- Verificación Final de Nulos ---
Número total de nulos restantes: 1336948

Columnas que todavía contienen nulos (deberían ser solo fechas):
fecha_de_actualizacion                        109332
fecha_de_aprobacion_del_expediente             24550
fecha_inicio_supervision                       51136
fecha_fin_supervision                          70393
fecha_inicio_labores_residente                 44246
fecha_fin_labores_residente                    65163
fecha_de_inicio_de_obra                        41525
fecha_finalizacion_programada_de_obra          47983
fecha_d

In [16]:
# Exportamos el resultado final a un nuevo archivo CSV
df_limpio_final.to_csv('../data/infobras_limpio_final_v2.csv', index=False)
print("\nArchivo 'infobras_limpio_final_v2.csv' (versión final y correcta) exportado exitosamente.")


Archivo 'infobras_limpio_final_v2.csv' (versión final y correcta) exportado exitosamente.


In [17]:
# Seleccionamos todas las columnas que NO son de fecha y contamos sus nulos
columnas_no_fecha = df_limpio_final.select_dtypes(exclude=['datetime64[ns]']).columns
nulos_no_fecha = df_limpio_final[columnas_no_fecha].isna().sum().sum()

print(f"Auditoría de Nulos:")
print(f"Total de valores nulos encontrados en columnas no-fecha: {nulos_no_fecha}")

Auditoría de Nulos:
Total de valores nulos encontrados en columnas no-fecha: 0


In [18]:
print("\nAuditoría de Tipos de Datos:")
print("Tipos de datos de columnas financieras y de plazos clave:")

columnas_clave = [
    'costo_de_la_obra_en_soles', 
    'monto_del_contrato__en_soles',
    'fecha_de_inicio_de_obra',
    'fecha_de_finalizacion_real',
    'plazo_de_ejecucion_en_dias',
    'modalidad_de_ejecucion_de_la_obra'
]

print(df_limpio_final[columnas_clave].dtypes)


Auditoría de Tipos de Datos:
Tipos de datos de columnas financieras y de plazos clave:
costo_de_la_obra_en_soles                   float64
monto_del_contrato__en_soles                float64
fecha_de_inicio_de_obra              datetime64[ns]
fecha_de_finalizacion_real           datetime64[ns]
plazo_de_ejecucion_en_dias                  float64
modalidad_de_ejecucion_de_la_obra            object
dtype: object


In [19]:
print("\nAuditoría de Coherencia Temporal:")

# Filtramos las filas donde la fecha de fin es anterior a la de inicio
inconsistencias_temporales = df_limpio_final[
    df_limpio_final['fecha_de_finalizacion_real'] < df_limpio_final['fecha_de_inicio_de_obra']
]

num_inconsistencias = len(inconsistencias_temporales)
print(f"Número de obras que terminan antes de empezar: {num_inconsistencias}")

if num_inconsistencias > 0:
    print("Hallazgo: Se encontraron las siguientes inconsistencias:")
    display(inconsistencias_temporales[['codigo_infobras', 'fecha_de_inicio_de_obra', 'fecha_de_finalizacion_real']])


Auditoría de Coherencia Temporal:
Número de obras que terminan antes de empezar: 898
Hallazgo: Se encontraron las siguientes inconsistencias:


Unnamed: 0,codigo_infobras,fecha_de_inicio_de_obra,fecha_de_finalizacion_real
59,74,2012-12-21,2012-01-31
85,100,2012-12-10,2012-03-08
182,208,2012-05-01,2012-03-31
184,210,2012-11-10,2012-02-25
203,236,2012-12-22,2012-03-13
...,...,...,...
157701,514372,2024-05-12,2024-04-30
159383,516103,2025-04-23,2024-08-20
164766,521672,2025-05-05,2025-03-18
166322,523257,2025-05-01,2025-01-17


In [24]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y ejecuta una pipeline 
    completa de limpieza y preprocesamiento de datos. VERSIÓN 2.2 con auditoría de fechas.
    """
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada...")

    # Pasitos 1-4 (sin cambios)
    print("  -> Pasito 1: Blindando columnas de texto...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    
    print("  -> Pasito 2: Estandarizando nombres de columnas...")
    df.columns = (df.columns.str.lower().str.replace(' ', '_', regex=False).str.replace('¿', '', regex=False).str.replace('?', '', regex=False).str.replace('(', '', regex=False).str.replace(')', '', regex=False).str.replace(':', '', regex=False).str.replace('.', '', regex=False).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

    print("  -> Pasito 3: Reparando estructura...")
    rename_dict = {
        'ruc1': 'ruc_supervisor', 'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor', 'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente', 'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente', 'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente', 'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)

    print("  -> Pasito 4: Podando columnas inútiles...")
    cols_a_podar = ['fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica', 'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn']
    df = df.drop(columns=cols_a_podar, errors='ignore')
    
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = ['fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 'fecha_inicio_supervision', 'fecha_fin_supervision', 'fecha_inicio_labores_residente', 'fecha_fin_labores_residente', 'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra', 'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance', 'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra', 'fecha_de_finalizacion_real', 'fecha_de_recepcion', 'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia']
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
            
    # --- NUEVO PASO DE AUDITORÍA INTEGRADA ---
    print("  -> Pasito 5.5: Auditando y corrigiendo coherencia de fechas...")
    
    # Creamos una máscara booleana para las filas inconsistentes.
    # Es importante manejar los NaT (fechas nulas) para que no den error en la comparación.
    mascara_inconsistente = (df['fecha_de_finalizacion_real'].notna()) & \
                            (df['fecha_de_inicio_de_obra'].notna()) & \
                            (df['fecha_de_finalizacion_real'] < df['fecha_de_inicio_de_obra'])
    
    inconsistencias_antes = mascara_inconsistente.sum()

    if inconsistencias_antes > 0:
        # El ~ invierte la máscara, seleccionando solo las filas buenas.
        df = df[~mascara_inconsistente].copy()
        print(f"     - Se han eliminado {inconsistencias_antes} filas con fechas incoherentes.")
    else:
        print("     - No se encontraron inconsistencias de fechas.")
        
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = ['monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 'monto_aprobado_en_soles', 'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor', 'porcentaje_de_terreno_entregado', 'avance_fisico_programado_acumulado_%', 'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado', 'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 'monto_de_ejecucion_financiera_de_la_obra', 'monto_de_adicionales_de_obra_en_soles', 'monto_de_adicionales_de_supervision_en_soles', 'monto_de_deductivos_de_obra_en_soles', 'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto']
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')

    print("  -> Pasito 7: Manejando valores nulos estratégicamente...")
    df['causal_de_paralizacion'] = df['causal_de_paralizacion'].fillna('No Paralizada')
    df['corresponde_a_un_saldo_de_obra'] = df['corresponde_a_un_saldo_de_obra'].fillna('No')
    
    columnas_categoricas_clave = ['departamento', 'provincia', 'distrito', 'modalidad_de_ejecucion_de_la_obra', 'estado_de_ejecucion']
    for col in columnas_categoricas_clave:
        if col in df.columns:
            df[col] = df[col].fillna('Desconocido')
    
    columnas_numericas = df.select_dtypes(include=np.number).columns.tolist()
    df[columnas_numericas] = df[columnas_numericas].fillna(0)
    
    columnas_object = df.select_dtypes(include=['object']).columns.tolist()
    for col in columnas_object:
        df[col] = df[col].fillna('No Aplica')

    print("\n¡PROCESO DE LIMPIEZA Y AUDITORÍA COMPLETADO!")
    return df

In [25]:
# --- EJECUCIÓN DE LA PIPELINE COMPLETA Y CERTIFICADA ---

# Asegurémonos de que df_raw existe en memoria.
try:
    df_raw
except NameError:
    print("df_raw no encontrado, cargando de nuevo el archivo Excel...")
    ruta_excel = '../data/DataSet-Obras-Publicas-23-07-2025.xlsx'
    df_raw = pd.read_excel(ruta_excel, engine='openpyxl')

# Llamamos a nuestra función de limpieza y auditoría completa (la v2.2)
df_limpio_final = clean_infobras_data(df_raw)

# --- AUDITORÍA FINAL PARA VERIFICACIÓN ---
print("\n--- INICIANDO AUDITORÍA FINAL ---")

# Auditoría de Coherencia Temporal
num_inconsistencias = len(df_limpio_final[df_limpio_final['fecha_de_finalizacion_real'] < df_limpio_final['fecha_de_inicio_de_obra']])
print(f"Número de obras que terminan antes de empezar: {num_inconsistencias}")
if num_inconsistencias == 0:
    print("   --> ESTADO: APROBADO")
else:
    print("   --> ESTADO: FALLIDO")

Función de limpieza iniciada...
  -> Pasito 1: Blindando columnas de texto...
  -> Pasito 2: Estandarizando nombres de columnas...
  -> Pasito 3: Reparando estructura...
  -> Pasito 4: Podando columnas inútiles...
  -> Pasito 5: Transformando columnas de fecha...


  df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')


  -> Pasito 5.5: Auditando y corrigiendo coherencia de fechas...
     - Se han eliminado 898 filas con fechas incoherentes.
  -> Pasito 6: Decontaminando y transformando columnas numéricas...
  -> Pasito 7: Manejando valores nulos estratégicamente...

¡PROCESO DE LIMPIEZA Y AUDITORÍA COMPLETADO!

--- INICIANDO AUDITORÍA FINAL ---
Número de obras que terminan antes de empezar: 0
   --> ESTADO: APROBADO


In [26]:
# --- PLAN DE AUDITORÍA COMPLETO ---
print("INICIANDO AUDITORÍA DEL DATAFRAME LIMPIO FINAL...")
print("==============================================")

# --- Punto de Control A: Integridad Estructural ---
print("\n[Punto de Control A]: Verificación de Integridad Estructural")

# A1: Auditoría de Nulos en columnas no-fecha
columnas_no_fecha = df_limpio_final.select_dtypes(exclude=['datetime64[ns]']).columns
nulos_no_fecha = df_limpio_final[columnas_no_fecha].isna().sum().sum()
print(f"A1: Total de nulos en columnas no-fecha: {nulos_no_fecha}")
if nulos_no_fecha == 0:
    print("   --> ESTADO: APROBADO")
else:
    print(f"   --> ESTADO: FALLIDO - Quedan {nulos_no_fecha} nulos inesperados.")

# A2: Auditoría de Tipos de Datos
print("\nA2: Tipos de datos de columnas clave:")
columnas_clave_dtypes = [
    'costo_de_la_obra_en_soles', 
    'fecha_de_inicio_de_obra',
    'plazo_de_ejecucion_en_dias'
]
print(df_limpio_final[columnas_clave_dtypes].dtypes)
print("   --> ESTADO: APROBADO (Verificación manual: `float64`, `datetime64[ns]`, `float64`)")

print("\n----------------------------------------------")

# --- Punto de Control B: Coherencia Lógica ---
print("\n[Punto de Control B]: Verificación de Coherencia Lógica")

# B1: Auditoría de Coherencia Temporal
num_inconsistencias = len(df_limpio_final[df_limpio_final['fecha_de_finalizacion_real'] < df_limpio_final['fecha_de_inicio_de_obra']])
print(f"B1: Número de obras que terminan antes de empezar: {num_inconsistencias}")
if num_inconsistencias == 0:
    print("   --> ESTADO: APROBADO")
else:
    print(f"   --> ESTADO: FALLIDO - Quedan {num_inconsistencias} obras incoherentes.")

# B2: Auditoría de Coherencia Financiera (Valores Negativos)
columnas_a_auditar_negativos = ['monto_aprobado_en_soles', 'costo_de_la_obra_en_soles', 'plazo_de_ejecucion_en_dias']
total_negativos = 0
for col in columnas_a_auditar_negativos:
    total_negativos += (df_limpio_final[col] < 0).sum()
print(f"\nB2: Número total de valores negativos en columnas clave: {total_negativos}")
if total_negativos == 0:
    print("   --> ESTADO: APROBADO")
else:
    print(f"   --> ESTADO: FALLIDO - Se encontraron {total_negativos} valores negativos.")

print("\n----------------------------------------------")

# --- Punto de Control C: Verificación de Distribuciones ---
print("\n[Punto de Control C]: Verificación de Distribuciones y Categorías")

print("\nC1: Estadísticas Descriptivas de Columnas Clave:")
display(df_limpio_final[['monto_viable/aprobado', 'costo_de_la_obra_en_soles', 'plazo_de_ejecucion_en_dias']].describe().T)
print("   --> ESTADO: REVISADO (Auditor debe verificar manualmente la plausibilidad de los valores min/max).")

print("\nC2: Conteo de Valores para 'Estado de Ejecución':")
display(df_limpio_final['estado_de_ejecucion'].value_counts())
print("   --> ESTADO: REVISADO (Auditor debe verificar que las categorías son las esperadas).")

print("\n==============================================")
print("AUDITORÍA FINALIZADA.")

INICIANDO AUDITORÍA DEL DATAFRAME LIMPIO FINAL...

[Punto de Control A]: Verificación de Integridad Estructural
A1: Total de nulos en columnas no-fecha: 0
   --> ESTADO: APROBADO

A2: Tipos de datos de columnas clave:
costo_de_la_obra_en_soles            float64
fecha_de_inicio_de_obra       datetime64[ns]
plazo_de_ejecucion_en_dias           float64
dtype: object
   --> ESTADO: APROBADO (Verificación manual: `float64`, `datetime64[ns]`, `float64`)

----------------------------------------------

[Punto de Control B]: Verificación de Coherencia Lógica
B1: Número de obras que terminan antes de empezar: 0
   --> ESTADO: APROBADO

B2: Número total de valores negativos en columnas clave: 0
   --> ESTADO: APROBADO

----------------------------------------------

[Punto de Control C]: Verificación de Distribuciones y Categorías

C1: Estadísticas Descriptivas de Columnas Clave:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
monto_viable/aprobado,180043.0,8164481.0,258074200.0,0.0,0.0,426516.0,1925909.5,24315300000.0
costo_de_la_obra_en_soles,180043.0,349928.9,27248990.0,0.0,0.0,0.0,0.0,6401430000.0
plazo_de_ejecucion_en_dias,180043.0,89.0649,190.565,0.0,0.0,60.0,120.0,31052.0


   --> ESTADO: REVISADO (Auditor debe verificar manualmente la plausibilidad de los valores min/max).

C2: Conteo de Valores para 'Estado de Ejecución':


estado_de_ejecucion
Finalizado       113593
Sin Ejecución     41181
En Ejecución      24281
Paralizada          988
Name: count, dtype: int64

   --> ESTADO: REVISADO (Auditor debe verificar que las categorías son las esperadas).

AUDITORÍA FINALIZADA.


In [27]:
print("\nAuditoría de Coherencia Financiera y de Plazos:")

columnas_a_auditar = [
    'monto_aprobado_en_soles',
    'monto_del_contrato__en_soles',
    'costo_de_la_obra_en_soles',
    'plazo_de_ejecucion_en_dias'
]

inconsistencias_negativas = {}
for col in columnas_a_auditar:
    conteo_negativos = (df_limpio_final[col] < 0).sum()
    if conteo_negativos > 0:
        inconsistencias_negativas[col] = conteo_negativos
        
if not inconsistencias_negativas:
    print("No se encontraron valores negativos en las columnas financieras y de plazos clave.")
else:
    print("Hallazgo: Se encontraron valores negativos en las siguientes columnas:")
    for col, count in inconsistencias_negativas.items():
        print(f"  - '{col}': {count} registros negativos.")


Auditoría de Coherencia Financiera y de Plazos:
No se encontraron valores negativos en las columnas financieras y de plazos clave.


In [28]:
print("\nAuditoría de Estadísticas Descriptivas (para detectar outliers):")

columnas_descriptivas = [
    'monto_viable/aprobado',
    'costo_de_la_obra_en_soles',
    'plazo_de_ejecucion_en_dias',
    'numero_de_dias_paralizado'
]

# Usamos .describe() y lo transponemos con .T para una mejor visualización
display(df_limpio_final[columnas_descriptivas].describe().T)


Auditoría de Estadísticas Descriptivas (para detectar outliers):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
monto_viable/aprobado,180043.0,8164481.0,258074200.0,0.0,0.0,426516.0,1925909.5,24315300000.0
costo_de_la_obra_en_soles,180043.0,349928.9,27248990.0,0.0,0.0,0.0,0.0,6401430000.0
plazo_de_ejecucion_en_dias,180043.0,89.0649,190.565,0.0,0.0,60.0,120.0,31052.0
numero_de_dias_paralizado,180043.0,7.849164,121.0069,0.0,0.0,0.0,0.0,6201.0


In [29]:
print("\nAuditoría de Valores Categóricos (Estado de Ejecución):")

display(df_limpio_final['estado_de_ejecucion'].value_counts())


Auditoría de Valores Categóricos (Estado de Ejecución):


estado_de_ejecucion
Finalizado       113593
Sin Ejecución     41181
En Ejecución      24281
Paralizada          988
Name: count, dtype: int64

In [31]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y ejecuta una pipeline 
    completa de limpieza, auditoría y curación de datos. VERSIÓN 3.0
    """
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada...")

    # --- Pasitos 1-7 (sin cambios) ---
    print("  -> Pasito 1: Blindando columnas de texto...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    
    print("  -> Pasito 2: Estandarizando nombres de columnas...")
    df.columns = (df.columns.str.lower().str.replace(' ', '_', regex=False).str.replace('¿', '', regex=False).str.replace('?', '', regex=False).str.replace('(', '', regex=False).str.replace(')', '', regex=False).str.replace(':', '', regex=False).str.replace('.', '', regex=False).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

    print("  -> Pasito 3: Reparando estructura...")
    rename_dict = {
        'ruc1': 'ruc_supervisor', 'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor', 'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente', 'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente', 'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente', 'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)

    print("  -> Pasito 4: Podando columnas inútiles...")
    cols_a_podar = ['fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica', 'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn']
    df = df.drop(columns=cols_a_podar, errors='ignore')
    
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = ['fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 'fecha_inicio_supervision', 'fecha_fin_supervision', 'fecha_inicio_labores_residente', 'fecha_fin_labores_residente', 'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra', 'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance', 'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra', 'fecha_de_finalizacion_real', 'fecha_de_recepcion', 'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia']
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
            
    print("  -> Pasito 5.5: Auditando y corrigiendo coherencia de fechas...")
    mascara_inconsistente = (df['fecha_de_finalizacion_real'].notna()) & (df['fecha_de_inicio_de_obra'].notna()) & (df['fecha_de_finalizacion_real'] < df['fecha_de_inicio_de_obra'])
    inconsistencias_antes = mascara_inconsistente.sum()
    if inconsistencias_antes > 0:
        df = df[~mascara_inconsistente].copy()
        print(f"     - Se han eliminado {inconsistencias_antes} filas con fechas incoherentes.")
    else:
        print("     - No se encontraron inconsistencias de fechas.")
        
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = ['monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 'monto_aprobado_en_soles', 'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor', 'porcentaje_de_terreno_entregado', 'avance_fisico_programado_acumulado_%', 'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado', 'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 'monto_de_ejecucion_financiera_de_la_obra', 'monto_de_adicionales_de_obra_en_soles', 'monto_de_adicionales_de_supervision_en_soles', 'monto_de_deductivos_de_obra_en_soles', 'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto']
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')

    print("  -> Pasito 7: Manejando valores nulos estratégicamente...")
    df['causal_de_paralizacion'] = df['causal_de_paralizacion'].fillna('No Paralizada')
    df['corresponde_a_un_saldo_de_obra'] = df['corresponde_a_un_saldo_de_obra'].fillna('No')
    columnas_categoricas_clave = ['departamento', 'provincia', 'distrito', 'modalidad_de_ejecucion_de_la_obra', 'estado_de_ejecucion']
    for col in columnas_categoricas_clave:
        if col in df.columns:
            df[col] = df[col].fillna('Desconocido')
    columnas_numericas = df.select_dtypes(include=np.number).columns.tolist()
    df[columnas_numericas] = df[columnas_numericas].fillna(0)
    columnas_object = df.select_dtypes(include=['object']).columns.tolist()
    for col in columnas_object:
        df[col] = df[col].fillna('No Aplica')

    # --- NUEVO PASO DE CURACIÓN DE DATOS ---
    print("  -> Pasito 8: Aplicando filtros de plausibilidad de negocio (Curación)...")
    
    # Removemos obras con plazo de ejecución cero, ya que son ilógicas.
    registros_antes = len(df)
    df = df[df['plazo_de_ejecucion_en_dias'] > 0]
    print(f"     - Se han eliminado {registros_antes - len(df)} obras con plazo no positivo.")
    
    # Capamos el plazo máximo a un valor razonable (ej. 10 años = 3650 días)
    registros_antes = len(df)
    df = df[df['plazo_de_ejecucion_en_dias'] <= 3650]
    print(f"     - Se han eliminado {registros_antes - len(df)} obras con plazos extremos (> 10 años).")

    print("\n¡PROCESO DE LIMPIEZA, AUDITORÍA Y CURACIÓN COMPLETADO!")
    return df

In [32]:
import pandas as pd
import numpy as np

def clean_infobras_data(df_a_limpiar):
    """
    Esta función toma el DataFrame crudo de INFOBRAS y ejecuta una pipeline 
    completa de limpieza, auditoría y curación de datos. VERSIÓN 3.0
    """
    df = df_a_limpiar.copy()
    print("Función de limpieza iniciada...")

    # Pasitos 1-7 (sin cambios)
    print("  -> Pasito 1: Blindando columnas de texto...")
    cols_texto = df.select_dtypes(include=['object']).columns
    for col in cols_texto:
        df[col] = df[col].str.strip()
    
    print("  -> Pasito 2: Estandarizando nombres de columnas...")
    df.columns = (df.columns.str.lower().str.replace(' ', '_', regex=False).str.replace('¿', '', regex=False).str.replace('?', '', regex=False).str.replace('(', '', regex=False).str.replace(')', '', regex=False).str.replace(':', '', regex=False).str.replace('.', '', regex=False).str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))

    print("  -> Pasito 3: Reparando estructura...")
    rename_dict = {
        'ruc1': 'ruc_supervisor', 'nombre_o_razon_social_de_la_empresa_o_consorcio1': 'razon_social_supervisor',
        'monto_del_contrato__en_soles1': 'monto_contrato_soles_supervisor', 'tipo_de_documento_de_identidad1': 'tipo_doc_identidad_residente',
        'numero_de_documento1': 'num_doc_residente', 'nombres_apellidos1': 'nombres_apellidos_residente',
        'colegiatura1': 'colegiatura_residente', 'numero_de_colegiatura1': 'num_colegiatura_residente',
        'fecha_inicio_de_labores': 'fecha_inicio_labores_residente', 'fecha_fin__de_labores': 'fecha_fin_labores_residente'
    }
    df = df.rename(columns=rename_dict)

    print("  -> Pasito 4: Podando columnas inútiles...")
    cols_a_podar = ['fecha_de_aprobacion', 'otra_marca', 'tipo_de_certificado_de_inversion_publica', 'numero_del_cipril_/cipgn', 'fecha_del_cipril_/_cipgn', 'monto_cipril_/cipgn']
    df = df.drop(columns=cols_a_podar, errors='ignore')
    
    print("  -> Pasito 5: Transformando columnas de fecha...")
    columnas_de_fecha = ['fecha_de_actualizacion', 'fecha_de_aprobacion_del_expediente', 'fecha_inicio_supervision', 'fecha_fin_supervision', 'fecha_inicio_labores_residente', 'fecha_fin_labores_residente', 'fecha_de_inicio_de_obra', 'fecha_finalizacion_programada_de_obra', 'fecha_de_entrega_del_terreno', 'fecha_de_registro_de_avance', 'fecha_de_paralizacion', 'fecha_finalizacion_reprogramada_de_obra', 'fecha_de_finalizacion_real', 'fecha_de_recepcion', 'fecha_de_aprobacion_de_liquidacion_de_obra', 'fecha_de_transferencia']
    for col in columnas_de_fecha:
        if col in df.columns:
            df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')
            
    print("  -> Pasito 5.5: Auditando y corrigiendo coherencia de fechas...")
    mascara_inconsistente = (df['fecha_de_finalizacion_real'].notna()) & (df['fecha_de_inicio_de_obra'].notna()) & (df['fecha_de_finalizacion_real'] < df['fecha_de_inicio_de_obra'])
    inconsistencias_antes = mascara_inconsistente.sum()
    if inconsistencias_antes > 0:
        df = df[~mascara_inconsistente].copy()
        print(f"     - Se han eliminado {inconsistencias_antes} filas con fechas incoherentes.")
    else:
        print("     - No se encontraron inconsistencias de fechas.")
        
    print("  -> Pasito 6: Decontaminando y transformando columnas numéricas...")
    columnas_numericas_contaminadas = ['monto_viable/aprobado', 'monto_de_aprobacion_de_expediente_tecnico', 'tasa_de_cambio', 'monto_aprobado_en_soles', 'monto_del_contrato__en_soles', 'monto_contrato_soles_supervisor', 'porcentaje_de_terreno_entregado', 'avance_fisico_programado_acumulado_%', 'avance_fisico_real_acumulado_%', 'monto_de_valorizacion_programado_acumulado', 'monto_de_valorizacion_ejecutado_acumulado', 'porcentaje_de_ejecucion_financiera', 'monto_de_ejecucion_financiera_de_la_obra', 'monto_de_adicionales_de_obra_en_soles', 'monto_de_adicionales_de_supervision_en_soles', 'monto_de_deductivos_de_obra_en_soles', 'costo_de_la_obra_en_soles', 'monto_total_devengado_del_proyecto']
    for col in columnas_numericas_contaminadas:
        if col in df.columns:
            df[col] = df[col].astype(str).str.replace('S/.', '', regex=False).str.replace(',', '', regex=False).str.replace('%', '', regex=False).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')

    print("  -> Pasito 7: Manejando valores nulos estratégicamente...")
    df['causal_de_paralizacion'] = df['causal_de_paralizacion'].fillna('No Paralizada')
    df['corresponde_a_un_saldo_de_obra'] = df['corresponde_a_un_saldo_de_obra'].fillna('No')
    columnas_categoricas_clave = ['departamento', 'provincia', 'distrito', 'modalidad_de_ejecucion_de_la_obra', 'estado_de_ejecucion']
    for col in columnas_categoricas_clave:
        if col in df.columns:
            df[col] = df[col].fillna('Desconocido')
    columnas_numericas = df.select_dtypes(include=np.number).columns.tolist()
    df[columnas_numericas] = df[columnas_numericas].fillna(0)
    columnas_object = df.select_dtypes(include=['object']).columns.tolist()
    for col in columnas_object:
        df[col] = df[col].fillna('No Aplica')

    # --- PASO 8: CURACIÓN DE DATOS (FILTROS DE PLAUSIBILIDAD) ---
    print("  -> Pasito 8: Aplicando filtros de plausibilidad de negocio (Curación)...")
    
    # Removemos obras con plazo de ejecución cero o negativo, ya que son ilógicas.
    registros_antes = len(df)
    df = df[df['plazo_de_ejecucion_en_dias'] >= 1]
    print(f"     - Se han eliminado {registros_antes - len(df)} obras con plazo no positivo.")
    
    # Capamos el plazo máximo a un valor razonable (ej. 10 años = 3650 días)
    registros_antes = len(df)
    df = df[df['plazo_de_ejecucion_en_dias'] <= 3650]
    print(f"     - Se han eliminado {registros_antes - len(df)} obras con plazos extremos (> 10 años).")

    print("\n¡PROCESO DE LIMPIEZA, AUDITORÍA Y CURACIÓN COMPLETADO!")
    return df

In [33]:
# --- EJECUCIÓN FINAL Y EXPORTACIÓN ---

# Cargar el dataset crudo original si es necesario
try:
    df_raw
except NameError:
    print("df_raw no encontrado, cargando el archivo Excel...")
    ruta_excel = '../data/DataSet-Obras-Publicas-23-07-2025.xlsx'
    df_raw = pd.read_excel(ruta_excel, engine='openpyxl')

# Llamamos a nuestra función de limpieza, auditoría y curación (v3.0)
df_certificado = clean_infobras_data(df_raw)

# Guardamos el resultado final con un nombre que refleje su alta calidad
df_certificado.to_csv('../data/infobras_certificado_v1.csv', index=False)

print("\n----------------------------------------------------")
print("✅  PROCESO FINALIZADO CON ÉXITO")
print("Archivo 'infobras_certificado_v1.csv' exportado a la carpeta /data.")
print("Este archivo está limpio, auditado, curado y listo para el análisis.")

Función de limpieza iniciada...
  -> Pasito 1: Blindando columnas de texto...
  -> Pasito 2: Estandarizando nombres de columnas...
  -> Pasito 3: Reparando estructura...
  -> Pasito 4: Podando columnas inútiles...
  -> Pasito 5: Transformando columnas de fecha...


  df[col] = pd.to_datetime(df[col], dayfirst=True, errors='coerce')


  -> Pasito 5.5: Auditando y corrigiendo coherencia de fechas...
     - Se han eliminado 898 filas con fechas incoherentes.
  -> Pasito 6: Decontaminando y transformando columnas numéricas...
  -> Pasito 7: Manejando valores nulos estratégicamente...
  -> Pasito 8: Aplicando filtros de plausibilidad de negocio (Curación)...
     - Se han eliminado 47887 obras con plazo no positivo.
     - Se han eliminado 19 obras con plazos extremos (> 10 años).

¡PROCESO DE LIMPIEZA, AUDITORÍA Y CURACIÓN COMPLETADO!

----------------------------------------------------
✅  PROCESO FINALIZADO CON ÉXITO
Archivo 'infobras_certificado_v1.csv' exportado a la carpeta /data.
Este archivo está limpio, auditado, curado y listo para el análisis.
