In [1]:
import pandas as pd

from typing import List, Dict
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_info_columns', 10000)
pd.set_option('display.width', 1000)
pd.set_option('display.float_format', '{:.2f}'.format)


In [2]:
from pathlib import Path
import sys

# 1) Where is this notebook?
notebook_dir = Path.cwd()

# 2) Climb up until you get to the folder that contains "app/"
#    parents[2] goes up from objetivo_2 → notebooks → objetivos → …
#    count how many levels from objetivo_2 to BOTS_RPA: in your case it's 8 levels
project_root = notebook_dir.parents[6]

# 3) Insert it at front of sys.path
sys.path.insert(0, str(project_root))

# 4) Now imports of "app.…" will succeed


In [3]:
from app.modules.sga.minpub.report_validator.service.objetivos.validators.objetivo_1.run import run_objetivo_1
from app.modules.sga.minpub.report_validator.service.objetivos.validators.objetivo_2.run import run_objetivo_2
from app.modules.sga.minpub.report_validator.service.objetivos.validators.objetivo_3.run import run_objetivo_3

In [4]:

# EXTRACT IMPORTS
from app.modules.sga.minpub.report_validator.service.objetivos.etl.extract.cuadro_averias import (
    extract_averias_table
) 
from app.modules.sga.minpub.report_validator.service.objetivos.etl.extract.informe_tecnico import (
    extract_tecnico_reports_without_hours_last_dates
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.extract.anexo_indisponibilidad import (
    extract_indisponibilidad_anexos
)


In [5]:
# TRANSFORM IMPORTS
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.averias import ( 
    preprocess_df_word_averias
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.informe_tecnico import ( 
    preprocess_df_word_informe_tecnico
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.anexos import ( 
    preprocess_df_word_anexos_indisponibilidad
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.sga_335 import ( 
    preprocess_335
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.sga_380 import ( 
    preprocess_380
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.cuismp_sharepoint import ( 
    preprocess_df_cid_cuismp_sharepoint
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.transform.corte_excel import ( 
    preprocess_corte_excel
)


In [6]:
# MERGE IMPORTS
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.excel_sga.excel_sga import ( 
merge_sga_335_corte_excel_sharepoint_cuismp_sga380
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.cuadro_averias.datos import ( 
merge_word_datos_averias_corte_excel
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.cuadro_averias.telefonia import ( 
merge_word_telefonia_averias_corte_excel
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.informe_tecnico.datos import ( 
merge_word_datos_informe_corte_excel
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.informe_tecnico.telefonia import ( 
merge_word_telefonia_informe_corte_excel
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.anexo_indisponibilidad.datos import ( 
merge_word_datos_anexos_disponibilidad_df_merged_sga
)
from app.modules.sga.minpub.report_validator.service.objetivos.etl.merge.anexo_indisponibilidad.telefonia import ( 
merge_word_telefonia_anexos_disponibilidad_df_merged_sga
)


In [7]:
BASE_DIR = Path.cwd().parent.parent.parent.parent.parent.parent.parent
SAVE_DIR_EXTRACT_EXCEL = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "excel"/ "CORTE 1 -MES 17.xlsx"
SAVE_DIR_EXTRACT_SGA_335 = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "sga_335" / "sga_reporte_23-04-2025_28-04-2025_20250505_094111.xlsx"
CID_CUISMP_PATH = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "sharepoint_cid_cuismp" / "MINPU - CID-CUISMP - AB.xlsx"
DIR_PARADAS_RELOJ = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "pausa_cliente" / "sga_reporte_23-04-2025_28-04-2025_20250505_094643.xlsx"
DIR_WORD_DATOS = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "word_datos" / "COMPONENTE 2-DATOS.docx"
DIR_WORD_TELEFONIA = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "word_telefonia" / "COMPONENTE 4 - TELEFONOS.docx"

In [8]:
def all_objetivos(
    path_corte_excel, 
    path_sgq_dinamico_335, 
    path_sga_dinamico_380,
    path_cid_cuismp_sharepoint,
    word_datos_file_path,
    word_telefonia_file_path

) -> List[Dict]:
    """
    Calls each objective's validation function and combines the results.
    Each objective function returns a DataFrame with the columns:
      - 'numero de incidencia'
      - 'mensaje'
      - 'objetivo'
    
    Returns:
      A list of dictionaries (one per incident that fails at least one validation)
      across all objectives.
    """
    results = []
    
    # EXTRACT INVOQUE
    df_corte_excel = pd.read_excel(path_corte_excel, skipfooter=2, engine="openpyxl")
    df_sga_dinamico_335 = pd.read_excel(path_sgq_dinamico_335) 
    df_sga_dinamico_380 = pd.read_excel(path_sga_dinamico_380)
    df_cid_cuismp_sharepoint = pd.read_excel(path_cid_cuismp_sharepoint)

    df_word_datos_averias =  extract_averias_table(word_datos_file_path)
    df_word_telefonia_averias = extract_averias_table(word_telefonia_file_path)
    df_word_datos_informe_tec =  extract_tecnico_reports_without_hours_last_dates(word_datos_file_path)
    df_word_telefonia_informe_tec = extract_tecnico_reports_without_hours_last_dates(word_telefonia_file_path)

    raw_datos_anexos = extract_indisponibilidad_anexos(word_datos_file_path)
    raw_tel_anexos  = extract_indisponibilidad_anexos(word_telefonia_file_path)
    cols = ['ticket', 'indisponibilidad_header', 'indisponibilidad_periodos',
            'indisponibilidad_footer', 'indisponibilidad_total']
    df_word_datos_anexos_indis = (
        raw_datos_anexos
        if raw_datos_anexos is not None
        else pd.DataFrame(columns=cols)
    )
    df_word_telefonia_anexos_indis = (
        raw_tel_anexos
        if raw_tel_anexos is not None
        else pd.DataFrame(columns=cols)
    )

    # TRANSFORM INVOQUE
    df_word_datos_averias = preprocess_df_word_averias(df_word_datos_averias)
    df_word_telefonia_averias = preprocess_df_word_averias(df_word_telefonia_averias)
    
    df_word_datos_informe_tec =  preprocess_df_word_informe_tecnico(df_word_datos_informe_tec)
    df_word_telefonia_informe_tec = preprocess_df_word_informe_tecnico(df_word_telefonia_informe_tec)

    df_word_datos_anexos_indis    = preprocess_df_word_anexos_indisponibilidad(df_word_datos_anexos_indis)
    df_word_telefonia_anexos_indis = preprocess_df_word_anexos_indisponibilidad(df_word_telefonia_anexos_indis)

    df_sga_dinamico_335 = preprocess_335(df_sga_dinamico_335)
    df_sga_dinamico_380 = preprocess_380(df_sga_dinamico_380)
    df_corte_excel = preprocess_corte_excel(df_corte_excel)
    df_cid_cuismp_sharepoint = preprocess_df_cid_cuismp_sharepoint(df_cid_cuismp_sharepoint)
    

    # MERGE INVOQUE

    #  SGA 335 - 380 - SHAREPOINT - CORTE - BOTH
    df_matched_corte_sga335_Sharepoint_cuismp_sga380 = merge_sga_335_corte_excel_sharepoint_cuismp_sga380(
        df_corte_excel, df_sga_dinamico_335,
        df_cid_cuismp_sharepoint, df_sga_dinamico_380,
        'both'
        )
    
    #  SGA 335 - 380 - SHAREPOINT - CORTE - LEFT ONLY
    df_unmatched_corte_sga335_Sharepoint_cuismp_sga380 = merge_sga_335_corte_excel_sharepoint_cuismp_sga380(
        df_corte_excel,
        df_sga_dinamico_335,
        df_cid_cuismp_sharepoint,
        df_sga_dinamico_380,
        'left_only'
        )
    
    # AVERIAS - DATOS - EXCEL
    df_matched_word_datos_averias_corte_excel = merge_word_datos_averias_corte_excel(
        df_corte_excel,
        df_word_datos_averias,
        'both'
        )
   
    # AVERIAS - TELEFONIA - EXCEL
    df_matched_word_telefonia_averias_corte_excel = merge_word_telefonia_averias_corte_excel(
        df_word_telefonia_averias,
        df_corte_excel,
        'both'
        )
    
    #INFORME TECNICO - DATOS - EXCEL
    df_matched_word_datos_informe_tecnico_corte_excel = merge_word_datos_informe_corte_excel(
        df_word_datos_informe_tec,
        df_corte_excel,
        'both'
        )
    
    #INFORME TECNICO - TELEFONIA - EXCEL
    df_matched_word_telefonia_informe_tecnico_corte_excel = merge_word_telefonia_informe_corte_excel(
        df_word_telefonia_informe_tec,
        df_corte_excel,
        'both'
        )
    
    #ANEXOS INDISPONIBILIDAD - DATOS - EXCEL
    df_matched_word_datos_anexo_indisponibilidad_df_merged_sga = merge_word_datos_anexos_disponibilidad_df_merged_sga(
        df_matched_corte_sga335_Sharepoint_cuismp_sga380,
        df_word_datos_anexos_indis,
        'left_only'
        )
    
    #ANEXOS INDISPONIBILIDAD - TELEFONIA - EXCEL
    df_matched_word_telefonia_anexo_indisponibilidad_df_merged_sga = merge_word_telefonia_anexos_disponibilidad_df_merged_sga(
        df_matched_corte_sga335_Sharepoint_cuismp_sga380,
        df_word_telefonia_anexos_indis,
        'left_only'
        )
    
#  RUN OBJETIVOS 

    obj1_df = run_objetivo_1(
        df_matched_corte_sga335_Sharepoint_cuismp_sga380,
        df_unmatched_corte_sga335_Sharepoint_cuismp_sga380
        )

    obj2_df = run_objetivo_2(
        df_matched_word_datos_averias_corte_excel,
        df_matched_word_telefonia_averias_corte_excel,
        df_matched_word_datos_informe_tecnico_corte_excel,
        df_matched_word_telefonia_informe_tecnico_corte_excel
        )
    
    obj3_df = run_objetivo_3(
        df_matched_word_datos_anexo_indisponibilidad_df_merged_sga,
        df_matched_word_telefonia_anexo_indisponibilidad_df_merged_sga
    )   

    results.extend(obj1_df.to_dict(orient='records'))
    results.extend(obj2_df.to_dict(orient='records'))
    results.extend(obj3_df.to_dict(orient='records'))

    df_all = pd.DataFrame(results)

    df_grouped = (
        df_all
        .groupby('nro_incidencia', as_index=False)
        .agg({'mensaje': lambda msgs: ' | '.join(msgs),
              'objetivo': lambda objs: ' | '.join(objs), 
              'TIPO REPORTE': 'first', 
              })
    )

    #return df_grouped.to_dict(orient='records')
    return df_grouped


result_df = all_objetivos(
    SAVE_DIR_EXTRACT_EXCEL, 
    SAVE_DIR_EXTRACT_SGA_335, 
    DIR_PARADAS_RELOJ,
    CID_CUISMP_PATH,
    DIR_WORD_DATOS,
    DIR_WORD_TELEFONIA

)

result_df




No clock stops found for incident 21808356
No clock stops found for incident 21808358
No clock stops found for incident 21808359
No clock stops found for incident 21808360
No clock stops found for incident 21808372
No clock stops found for incident 21808374
No clock stops found for incident 21808414
No clock stops found for incident 21808426
No clock stops found for incident 21808436
No clock stops found for incident 21808520
No clock stops found for incident 21808754
No clock stops found for incident 21808789
No clock stops found for incident 21808913
No clock stops found for incident 21808914
No clock stops found for incident 21808926
No clock stops found for incident 21808936
No clock stops found for incident 21808978
No clock stops found for incident 21808982
No clock stops found for incident 21808983
No clock stops found for incident 21808984
No clock stops found for incident 21808985
No clock stops found for incident 21808987
No clock stops found for incident 21808995
No clock st

Converted 03:48 to 228.0 seconds
Converted 03:54 to 234.0 seconds
Converted 02:12 to 132.0 seconds
Converted 04:45 to 285.0 seconds
Converted 00:22 to 22.0 seconds
Converted 00:09 to 9.0 seconds
Converted 01:17 to 77.0 seconds
Converted 00:51 to 51.0 seconds
Converted 01:14 to 74.0 seconds
Converted 02:04 to 124.0 seconds
Converted 00:40 to 40.0 seconds
Converted 01:31 to 91.0 seconds
Converted 01:46 to 106.0 seconds
Converted 11:23 to 683.0 seconds
Converted 12:23 to 743.0 seconds
Converted 01:48 to 108.0 seconds
Converted 01:08 to 68.0 seconds
Converted 14:15 to 855.0 seconds
Converted 04:53 to 293.0 seconds
Converted 03:09 to 189.0 seconds
Converted 04:09 to 249.0 seconds
Converted 02:51 to 171.0 seconds
Converted 02:47 to 167.0 seconds
Converted 00:55 to 55.0 seconds
Converted 01:38 to 98.0 seconds
Converted 02:04 to 124.0 seconds
Converted 02:03 to 123.0 seconds
Converted 02:01 to 121.0 seconds
Converted 02:00 to 120.0 seconds
Converted 01:58 to 118.0 seconds
Converted 01:46 to 10

Unnamed: 0,nro_incidencia,mensaje,objetivo,TIPO REPORTE
0,21808358,\n (interrupcion_inicio|fecha generacion) en SGA: \n23/04/2025 02:28\n no coincide con FECHA Y HORA INICIO CORTE-EXCEL: \n23/04/2025 02:29,1.2,PROACTIVO
1,21808414,\n CUISMP en Sharepoint CID-CUISMP: \n2037\n es diferente a EXCEL -CORTE (CUISMP): \n2038,1.1,RECLAMO
2,21808926,\n No coincide Tiempo real de afectación de WORD CUADRO DE AVERIAS: \n01:47\n es diferente a TIEMPO (HH:MM) de EXCEL-CORTE: \n01:48,2.1,RECLAMO
3,21808978,\n La primera fecha/hora del parrafo (CUERPO) en it_medidas_tomadas SGA: \n24/04/2025 16:01\n no coincide con la Fecha y hora inicio de la penultima fila it_medidas_tomadas SGA : \n23/04/2025 23:41,1.8,PROACTIVO
4,21808982,\n Distrito Fiscal en Sharepoint CID-CUISMP: \nJunin\n es diferente a EXCEL -CORTE (DF): \nJunín,1.1,PROACTIVO
5,21809105,\n CUISMP en Sharepoint CID-CUISMP: \n2037\n es diferente a EXCEL -CORTE (CUISMP): \n2038,1.1,RECLAMO
6,21809231,\n No coincide texto inicio de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP: \nSe tuvo indisponibilidad por parte del cliente para continuar los trabajos el/los día(s)\n No coincide paradas de reloj de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n24/04/2025 12:08:00 hasta el día 24/04/2025 14:00:00\n No coincide total horas sin acceso a la sede de WORD ANEXOS INDISPONIBILIDAD : \n\n nan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n01:52,3.1,RECLAMO
7,21809438,\n No coincide columnna AVERÍA en EXCEL-CORTE: \nAVERIA CAUSADA POR TERCEROS\n con tipificacion_problema en SGA 335: \nCORTE DE FIBRA OPTICA / COBRE DE ULTIMA MILLA - CASO FORTUITO | \n La última fecha/hora del parrafo (CUERPO) en it_medidas_tomadas SGA : \n24/04/2025 15:12\n no coincide con la Fecha y hora fin de la última fila SGA it_medidas_tomadas SGA: \n24/04/2025 22:51 | \n No coincide texto inicio de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP: \nSe tuvo indisponibilidad por parte del cliente para continuar los trabajos el/los día(s)\n No coincide paradas de reloj de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n24/04/2025 15:39:00 hasta el día 24/04/2025 22:51:00\n No coincide total horas sin acceso a la sede de WORD ANEXOS INDISPONIBILIDAD : \n\n nan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n07:12,1.6 | 1.8 | 3.1,RECLAMO
8,21809451,"\n No coincide columnna AVERÍA en EXCEL-CORTE: \nCLIENTE: CAÍDA DE SERVICIO-MANIPULACIÓN DE EQUIPOS/CABLEADO\n con tipificacion_problema en SGA 335: \nANEXO DESCONFIGURADO | \n No coincide MEDIDAS CORRECTIVAS de WORD informe técnico : \nEl cliente, El Sr. Elvis Saldaña, reportó inconvenientes con un anexo de la sede identificado conel CUISMP 17028 , se generó ticket el día 24/04/2025 a las 15:29 horas. Inmediatamente, Clarorevisó la pérdida de conectividad con el equipo telefónico, se coordinó con el cliente víatelefónica para realizar las revisiones correspondientes y se programó la visita técnica para eldía 25/04/2025 a las 08:30 horas. Seguidamente, se realizó desplazamiento de personaltécnico hacia la sede, personal técnico en sitio hizo revisiones y validó que el anexo no estaba conectado a un punto de red. Posteriormente, se procedió con el cambio de un punto de red disponible. Finalmente,luego de los correctivos, se verificó el correcto funcionamiento y estabilidad del servicio el día25/04/2025 a las 10:10 horas.\n es diferente a MEDIDAS CORRECTIVAS en EXCEL-CORTE: \nEl cliente, El Sr. Elvis Saldaña, reportó inconvenientes con un anexo de la sede identificado con el CUISMP 17028 , se generó ticket el día 24/04/2025 a las 15:29 horas. Inmediatamente, Claro revisó la pérdida de conectividad con el equipo telefónico, se coordinó con el cliente vía telefónica para realizar las revisiones correspondientes y se programó la visita técnica para el día 25/04/2025 a las 08:30 horas. Seguidamente, se realizó desplazamiento de personal técnico hacia la sede, personal técnico en sitio hizo revisiones y validó que el anexo no estaba conectado a un punto de red. Posteriormente, se procedió con el cambio de un punto de red disponible. Finalmente, luego de los correctivos, se verificó el correcto funcionamiento y estabilidad del servicio el día25/04/2025 a las 10:10 horas. | \n No coincide texto inicio de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP: \nSe tuvo indisponibilidad por parte del cliente para continuar los trabajos el/los día(s)\n No coincide paradas de reloj de WORD ANEXOS INDISPONIBILIDAD : \nnan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n24/04/2025 16:19:00 hasta el día 25/04/2025 08:30:00\n No coincide total horas sin acceso a la sede de WORD ANEXOS INDISPONIBILIDAD : \n\n nan\n es diferente a SGA PAUSA CLIENTE SIN OVERLAP : \n16:11",1.6 | 2.2 | 3.1,RECLAMO
9,21809707,\n CUISMP en Sharepoint CID-CUISMP: \nnan\n es diferente a EXCEL -CORTE (CUISMP): \n27024\n Distrito Fiscal en Sharepoint CID-CUISMP: \nnan\n es diferente a EXCEL -CORTE (DF): \nPuno | \n EN EXCEL-CORTE PROACTIVO columna OBSERVACION debe ser: \nSe generó ticket para la revisión del servicio de datos de la sede nan\n pero se obtuvo \nSe generó ticket para la revisión del servicio de datos de la sede Juliaca4,1.1 | 1.7,PROACTIVO


In [9]:
from datetime import datetime
BASE_DIR = Path.cwd().parent.parent.parent.parent.parent.parent.parent
timestamp = datetime.now().strftime('%Y-%m-%d_%d_%H%M')
SAVE_FINAL_PATH = BASE_DIR / "media" / "minpub" / "validator_report" / "extract" / "final" / f"validacion_total_{timestamp}.xlsx"

result_df.to_excel(SAVE_FINAL_PATH, index=False)
print(f"file saved")

file saved
