In [1]:
import os
from docx import Document
from openai import OpenAI
from dotenv import load_dotenv
import pdfplumber

# 1Ô∏è‚É£ Cargar API Key
load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# 2Ô∏è‚É£ Funci√≥n para leer DOCX
def leer_docx(ruta):
    doc = Document(ruta)
    return "\n".join([p.text.strip() for p in doc.paragraphs if p.text.strip()])

# 3Ô∏è‚É£ Funci√≥n para leer PDF
def leer_pdf(ruta):
    texto = []
    with pdfplumber.open(ruta) as pdf:
        for pagina in pdf.pages:
            contenido = pagina.extract_text()
            if contenido:
                texto.append(contenido.strip())
    return "\n".join(texto)

# 4Ô∏è‚É£ Prompt base (tono acad√©mico)
prompt_base_tono = """
Act√∫a como un revisor acad√©mico experto en metodolog√≠a de investigaci√≥n cuantitativa.
Tu tarea es hacer una revisi√≥n detallada, minuciosa y objetiva de la monograf√≠a proporcionada.

Instrucciones importantes sobre el tono y la forma:
- No suavices ni endulces las observaciones.
- No digas que algo est√° "bien" si hay errores, incoherencias o falta de claridad.
- No hagas las observaciones m√°s duras ni m√°s suaves: descr√≠belas tal cual son, con objetividad y rigor acad√©mico.
- No intentes motivar ni dar mensajes positivos. El objetivo es que la retroalimentaci√≥n sea precisa, clara y √∫til para corregir el trabajo.
- Usa un lenguaje formal, acad√©mico y directo.

Devuelve √∫nicamente las observaciones con tono acad√©mico neutral y objetivo. No incluyas frases de √°nimo ni de felicitaci√≥n.
"""

# 5Ô∏è‚É£ Prompts de agentes con la frase a√±adida en cada uno
frase_control = """Act√∫a como un revisor acad√©mico experto en metodolog√≠a de investigaci√≥n cuantitativa.
No propones ejemplos de mejoras ni sugerencias.
Te limitas √∫nicamente a hacer observaciones, no propones mejoras ni haces sugerencias.
"""

prompts_agentes = {
    "TITULO": f"""{frase_control}
Eval√∫a en el documento el T√çTULO de la monograf√≠a considerando:
- Claridad y precisi√≥n en el tema central.
- Identificaci√≥n de variables independientes y dependientes.
- Delimitaci√≥n geogr√°fica y temporal.
- Coherencia con el objetivo general y el planteamiento del problema.
- Concisi√≥n (15-25 palabras).
- Ejemplo de estructura correcta: ‚ÄúRelaci√≥n entre la frecuencia de compra y la rotaci√≥n de inventario en Totto Potos√≠, gesti√≥n 2024‚Äù.
Entrega observaciones detalladas.
""",
    "INTRODUCCI√ìN": f"""{frase_control}
Eval√∫a en el documento la INTRODUCCI√ìN considerando el T√çTULO:
- Presenta claramente el tema central.
- Explica el contexto general y la importancia del estudio.
- Introduce las variables, √°mbito geogr√°fico y temporal.
- Conecta con el problema de investigaci√≥n.
- Justificaci√≥n inicial coherente.
- Relaci√≥n con CONTEXTO, OBJETIVOS y PLANTEAMIENTO DEL PROBLEMA.
Entrega observaciones detalladas.
""",
    "CONTEXTO Y JUSTIFICACI√ìN": f"""{frase_control}
Eval√∫a en el documento CONTEXTO Y JUSTIFICACI√ìN considerando T√çTULO e INTRODUCCI√ìN:
- Descripci√≥n clara de la empresa, sector o mercado.
- Relevancia para la gesti√≥n comercial y uso de Business Intelligence.
- Justificaci√≥n social donde se explica el aporte de esta monograf√≠a a la sociedad en general.
- Justificaci√≥n econ√≥mica donde se explica el aporte en t√©rminos de mejora econ√≥mica de esta monograf√≠a a la sociedad en general.
- Justificaci√≥n comercial donde se explica el aporte de mejora comercial de esta monograf√≠a a la empresa y la sociedad en general.
- Inclusi√≥n de referencias o datos de apoyo.
- Coherencia con INTRODUCCI√ìN, PLANTEAMIENTO DEL PROBLEMA y OBJETIVOS.
Entrega observaciones detalladas.
""",
    "PLANTEAMIENTO DEL PROBLEMA": f"""{frase_control}
Eval√∫a en el documento PLANTEAMIENTO DEL PROBLEMA considerando T√çTULO, INTRODUCCI√ìN y CONTEXTO:
- Definici√≥n clara y concreta del problema.
- Redacci√≥n como pregunta de investigaci√≥n.
- Identificaci√≥n de causas y consecuencias.
- Variables independientes y dependientes.
- Delimitaci√≥n temporal y geogr√°fica.
- Coherencia con OBJETIVOS y DIAGN√ìSTICO.
- Verifica si la pregunta problem√°tica est√° correctamente formulada.
Entrega observaciones detalladas.
""",
    "OBJETIVOS": f"""{frase_control}
Eval√∫a en el documento OBJETIVO GENERAL y OBJETIVOS ESPEC√çFICOS:
- Claridad y redacci√≥n con verbos en infinitivo.
- Relaci√≥n directa con variables y problema.
- Delimitaci√≥n temporal y geogr√°fica.
- Secuencia l√≥gica de objetivos espec√≠ficos para alcanzar el general.
- Coherencia con PLANTEAMIENTO DEL PROBLEMA, ALCANCE y METODOLOG√çA.
Entrega observaciones detalladas.
""",
    "ALCANCE Y L√çMITES": f"""{frase_control}
Eval√∫a en el documento ALCANCE Y L√çMITES considerando OBJETIVOS y PROBLEMA:
- Definici√≥n de poblaci√≥n, variables, lugar y tiempo.
- Coherencia con objetivos y metodolog√≠a.
- Diferenciaci√≥n clara entre alcance (lo que cubre) y l√≠mites (lo que excluye).
- Razonabilidad de los l√≠mites definidos.
Entrega observaciones detalladas.
""",
    "MARCO TE√ìRICO": f"""{frase_control}
Eval√∫a en el documento MARCO TE√ìRICO REFERENCIAL considerando CONTEXTO, PROBLEMA y OBJETIVOS:
- 6.1. Business Intelligence y An√°lisis de Datos: Conceptos clave, autores y su relaci√≥n con el problema.
- 6.2. Funcionalidades de Power BI para An√°lisis: Profundidad t√©cnica y ejemplos aplicados.
- 6.3. Indicadores Clave de Desempe√±o (KPIs): Definici√≥n y explicaci√≥n de cada uno de los KPIs utilizados en el an√°lisis y los gr√°ficos.
- 6.4. Modelos de Pron√≥stico en Excel: Explicaci√≥n te√≥rica y v√≠nculo con objetivos.
- Uso de citas y formato APA.
- Coherencia general con el trabajo.
Entrega observaciones detalladas para cada subpunto.
""",
    "DIAGN√ìSTICO": f"""{frase_control}
Eval√∫a en el documento DIAGN√ìSTICO DE LA SITUACI√ìN ACTUAL considerando CONTEXTO, PROBLEMA y OBJETIVOS:
- 7.1. Descripci√≥n de la Empresa y Proceso de Ventas: Datos reales, tablas y gr√°ficos.
- 7.2. Diccionario de datos: Explicaci√≥n y descripci√≥n clara de cada una de las variables num√©ricas y categ√≥ricas utilizadas en el an√°lisis.
- 7.3. Estructura y Limpieza de la Base de Datos: Descripci√≥n clara de la preparaci√≥n de datos.
- 7.4. Calidad y Consistencia: Evaluaci√≥n de la integridad de los datos.
- Relaci√≥n del diagn√≥stico con el problema.
- Coherencia con la METODOLOG√çA y AN√ÅLISIS DE DATOS.
Entrega observaciones detalladas para cada subpunto.
""",
    "METODOLOG√çA": f"""{frase_control}
Eval√∫a en el documento la METODOLOG√çA considerando OBJETIVOS y ALCANCE:
- 8.1. Extracci√≥n y limpieza de Datos con Power Query: Procedimientos claros y replicables.
- 8.2. Modelado en Power BI: Estructura de datos, relaciones y presentaci√≥n de gr√°fico de relaciones.
- Claridad en pasos, herramientas utilizadas y replicabilidad.
- Coherencia con el DIAGN√ìSTICO y AN√ÅLISIS DE DATOS.
Entrega observaciones detalladas para cada subpunto.
""",
    "AN√ÅLISIS DE DATOS": f"""{frase_control}
Eval√∫a en el documento el AN√ÅLISIS DE DATOS considerando METODOLOG√çA y OBJETIVOS:
- 9.1. An√°lisis Descriptivo: Explicaci√≥n clara de los puntos que seran aboradados acontinuaci√≥n en el subtitulo.
- 9.2. An√°lisis Univariado: Presentaci√≥n con gr√°ficos, interpretaci√≥n y explicaci√≥n clara de variables individuales num√©ricas y categ√≥ricas.
- 9.3. An√°lisis Bivariado y Correlaciones: Presentaci√≥n con gr√°ficos, interpretaci√≥n y explicaci√≥n clara de relaciones entre variables.
- 9.4. An√°lisis de Indicadores Comerciales: Presentaci√≥n con gr√°ficos, interpretaci√≥n y explicaci√≥n clara de la relaci√≥n entre variables y su relevancia para la gesti√≥n.
- 9.5. Segmentaci√≥n Avanzada: Uso de t√©cnicas de agrupaci√≥n y segmentaci√≥n.
- Conexi√≥n de los resultados con los OBJETIVOS y PROBLEMA.
Entrega observaciones detalladas para cada subpunto.
""",
    "MODELOS Y PRON√ìSTICOS": f"""{frase_control}
Eval√∫a en el documento GENERACI√ìN DE MODELOS Y PRON√ìSTICOS considerando AN√ÅLISIS DE DATOS y OBJETIVOS:
- 10.1. Regresi√≥n Lineal con indicadores comerciales: Correcta aplicaci√≥n y explicaci√≥n.
- 10.2. Pron√≥stico con Funci√≥n TENDENCIA: Pertinencia y resultados.
- Interpretaci√≥n de resultados y conexi√≥n con los OBJETIVOS.
Entrega observaciones detalladas para cada subpunto.
""",
    "CONCLUSIONES": f"""{frase_control}
Eval√∫a en el documento CONCLUSIONES Y RECOMENDACIONES considerando todo el trabajo:
- Responden al objetivo general y espec√≠ficos.
- Resumen claro de los hallazgos principales.
- Recomendaciones pr√°cticas y aplicables.
- Coherencia global con T√çTULO, PROBLEMA, AN√ÅLISIS y MODELOS.
Entrega observaciones detalladas.
""",

    "CALIFICACI√ìN FINAL": f"""{frase_control}
Eval√∫a en el documento considerando todo el trabajo y todas las observaciones:
- Otorga una calificac√≥n que se encuentre entre 0% y 100%, donde 0% es PESIMO  y 100% es EXCELENTE
Entrega las observaciones mas destacadas que jsutifiquen la calificacion asignada.
"""
}

# 6Ô∏è‚É£ Prompt de coherencia global
prompt_coherencia_global = f"""{prompt_base_tono}

Eval√∫a la COHERENCIA GLOBAL considerando:
- Consistencia entre T√çTULO, INTRODUCCI√ìN, CONTEXTO, PROBLEMA y OBJETIVOS.
- Correspondencia de variables independientes y dependientes a lo largo del documento.
- Coherencia en delimitaci√≥n geogr√°fica y temporal.
- Ausencia de contradicciones entre secciones.
- Fluidez l√≥gica entre cap√≠tulos.

Entrega observaciones detalladas sobre la coherencia general del documento.
"""

# 7Ô∏è‚É£ Funci√≥n para ejecutar agente
def ejecutar_agente(seccion, prompt, texto, contexto_previos):
    contenido = prompt_base_tono + "\n\n" + prompt + "\n\n"
    if contexto_previos:
        contenido += "AN√ÅLISIS DE AGENTES PREVIOS:\n" + "\n".join(contexto_previos) + "\n\n"
    contenido += "TEXTO DE LA MONOGRAF√çA:\n" + texto

    respuesta = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": f"Eres un revisor experto en {seccion}."},
            {"role": "user", "content": contenido}
        ],
        temperature=0.2,
        max_tokens=5000
    )
    return respuesta.choices[0].message.content

# 8Ô∏è‚É£ Analizar monograf√≠a
def analizar_monografia_agentes(ruta_archivo):
    ext = ruta_archivo.lower().split(".")[-1]
    if ext == "docx":
        texto = leer_docx(ruta_archivo)
    elif ext == "pdf":
        texto = leer_pdf(ruta_archivo)
    else:
        print(f"‚è© Archivo no soportado: {ruta_archivo}")
        return

    nombre = os.path.splitext(os.path.basename(ruta_archivo))[0]
    carpeta_salida = os.path.dirname(ruta_archivo)
    ruta_out = os.path.join(carpeta_salida, f"INFORME_REVISION_{nombre}.docx")

    doc = Document()
    doc.add_heading('Informe de Revisi√≥n de Monograf√≠a', 0)

    contexto_previos = []

    # Ejecutar agentes secci√≥n por secci√≥n
    for seccion, prompt in prompts_agentes.items():
        doc.add_heading(seccion, level=1)
        resultado = ejecutar_agente(seccion, prompt, texto, contexto_previos)
        contexto_previos.append(f"[{seccion}]\n{resultado}")
        for linea in resultado.split("\n"):
            if linea.strip():
                doc.add_paragraph(linea.strip())

    # Agente final de coherencia global
    doc.add_heading("COHERENCIA GLOBAL", level=1)
    resultado_global = ejecutar_agente("Coherencia Global", prompt_coherencia_global, texto, contexto_previos)
    for linea in resultado_global.split("\n"):
        if linea.strip():
            doc.add_paragraph(linea.strip())

    doc.save(ruta_out)
    print(f"‚úÖ Informe generado: {ruta_out}")

# 9Ô∏è‚É£ Procesar todas las carpetas
def procesar_todas_monografias(carpeta_base):
    for carpeta in os.listdir(carpeta_base):
        ruta_carpeta = os.path.join(carpeta_base, carpeta)
        if os.path.isdir(ruta_carpeta):
            archivos_validos = [f for f in os.listdir(ruta_carpeta) if f.lower().endswith((".docx", ".pdf"))]
            if archivos_validos:
                for archivo in archivos_validos:
                    ruta_archivo = os.path.join(ruta_carpeta, archivo)
                    analizar_monografia_agentes(ruta_archivo)
            else:
                print(f"‚ö†Ô∏è No hay archivos DOCX o PDF en {ruta_carpeta}")

# üîü Ejecutar
if __name__ == "__main__":
    carpeta_monografias = r"C:\Users\HP\Downloads\MONOGRAFIAS"
    procesar_todas_monografias(carpeta_monografias)


‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\NOELIA ANDREA TORRICO MEDINA\INFORME_REVISION_TRABAJO FINAL MONOGRAFIA-NOELIA A. TORRICO MEDINA.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\PAOLA TATIANA CHAMBI COAQUIRA\INFORME_REVISION_MONOGRAFIA TATIANA CHAMBI.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\RODRIGO CARVALLO ELVIRA\INFORME_REVISION_MONOGRAFIA   RODRIGO CARVALLO.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\SAMUEL ISAAC MAITA LE√ìN\INFORME_REVISION_Monograf√≠a Samuel Isaac Maita Le√≥n.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\SUSAN ROXANA GONZALES SOTO\INFORME_REVISION_Trabajo final.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\WANDY SAORI SAENZ ARRIAZA\INFORME_REVISION_MONOGRAFIA FINAL_ WANDYSAENZ.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAFIAS\WAYRA GONZALES GONZALES\INFORME_REVISION_MONOGRAFIA FINAL_GonzalesWayra.docx
‚úÖ Informe generado: C:\Users\HP\Downloads\MONOGRAF