# Librerías y dependencias

In [None]:
%%capture
!apt-get update
!apt-get install pandoc # para usar markdown
!apt-get install texlive-xetex # Toma un buen tiempo la instalación
!pip install markdown2 # para usar markdown
!pip install pypandoc # para usar markdown
!pip install fitz
!pip install --upgrade pymupdf
!pip install python-docx

In [None]:
import os
import json
import fitz  # PyMuPDF para leer PDFs
import markdown
import pypandoc
import google.generativeai as genai
from docx import Document

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Agente

In [None]:
genai.configure(api_key="AIzaSyAooWfS3xzumCHk4xw4lMjl2yGdcoj3sog")
model = genai.GenerativeModel('gemini-2.0-flash-001')

In [None]:
initial_prompt = """
Eres un desarrollador experto de contenido educativo con amplia experiencia en la creación de materiales de cursos universitarios. Posees un profundo conocimiento en principios pedagógicos, diseño curricular y redacción académica. Tu tarea es ayudar a desarrollar un agente inteligente basado en modelos de lenguaje (LLM) que, a partir de un plan de estudios (syllabus), genere materiales educativos integrales que cumplan con altos estándares académicos.

Contexto y Objetivos
El agente debe:

Analizar y Comprender el Syllabus:

Extraer los componentes esenciales (objetivos, competencias, temáticas, metodologías, evaluaciones, etc.).
Identificar puntos clave para la generación de contenido pedagógico.
Generar Materiales Educativos:

Elaborar módulos detallados para cada tema o área, definiendo objetivos, contenidos, actividades y evaluaciones.
Crear notas de clase comprensivas que expliquen en profundidad cada módulo, incluyendo ejemplos, explicaciones teóricas,Problemas de práctica con soluciones y preguntas para discusión.
Mantener un alto rigor académico, asegurando la confiabilidad de la información y la integración de buenas prácticas pedagógicas.
Formato de Salida Específico:

Toda la salida generada debe estructurarse en formato JSON.
La estructura JSON debe incluir secciones claras para módulos y notas de clase.
Ejemplo de formato JSON:

{
  "course_title": "Título del Curso",
  "modules": [
    {
      "module_title": "Título del Módulo 1",
      "objectives": ["Objetivo 1", "Objetivo 2"],
      "module_num": "1",
      "content_outline": "Resumen de contenidos",
      "class_notes": {
        "class_num": "1",
        "introduction": "Introducción detallada del tema",
        "theory": "Desarrollo teórico con explicaciones y ejemplos",
        "challenges": "Problemas  y actividades prácticas para el estudiante con las respectivas soluciones, también preguntas para discusión"
      }
    },
    {
      "module_title": "Título del Módulo 2",
      "objectives": ["Objetivo A", "Objetivo B"],
      "content_outline": "Resumen de contenidos",
      "class_notes": {
        "introduction": "Introducción al tema",
        "theory": "Explicaciones teóricas y casos de estudio",
        "challenges": "Ejercicios y retos para aplicar lo aprendido con las respectivas soluciones"
      }
    }
  ]
}


SYLLABUS:
"""

### Funciones para la extracción de texto

In [None]:
def extract_text_from_pdf(pdf_path):
    """ Extrae texto de un archivo PDF. """
    doc = fitz.open(pdf_path)
    return "\n".join([page.get_text() for page in doc])

def extract_text_from_txt(txt_path):
    """ Extrae texto de un archivo TXT. """
    with open(txt_path, "r", encoding="utf-8") as file:
        return file.read()

def extract_text_from_docx(docx_path):
    """ Extrae texto de un archivo DOCX. """
    doc = Document(docx_path)
    return "\n".join([para.text for para in doc.paragraphs])

def extract_text_from_file(file_path):
    """ Detecta el tipo de archivo y extrae el texto. """
    if file_path.endswith(".pdf"):
        return extract_text_from_pdf(file_path)
    elif file_path.endswith(".txt"):
        return extract_text_from_txt(file_path)
    elif file_path.endswith(".docx"):
        return extract_text_from_docx(file_path)
    else:
        raise ValueError("Formato de archivo no soportado")

def convert_to_pdf(content, output_name):
    """ Convierte texto en formato markdown a PDF. """
    html = markdown.markdown(content)
    extra_args = [
        '--pdf-engine=xelatex',
        '-V', 'mainfont=Latin Modern Roman',
        '-V', 'geometry:margin=1in',
        '-V', 'linkcolor=blue',
        '-V', 'toc'
    ]

    path = f"/content/drive/MyDrive/Trabajo4/output/{output_name}"
    pypandoc.convert_text(html, 'pdf', format='html', outputfile=path, extra_args=extra_args)

def get_json(response):
    respuesta = response.text

    # Find the start and end of the JSON object
    start = respuesta.find('{')
    end = respuesta.rfind('}') + 1  # +1 to include the closing brace

    # Extract the JSON string
    json_string = respuesta[start:end]

    # Try to parse the JSON
    try:
        data_json = json.loads(json_string)
        return data_json
    except json.JSONDecodeError as e:
        print(f"Error decoding JSON: {e}")
        print(f"Problematic JSON string: {json_string}")
        return None

### Funciones para generar el contenido

In [None]:
def crear_material_clase_i(model, i, data_json):
    # Extraer solo la información del módulo actual
    modulo_info = data_json["modules"][i]

    module_num = modulo_info.get("module_num", i + 1)

    prompt = f"""Eres un desarrollador experto de contenido educativo con amplia experiencia en la creación de materiales de cursos universitarios.
    Posees un profundo conocimiento en principios pedagógicos, diseño curricular y redacción académica.
    Tu tarea es ayudar a desarrollar materiales educativos integrales a partir de un plan de estudios (syllabus), asegurando altos estándares académicos.

    ### Contexto y Objetivos
    - **Analizar y comprender el syllabus**:
      - Extraer los componentes esenciales (objetivos, competencias, temáticas, metodologías, evaluaciones, etc.).
      - Identificar puntos clave para la generación de contenido pedagógico.
    - **Generar materiales educativos**:
      - Analizar detalladamente cada módulo, definiendo objetivos, contenidos, actividades y evaluaciones con sus respectivas soluciones.
      - Crear notas de clase comprensivas que expliquen en profundidad cada módulo, con ejemplos, explicaciones teóricas, problemas práticos con soluciones y preguntas de discusión.
      - Mantener un alto rigor académico y coherencia con módulos previos.

    ### Plan de estudios - Módulo {module_num}
    {modulo_info}

    ### Instrucciones
    - Genera **únicamente** el material detallado del **módulo {module_num}**.
    - **No copies ni reformules información de módulos anteriores.**
    - Si un tema se repite en distintos módulos, **explica las diferencias y profundiza en los aspectos específicos de este módulo**.
    - Asegúrate de seguir el esquema de clases indicado en el syllabus.
    - Verifica el orden y la coherencia de los temas con las demás clases.
    - Usa exclusivamente la información del syllabus como base.

    **Revisa antes de entregar la respuesta. No incluyas el historial en la respuesta, solo el nuevo contenido.**
    """

    # Generar contenido con el modelo
    material = model.generate_content(prompt)

    # Imprimir la salida para verificar si es repetida
    print(f"Material generado para el módulo {module_num}:\n", material.text)

    # Generar resumen del material
    resumen = model.generate_content("Resume el siguiente texto sin perder información clave:\n" + material.text)

    # Convertir a PDF
    output_name = "material_modulo_{}.pdf".format(module_num)
    convert_to_pdf(material.text, output_name)

    return material, resumen

def crear_materiales(model, data_json):
    history = ""  # Ya no es necesario usarlo en la generación

    for i in range(len(data_json["modules"])):
        _, resumen = crear_material_clase_i(model, i, data_json)  # Pasamos data_json como dict

        # Si aún quieres acumular el resumen, puedes hacerlo sin que afecte la generación de contenido
        if resumen and resumen.text.strip():
            history += "\n" + resumen.text.strip()

    return history

def crear_material_clase(model, modulo_info, modulo_num, clase_num, total_clases, semanas_curso, clases_semana, previous_classes_summaries=""):
    """
    Genera el material para una clase específica con prompts optimizados
    """
    # Prompt base con información esencial
    prompt_base = f"""Eres un desarrollador experto de contenido educativo.

    ### Contexto del Curso
    - Duración: {semanas_curso} semanas, {clases_semana} clases por semana
    - Módulo actual ({modulo_num}) dividido en {total_clases} clases
    - Esta es la clase {clase_num} de {total_clases} para este módulo

    ### Instrucciones
    Genera el material detallado para la clase {clase_num} del módulo {modulo_num}, incluyendo:
    1. Título de la clase
    2. Objetivos específicos
    3. Contenido teórico detallado
    4. Ejemplos o casos de estudio
    5. Actividades prácticas con sus respectivas soluciones
    6. Materiales complementarios"""

    # Extraer solo la información esencial del módulo
    modulo_info_simplificado = {
        "title": modulo_info.get("title", ""),
        "description": modulo_info.get("description", ""),
        "topics": modulo_info.get("topics", [])
    }

    # Primer paso: obtener estructura general de la clase
    primer_prompt = f"""{prompt_base}

    ### Información del módulo
    {json.dumps(modulo_info_simplificado, indent=2)}

    Primero, proporciona solo un esquema detallado con los temas principales
    que deberías cubrir en esta clase específica."""

    esquema = model.generate_content(primer_prompt)

    # Solo enviar resúmenes relevantes para mantener contexto
    resumenes_relevantes = ""
    if previous_classes_summaries:
        # Extraer solo los últimos resúmenes si hay muchos
        resumenes_split = previous_classes_summaries.split("Resumen de la clase")
        if len(resumenes_split) > 3:  # Si hay más de 3 resúmenes
            resumenes_relevantes = "Resumen de la clase".join(resumenes_split[-3:])
        else:
            resumenes_relevantes = previous_classes_summaries

    # Segundo paso: generar el contenido completo basado en el esquema
    segundo_prompt = f"""{prompt_base}

    ### Información del módulo
    {json.dumps(modulo_info_simplificado, indent=2)}

    ### Esquema aprobado
    {esquema.text}

    ### Contexto de clases anteriores
    {resumenes_relevantes}

    Desarrolla ahora el contenido completo siguiendo este esquema,
    asegurando continuidad con las clases anteriores."""

    material = model.generate_content(segundo_prompt)

    # Generar resumen de la clase para mantener coherencia (prompt corto)
    resumen_prompt = "Resume en 150 palabras los puntos clave tratados en la siguiente clase:\n" + material.text[:2000]  # Limitamos a los primeros 2000 caracteres para el resumen
    resumen = model.generate_content(resumen_prompt)

    # Convertir a HTML y PDF
    output_name = f"material_modulo_{modulo_num}_clase_{clase_num}.pdf"
    convert_to_pdf(material.text, output_name)

    return material, resumen.text

def crear_materiales_modulo(model, modulo_info, modulo_idx, semanas_curso, clases_semana):
    """
    Genera los materiales para todas las clases de un módulo
    """
    # Calcular el número de clases para este módulo
    total_modulos = len(data_json["modules"])
    total_clases_curso = semanas_curso * clases_semana

    # Distribuir clases de manera proporcional entre módulos
    clases_por_modulo = max(1, round(total_clases_curso / total_modulos))

    # Asegurar que los módulos más importantes tengan al menos 2 clases si es posible
    if modulo_idx < (total_clases_curso % total_modulos):
        clases_por_modulo += 1

    # Limitamos a máximo 6 clases por módulo como solicitado
    clases_por_modulo = min(clases_por_modulo, 6)

    print(f"Generando {clases_por_modulo} clases para el módulo {modulo_idx+1}")

    # Para mantener coherencia entre clases
    previous_classes_summaries = ""

    # Generar cada clase del módulo
    for clase_num in range(1, clases_por_modulo + 1):
        print(f"Generando clase {clase_num} de {clases_por_modulo} del módulo {modulo_idx+1}...")

        material, resumen = crear_material_clase(
            model,
            modulo_info,
            modulo_idx + 1,
            clase_num,
            clases_por_modulo,
            semanas_curso,
            clases_semana,
            previous_classes_summaries
        )

        # Agregar resumen de esta clase para las siguientes
        previous_classes_summaries += f"\n\nResumen de la clase {clase_num}:\n{resumen}"

    return previous_classes_summaries

def crear_todos_materiales(model, data_json, semanas_curso=16, clases_semana=2):
    """
    Genera los materiales para todos los módulos del curso
    """
    all_summaries = ""

    for i, modulo in enumerate(data_json["modules"]):
        print(f"\n--- GENERANDO MÓDULO {i+1} ---")
        modulo_summaries = crear_materiales_modulo(
            model,
            modulo,
            i,
            semanas_curso,
            clases_semana
        )
        all_summaries += f"\n\n--- RESUMEN MÓDULO {i+1} ---\n{modulo_summaries}"

        # Guardar resúmenes después de cada módulo en caso de error
        with open(f"resumen_modulo_{i+1}.txt", "w", encoding="utf-8") as f:
            f.write(modulo_summaries)

    # Documento final con todos los resúmenes
    with open("resumen_curso_completo.txt", "w", encoding="utf-8") as f:
        f.write(all_summaries)

    return all_summaries

# Ejecución principal

In [None]:
# Obtener información
path = "/content/drive/MyDrive/Trabajo4/programas_materias/Evaluación humana/Programa Calidad de Software.docx"
document_text = extract_text_from_file(path)

In [None]:
# Obtener respuesta
prompt = f"{initial_prompt}\n{document_text}"
response = model.generate_content(prompt)

In [None]:
# Convertir respuesta a pdf
convert_to_pdf(response.text, "materiales_curso.pdf")

In [None]:
# Obtener data_json
data_json = get_json(response)

In [None]:
data_json

{'course_title': 'Calidad del Software',
 'course_description': 'Este curso proporciona una comprensión completa de los conceptos, procesos y prácticas necesarias para garantizar la calidad en el desarrollo de software.  Se utilizarán dos libros de texto principales: Software Quality Assurance de Claude Y. Laporte y Introduction to Software Quality de Gerard O’Regan.',
 'modules': [{'module_title': 'Introducción a la Calidad del Software',
   'module_num': '1',
   'objectives': ['Comprender la importancia de la calidad del software.',
    'Definir la calidad del software desde diferentes perspectivas.',
    'Identificar los factores que influyen en la calidad del software.',
    'Presentar el alcance del curso y los objetivos generales.'],
   'content_outline': 'Definiciones de calidad del software, impacto de la calidad en el desarrollo, factores que influyen en la calidad, introducción a las métricas de calidad, visión general del curso.',
   'class_notes': {'class_num': '1',
    'in

In [None]:
# Obtener material
history_materiales = ""
history_materiales = crear_materiales(model,data_json)

Material generado para el módulo 1:
 ## Módulo 1: Introducción a la Calidad del Software

**Objetivos del Módulo:**

*   Comprender la importancia de la calidad del software.
*   Definir la calidad del software desde diferentes perspectivas.
*   Identificar los factores que influyen en la calidad del software.
*   Presentar el alcance del curso y los objetivos generales.

**Contenido del Módulo:**

*   Definiciones de calidad del software.
*   Impacto de la calidad en el desarrollo.
*   Factores que influyen en la calidad.
*   Introducción a las métricas de calidad.
*   Visión general del curso.

**Clase 1**

**Título:** Fundamentos de la Calidad del Software

**Introducción:**

La calidad del software es esencial para el éxito de cualquier proyecto de software. Impacta la satisfacción del cliente, los costos de desarrollo y mantenimiento, y la reputación de la empresa. Esta clase introduce los conceptos fundamentales de la calidad del software y su importancia en el ciclo de vida del 

In [None]:
semanas_curso = 16
clases_semana = 2

history = crear_todos_materiales(model, data_json, semanas_curso, clases_semana)


--- GENERANDO MÓDULO 1 ---
Generando 6 clases para el módulo 1
Generando clase 1 de 6 del módulo 1...
Generando clase 2 de 6 del módulo 1...
Generando clase 3 de 6 del módulo 1...






Generando clase 4 de 6 del módulo 1...
Generando clase 5 de 6 del módulo 1...
Generando clase 6 de 6 del módulo 1...

--- GENERANDO MÓDULO 2 ---
Generando 6 clases para el módulo 2
Generando clase 1 de 6 del módulo 2...
Generando clase 2 de 6 del módulo 2...
Generando clase 3 de 6 del módulo 2...
Generando clase 4 de 6 del módulo 2...
Generando clase 5 de 6 del módulo 2...
Generando clase 6 de 6 del módulo 2...

--- GENERANDO MÓDULO 3 ---
Generando 6 clases para el módulo 3
Generando clase 1 de 6 del módulo 3...
Generando clase 2 de 6 del módulo 3...
Generando clase 3 de 6 del módulo 3...
Generando clase 4 de 6 del módulo 3...
Generando clase 5 de 6 del módulo 3...
Generando clase 6 de 6 del módulo 3...


# Marco de evaluación

In [None]:
!pip install textstat



## Evaluación Automatizada

### Métricas de relevancia de contenido

Usando TF-IDF se evalúa la similitud entre el contenido generado y los temas del programa del curso usando la similitud del coseno. Se espera un resultado entre 50 y 80 para ser considerado aceptable y mayor a 80 para ser considerado excelente:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def evaluar_relevancia(contenido_generado, data_json):

    temas_programa = " ".join([
        mod["content_outline"] + " " + " ".join(mod["objectives"])
        for mod in data_json["modules"]
    ])

    vectorizer = TfidfVectorizer()
    tfidf_matriz = vectorizer.fit_transform([contenido_generado, temas_programa])
    score = cosine_similarity(tfidf_matriz[0], tfidf_matriz[1])[0][0]

    return score

### Verificación de consistencia

Para verificar la consistencia se hace uso del resultado obtenido en la evaluación de relevancia de manera que se pueda saber si la información que se generó es coherente para cada una de las clases y módulos. Así, si un módulo repite mucha información que ya estaba en el anterior, se considera redundante y por ende inconsistente:

In [None]:
def evaluar_consistencia(modulos_generados):

    inconsistencias = []

    for i in range(len(modulos_generados) - 1):
        similitud = evaluar_relevancia(modulos_generados[i]["class_notes"]["theory"], {"modules": [modulos_generados[i+1]]})
        if similitud > 0.85:
            inconsistencias.append(f"Inconsistencia detectada entre Módulo {modulos_generados[i]['module_num']} y {modulos_generados[i+1]['module_num']}")

    return inconsistencias if inconsistencias else "Todos los módulos son consistentes"

### Puntuaciones de legibilidad

Se mide qué tan comprensible es el texto obtenido calculando el Índice de Flesh-Kincaid, el cual se basa en la longitud de las oraciones y el número promedio de sílabas por palabra. De acuerdo con este índice, mientras más cortas sean las frases y las palabras, el texto es más fácil de entender. Debido a que estamos trabajando con clases universitarias, se espera un índice entre 30 y 70 dependiendo del curso:

In [None]:
import textstat

def evaluar_legibilidad(texto):

    indice = textstat.flesch_reading_ease(texto)

    return indice

### Análisis del uso de terminología específica del dominio

Se evalúa el uso apropiado de la terminología por medio de una comparación con un diccionario de términos obtenido del programa del curso. De esta manera, se cuentan cuántas de estas palabras claves usadas en el programa aparencen en el contenido generado. El resultado esperado es un valor entre 50 y 80 para ser considerado aceptable y mayor a 80 para ser considerado excelente:

In [None]:
def evaluar_terminologia(contenido_generado, data_json):

    terminos_clave = set()

    for mod in data_json["modules"]:
        terminos_clave.update(mod["objectives"])
        terminos_clave.update(mod["content_outline"].split())
    terminos_usados = [termino for termino in terminos_clave if termino.lower() in contenido_generado.lower()]

    return len(terminos_usados) / len(terminos_clave) if terminos_clave else 0

### **Interpretación de resultados**

In [None]:
def evaluar_material_generado(data_json):

    resultados = []

    inconsistencias = evaluar_consistencia(data_json["modules"])

    for mod in data_json["modules"]:

        theory_content = mod["class_notes"].get("theory", "")
        retos = mod["class_notes"].get("challenges", [])
        pregunta = " ".join([ch.get("question", "") for ch in retos])
        solucion = " ".join([ch.get("solution", "") for ch in retos if "solution" in ch])

        contenido = theory_content + " " + pregunta + " " + solucion

        relevancia = evaluar_relevancia(contenido, data_json)
        legibilidad = evaluar_legibilidad(contenido)
        terminologia = evaluar_terminologia(contenido, data_json)

        resultados.append({
            "module_num": mod["module_num"],
            "Relevancia": relevancia,
            "Legibilidad": legibilidad,
            "Uso de Terminología": terminologia
        })

    return {
        "resultados": resultados,
        "inconsistencias": inconsistencias
    }

evaluacion = evaluar_material_generado(data_json)

In [None]:
evaluacion

{'resultados': [{'module_num': '1',
   'Relevancia': 0.6928527232957675,
   'Legibilidad': 25.49,
   'Uso de Terminología': 0.2833333333333333},
  {'module_num': '2',
   'Relevancia': 0.7306844324934806,
   'Legibilidad': 38.52,
   'Uso de Terminología': 0.35},
  {'module_num': '3',
   'Relevancia': 0.6711319046865591,
   'Legibilidad': 23.73,
   'Uso de Terminología': 0.2833333333333333}],
 'inconsistencias': 'Todos los módulos son consistentes'}

## Evaluación Humana