# Librerías y dependencias

In [1]:
%%capture
!apt-get update
!apt-get install pandoc # para usar markdown
!apt-get install texlive-xetex # Toma un buen tiempo la instalación
!pip install markdown2 # para usar markdown
!pip install pypandoc # para usar markdown
!pip install fitz
!pip install --upgrade pymupdf
!pip install python-docx

In [2]:
import os
import json
import fitz  # PyMuPDF para leer PDFs
import markdown
import pypandoc
import google.generativeai as genai
from docx import Document

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Agente

In [4]:
genai.configure(api_key="AIzaSyAooWfS3xzumCHk4xw4lMjl2yGdcoj3sog")
model = genai.GenerativeModel('gemini-2.0-flash-001')

In [5]:
initial_prompt = """
Eres un desarrollador experto de contenido educativo con amplia experiencia en la creación de materiales de cursos universitarios. Posees un profundo conocimiento en principios pedagógicos, diseño curricular y redacción académica. Tu tarea es ayudar a desarrollar un agente inteligente basado en modelos de lenguaje (LLM) que, a partir de un plan de estudios (syllabus), genere materiales educativos integrales que cumplan con altos estándares académicos.

Contexto y Objetivos
El agente debe:

Analizar y Comprender el Syllabus:

Extraer los componentes esenciales (objetivos, competencias, temáticas, metodologías, evaluaciones, etc.).
Identificar puntos clave para la generación de contenido pedagógico.
Generar Materiales Educativos:

Elaborar módulos detallados para cada tema o área, definiendo objetivos, contenidos, actividades y evaluaciones.
Crear notas de clase comprensivas que expliquen en profundidad cada módulo, incluyendo ejemplos, explicaciones teóricas,Problemas de práctica con soluciones y preguntas para discusión.
Mantener un alto rigor académico, asegurando la confiabilidad de la información y la integración de buenas prácticas pedagógicas.
Formato de Salida Específico:

Toda la salida generada debe estructurarse en formato JSON.
La estructura JSON debe incluir secciones claras para módulos y notas de clase.
Ejemplo de formato JSON:

{
  "course_title": "Título del Curso",
  "modules": [
    {
      "module_title": "Título del Módulo 1",
      "objectives": ["Objetivo 1", "Objetivo 2"],
      "module_num": "1",
      "content_outline": "Resumen de contenidos",
      "class_notes": {
        "class_num": "1",
        "introduction": "Introducción detallada del tema",
        "theory": "Desarrollo teórico con explicaciones y ejemplos",
        "challenges": "Problemas  y actividades prácticas para el estudiante con las respectivas soluciones, también preguntas para discusión"
      }
    },
    {
      "module_title": "Título del Módulo 2",
      "objectives": ["Objetivo A", "Objetivo B"],
      "content_outline": "Resumen de contenidos",
      "class_notes": {
        "introduction": "Introducción al tema",
        "theory": "Explicaciones teóricas y casos de estudio",
        "challenges": "Ejercicios y retos para aplicar lo aprendido con las respectivas soluciones"
      }
    }
  ]
}


SYLLABUS:
"""

### Funciones para la extracción de texto

In [6]:
def extract_text_from_pdf(pdf_path):
    """ Extrae texto de un archivo PDF. """
    doc = fitz.open(pdf_path)
    return "\n".join([page.get_text() for page in doc])

def extract_text_from_txt(txt_path):
    """ Extrae texto de un archivo TXT. """
    with open(txt_path, "r", encoding="utf-8") as file:
        return file.read()

def extract_text_from_docx(docx_path):
    """ Extrae texto de un archivo DOCX. """
    doc = Document(docx_path)
    return "\n".join([para.text for para in doc.paragraphs])

def extract_text_from_file(file_path):
    """ Detecta el tipo de archivo y extrae el texto. """
    if file_path.endswith(".pdf"):
        return extract_text_from_pdf(file_path)
    elif file_path.endswith(".txt"):
        return extract_text_from_txt(file_path)
    elif file_path.endswith(".docx"):
        return extract_text_from_docx(file_path)
    else:
        raise ValueError("Formato de archivo no soportado")

def convert_to_pdf(content, output_name):
    """ Convierte texto en formato markdown a PDF. """
    html = markdown.markdown(content)
    extra_args = [
        '--pdf-engine=xelatex',
        '-V', 'mainfont=Latin Modern Roman',
        '-V', 'geometry:margin=1in',
        '-V', 'linkcolor=blue',
        '-V', 'toc'
    ]

    path = f"/content/drive/MyDrive/Trabajo4/output_v5/{output_name}"
    pypandoc.convert_text(html, 'pdf', format='html', outputfile=path, extra_args=extra_args)

def get_json(response):
    respuesta = response.text

    # Find the start and end of the JSON object
    start = respuesta.find('{')
    end = respuesta.rfind('}') + 1  # +1 to include the closing brace

    # Extract the JSON string
    json_string = respuesta[start:end]

    # Try to parse the JSON
    try:
        data_json = json.loads(json_string)
        return data_json
    except json.JSONDecodeError as e:
        print(f"Error decoding JSON: {e}")
        print(f"Problematic JSON string: {json_string}")
        return None

### Funciones para generar el contenido

In [7]:
import json
import markdown
import pypandoc
import google.generativeai as genai

def crear_material_clase(model, modulo_info, modulo_num, clase_num, total_clases, semanas_curso, clases_semana, previous_classes_summaries=""):
    """
    Genera el material para una clase específica dentro de un módulo

    Args:
        model: Modelo de Gemini a utilizar
        modulo_info: Información del módulo actual
        modulo_num: Número del módulo
        clase_num: Número de la clase dentro del módulo
        total_clases: Total de clases para este módulo
        semanas_curso: Duración total del curso en semanas
        clases_semana: Número de clases por semana
        previous_classes_summaries: Resumen de clases anteriores para mantener coherencia
    """

    prompt = f"""Eres un desarrollador experto de contenido educativo con amplia experiencia en la creación de materiales de cursos universitarios.
    Posees un profundo conocimiento en principios pedagógicos, diseño curricular y redacción académica.
    Tu tarea es ayudar a desarrollar materiales educativos integrales a partir de un plan de estudios (syllabus), asegurando altos estándares académicos.

    ### Contexto del Curso
    - Este curso tiene una duración total de {semanas_curso} semanas
    - Se imparten {clases_semana} clases por semana
    - El módulo actual ({modulo_num}) debe dividirse en {total_clases} clases distintas

    ### Contexto y Objetivos
    - **Analizar y comprender el syllabus**:
      - Extraer los componentes esenciales (objetivos, competencias, temáticas, metodologías, evaluaciones, etc.).
      - Identificar puntos clave para la generación de contenido pedagógico.
    - **Generar materiales educativos**:
      - Analizar detalladamente cada módulo, definiendo objetivos, contenidos, actividades y evaluaciones.
      - Crear notas de clase comprensivas que expliquen en profundidad cada tema, con ejemplos, explicaciones teóricas y problemas prácticos con soluciones.
      - Mantener un alto rigor académico y coherencia con clases previas.

    ### Plan de estudios - Módulo {modulo_num}
    {json.dumps(modulo_info, indent=2)}

    ### Clases anteriores de este módulo (resumen)
    {previous_classes_summaries}

    ### Instrucciones
    - Genera **únicamente** el material detallado de la **clase {clase_num} del módulo {modulo_num}**.
    - Esta es la clase {clase_num} de {total_clases} para este módulo.
    - Divide el contenido del módulo de manera lógica entre las {total_clases} clases.
    - Asegúrate de que esta clase tenga continuidad con las clases anteriores del módulo.
    - Incluye en el material:
      1. Título de la clase
      2. Objetivos específicos de la clase
      3. Contenido teórico detallado
      4. Ejemplos o casos de estudio
      5. Problemas prácticas o ejercicios con soluciones
      6. Materiales complementarios recomendados

    **Revisa antes de entregar la respuesta. No incluyas el historial en la respuesta, solo el nuevo contenido para esta clase específica.**
    """

    # Generar contenido con el modelo
    material = model.generate_content(prompt)

    # Generar resumen de la clase para mantener coherencia
    resumen_prompt = f"Resume brevemente los principales puntos tratados en la siguiente clase (máximo 200 palabras):\n{material.text}"
    resumen = model.generate_content(resumen_prompt)

    # Convertir a HTML
    html = markdown.markdown(material.text)

    # Convertir a PDF
    output_name = f"material_modulo_{modulo_num}_clase_{clase_num}.pdf"
    convert_to_pdf(html, output_name)

    return material, resumen.text

def crear_materiales_modulo(model, modulo_info, modulo_idx, semanas_curso, clases_semana):
    """
    Genera los materiales para todas las clases de un módulo

    Args:
        model: Modelo de Gemini a utilizar
        modulo_info: Información del módulo actual
        modulo_idx: Índice del módulo en la lista
        semanas_curso: Duración total del curso en semanas
        clases_semana: Número de clases por semana
    """
    # Calcular el número de clases para este módulo
    # Por defecto asignamos 2 clases por módulo, pero se puede ajustar según la lógica deseada
    total_modulos = len(data_json["modules"])
    total_clases_curso = semanas_curso * clases_semana

    # Distribuir clases de manera proporcional entre módulos
    clases_por_modulo = max(1, round(total_clases_curso / total_modulos))

    # Asegurar que los módulos más importantes tengan al menos 2 clases si es posible
    if modulo_idx < (total_clases_curso % total_modulos):
        clases_por_modulo += 1

    print(f"Generando {clases_por_modulo} clases para el módulo {modulo_idx+1}")

    # Para mantener coherencia entre clases
    previous_classes_summaries = ""

    # Generar cada clase del módulo
    for clase_num in range(1, clases_por_modulo + 1):
        print(f"Generando clase {clase_num} de {clases_por_modulo} del módulo {modulo_idx+1}...")

        material, resumen = crear_material_clase(
            model,
            modulo_info,
            modulo_idx + 1,  # Módulo comienza en 1, no en 0
            clase_num,
            clases_por_modulo,
            semanas_curso,
            clases_semana,
            previous_classes_summaries
        )

        # Agregar resumen de esta clase para las siguientes
        previous_classes_summaries += f"\n\nResumen de la clase {clase_num}:\n{resumen}"

    return previous_classes_summaries

def crear_todos_materiales(model, data_json, semanas_curso=16, clases_semana=2):
    """
    Genera los materiales para todos los módulos del curso

    Args:
        model: Modelo de Gemini a utilizar
        data_json: Datos estructurados del curso
        semanas_curso: Duración total del curso en semanas (por defecto 16)
        clases_semana: Número de clases por semana (por defecto 2)
    """
    all_summaries = ""

    for i, modulo in enumerate(data_json["modules"]):
        modulo_summaries = crear_materiales_modulo(
            model,
            modulo,
            i,
            semanas_curso,
            clases_semana
        )
        all_summaries += f"\n\n--- RESUMEN MÓDULO {i+1} ---\n{modulo_summaries}"

    # Opcionalmente, genera un documento con todos los resúmenes
    with open("resumen_curso_completo.txt", "w", encoding="utf-8") as f:
        f.write(all_summaries)

    return all_summaries

# Ejecución principal

In [8]:
# Obtener información
path = "/content/drive/MyDrive/Trabajo4/programas_materias/Evaluación humana/Simulación de sistemas.pdf"
document_text = extract_text_from_file(path)

In [9]:
# Obtener respuesta
prompt = f"{initial_prompt}\n{document_text}"
response = model.generate_content(prompt)

In [10]:
# Convertir respuesta a pdf
convert_to_pdf(response.text, "materiales_curso.pdf")





In [11]:
# Obtener data_json
data_json = get_json(response)

In [12]:
data_json

{'course_title': 'Simulación de Sistemas',
 'modules': [{'module_title': 'Introducción a la Simulación y Simulación de Monte Carlo',
   'module_num': '1',
   'objectives': ['Entender el proceso de modelado y análisis de sistemas.',
    'Aplicar técnicas de muestreo de distribuciones de probabilidad para resolver problemas de decisión.',
    'Comprender los pasos de la simulación y el concepto de aleatoriedad.'],
   'content_outline': 'Introducción a la Simulación. Pasos de la Simulación. Aleatoriedad. Simulación de Monte Carlo.',
   'class_notes': {'class_num': '1',
    'introduction': 'Esta clase introduce la simulación como herramienta para modelar y analizar sistemas complejos, especialmente aquellos con incertidumbre. Se discutirán los pasos generales involucrados en un estudio de simulación y la importancia de la aleatoriedad.  Se introduce la Simulación de Monte Carlo como una técnica fundamental.',
    'theory': 'La simulación es una técnica para imitar el comportamiento de un s

In [13]:
# Reemplaza tu actual llamada a crear_materiales con esto:
semanas_curso = 16
clases_semana = 2

history = crear_todos_materiales(model, data_json, semanas_curso, clases_semana)

Generando 6 clases para el módulo 1
Generando clase 1 de 6 del módulo 1...






Generando clase 2 de 6 del módulo 1...






Generando clase 3 de 6 del módulo 1...






Generando clase 4 de 6 del módulo 1...






Generando clase 5 de 6 del módulo 1...






Generando clase 6 de 6 del módulo 1...






Generando 6 clases para el módulo 2
Generando clase 1 de 6 del módulo 2...
Generando clase 2 de 6 del módulo 2...






Generando clase 3 de 6 del módulo 2...






Generando clase 4 de 6 del módulo 2...






Generando clase 5 de 6 del módulo 2...






Generando clase 6 de 6 del módulo 2...






Generando 5 clases para el módulo 3
Generando clase 1 de 5 del módulo 3...
Generando clase 2 de 5 del módulo 3...
Generando clase 3 de 5 del módulo 3...
Generando clase 4 de 5 del módulo 3...
Generando clase 5 de 5 del módulo 3...
Generando 5 clases para el módulo 4
Generando clase 1 de 5 del módulo 4...
Generando clase 2 de 5 del módulo 4...
Generando clase 3 de 5 del módulo 4...
Generando clase 4 de 5 del módulo 4...






Generando clase 5 de 5 del módulo 4...
Generando 5 clases para el módulo 5
Generando clase 1 de 5 del módulo 5...
Generando clase 2 de 5 del módulo 5...
Generando clase 3 de 5 del módulo 5...
Generando clase 4 de 5 del módulo 5...
Generando clase 5 de 5 del módulo 5...
Generando 5 clases para el módulo 6
Generando clase 1 de 5 del módulo 6...
Generando clase 2 de 5 del módulo 6...






Generando clase 3 de 5 del módulo 6...
Generando clase 4 de 5 del módulo 6...
Generando clase 5 de 5 del módulo 6...


# Marco de evaluación

In [14]:
!pip install textstat

Collecting textstat
  Downloading textstat-0.7.5-py3-none-any.whl.metadata (15 kB)
Collecting pyphen (from textstat)
  Downloading pyphen-0.17.2-py3-none-any.whl.metadata (3.2 kB)
Collecting cmudict (from textstat)
  Downloading cmudict-1.0.32-py3-none-any.whl.metadata (3.6 kB)
Downloading textstat-0.7.5-py3-none-any.whl (105 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m105.3/105.3 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading cmudict-1.0.32-py3-none-any.whl (939 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m939.4/939.4 kB[0m [31m30.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyphen-0.17.2-py3-none-any.whl (2.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m47.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyphen, cmudict, textstat
Successfully installed cmudict-1.0.32 pyphen-0.17.2 textstat-0.7.5


## Evaluación Automatizada

### Métricas de relevancia de contenido

Usando TF-IDF se evalúa la similitud entre el contenido generado y los temas del programa del curso usando la similitud del coseno. Se espera un resultado entre 50 y 80 para ser considerado aceptable y mayor a 80 para ser considerado excelente:

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def evaluar_relevancia(contenido_generado, data_json):

    temas_programa = " ".join([
        mod["content_outline"] + " " + " ".join(mod["objectives"])
        for mod in data_json["modules"]
    ])

    vectorizer = TfidfVectorizer()
    tfidf_matriz = vectorizer.fit_transform([contenido_generado, temas_programa])
    score = cosine_similarity(tfidf_matriz[0], tfidf_matriz[1])[0][0]

    return score

### Verificación de consistencia

Para verificar la consistencia se hace uso del resultado obtenido en la evaluación de relevancia de manera que se pueda saber si la información que se generó es coherente para cada una de las clases y módulos. Así, si un módulo repite mucha información que ya estaba en el anterior, se considera redundante y por ende inconsistente:

In [16]:
def evaluar_consistencia(modulos_generados):

    inconsistencias = []

    for i in range(len(modulos_generados) - 1):
        similitud = evaluar_relevancia(modulos_generados[i]["class_notes"]["theory"], {"modules": [modulos_generados[i+1]]})
        if similitud > 0.85:
            inconsistencias.append(f"Inconsistencia detectada entre Módulo {modulos_generados[i]['module_num']} y {modulos_generados[i+1]['module_num']}")

    return inconsistencias if inconsistencias else "Todos los módulos son consistentes"

### Puntuaciones de legibilidad

Se mide qué tan comprensible es el texto obtenido calculando el Índice de Flesh-Kincaid, el cual se basa en la longitud de las oraciones y el número promedio de sílabas por palabra. De acuerdo con este índice, mientras más cortas sean las frases y las palabras, el texto es más fácil de entender. Debido a que estamos trabajando con clases universitarias, se espera un índice entre 30 y 70 dependiendo del curso:

In [17]:
import textstat

def evaluar_legibilidad(texto):

    indice = textstat.flesch_reading_ease(texto)

    return indice

### Análisis del uso de terminología específica del dominio

Se evalúa el uso apropiado de la terminología por medio de una comparación con un diccionario de términos obtenido del programa del curso. De esta manera, se cuentan cuántas de estas palabras claves usadas en el programa aparencen en el contenido generado. El resultado esperado es un valor entre 50 y 80 para ser considerado aceptable y mayor a 80 para ser considerado excelente:

In [18]:
def evaluar_terminologia(contenido_generado, data_json):

    terminos_clave = set()

    for mod in data_json["modules"]:
        terminos_clave.update(mod["objectives"])
        terminos_clave.update(mod["content_outline"].split())
    terminos_usados = [termino for termino in terminos_clave if termino.lower() in contenido_generado.lower()]

    return len(terminos_usados) / len(terminos_clave) if terminos_clave else 0

### **Interpretación de resultados**

In [19]:
def evaluar_material_generado(data_json):

    resultados = []

    inconsistencias = evaluar_consistencia(data_json["modules"])

    for mod in data_json["modules"]:

        theory_content = mod["class_notes"].get("theory", "")
        retos = mod["class_notes"].get("challenges", [])
        pregunta = " ".join([ch.get("question", "") for ch in retos])
        solucion = " ".join([ch.get("solution", "") for ch in retos if "solution" in ch])

        contenido = theory_content + " " + pregunta + " " + solucion

        relevancia = evaluar_relevancia(contenido, data_json)
        legibilidad = evaluar_legibilidad(contenido)
        terminologia = evaluar_terminologia(contenido, data_json)

        resultados.append({
            "module_num": mod["module_num"],
            "Relevancia": relevancia,
            "Legibilidad": legibilidad,
            "Uso de Terminología": terminologia
        })

    return {
        "resultados": resultados,
        "inconsistencias": inconsistencias
    }

evaluacion = evaluar_material_generado(data_json)

AttributeError: 'str' object has no attribute 'get'

In [None]:
evaluacion

## Evaluación Humana