In [19]:
# Instalación de dependencias necesarias (se recomienda ejecutar estas líneas solo una vez)
!pip install -q backoff python-docx nltk PyPDF2 markdown-it-py pypandoc
!apt-get install -y pandoc texlive-xetex texlive-fonts-recommended texlive-plain-generic
!pandoc --version


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
pandoc is already the newest version (2.9.2.1-3ubuntu2).
texlive-fonts-recommended is already the newest version (2021.20220204-1).
texlive-plain-generic is already the newest version (2021.20220204-1).
texlive-xetex is already the newest version (2021.20220204-1).
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.
pandoc 2.9.2.1
Compiled with pandoc-types 1.20, texmath 0.12.0.2, skylighting 0.8.5
Default user data directory: /root/.local/share/pandoc or /root/.pandoc
Copyright (C) 2006-2020 John MacFarlane
Web:  https://pandoc.org
This is free software; see the source for copying conditions.
There is no warranty, not even for merchantability or fitness
for a particular purpose.


# Configuración inicial


In [20]:
import os

# Es recomendable almacenar la API Key en Secrets de Colab y no exponerla directamente en el código.
os.environ['GOOGLE_API_KEY'] = 'AIzaSyD8Vp2fT5rKPgTJV40ekUgShJd7vkHWqHA'

import google.generativeai as genai

import nltk
nltk.download('punkt_tab')

# Clase de configuración para el agente educativo con IA
class Config:
    """
    Configuración para el modelo y parámetros del agente educativo.

    Atributos:
        gemini_model (str): Modelo de generación a utilizar.
        llm_tokens_per_minute (int): Cantidad de tokens procesados por minuto.
        llm_max_tokens_per_request (int): Máximo de tokens permitidos por solicitud.
        prompt_templates_path (str): Ruta al archivo de plantillas de prompts.
        readability_threshold (float): Umbral de legibilidad para el contenido generado.
    """
    def __init__(
        self,
        gemini_model: str = 'gemini-2.0-flash-001',
        llm_tokens_per_minute: int = 50000,
        llm_max_tokens_per_request: int = 4000,
        prompt_templates_path: str = 'prompts.json',
        readability_threshold: float = 60.0
    ):
        self.gemini_model = gemini_model
        self.llm_tokens_per_minute = llm_tokens_per_minute
        self.llm_max_tokens_per_request = llm_max_tokens_per_request
        self.prompt_templates_path = prompt_templates_path
        self.readability_threshold = readability_threshold

# Inicialización del modelo utilizando la configuración predeterminada
config = Config()
model = genai.GenerativeModel(config.gemini_model)


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


# Modelo

In [21]:
"""
Módulo para gestionar la interacción con la API de Google Gemini,
optimizado para un agente educativo inteligente.
"""

import time
import json
import logging
import os
from dataclasses import dataclass
from typing import Dict
import google.generativeai as genai
import backoff

# Constante para el período de reinicio del contador (en segundos)
RATE_LIMIT_RESET = 60

# Configuración básica del logging para el módulo
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

# =============================================================================
# Configuración del LLM
# =============================================================================
@dataclass
class Config:
    gemini_model: str
    llm_tokens_per_minute: int
    llm_max_tokens_per_request: int
    prompt_templates_path: str

# =============================================================================
# Limitador de Tasa (RateLimiter)
# =============================================================================
class RateLimiter:
    """
    Controla la tasa de llamadas a la API para evitar exceder el límite
    de tokens permitidos por petición.
    """
    def __init__(self, tokens_per_minute: int, max_tokens_per_request: int):
        self.tokens_per_minute = tokens_per_minute
        self.max_tokens_per_request = max_tokens_per_request
        self.tokens_used_in_minute = 0
        self.last_reset = time.time()

    def wait_if_needed(self, tokens: int) -> None:
        """
        Espera si la suma de tokens usados y los solicitados excede el límite por minuto.

        Args:
            tokens (int): Número de tokens que se desean consumir en la petición.
        """
        # Validar que no se soliciten más tokens de los permitidos en una petición
        if tokens > self.max_tokens_per_request:
            raise ValueError(
                f"El número de tokens solicitados ({tokens}) excede el máximo permitido por petición "
                f"({self.max_tokens_per_request})."
            )

        now = time.time()
        # Reiniciar el contador si ha pasado el período definido
        if now - self.last_reset >= RATE_LIMIT_RESET:
            self.tokens_used_in_minute = 0
            self.last_reset = now

        # Si se excede el límite, se espera hasta que se reinicie el contador
        if self.tokens_used_in_minute + tokens > self.tokens_per_minute:
            time_to_wait = RATE_LIMIT_RESET - (now - self.last_reset)
            if time_to_wait > 0:
                logger.info(
                    f"Limitador de tasa: esperando {time_to_wait:.2f} segundos para cumplir con el límite de tokens."
                )
                time.sleep(time_to_wait)
                # Reiniciar el contador tras la espera
                self.tokens_used_in_minute = tokens
                self.last_reset = time.time()
        else:
            self.tokens_used_in_minute += tokens

# =============================================================================
# LLMEngine: Interfaz para la API de Google Gemini
# =============================================================================
class LLMEngine:
    """
    Interfaz para interactuar con la API de Google Gemini, generando contenido educativo
    de alta calidad.
    """
    def __init__(self, config: Config):
        """
        Inicializa el motor LLM con la configuración proporcionada.

        Args:
            config (Config): Instancia de Config con los parámetros necesarios.
        """
        self.config = config
        self.logger = logger.getChild("llm_engine")

        # Verificar la existencia de la variable de entorno con la clave API
        api_key = os.environ.get('GOOGLE_API_KEY')
        if not api_key:
            self.logger.error("La variable de entorno 'GOOGLE_API_KEY' no está definida.")
            raise EnvironmentError("La variable de entorno 'GOOGLE_API_KEY' es requerida.")

        # Configurar la API de Google Gemini
        genai.configure(api_key=api_key)
        self.model = genai.GenerativeModel(self.config.gemini_model)

        # Inicializar el limitador de tasa
        self.rate_limiter = RateLimiter(
            tokens_per_minute=self.config.llm_tokens_per_minute,
            max_tokens_per_request=self.config.llm_max_tokens_per_request
        )

        # Cargar las plantillas de prompts
        self.prompt_templates = self._load_prompt_templates()

        # Instrucción base del sistema, mejorada para la generación de contenido educativo
        self.system_instruction = (
            "Eres un asistente educativo experto en la creación de materiales didácticos de alta calidad para cursos universitarios. "
            "Tu tarea es generar contenido claro, preciso y bien estructurado, con rigor académico y ejemplos pertinentes, "
            "adaptado al nivel de profundidad que se solicita. Responde siempre de forma organizada y autoexplicativa, "
            "para que sea fácil de entender y aplicar."
        )

    def _load_prompt_templates(self) -> Dict[str, str]:
        """
        Carga las plantillas de prompts desde un archivo JSON.

        Returns:
            Dict[str, str]: Diccionario con las plantillas de prompts.
        """
        try:
            with open(self.config.prompt_templates_path, 'r', encoding='utf-8') as f:
                templates = json.load(f)
                self.logger.info("Plantillas de prompts cargadas correctamente.")
                return templates
        except Exception as e:
            self.logger.warning(
                f"No se pudieron cargar las plantillas desde {self.config.prompt_templates_path}: {str(e)}. "
                "Se usarán plantillas por defecto."
            )
            return {
                "lecture_notes": (
                    "Genera notas de clase detalladas para el tema: {topic_title}. "
                    "Incluye los siguientes subtemas: {subtopics}. "
                    "Las notas deben incluir definiciones, explicaciones claras, ejemplos y casos de aplicación."
                ),
                "practice_problems": (
                    "Crea problemas de práctica con soluciones paso a paso para el tema: {topic_title}. "
                    "Los problemas deben cubrir: {subtopics}. "
                    "Incluye problemas de distintos niveles de dificultad."
                ),
                "discussion_questions": (
                    "Genera preguntas para discusión sobre el tema: {topic_title}, considerando: {subtopics}. "
                    "Las preguntas deben promover el pensamiento crítico y el análisis profundo."
                ),
                "learning_objectives": (
                    "Crea objetivos de aprendizaje específicos y medibles para el tema: {topic_title}. "
                    "Considera los siguientes subtemas: {subtopics}. "
                    "Usa verbos de la taxonomía de Bloom apropiados."
                ),
                "suggested_resources": (
                    "Sugiere recursos de aprendizaje adicionales para el tema: {topic_title}. "
                    "Incluye libros, artículos, videos, cursos en línea y otros materiales relevantes para: {subtopics}."
                )
            }

    @backoff.on_exception(
        backoff.expo,
        Exception,
        max_tries=3,
        jitter=backoff.full_jitter,
        logger=logger.getChild("llm_engine")
    )
    def generate_content(self, prompt: str, max_tokens: int = 1000) -> str:
        """
        Genera contenido educativo llamando a la API de Google Gemini.

        Args:
            prompt (str): Instrucción detallada para el modelo.
            max_tokens (int, optional): Número máximo de tokens para la respuesta. Por defecto es 1000.

        Returns:
            str: Texto generado por el modelo.
        """
        self.logger.debug(f"Generando contenido con prompt (primeros 100 caracteres): {prompt[:100]}...")

        # Estimar tokens del prompt (aproximación simple)
        prompt_tokens = len(prompt.split())

        # Calcular el total de tokens solicitados (prompt + respuesta)
        total_tokens = prompt_tokens + max_tokens

        # Ajuste dinámico: si total_tokens supera el límite, reducir max_tokens
        if total_tokens > self.rate_limiter.max_tokens_per_request:
            available_tokens = self.rate_limiter.max_tokens_per_request - prompt_tokens
            if available_tokens <= 0:
                raise ValueError("El prompt es demasiado largo y no deja espacio para la respuesta.")
            self.logger.info(
                f"Ajustando max_tokens de {max_tokens} a {available_tokens} para cumplir el límite."
            )
            max_tokens = available_tokens
            total_tokens = prompt_tokens + max_tokens

        # Esperar si es necesario para cumplir con los límites de tokens
        self.rate_limiter.wait_if_needed(total_tokens)

        try:
            # Combinar la instrucción del sistema con el prompt del usuario
            full_prompt = f"{self.system_instruction}\n\n{prompt}"

            # Configuración para la generación de contenido
            generation_config = {
                "max_output_tokens": max_tokens,
                "temperature": 0.7,
                "top_p": 0.9,
                "top_k": 40
            }

            self.logger.debug("Llamando a la API de Gemini con la configuración definida.")
            response = self.model.generate_content(
                contents=[{"role": "user", "parts": [{"text": full_prompt}]}],
                generation_config=generation_config
            )

            # Extraer y retornar el texto generado
            generated_text = response.text.strip() if response.text else ""
            self.logger.debug("Contenido generado exitosamente.")
            return generated_text

        except Exception as e:
            self.logger.error(f"Error al generar contenido con Gemini: {str(e)}", exc_info=True)
            raise


# Generador de contenido educativo

In [22]:
import logging
import textwrap
from typing import Dict, Any

class ContentGenerator:
    """
    Genera contenido educativo utilizando un motor LLM.
    """
    # Constante para definir límites específicos de tokens por tipo de contenido
    TOKEN_LIMITS: Dict[str, int] = {
        "lecture_notes": 4000,
        "practice_problems": 3000,
        "discussion_questions": 2000,
        "learning_objectives": 1500,
        "suggested_resources": 2000
    }

    def __init__(self, llm_engine: Any, config: Dict[str, Any]) -> None:
        """
        Inicializa el generador de contenido.

        Args:
            llm_engine: Instancia del motor LLM para generación de contenido.
            config: Configuración general del sistema.
        """
        self.llm_engine = llm_engine
        self.config = config
        self.logger = logging.getLogger("educational_agent.content_generator")

    def generate_all_materials(self, syllabus_data: Dict[str, Any]) -> Dict[str, Dict[str, str]]:
        """
        Genera todos los materiales didácticos para cada tema del programa.

        Args:
            syllabus_data: Datos estructurados del programa del curso.

        Returns:
            Diccionario que asocia cada tema (por ID) a un sub-diccionario con los diferentes tipos de contenido.
        """
        all_content: Dict[str, Dict[str, str]] = {}

        try:
            course_context = {
                "course_title": syllabus_data["course_title"],
                "course_code": syllabus_data["course_code"],
                "course_description": syllabus_data["description"],
                "course_objectives": syllabus_data["objectives"]
            }
        except KeyError as e:
            self.logger.error(f"Clave faltante en syllabus_data: {e}")
            raise

        for topic in syllabus_data.get("topics", []):
            topic_id = topic.get("id")
            topic_title = topic.get("title", "Tema sin título")
            self.logger.info(f"Generando contenido para el tema {topic_id}: {topic_title}")

            # Se genera el contenido para cada tipo utilizando métodos auxiliares
            topic_content = {
                "lecture_notes": self._generate_content_with_context(
                    topic, course_context, "lecture_notes", self._lecture_notes_context(course_context)
                ),
                "practice_problems": self._generate_content_with_context(
                    topic, course_context, "practice_problems", self._practice_problems_context(course_context)
                ),
                "discussion_questions": self._generate_content_with_context(
                    topic, course_context, "discussion_questions", self._discussion_questions_context(course_context)
                ),
                "learning_objectives": self._generate_content_with_context(
                    topic, course_context, "learning_objectives", self._learning_objectives_context(course_context)
                ),
                "suggested_resources": self._generate_content_with_context(
                    topic, course_context, "suggested_resources", self._suggested_resources_context(course_context)
                )
            }
            all_content[topic_id] = topic_content

        return all_content

    def _generate_content_with_context(
        self,
        topic: Dict[str, Any],
        course_context: Dict[str, Any],
        template_key: str,
        additional_context: str,
        default_max_tokens: int = 2000
    ) -> str:
        """
        Construye y genera contenido a partir de una plantilla y un contexto adicional.

        Args:
            topic: Datos del tema.
            course_context: Datos generales del curso.
            template_key: Clave para obtener la plantilla desde llm_engine.prompt_templates.
            additional_context: Texto adicional que se agregará al prompt.
            default_max_tokens: Límite de tokens en caso de que no se defina uno específico.

        Returns:
            Contenido generado como cadena de texto.
        """
        prompt_template: str = self.llm_engine.prompt_templates.get(template_key, "")
        if not prompt_template:
            self.logger.warning(f"No se encontró plantilla para {template_key}.")

        subtopics = topic.get("subtopics", [])
        subtopics_text = ", ".join(subtopics)
        prompt = prompt_template.format(
            topic_title=topic.get("title", ""),
            subtopics=subtopics_text
        )

        # Se combina el contexto adicional con la plantilla ya completada
        final_prompt = textwrap.dedent(f"""
            {additional_context.strip()}

            {prompt.strip()}
        """)
        self.logger.debug(f"Prompt para {template_key}: {final_prompt[:150]}...")

        max_tokens = self.TOKEN_LIMITS.get(template_key, default_max_tokens)

        return self.llm_engine.generate_content(final_prompt, max_tokens=max_tokens)

    def _lecture_notes_context(self, course_context: Dict[str, Any]) -> str:
        """Retorna el contexto adicional para generar notas de clase."""
        return textwrap.dedent(f"""
            Información del curso:
            - Título: {course_context.get('course_title', '')}
            - Código: {course_context.get('course_code', '')}
            - Descripción: {course_context.get('course_description', '')}

            Genera notas de clase completas y detalladas que cubran el tema a profundidad.
            Emplea rigor académico, definiciones precisas y ejemplos concretos para cada concepto.
            Asegúrate de explicar la relevancia práctica y posibles aplicaciones.
            Organiza la información de manera clara y estructurada, de modo que sea fácilmente entendible.
        """)

    def _practice_problems_context(self, course_context: Dict[str, Any]) -> str:
        """Retorna el contexto adicional para generar problemas de práctica."""
        return textwrap.dedent(f"""
            Para el curso: {course_context.get('course_title', '')} ({course_context.get('course_code', '')})

            Genera un conjunto de problemas de práctica que cubran todos los aspectos importantes del tema.
            Asegúrate de incluir:
            1. Al menos 5 problemas con distintos niveles de dificultad (básico, intermedio, avanzado).
            2. Cada problema con una solución paso a paso detallada y justificada.
            3. Preguntas conceptuales y aplicadas, integrando el contexto del curso.
            4. Conexión a casos de la vida real o de la industria cuando sea pertinente.
        """)

    def _discussion_questions_context(self, course_context: Dict[str, Any]) -> str:
        """Retorna el contexto adicional para generar preguntas de discusión."""
        return textwrap.dedent(f"""
            Para el curso: {course_context.get('course_title', '')}

            Genera un conjunto de preguntas para discusión que:
            1. Promuevan el pensamiento crítico y reflexivo.
            2. Estimulen el debate y el intercambio de ideas entre los estudiantes.
            3. Conecten el tema con problemas actuales o aplicaciones reales.
            4. Exploren implicaciones éticas, sociales o económicas cuando sea oportuno.
            5. Fomenten la conexión entre este tema y otros contenidos del curso.

            Para cada pregunta, incluye una breve nota para el instructor sobre los puntos clave que podrían surgir en el debate.
        """)

    def _learning_objectives_context(self, course_context: Dict[str, Any]) -> str:
        """Retorna el contexto adicional para generar objetivos de aprendizaje."""
        course_objectives = course_context.get("course_objectives", [])
        objectives_str = ", ".join(course_objectives)
        return textwrap.dedent(f"""
            Para el curso: {course_context.get('course_title', '')}

            Genera objetivos de aprendizaje que:
            1. Sean específicos, medibles, alcanzables, relevantes y con un tiempo definido (SMART).
            2. Utilicen verbos de acción de la taxonomía de Bloom apropiados para el nivel universitario.
            3. Cubran diferentes niveles cognitivos (recordar, comprender, aplicar, analizar, evaluar, crear).
            4. Se alineen con los objetivos generales del curso.
            5. Sean claras y comprensibles para los estudiantes.

            Los objetivos generales del curso incluyen: {objectives_str}.
        """)

    def _suggested_resources_context(self, course_context: Dict[str, Any]) -> str:
        """Retorna el contexto adicional para generar recursos sugeridos."""
        return textwrap.dedent(f"""
            Para el curso: {course_context.get('course_title', '')}

            Genera una lista de recursos de aprendizaje que incluya:
            1. Libros de texto principales y complementarios (proporciona autores y años de publicación).
            2. Artículos académicos relevantes y actualizados, si es posible de acceso abierto.
            3. Recursos en línea de calidad (MOOCs, tutoriales, videos).
            4. Herramientas o software relevantes cuando sea aplicable.
            5. Recursos para diferentes niveles de conocimiento previo y enfoques de aprendizaje.

            Para cada recurso, describe su relevancia y utilidad en relación al tema y al curso.
        """)


# Extraer informacion de documentos

In [23]:
"""
Módulo para procesar y extraer información estructurada de documentos
(PDF, DOCX, TXT) que contienen programas de curso.
"""

import os
import re
import logging
from typing import Dict, List, Any
import PyPDF2
import docx
import nltk
from nltk.tokenize import sent_tokenize

# Configuración del logger para este módulo
logger = logging.getLogger("educational_agent.document_processor")
logging.basicConfig(level=logging.INFO)


class DocumentProcessor:
    """
    Procesa y extrae información estructurada de documentos que contienen programas de curso.
    """

    def __init__(self, config: "Config") -> None:
        """
        Inicializa el procesador de documentos y descarga los recursos de NLTK necesarios.

        Args:
            config: Objeto de configuración con parámetros del sistema.
        """
        self.config = config
        self.logger = logger

        # Verificar y descargar el tokenizador 'punkt' de NLTK si no se encuentra disponible
        try:
            nltk.data.find('tokenizers/punkt')
        except LookupError:
            self.logger.info("Descargando recursos NLTK necesarios...")
            nltk.download('punkt')

    def process_file(self, file_path: str) -> Dict[str, Any]:
        """
        Procesa un archivo de programa de curso y extrae su estructura.

        Args:
            file_path: Ruta al archivo del programa.

        Returns:
            Diccionario con la información estructurada del curso.
        """
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"No se encontró el archivo: {file_path}")

        file_ext = os.path.splitext(file_path)[1].lower()
        if file_ext == '.pdf':
            text = self._extract_text_from_pdf(file_path)
        elif file_ext == '.docx':
            text = self._extract_text_from_docx(file_path)
        elif file_ext == '.txt':
            text = self._extract_text_from_txt(file_path)
        else:
            raise ValueError(f"Formato de archivo no soportado: {file_ext}")

        syllabus_data = self._parse_syllabus(text)
        return syllabus_data

    def _extract_text_from_pdf(self, file_path: str) -> str:
        """
        Extrae y retorna el texto completo de un archivo PDF.

        Args:
            file_path: Ruta del archivo PDF.

        Returns:
            Texto extraído del PDF.
        """
        self.logger.info(f"Extrayendo texto de PDF: {file_path}")
        texts = []
        try:
            with open(file_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                for page in reader.pages:
                    page_text = page.extract_text()
                    if page_text:
                        texts.append(page_text)
            return "\n".join(texts)
        except Exception as e:
            self.logger.error(f"Error al extraer texto de PDF: {e}")
            raise

    def _extract_text_from_docx(self, file_path: str) -> str:
        """
        Extrae y retorna el texto completo de un archivo DOCX.

        Args:
            file_path: Ruta del archivo DOCX.

        Returns:
            Texto extraído del DOCX.
        """
        self.logger.info(f"Extrayendo texto de DOCX: {file_path}")
        try:
            doc = docx.Document(file_path)
            texts = [paragraph.text for paragraph in doc.paragraphs if paragraph.text.strip()]
            return "\n".join(texts)
        except Exception as e:
            self.logger.error(f"Error al extraer texto de DOCX: {e}")
            raise

    def _extract_text_from_txt(self, file_path: str) -> str:
        """
        Extrae y retorna el texto completo de un archivo TXT.

        Args:
            file_path: Ruta del archivo TXT.

        Returns:
            Texto extraído del TXT.
        """
        self.logger.info(f"Extrayendo texto de TXT: {file_path}")
        try:
            with open(file_path, 'r', encoding='utf-8') as file:
                return file.read()
        except UnicodeDecodeError:
            with open(file_path, 'r', encoding='latin-1') as file:
                return file.read()
        except Exception as e:
            self.logger.error(f"Error al extraer texto de TXT: {e}")
            raise

    def _parse_syllabus(self, text: str) -> Dict[str, Any]:
        """
        Analiza el texto completo del programa y extrae su estructura.

        Args:
            text: Texto completo del documento.

        Returns:
            Diccionario con información estructurada del curso.
        """
        self.logger.info("Analizando la estructura del programa de curso")
        syllabus_data: Dict[str, Any] = {
            "course_title": "",
            "course_code": "",
            "instructor": "",
            "description": "",
            "objectives": [],
            "topics": [],
            "evaluation_methods": [],
            "bibliography": []
        }

        sections = self._split_into_sections(text)

        syllabus_data["course_title"] = self._extract_course_title(sections)
        syllabus_data["course_code"] = self._extract_course_code(sections)
        syllabus_data["instructor"] = self._extract_instructor(sections)
        syllabus_data["description"] = self._extract_description(sections)
        syllabus_data["objectives"] = self._extract_objectives(sections)
        syllabus_data["topics"] = self._extract_topics(sections)
        syllabus_data["evaluation_methods"] = self._extract_evaluation_methods(sections)
        syllabus_data["bibliography"] = self._extract_bibliography(sections)

        return syllabus_data

    def _split_into_sections(self, text: str) -> Dict[str, str]:
        """
        Divide el texto en secciones basadas en encabezados comunes.

        Args:
            text: Texto completo del documento.

        Returns:
            Diccionario donde las claves son los encabezados y los valores, el contenido asociado.
        """
        section_headers = [
            r"(?:TÍTULO|NOMBRE)\s+DEL\s+CURSO",
            r"(?:CÓDIGO|CLAVE)",
            r"(?:PROFESOR|INSTRUCTOR|DOCENTE)",
            r"(?:DESCRIPCIÓN|DESCRIPCION)",
            r"(?:OBJETIVOS|METAS)",
            r"(?:TEMARIO|CONTENIDO|PROGRAMA|UNIDADES)",
            r"(?:EVALUACIÓN|EVALUACION|CALIFICACIÓN)",
            r"(?:BIBLIOGRAFÍA|BIBLIOGRAFIA|REFERENCIAS)"
        ]

        sections: Dict[str, str] = {"preamble": ""}
        current_section = "preamble"
        for line in text.splitlines():
            stripped_line = line.strip()
            is_header = False
            for pattern in section_headers:
                if re.search(pattern, stripped_line, re.IGNORECASE):
                    current_section = stripped_line
                    sections[current_section] = ""
                    is_header = True
                    break
            if not is_header:
                sections[current_section] += stripped_line + "\n"
        return sections

    def _extract_course_title(self, sections: Dict[str, str]) -> str:
        """
        Extrae el título del curso buscando encabezados o líneas en el preámbulo.

        Args:
            sections: Secciones del documento.

        Returns:
            Título del curso.
        """
        for header, content in sections.items():
            if re.search(r"(?:TÍTULO|NOMBRE)\s+DEL\s+CURSO", header, re.IGNORECASE):
                return content.strip()
        # Buscar en el preámbulo las primeras líneas no vacías
        preamble_lines = sections.get("preamble", "").splitlines()
        for line in preamble_lines[:5]:
            if line.strip():
                return line.strip()
        return "No se pudo determinar el título del curso"

    def _extract_course_code(self, sections: Dict[str, str]) -> str:
        """
        Extrae el código del curso mediante encabezados o patrones en el texto.

        Args:
            sections: Secciones del documento.

        Returns:
            Código del curso.
        """
        for header, content in sections.items():
            if re.search(r"(?:CÓDIGO|CLAVE)", header, re.IGNORECASE):
                return content.strip()
        for content in sections.values():
            code_match = re.search(r"\b[A-Z]{2,4}\s*\d{3,4}\b", content)
            if code_match:
                return code_match.group(0).strip()
        return "No se pudo determinar el código del curso"

    def _extract_instructor(self, sections: Dict[str, str]) -> str:
        """
        Extrae el nombre del instructor del curso.

        Args:
            sections: Secciones del documento.

        Returns:
            Nombre del instructor.
        """
        for header, content in sections.items():
            if re.search(r"(?:PROFESOR|INSTRUCTOR|DOCENTE)", header, re.IGNORECASE):
                return content.strip()
        return "No se pudo determinar el instructor del curso"

    def _extract_description(self, sections: Dict[str, str]) -> str:
        """
        Extrae la descripción del curso.

        Args:
            sections: Secciones del documento.

        Returns:
            Descripción del curso.
        """
        for header, content in sections.items():
            if re.search(r"(?:DESCRIPCIÓN|DESCRIPCION)", header, re.IGNORECASE):
                return content.strip()
        return "No se encontró descripción del curso"

    def _extract_objectives(self, sections: Dict[str, str]) -> List[str]:
        """
        Extrae los objetivos del curso identificando listas o frases relevantes.

        Args:
            sections: Secciones del documento.

        Returns:
            Lista de objetivos.
        """
        objectives: List[str] = []
        for header, content in sections.items():
            if re.search(r"(?:OBJETIVOS|METAS)", header, re.IGNORECASE):
                for line in content.splitlines():
                    line_clean = line.strip()
                    if line_clean:
                        # Detectar listas con viñetas, guiones o numeración
                        if line_clean[0] in "-•" or re.match(r"^\d+\.", line_clean):
                            objectives.append(line_clean.lstrip("-•0123456789. ").strip())
                        elif len(line_clean) > 20:
                            # Dividir en oraciones y agregar las suficientemente largas
                            for sentence in sent_tokenize(line_clean):
                                if len(sentence.strip()) > 20:
                                    objectives.append(sentence.strip())
        return objectives

    def _extract_topics(self, sections: Dict[str, str]) -> List[Dict[str, Any]]:
        """
        Extrae el temario o unidades del curso utilizando patrones formales y métodos alternativos.

        Args:
            sections: Secciones del documento.

        Returns:
            Lista de diccionarios, cada uno representando un tema o unidad.
        """
        topics: List[Dict[str, Any]] = []
        for header, content in sections.items():
            if re.search(r"(?:TEMARIO|CONTENIDO|PROGRAMA|UNIDADES)", header, re.IGNORECASE):
                # Intento mediante patrones formales: Unidad, Tema, Módulo o Capítulo
                unit_pattern = re.compile(
                    r"(?:Unidad|Tema|Módulo|Capítulo)\s+(\d+|[IVXLCDM]+)[\s:.]+(.+?)(?=(?:Unidad|Tema|Módulo|Capítulo)\s+\d+|$)",
                    re.IGNORECASE | re.DOTALL
                )
                for match in unit_pattern.finditer(content):
                    unit_num = match.group(1)
                    unit_text = match.group(2).strip()
                    subtopics: List[str] = []
                    lines = [l.strip() for l in unit_text.splitlines() if l.strip()]
                    if lines:
                        title = re.sub(r"^\d+\.\s*", "", lines[0])
                        for line in lines[1:]:
                            if line[0] in "-•" or re.match(r"^\d+\.\d+", line):
                                subtopics.append(line.lstrip("-•0123456789. ").strip())
                    else:
                        title = unit_text.splitlines()[0] if unit_text else "Sin título"
                        subtopics = [s.strip() for s in sent_tokenize(unit_text)[1:] if len(s.strip()) > 10]

                    topics.append({
                        "id": unit_num,
                        "title": title,
                        "subtopics": subtopics
                    })
                # Método alternativo si no se detectaron temas con el patrón formal
                if not topics:
                    numbered_lines = re.finditer(r"^\s*(\d+)\.\s*(.+)$", content, re.MULTILINE)
                    current_topic = None
                    for match in numbered_lines:
                        num, text_line = match.group(1), match.group(2).strip()
                        if len(num) == 1:
                            current_topic = {"id": num, "title": text_line, "subtopics": []}
                            topics.append(current_topic)
                        elif current_topic is not None:
                            current_topic["subtopics"].append(text_line)
                # Fallback: cada línea no vacía se considera un tema
                if not topics:
                    for idx, line in enumerate(content.splitlines(), start=1):
                        line_clean = line.strip()
                        if line_clean and len(line_clean) > 5:
                            topics.append({
                                "id": str(idx),
                                "title": line_clean,
                                "subtopics": []
                            })
        return topics

    def _extract_evaluation_methods(self, sections: Dict[str, str]) -> List[Dict[str, Any]]:
        """
        Extrae los métodos de evaluación y sus porcentajes.

        Args:
            sections: Secciones del documento.

        Returns:
            Lista de diccionarios con el método y su porcentaje.
        """
        evaluation_methods: List[Dict[str, Any]] = []
        for header, content in sections.items():
            if re.search(r"(?:EVALUACIÓN|EVALUACION|CALIFICACIÓN)", header, re.IGNORECASE):
                # Buscar patrones del tipo "Examen: 30%"
                for match in re.finditer(r"([^:]+):\s*(\d+)%", content):
                    method = match.group(1).strip()
                    percentage = int(match.group(2))
                    evaluation_methods.append({"method": method, "percentage": percentage})
                # Alternativa: buscar líneas que contengan '%'
                if not evaluation_methods:
                    for line in content.splitlines():
                        if '%' in line:
                            parts = line.split('%')
                            percentage_match = re.search(r"(\d+)\s*$", parts[0])
                            if percentage_match:
                                percentage = int(percentage_match.group(1))
                                method = re.sub(r"\d+\s*$", "", parts[0]).strip()
                                evaluation_methods.append({"method": method, "percentage": percentage})
        return evaluation_methods

    def _extract_bibliography(self, sections: Dict[str, str]) -> List[str]:
        """
        Extrae la bibliografía o referencias del curso.

        Args:
            sections: Secciones del documento.

        Returns:
            Lista de entradas bibliográficas.
        """
        bibliography: List[str] = []
        for header, content in sections.items():
            if re.search(r"(?:BIBLIOGRAFÍA|BIBLIOGRAFIA|REFERENCIAS)", header, re.IGNORECASE):
                entries = []
                current_entry = ""
                for line in content.splitlines():
                    line = line.strip()
                    if not line:
                        if current_entry:
                            entries.append(current_entry)
                            current_entry = ""
                    else:
                        if not current_entry and (line[0] in "-•" or re.match(r"^\d+\.", line)):
                            current_entry = line.lstrip("-•0123456789. ").strip()
                        elif not current_entry:
                            current_entry = line
                        else:
                            current_entry += " " + line
                if current_entry:
                    entries.append(current_entry)
                # Fallback: usar líneas no vacías con longitud suficiente
                bibliography = entries if entries else [l.strip() for l in content.splitlines() if l.strip() and len(l.strip()) > 10]
        return bibliography


In [31]:
from google.colab import files
import json

# Definir los valores necesarios para la configuración
gemini_model = 'gemini-2.0-flash-001'
llm_tokens_per_minute = 50000
llm_max_tokens_per_request = 4000
prompt_templates_path = 'prompts.json'

# Crear la instancia de Config con los argumentos requeridos
config = Config(
    gemini_model=gemini_model,
    llm_tokens_per_minute=llm_tokens_per_minute,
    llm_max_tokens_per_request=llm_max_tokens_per_request,
    prompt_templates_path=prompt_templates_path
)

# Instanciar los componentes del sistema
processor = DocumentProcessor(config)
llm_engine = LLMEngine(config)
generador = ContentGenerator(llm_engine, config)

# Solicitar al usuario la carga del archivo
print("Por favor, sube el archivo del programa de curso (ej. PROGRAMA_DE_CURSO.pdf)")
uploaded = files.upload()  # Abre el selector de archivos en Colab

# Verificar que se haya subido al menos un archivo
if not uploaded:
    print("No se ha subido ningún archivo. Saliendo...")

    # Tomar el primer archivo subido
file_path = list(uploaded.keys())[0]

try:
    # Procesar el archivo y extraer la información del syllabus
    syllabus_data = processor.process_file(file_path)

    # Mostrar los datos extraídos en formato JSON para mayor claridad
    print("Datos extraídos del syllabus:")
    print(json.dumps(syllabus_data, indent=4, ensure_ascii=False))
except Exception as e:
    print(f"Error al procesar el archivo: {e}")







Por favor, sube el archivo del programa de curso (ej. PROGRAMA_DE_CURSO.pdf)


Saving Programa estadistica.pdf to Programa estadistica (1).pdf
Datos extraídos del syllabus:
{
    "course_title": "Área o componente curricular:  Matemáticas\nTipo de curso:  Teórico - práctico  Créditos académicos:  3",
    "course_code": "",
    "instructor": "2. INFORMACIÓN ESPECÍFICA",
    "description": "La mayoría de los datos disponibles en la amplia gama de áreas del conocimiento, entre las cuales se encuentran las\nciencias económicas, corresponden a datos observados que provienen de un fenómeno o ley aleatoria, la cual es de\ngran importancia conocer co n el objetivo de obtener conclusiones, realizar contrastes de hipótesis, hacer\npredicciones, tomar decisiones óptimas, entre muchas otras. No obstante, para poder afrontar dichos fines es\nnecesario conocer y familiarizarse primero con los conceptos provist os por la teoría de la probabilidad y la estadística\nmatemática. En este sentido, este curso está diseñado para proveer al estudiante con un sólido y bien balanceado\ne

In [25]:
import os
import json
import tkinter as tk
from tkinter import filedialog

def main():
    # Configuración inicial
    gemini_model = 'gemini-2.0-flash-001'
    llm_tokens_per_minute = 50000
    llm_max_tokens_per_request = 4000
    prompt_templates_path = 'prompts.json'

    # Crear la instancia de Config con los parámetros requeridos
    config = Config(
        gemini_model=gemini_model,
        llm_tokens_per_minute=llm_tokens_per_minute,
        llm_max_tokens_per_request=llm_max_tokens_per_request,
        prompt_templates_path=prompt_templates_path
    )

    # Instanciar los componentes del sistema
    processor = DocumentProcessor(config)
    llm_engine = LLMEngine(config)
    generador = ContentGenerator(llm_engine, config)

    try:
        print("Por favor, seleccione el archivo del programa de curso (ej. PROGRAMA_DE_CURSO.pdf)")

        # Crear y ocultar la ventana raíz de Tkinter
        root = tk.Tk()
        root.withdraw()

        # Abrir el diálogo de selección de archivo
        file_path = filedialog.askopenfilename(
            title="Seleccione el archivo del programa de curso",
            filetypes=[("Archivos PDF", "*.pdf"), ("Todos los archivos", "*.*")]
        )

        if not file_path:
            print("No se ha seleccionado ningún archivo. Saliendo...")
            return

        # Procesar el archivo y extraer la información del syllabus
        syllabus_data = processor.process_file(file_path)

        # Mostrar los datos extraídos de forma formateada
        print("Datos extraídos del syllabus:")
        print(json.dumps(syllabus_data, indent=4, ensure_ascii=False))

        # Generar los materiales didácticos basados en el syllabus extraído
        contenido = generador.generate_all_materials(syllabus_data)

        print("\nMateriales generados:")
        print(json.dumps(contenido, indent=4, ensure_ascii=False))

    except Exception as e:
        print(f"Error al procesar el archivo: {e}")

if __name__ == '__main__':
    main()




Por favor, seleccione el archivo del programa de curso (ej. PROGRAMA_DE_CURSO.pdf)
Error al procesar el archivo: no display name and no $DISPLAY environment variable


In [32]:
import os
import logging
from typing import Dict
import pypandoc
import markdown

# Configuración centralizada del logger para este módulo
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)


def dict_to_pdf(materials: Dict[str, Dict[str, str]], output_pdf: str = "materiales_curso.pdf") -> None:
    """
    Convierte un diccionario de materiales a un archivo PDF.

    El diccionario se transforma a un string en formato Markdown, se convierte a HTML y finalmente a PDF
    usando pypandoc.

    Args:
        materials (Dict[str, Dict[str, str]]): Diccionario con la estructura de temas y secciones.
        output_pdf (str): Nombre del archivo PDF de salida (por defecto "materiales_curso.pdf").
    """
    try:
        # Construir el contenido en Markdown usando una lista para mayor eficiencia
        md_lines = []
        for topic_id, sections in materials.items():
            md_lines.append(f"# Tema {topic_id}\n")
            for section, text in sections.items():
                section_title = section.replace('_', ' ').title()
                md_lines.append(f"## {section_title}\n")
                md_lines.append(f"{text}\n")
            md_lines.append("\n---\n")  # Separador entre temas
        md_content = "\n".join(md_lines)
        logger.info("Contenido en Markdown construido correctamente.")

        # Convertir el Markdown a HTML
        html = markdown.markdown(md_content)
        logger.info("Conversión de Markdown a HTML completada.")

        # Opciones adicionales para pypandoc: usar XeLaTeX y una fuente compatible con Unicode
        extra_args = [
            '--pdf-engine=xelatex',
            '-V', 'mainfont=Times New Roman'
        ]

        # Convertir HTML a PDF y guardar el archivo
        pypandoc.convert_text(html, to='pdf', format='html', outputfile=output_pdf, extra_args=extra_args)
        logger.info(f"Archivo PDF guardado: {output_pdf}")

    except Exception as e:
        logger.error(f"Error durante la conversión a PDF: {e}", exc_info=True)
        raise


def save_materials_as_text_files(materials: Dict[str, Dict[str, str]], output_dir: str) -> None:
    """
    Guarda los materiales generados en archivos de texto.

    Cada tema se guarda en una subcarpeta, y para cada tipo de contenido se crea un archivo.

    Args:
        materials (Dict[str, Dict[str, str]]): Diccionario con la estructura de temas y secciones.
        output_dir (str): Directorio base donde se guardarán los archivos.
    """
    # Crear el directorio base (y sus subdirectorios) si no existen
    os.makedirs(output_dir, exist_ok=True)

    for topic_id, sections in materials.items():
        # Crear una subcarpeta para cada tema
        topic_dir = os.path.join(output_dir, f"tema_{topic_id}")
        os.makedirs(topic_dir, exist_ok=True)

        # Guardar cada tipo de material en un archivo distinto
        for content_type, text in sections.items():
            filename = os.path.join(topic_dir, f"{content_type}.txt")
            try:
                with open(filename, 'w', encoding='utf-8') as f:
                    f.write(text)
                logger.info(f"Archivo guardado: {filename}")
            except Exception as e:
                logger.error(f"Error al escribir el archivo {filename}: {e}", exc_info=True)

    logger.info(f"Materiales guardados en: {output_dir}")


# Generar contenido

In [34]:
contenido = generador.generate_all_materials(syllabus_data)
save_materials_as_text_files(contenido, "materiales_generados")

In [35]:
import logging
import re
import nltk
import numpy as np
from typing import Dict, List, Any
from nltk.tokenize import sent_tokenize, word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Asegurarse de que NLTK cuente con los recursos necesarios
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

# Configuración centralizada del logger para este módulo
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)


class Evaluator:
    """
    Evalúa la calidad del contenido educativo generado utilizando diversas métricas:
      - Relevancia (cobertura de subtemas)
      - Consistencia (similitud de coseno entre temas)
      - Legibilidad (longitud promedio de oraciones)
      - Uso de terminología específica (basada en TF-IDF)
    """

    def __init__(self, config: Any) -> None:
        """
        Inicializa el evaluador con la configuración dada.

        Args:
            config: Configuración general del sistema.
        """
        self.config = config
        self.logger = logging.getLogger("educational_agent.evaluator")

    def evaluate_content(
        self,
        generated_content: Dict[str, Dict[str, str]],
        syllabus_data: Dict[str, Any]
    ) -> Dict[str, Any]:
        """
        Evalúa el contenido generado utilizando diversas métricas y retorna un resumen.

        Args:
            generated_content: Diccionario con los materiales generados, organizados por tema y tipo.
            syllabus_data: Datos estructurados del syllabus del curso.

        Returns:
            Diccionario con los resultados de la evaluación.
        """
        self.logger.info("Iniciando evaluación del contenido generado")

        evaluation_results: Dict[str, Any] = {
            "topic_scores": {},
            "content_type_scores": {
                "lecture_notes": 0,
                "practice_problems": 0,
                "discussion_questions": 0,
                "learning_objectives": 0,
                "suggested_resources": 0
            },
            "overall_metrics": {
                "relevance_score": 0,
                "consistency_score": 0,
                "readability_score": 0,
                "domain_terminology_score": 0
            },
            "average_score": 0
        }

        # Extraer terminología clave del syllabus para evaluar su uso
        course_terminology = self._extract_domain_terminology(syllabus_data)

        # Evaluar cada tema individualmente
        for topic_id, topic_content in generated_content.items():
            # Buscar información del tema en el syllabus (por ID)
            topic_info = next((t for t in syllabus_data.get("topics", []) if t.get("id") == topic_id), None)
            if not topic_info:
                self.logger.warning(f"No se encontró información para el tema {topic_id} en el syllabus")
                continue

            # Extraer textos por tipo de contenido
            lecture = topic_content.get("lecture_notes", "")
            practice = topic_content.get("practice_problems", "")
            discussion = topic_content.get("discussion_questions", "")
            objectives = topic_content.get("learning_objectives", "")
            resources = topic_content.get("suggested_resources", "")

            # Calcular puntuaciones para cada tipo de contenido
            topic_scores: Dict[str, float] = {
                "lecture_notes": self._evaluate_lecture_notes(lecture, topic_info, course_terminology),
                "practice_problems": self._evaluate_practice_problems(practice, topic_info),
                "discussion_questions": self._evaluate_discussion_questions(discussion, topic_info),
                "learning_objectives": self._evaluate_learning_objectives(objectives, topic_info),
                "suggested_resources": self._evaluate_suggested_resources(resources, topic_info)
            }
            # Calcular la puntuación promedio para el tema
            topic_avg = sum(topic_scores.values()) / len(topic_scores)
            topic_scores["average"] = topic_avg
            evaluation_results["topic_scores"][topic_id] = topic_scores

            # Acumular las puntuaciones por tipo de contenido
            for key, score in topic_scores.items():
                if key != "average" and key in evaluation_results["content_type_scores"]:
                    evaluation_results["content_type_scores"][key] += score

        # Promediar las puntuaciones por tipo de contenido
        num_topics = len(generated_content)
        if num_topics > 0:
            for key in evaluation_results["content_type_scores"]:
                evaluation_results["content_type_scores"][key] /= num_topics

        # Métricas globales a partir de todo el contenido generado
        all_texts = self._join_all_texts(generated_content)
        evaluation_results["overall_metrics"]["consistency_score"] = self._evaluate_consistency(generated_content)
        evaluation_results["overall_metrics"]["readability_score"] = self._calculate_readability(all_texts)
        evaluation_results["overall_metrics"]["domain_terminology_score"] = self._calculate_terminology_usage(all_texts, course_terminology)

        # Relevancia: cobertura promedio de subtemas en las notas de clase
        relevance_scores = [
            self._calculate_subtopic_coverage(topic_content.get("lecture_notes", ""), topic_info.get("subtopics", []))
            for topic_id, topic_content in generated_content.items()
            for topic_info in [next((t for t in syllabus_data.get("topics", []) if t.get("id") == topic_id), {})]
        ]
        overall_relevance = np.mean(relevance_scores) if relevance_scores else 0
        evaluation_results["overall_metrics"]["relevance_score"] = overall_relevance

        # Puntuación global promedio
        content_type_avg = np.mean(list(evaluation_results["content_type_scores"].values()))
        overall_metrics_avg = np.mean(list(evaluation_results["overall_metrics"].values()))
        evaluation_results["average_score"] = (content_type_avg + overall_metrics_avg) / 2

        self.logger.info(f"Evaluación completada. Puntuación promedio: {evaluation_results['average_score']:.2f}")
        return evaluation_results

    # -------------------------------------------------------------------------
    # Métodos auxiliares para análisis global
    # -------------------------------------------------------------------------
    def _join_all_texts(self, generated_content: Dict[str, Dict[str, str]]) -> str:
        """Une todo el texto de los temas y secciones para un análisis global."""
        texts = [text for topic in generated_content.values() for text in topic.values()]
        return "\n".join(texts)

    def _calculate_readability(self, text: str) -> float:
        """
        Calcula la legibilidad en función de la longitud promedio de las oraciones.
        Se asume que oraciones más cortas facilitan la lectura.

        Returns:
            Valor entre 0 y 1.
        """
        sentences = sent_tokenize(text)
        words = word_tokenize(text)
        if not sentences:
            return 0.0
        avg_sentence_length = len(words) / len(sentences)
        if avg_sentence_length <= 15:
            return 1.0
        elif avg_sentence_length >= 30:
            return 0.0
        else:
            return (30 - avg_sentence_length) / 15

    def _extract_domain_terminology(self, syllabus_data: Dict[str, Any]) -> List[str]:
        """
        Extrae términos clave del syllabus combinando descripción, objetivos, temario y bibliografía.

        Returns:
            Lista de términos extraídos mediante TF-IDF.
        """
        combined_text = " ".join([
            syllabus_data.get("description", ""),
            " ".join(syllabus_data.get("objectives", [])),
            " ".join([t.get("title", "") + " " + " ".join(t.get("subtopics", [])) for t in syllabus_data.get("topics", [])]),
            " ".join(syllabus_data.get("bibliography", []))
        ])

        vectorizer = TfidfVectorizer(max_features=50, stop_words='english', ngram_range=(1, 2))
        try:
            tfidf_matrix = vectorizer.fit_transform([combined_text])
            return list(vectorizer.get_feature_names_out())
        except Exception as e:
            self.logger.warning(f"Error extrayendo terminología: {e}")
            return []

    def _calculate_terminology_usage(self, text: str, terminology: List[str]) -> float:
        """
        Calcula la densidad de uso de la terminología específica en el contenido.

        Returns:
            Valor entre 0 y 1.
        """
        content_lower = text.lower()
        term_count = sum(1 for term in terminology if term.lower() in content_lower)
        word_count = len(word_tokenize(text))
        term_density = (term_count * 1000) / word_count if word_count else 0
        # Se asume que 5 términos por cada 1000 palabras es ideal
        return min(1.0, term_density / 5)

    def _calculate_subtopic_coverage(self, content: str, subtopics: List[str]) -> float:
        """
        Calcula la proporción de subtemas cubiertos en el contenido.

        Returns:
            Valor entre 0 y 1.
        """
        content_lower = content.lower()
        covered = 0
        for sub in subtopics:
            sub_terms = [w.lower() for w in word_tokenize(sub) if len(w) > 3]
            if sub_terms and (sum(1 for term in sub_terms if term in content_lower) / len(sub_terms)) >= 0.5:
                covered += 1
        return covered / len(subtopics) if subtopics else 0

    # -------------------------------------------------------------------------
    # Métodos de evaluación específicos para cada tipo de contenido
    # -------------------------------------------------------------------------
    def _evaluate_lecture_notes(self, lecture_notes: str, topic_info: Dict[str, Any], course_terminology: List[str]) -> float:
        scores = [
            self._calculate_subtopic_coverage(lecture_notes, topic_info.get("subtopics", [])),
            self._calculate_terminology_usage(lecture_notes, course_terminology),
            self._calculate_readability(lecture_notes),
            self._evaluate_content_structure(lecture_notes),
            self._evaluate_examples_presence(lecture_notes)
        ]
        return sum(scores) / len(scores)

    def _evaluate_practice_problems(self, practice_problems: str, topic_info: Dict[str, Any]) -> float:
        scores = [
            self._calculate_subtopic_coverage(practice_problems, topic_info.get("subtopics", [])),
            self._evaluate_solutions_presence(practice_problems),
            self._evaluate_difficulty_variety(practice_problems),
            self._evaluate_problem_clarity(practice_problems)
        ]
        return sum(scores) / len(scores)

    def _evaluate_discussion_questions(self, discussion_questions: str, topic_info: Dict[str, Any]) -> float:
        scores = [
            self._calculate_subtopic_coverage(discussion_questions, topic_info.get("subtopics", [])),
            self._evaluate_critical_thinking(discussion_questions),
            self._evaluate_open_ended_questions(discussion_questions)
        ]
        return sum(scores) / len(scores)

    def _evaluate_learning_objectives(self, learning_objectives: str, topic_info: Dict[str, Any]) -> float:
        scores = [
            self._calculate_subtopic_coverage(learning_objectives, topic_info.get("subtopics", [])),
            self._evaluate_bloom_taxonomy_usage(learning_objectives),
            self._evaluate_measurable_objectives(learning_objectives)
        ]
        return sum(scores) / len(scores)

    def _evaluate_suggested_resources(self, suggested_resources: str, topic_info: Dict[str, Any]) -> float:
        scores = [
            self._calculate_subtopic_coverage(suggested_resources, topic_info.get("subtopics", [])),
            self._evaluate_resource_variety(suggested_resources),
            self._evaluate_resource_detail(suggested_resources)
        ]
        return sum(scores) / len(scores)

    # -------------------------------------------------------------------------
    # Métodos auxiliares "stub" o simples para evaluación adicional
    # -------------------------------------------------------------------------
    def _evaluate_content_structure(self, text: str) -> float:
        paragraphs = [p for p in text.split("\n\n") if p.strip()]
        num_paragraphs = len(paragraphs)
        return 1.0 if num_paragraphs >= 5 else (num_paragraphs / 5.0 if num_paragraphs else 0.0)

    def _evaluate_examples_presence(self, text: str) -> float:
        return 1.0 if "ejemplo" in text.lower() else 0.0

    def _evaluate_solutions_presence(self, text: str) -> float:
        return 1.0 if ("solución" in text.lower() or "solución:" in text.lower()) else 0.0

    def _evaluate_difficulty_variety(self, text: str) -> float:
        return 0.8

    def _evaluate_problem_clarity(self, text: str) -> float:
        return 0.8

    def _evaluate_critical_thinking(self, text: str) -> float:
        keywords = ["analiza", "discute", "reflexiona", "argumenta"]
        count = sum(1 for kw in keywords if kw in text.lower())
        return min(1.0, count / len(keywords))

    def _evaluate_open_ended_questions(self, text: str) -> float:
        questions = [line for line in text.splitlines() if "?" in line]
        if not questions:
            return 0.0
        open_count = sum(1 for q in questions if not re.search(r'\b(?:sí|no)\b', q.lower()))
        return open_count / len(questions)

    def _evaluate_bloom_taxonomy_usage(self, text: str) -> float:
        bloom_verbs = ["analiza", "aplica", "compara", "evalúa", "crea", "sintetiza", "interpreta"]
        count = sum(1 for verb in bloom_verbs if verb in text.lower())
        return min(1.0, count / len(bloom_verbs))

    def _evaluate_measurable_objectives(self, text: str) -> float:
        return 0.8 if any(kw in text.lower() for kw in ["porcentaje", "número", "cuantifica"]) else 0.5

    def _evaluate_resource_variety(self, text: str) -> float:
        lines = [l for l in text.splitlines() if l.strip()]
        return min(1.0, len(lines) / 5.0)

    def _evaluate_resource_detail(self, text: str) -> float:
        return 0.8

    def _evaluate_consistency(self, generated_content: Dict[str, Dict[str, str]]) -> float:
        """
        Evalúa la consistencia semántica entre temas utilizando TF-IDF y similitud de coseno.
        Se asume que mayor similitud entre temas indica mayor consistencia.
        """
        texts = [" ".join(topic_content.values()) for topic_content in generated_content.values()]
        if len(texts) < 2:
            return 1.0
        vectorizer = TfidfVectorizer(stop_words='english')
        tfidf = vectorizer.fit_transform(texts)
        similarity_matrix = cosine_similarity(tfidf)
        n = similarity_matrix.shape[0]
        # Excluir la diagonal (autosemejanza)
        sum_sim = np.sum(similarity_matrix) - n
        num_elements = n * (n - 1)
        avg_similarity = sum_sim / num_elements if num_elements else 1.0
        return avg_similarity


# =============================================================================
# Ejemplo de evaluación (se asume que 'config', 'contenido' y 'syllabus_data' están definidos)
# =============================================================================

evaluator = Evaluator(config)
evaluacion = evaluator.evaluate_content(contenido, syllabus_data)
print(evaluacion)


{'topic_scores': {'1': {'lecture_notes': 0.7575757575757576, 'practice_problems': 0.65, 'discussion_questions': 0.4166666666666667, 'learning_objectives': 0.4047619047619048, 'suggested_resources': 0.6, 'average': 0.5658008658008659}, '3': {'lecture_notes': 0.6369230769230769, 'practice_problems': 0.65, 'discussion_questions': 0.36904761904761907, 'learning_objectives': 0.30952380952380953, 'suggested_resources': 0.6, 'average': 0.5130989010989011}, '4': {'lecture_notes': 0.6, 'practice_problems': 0.65, 'discussion_questions': 0.4166666666666667, 'learning_objectives': 0.4047619047619048, 'suggested_resources': 0.6, 'average': 0.5342857142857144}}, 'content_type_scores': {'lecture_notes': 0.6648329448329449, 'practice_problems': 0.65, 'discussion_questions': 0.40079365079365087, 'learning_objectives': 0.3730158730158731, 'suggested_resources': 0.6}, 'overall_metrics': {'relevance_score': 0.0, 'consistency_score': 0.8360108101779099, 'readability_score': 0.12667554371948503, 'domain_ter

In [38]:
import os
import logging
from typing import Dict

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

def save_materials_as_text_files(materials: Dict[str, Dict[str, str]], output_dir: str) -> None:
    """
    Guarda los materiales generados en archivos de texto.

    Cada tema se guarda en una subcarpeta y, para cada tipo de contenido, se crea un archivo.

    Args:
        materials (Dict[str, Dict[str, str]]): Diccionario con los materiales generados.
        output_dir (str): Directorio base donde se guardarán los archivos.
    """
    # Crear el directorio base (y sus subdirectorios) de forma recursiva
    os.makedirs(output_dir, exist_ok=True)

    for topic_id, content in materials.items():
        topic_dir = os.path.join(output_dir, f"tema_{topic_id}")
        os.makedirs(topic_dir, exist_ok=True)

        for content_type, text in content.items():
            filename = os.path.join(topic_dir, f"{content_type}.txt")
            try:
                with open(filename, 'w', encoding='utf-8') as f:
                    f.write(text)
                logger.info(f"Archivo guardado: {filename}")
            except Exception as e:
                logger.error(f"Error al escribir el archivo {filename}: {e}", exc_info=True)

    logger.info(f"Materiales guardados en: {output_dir}")


In [39]:
# Instalar dependencias en Google Colab
!apt-get install -y texlive-xetex texlive-fonts-recommended texlive-plain-generic
!apt-get install -y fonts-freefont-ttf  # Fuente alternativa FreeSerif (parecida a Times New Roman)
!pip install pypandoc


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
texlive-fonts-recommended is already the newest version (2021.20220204-1).
texlive-plain-generic is already the newest version (2021.20220204-1).
texlive-xetex is already the newest version (2021.20220204-1).
0 upgraded, 0 newly installed, 0 to remove and 29 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  fonts-freefont-ttf
0 upgraded, 1 newly installed, 0 to remove and 29 not upgraded.
Need to get 2,388 kB of archives.
After this operation, 6,653 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/main amd64 fonts-freefont-ttf all 20120503-10build1 [2,388 kB]
Fetched 2,388 kB in 2s (1,042 kB/s)
Selecting previously unselected package fonts-freefont-ttf.
(Reading database ... 162001 files and directories currently installed.)
Preparing to unpack .

In [None]:
import os
import pypandoc

# En Google Colab, ejecutar estas celdas para instalar dependencias:
# !apt-get install -y texlive-xetex texlive-fonts-recommended texlive-plain-generic
# !apt-get install -y fonts-freefont-ttf  # Fuente alternativa FreeSerif (similar a Times New Roman)
# !pip install pypandoc

def dict_to_pdf(materials: dict, output_pdf: str = "materiales_curso.pdf") -> bool:
    """
    Convierte un diccionario de materiales a un archivo PDF.

    El diccionario se transforma a Markdown y luego se convierte a PDF usando pypandoc.

    Args:
        materials (dict): Diccionario con la estructura de temas y secciones.
        output_pdf (str): Nombre del archivo PDF de salida.

    Returns:
        bool: True si el PDF se generó correctamente; False en caso de error.
    """
    # Construir el contenido Markdown de manera eficiente
    md_lines = []
    for topic_id, content in materials.items():
        md_lines.append(f"# Tema {topic_id}\n")
        for section, text in content.items():
            section_title = section.replace('_', ' ').title()
            md_lines.append(f"## {section_title}\n")
            md_lines.append(f"{text}\n")
        md_lines.append("\n---\n")
    md_content = "\n".join(md_lines)

    # Vista previa para depuración
    print("📜 Vista previa del contenido Markdown:\n", md_content[:500])

    if not md_content.strip():
        raise ValueError("⚠️ Error: El contenido del PDF está vacío.")

    # Usar "FreeSerif" como fuente segura en LaTeX
    extra_args = [
        '--pdf-engine=xelatex',
        '-V', 'mainfont="FreeSerif"'
    ]

    try:
        print("⏳ Convirtiendo Markdown a PDF...")
        pypandoc.convert_text(md_content, to='pdf', format='md', outputfile=output_pdf, extra_args=extra_args)

        if os.path.exists(output_pdf):
            print(f"✅ PDF generado con éxito: {output_pdf}")
        else:
            raise FileNotFoundError("❌ Error: La conversión a PDF no generó un archivo.")
    except RuntimeError as e:
        print(f"❌ Error durante la conversión a PDF: {e}")
        return False

    return True

# Llamar a la función para generar el PDF (se asume que 'contenido' está definido)
pdf_created = dict_to_pdf(contenido, "materiales_curso.pdf")

# Descargar el PDF solo si se generó correctamente (en Colab)
if pdf_created and os.path.exists("materiales_curso.pdf"):
    from google.colab import files
    print("📥 Descargando PDF...")
    files.download("materiales_curso.pdf")
else:
    print("⚠️ No se pudo generar el archivo PDF. Revisa los errores anteriores.")



📜 Vista previa del contenido Markdown:
 # Tema 1

## Lecture Notes

¡Excelente! Vamos a construir unas notas de clase detalladas y rigurosas sobre el tema especificado, asegurándonos de cubrir los subtemas con profundidad, ejemplos y aplicaciones prácticas.  Por favor, proporciona el tema principal (el número 5) y la lista de subtemas que deseas que cubra.  Una vez que me proporciones esa información, generaré las notas de clase.

**Ejemplo de cómo proporcionarme la información:**

*   **Tema:** 5. Variables Aleatorias Continuas
*   *
⏳ Convirtiendo Markdown a PDF...






✅ PDF generado con éxito: materiales_curso.pdf
📥 Descargando PDF...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
import re

def format_text_with_markdown(text):
    """
    Convierte el texto con formato Markdown (negritas y listas) a HTML.
    - **texto** -> <strong>texto</strong>
    - * item -> <ul><li>item</li></ul>
    """
    # Convertir negritas (**texto**)
    text = re.sub(r'\*\*(.*?)\*\*', r'<strong>\1</strong>', text)

    # Convertir listas con viñetas (* item)
    lines = text.split('\n')
    in_list = False
    formatted_lines = []

    for line in lines:
        if line.strip().startswith('* '):
            if not in_list:
                formatted_lines.append('<ul>')
                in_list = True
            formatted_lines.append(f'<li>{line.strip()[2:]}</li>')
        else:
            if in_list:
                formatted_lines.append('</ul>')
                in_list = False
            formatted_lines.append(line)

    if in_list:
        formatted_lines.append('</ul>')

    return '\n'.join(formatted_lines)

import os
import re

def get_colab_font():
    # Esta función ya no es necesaria para HTML, pero la mantenemos por compatibilidad
    return None

def wrap_text_justified(text, max_width, font):
    # Esta función ya no es necesaria para HTML, pero la mantenemos por compatibilidad
    return text

def wrap_text_by_words(text, words_per_line=12):
    """
    Recibe un texto y lo divide en líneas de 'words_per_line' palabras.
    Retorna el texto con saltos de línea (\n) insertados.
    """
    words = text.split()
    lines = []
    for i in range(0, len(words), words_per_line):
        lines.append(" ".join(words[i:i+words_per_line]))
    return "\n".join(lines)

def create_gradient_background():
    """
    Crea un fondo degradado vertical usando CSS.
    """
    return """
    background: linear-gradient(to bottom, #dce6ff, #ffffff);
    """

def draw_text_with_shadow():
    """
    Aplica un efecto de sombra al texto usando CSS.
    """
    return """
    text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.2);
    """

def parse_discussion_questions(file_path):
    """
    Lee el archivo `discussion_questions.txt` y extrae cada pregunta y su nota para el instructor.
    Retorna una lista de diccionarios con las claves:
    [
      {
        'pregunta': 'Texto de la pregunta...',
        'nota_instructor': 'Texto de la nota para el instructor...'
      },
      ...
    ]
    """
    if not os.path.exists(file_path):
        return []

    with open(file_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f]

    questions_data = []
    current_question = None
    current_note = None
    capturing_question = False
    capturing_note = False

    for line in lines:
        if "**Pregunta:**" in line:
            if current_question and current_note:
                questions_data.append({
                    'pregunta': current_question.strip(),
                    'nota_instructor': current_note.strip()
                })
            current_question = line.split("**Pregunta:**")[-1].strip()
            current_note = ""
            capturing_question = True
            capturing_note = False
            continue

        if "**Nota para el Instructor:**" in line:
            capturing_question = False
            capturing_note = True
            current_note += line.split("**Nota para el Instructor:**")[-1].strip() + " "
            continue

        if capturing_question:
            current_question += " " + line

        if capturing_note:
            current_note += " " + line

    if current_question and current_note:
        questions_data.append({
            'pregunta': current_question.strip(),
            'nota_instructor': current_note.strip()
        })

    return questions_data

def parse_practice_problems_universal(file_path):
    """
    Parser "universal" para practice_problems.txt, que maneja distintos estilos.
    Retorna una lista de diccionarios con:
    [
      {
        'titulo_problema': '...',
        'enunciado': '...',
        'solucion': '...'
      },
      ...
    ]
    """
    if not os.path.exists(file_path):
        return []

    with open(file_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f]

    problems_data = []
    current_title = ""
    current_enunciado = ""
    current_solucion = ""
    capturing_enunciado = False
    capturing_solucion = False

    def guardar_problema_si_existe():
        if current_title.strip() or current_enunciado.strip() or current_solucion.strip():
            problems_data.append({
                'titulo_problema': current_title.strip(),
                'enunciado': current_enunciado.strip(),
                'solucion': current_solucion.strip()
            })

    for line in lines:
        if (line.startswith("**")
            and ("Enunciado:" not in line)
            and ("Solución:" not in line)
            and ("Problema:" not in line)):
            if current_title or current_enunciado or current_solucion:
                guardar_problema_si_existe()
            current_title = line.replace("**", "").strip()
            current_enunciado = ""
            current_solucion = ""
            capturing_enunciado = False
            capturing_solucion = False
            continue

        if re.search(r"\*\*Enunciado:\*\*|\*\*Problema:\*\*", line):
            capturing_enunciado = True
            capturing_solucion = False
            if "**Enunciado:**" in line:
                current_enunciado += " " + line.split("**Enunciado:**")[-1].strip()
            elif "**Problema:**" in line:
                current_enunciado += " " + line.split("**Problema:**")[-1].strip()
            continue

        if "**Solución:**" in line:
            capturing_enunciado = False
            capturing_solucion = True
            current_solucion += " " + line.split("**Solución:**")[-1].strip()
            continue

        if capturing_enunciado:
            current_enunciado += " " + line

        if capturing_solucion:
            current_solucion += " " + line

    if current_title or current_enunciado or current_solucion:
        guardar_problema_si_existe()

    return problems_data


def generar_flashcard_html(titulo, text, output_path):
    # Convertir texto en negrita
    contenido = re.sub(r'\*\*(.*?)\*\*', r'<strong>\1</strong>', text)
    
    # Convertir asteriscos en elementos de lista
    lineas = contenido.split('\n')
    contenido_procesado = []

    for linea in lineas:
        if '*' in linea:
            # Dividir la línea por asteriscos
            partes = linea.split('*')
            # Eliminar espacios en blanco al inicio y final de cada parte
            partes = [parte.strip() for parte in partes if parte.strip()]
            # Si hay partes válidas, crear una lista
            if partes:
                contenido_procesado.append('<ul>')
                for parte in partes:
                    contenido_procesado.append(f'<li>{parte}</li>')
                contenido_procesado.append('</ul>')
        else:
            contenido_procesado.append(linea)

    contenido = '\n'.join(contenido_procesado)

    """
    Genera una flashcard en formato HTML.
    La flashcard ocupará un máximo del 80% del ancho y alto de la pantalla.
    """
    html_content = f"""
    <!DOCTYPE html>
    <html lang="es">
    <head>
        <meta charset="UTF-8">
        <meta name="viewport" content="width=device-width, initial-scale=1.0">
        <title>{titulo}</title>
        <style>
            body {{
                font-family: Arial, sans-serif;
                margin: 0;
                padding: 0;
                display: flex;
                justify-content: center;
                align-items: center;
                height: 100vh;
                {create_gradient_background()}
            }}
            .flashcard {{
                width: 80vw; /* 80% del ancho de la pantalla */
                max-width: 900px; /* Máximo ancho para no estirar demasiado en pantallas grandes */
                min-height: 60vh; /* 60% del alto de la pantalla */
                max-height: 80vh; /* Máximo 80% del alto de la pantalla */
                background: white;
                border-radius: 20px;
                box-shadow: 0 8px 16px rgba(0, 0, 0, 0.2);
                padding: 20px;
                box-sizing: border-box;
                border: 3px solid #3c78d8;
                overflow-y: auto; /* Scroll si el contenido es muy largo */
            }}
            .titulo {{
                font-size: 28px;
                font-weight: bold;
                color: #143c6e;
                text-align: center;
                margin-bottom: 20px;
                {draw_text_with_shadow()}
            }}
            .contenido {{
                font-size: 22px;
                color: #000;
                line-height: 1.6;
                padding: 10px;
                text-align: justify;
            }}
            .contenido ul {{
                padding-left: 20px; /* Sangría para listas */
            }}
            .contenido li {{
                margin-bottom: 10px; /* Espacio entre elementos de la lista */
            }}
            .subtitulo {{
                font-size: 24px;
                color: #4646b4;
                margin-top: 20px;
                margin-bottom: 10px;
                {draw_text_with_shadow()}
            }}
            @media (max-width: 768px) {{
                .flashcard {{
                    width: 95vw; /* Ocupa más espacio en pantallas pequeñas */
                    min-height: 70vh; /* Más alto en móviles */
                    padding: 15px;
                }}
                .titulo {{
                    font-size: 24px;
                }}
                .contenido {{
                    font-size: 18px;
                }}
                .subtitulo {{
                    font-size: 20px;
                }}
            }}
        </style>
    </head>
    <body>
        <div class="flashcard">
            <div class="titulo">{titulo}</div>
            <div class="contenido">
    """

    # Procesar contenido para separar las secciones
    secciones = []
    lineas = contenido.split('\n')
    texto_actual = ""
    titulo_actual = None

    for linea in lineas:
        if linea.strip().endswith(":"):  # Detecta si la línea es un título
            if texto_actual:
                secciones.append((titulo_actual, texto_actual.strip()))
            titulo_actual = linea.strip()
            texto_actual = ""
        else:
            texto_actual += " " + linea

    if texto_actual:
        secciones.append((titulo_actual, texto_actual.strip()))

    if not secciones:
        html_content += f"<p>{contenido}</p>"
    else:
        for subtitulo, texto in secciones:
            if subtitulo:
                html_content += f"<div class='subtitulo'>{subtitulo}</div>"
            html_content += f"<p>{texto}</p>"

    html_content += """
            </div>
        </div>
    </body>
    </html>
    """

    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(html_content)

    print(f"Flashcard generada en: {output_path}")

def generar_flashcards_solo_tema_1(base_dir="materiales_generados"):
    """
    Procesa únicamente la carpeta "tema_1" dentro de base_dir.
    Busca discussion_questions.txt y practice_problems.txt,
    y genera las flashcards en formato HTML (si existen esos archivos).
    """
    tema_path = os.path.join(base_dir, "tema_1")
    if not os.path.isdir(tema_path):
        print(f"No existe la carpeta: {tema_path}. Saliendo...")
        return

    print(f"Procesando carpeta: {tema_path}")

    discussion_file = os.path.join(tema_path, "discussion_questions.txt")
    practice_file = os.path.join(tema_path, "practice_problems.txt")

    # 1) Discussion Questions
    dq_data = parse_discussion_questions(discussion_file)
    if dq_data:
        dq_flashcards_dir = os.path.join(tema_path, "flashcards_discussion")
        os.makedirs(dq_flashcards_dir, exist_ok=True)
        for i, item in enumerate(dq_data, start=1):
            pregunta = item['pregunta']
            nota_instructor = item['nota_instructor']
            titulo = "Pregunta"
            contenido = f"{pregunta}\n\nNota para el Instructor:\n{nota_instructor}"
            output_file = os.path.join(dq_flashcards_dir, f"discussion_flashcard_{i}.html")
            generar_flashcard_html(titulo, contenido, output_file)
    else:
        print("No se encontraron Discussion Questions en:", tema_path)

    # 2) Practice Problems
    pp_data = parse_practice_problems_universal(practice_file)
    if pp_data:
        pp_flashcards_dir = os.path.join(tema_path, "flashcards_practice")
        os.makedirs(pp_flashcards_dir, exist_ok=True)
        for i, item in enumerate(pp_data, start=1):
            titulo_problema = item['titulo_problema']
            enunciado = item['enunciado']
            solucion = item['solucion']
            titulo = titulo_problema if titulo_problema else "Problema"
            contenido = f"{enunciado}\n\nSolución:\n{solucion}"
            output_file = os.path.join(pp_flashcards_dir, f"practice_flashcard_{i}.html")
            generar_flashcard_html(titulo, contenido, output_file)
    else:
        print("No se encontraron Practice Problems en:", tema_path)

if __name__ == "__main__":
    generar_flashcards_solo_tema_1("materiales_generados")