<div align="right"><i>Mat√≠as Torres Esteban<br>Diciembre, 2025</i></div>

# Interpretaci√≥n de Textos con LLMs

Los grandes modelos de lenguaje (LLMs) son conocidos por su capacidad de aprender patrones complejos de los textos y de resolver en consecuencia varias tareas de procesamiento del lenguaje natural, como lo son la traducci√≥n autom√°tica, la generaci√≥n de res√∫menes y la resoluci√≥n de preguntas de dominios especializados. Es por esto que han surgido nuevas lineas de investigaci√≥n que buscan utilizar a los grandes modelos de lenguaje (LLMs) como *interpretadores sem√°nticos de textos*. Su objetivo es representar el significado de un texto escrito en lenguaje natural en uno o m√°s lenguajes l√≥gicos ‚Äîpor ejemplo, la l√≥gica proposicional o la l√≥gica de primer orden‚Äî para explicitar la informaci√≥n contenida all√≠ y brindarle mayor estructura. De esta manera, podemos obtener representaciones avanzadas del significado de un texto que sean m√°s faciles de almacenar en una computadora y puedan ser manipuladas algor√≠tmicamente.

Un lenguaje l√≥gico que podemos utilizar para representar la informaci√≥n contenida en un texto es el lenguaje de los *Grafos de Conocimiento (KGs)*, los cuales permiten codificar hechos y proposiciones del mundo mediante ternas $(f,r,o)$ donde $f$ denota un concepto fuente, $r$ una relaci√≥n sem√°ntica y $o$ un concepto objetivo. As√≠, la informaci√≥n contenida en el siguiente texto:

* *"El Covid-19 es una enfermedad infecciosa causada por el SARS-CoV-2. Produce s√≠ntomas que incluyen fiebre, tos y fatiga"*,

puede representarse como la siguiente colecci√≥n de ternas de conocimiento:

* *(Covid-19, es una, Enfermedad Infecciosa)*
* *(Covid-19, causada por, SARS-CoV-2)*.
* *(Covid-19, tiene s√≠ntoma, Fiebre)*.
* *(Covid-19, tiene s√≠ntoma, Tos)*.
* *(Covid-19, tiene s√≠ntoma, Fatiga)*.

Esta colecci√≥n de ternas puede representase como un grafo dirigido y etiquetado, como se muestra en la siguiente figura:

![GrafoConocimiento](https://raw.githubusercontent.com/matizzat/InforSanLuis-2025-LLMs/5596c0c724cd8e63742866ad998479ecd6f685d2/imagenes/grafo_conocimiento_covid19.svg)

Vemos que este tipo de representaci√≥n es m√°s rica que el texto puro porque explicita los conceptos y relaciones m√°s relevantes. De esta manera, la interpretaci√≥n y el an√°lisis de la informaci√≥n extra√≠da se vuelven m√°s accesibles tanto para un usuario como para una computadora, y adem√°s se facilita su almacenamiento en bases de datos. Finalmente, si pudi√©ramos procesar autom√°ticamente un gran conjunto de documentos de un dominio especializado ‚Äîcomo la biolog√≠a o la medicina‚Äî y transformarlos en grafos de conocimiento, podr√≠amos aplicar todo el aparato matem√°tico de la Teor√≠a de Grafos para analizar estos sistemas conceptuales y revelar informaci√≥n del dominio que est√° escondida en los textos.

En esta notebook utilizaremo al modelo Gemini junto a c√≥digo Python para crear autom√°ticamente grafos de conocimiento a partir de textos. Este ejercicio nos ense√±ar√° a coordinar diferentes invocaciones al modelo y a escribir correctamente nuestros prompts para sacarle el m√°ximo provecho posible.

## Proceso de Interpretaci√≥n

Vamos a implementar un procedimiento de interpretaci√≥n textual inspirado en la metodolog√≠a propuesta por Joseph Novak para la construcci√≥n de mapas conceptuales [1]. Este procedimiento permite generar un KG a partir de un texto expositivo mediante una secuencia estructurada de 4 pasos:

1. Solicitamos al modelo que analice el texto ``<texto>`` y genere una pregunta de enfoque ``<pregunta>``. Las ternas de conocimiento generadas en los
pr√≥ximos pasos deberƒ±ÃÅan ayudar a responder esta pregunta.

2. Solicitamos al modelo que analice ``<texto>`` y ``<pregunta>`` y que luego genere una lista de conceptos ``<conceptos>``. Los conceptos extraƒ±ÃÅdos deben
estar explicitamente mencionados en el texto y tienen que ayudar a responder la pregunta de enfoque.

3. Solictamos al modelo que analice ``<texto>``, ``<pregunta>`` y ``<conceptos>`` y que genere una lista de relaciones sem√°nticas ``<relaciones>``.

4. Solicitamos al modelo que analice ``<texto>``, ``<pregunta>``, ``<conceptos>`` y ``<relaciones>`` en conjunto y que luego genere una lista de ternas de conocimiento ``<ternas>``.

En cada paso realizamos un procesamiento de las etiquetas de conceptos y relaciones para convertir todos sus caracteres a min√∫sculas y eliminar espacios en blanco innecesarios.

## C√≥digo

**Advertencia:** Si la API de Gemini no est√° disponible en este momento pueden simular el proceso en ChatGPT o el chat de Gemini y reintentar ejecutar el c√≥digo m√°s tarde.

Primero extraemos los recursos desde Github (textos y prompts):

In [1]:
!git clone https://github.com/matizzat/InforSanLuis-2025-LLMs
%cd InforSanLuis-2025-LLMs

fatal: destination path 'InforSanLuis-2025-LLMs' already exists and is not an empty directory.
/content/InforSanLuis-2025-LLMs


Instalamos la librer√≠a Pyvis para visualizar grafos de conocimiento:

In [2]:
!pip install pyvis



Importamos las librer√≠as necesarias

In [None]:
from pyvis.network import Network
from google.colab import userdata
from pyvis import network as net
from google.genai import types
from google import genai
from typing import List
import networkx as nx
import pprint
import json
import re

Instanciamos un cliente para invocar al modelo Gemini. Para ejecutar esta celda deben obtener una clave del siguiente [enlace](https://ai.google.dev/gemini-api/docs/api-key). Tambi√©n tienen que configurar Google Colab para utilizar esta clave (Ver  [Tutorial](https://www.youtube.com/watch?v=snrvP_TZjvw))

In [None]:
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
cliente_genai = genai.Client(api_key=GOOGLE_API_KEY)

Definimos una funci√≥n auxiliar para abrir el contenido de un archivo y cargamos las instrucciones con las que invocaremos al modelo. En cada invocaci√≥n nosotros le proveemos al modelo una **instrucci√≥n de sistema** y una **instrucci√≥n de usuario**:

* En la instrucci√≥n de sistema nosotros le especificamos al modelo cual es el rol que debe cumplir, le explicamos en t√©rminos generales la tarea a resolver y le brindamos ejemplos concretos de c√≥mo hay que resolverla y cual es el formato de salida esperado.

* En la instrucci√≥n de usuario especificamos cual es el texto corriente que queremos analizar.

La t√©cnica donde le damos ejemplos concretos al modelo de c√≥mo debe resolver una tarea se denomina **aprendizaje en contexto** y es muy importante aprenderla para embeber a los LLMs en procesos autom√°ticos y aplicarlos en dominios especializados.

In [None]:
def abrir_contenido_archivo(nombre_archivo: str):
    with open(nombre_archivo, 'r') as f:
        return f.read()

crear_pregunta_sistema   = abrir_contenido_archivo('./instrucciones/crear_pregunta_sistema.txt')
crear_conceptos_sistema  = abrir_contenido_archivo('./instrucciones/crear_conceptos_sistema.txt')
crear_relaciones_sistema = abrir_contenido_archivo('./instrucciones/crear_relaciones_sistema.txt')
crear_ternas_sistema     = abrir_contenido_archivo('./instrucciones/crear_ternas_sistema.txt')

crear_pregunta_usuario   = abrir_contenido_archivo('./instrucciones/crear_pregunta_usuario.txt')
crear_conceptos_usuario  = abrir_contenido_archivo('./instrucciones/crear_conceptos_usuario.txt')
crear_relaciones_usuario = abrir_contenido_archivo('./instrucciones/crear_relaciones_usuario.txt')
crear_ternas_usuario     = abrir_contenido_archivo('./instrucciones/crear_ternas_usuario.txt')

Ejecuten la siguiente celda probando distintos valores para visualizar las instrucciones con las que vamos a invocar al modelo. Observar que las instrucciones del usuario funcionan como plantillas: las completamos din√°micamente a medida que el LLM avance en cada paso del proceso. Los espacios a modificar din√°micamente est√°n encerrados entre llaves ``{`` y ``}``.

In [None]:
print(crear_conceptos_sistema)

A continuaci√≥n definimos funciones auxiliares que necesitaremos en nuestro proceso:
* ``invocar_llm`` recibe como par√°metros una instrucci√≥n de sistema y una instrucci√≥n de usuario y con ellos invoca al modelo Gemini 2.5 Flash. La invocaci√≥n esta fijada con un valor de temperatura bajo para que las respuestas del modelo sean determin√≠sticas y no var√≠en en diferentes invocaciones.  
* ``abrir_lote_de_documentos`` se encarga de abrir una lista de documentos desde la ruta especificada. Cada documento posee un t√≠tulo y un texto.
* ``guardar_mapa_conceptuales``: Almacena una lista de mapas conceptuales en un archivo JSON. Cada mapa conceptual est√° codificado como un diccionario que tiene los siguientes elementos:
  * ``titulo``: Un string con el t√≠tulo del mapa conceptual para identificarlo.
  * ``pregunta``: Un string que representa la pregunta focal.
  * ``conceptos``: Una lista de strings que representa las etiquetas de conceptos.
  * ``relaciones``: Una lista de strings que representa las etiquetas de las relaciones sem√°nticas.
  * ``ternas``. Una lista de ternas de conocimiento, donde cada una es un diccionario con las componentes `f` (concepto fuente), `r` (relaci√≥n) y `o` (concepto objetivo).
* ``dibujar_mapas_conceptuales``: Dibuja un conjunto de mapas conceptuales como un √∫nico grafo dirigido y etiquetado, el cual se almacena en un archivo HTML.

In [None]:
def invocar_llm(sistema: str, usuario: str):
    """
    Invoca al modelo de lenguaje Gemini 2.5 Flash.

    Par√°metros:
        sistema (str): Instrucciones del sistema para el modelo.
        usuario  (str): Consulta o instrucciones del usuario.

    Retorna:
        str: Texto generado por el modelo.
    """
    global cliente_genai

    respuesta = cliente_genai.models.generate_content(
        config = types.GenerateContentConfig(
            system_instruction = sistema,
            temperature = 0.1
        ),
        model = "gemini-2.5-flash",
        contents = usuario
    )

    return respuesta.text


def abrir_lote_de_documentos(ruta_entrada: str) -> list[dict]:
    """
    Abre un lote de documentos desde un archivo JSON.

    Par√°metros:
        ruta_entrada (str): Ruta del archivo que contiene los documentos.

    Retorna:
        list[dict]: Lista de documentos.
    """
    with open(ruta_entrada, 'r') as f:
        textos = json.load(f)
    return textos


def guardar_mapas_conceptuales(ruta_salida: str, mapas: dict):
    """
    Guarda una lista de mapas conceptuales en un archivo JSON.

    Par√°metros:
        ruta_salida (str): Ruta del archivo de salida.
        mapas (dict): Mapas conceptuales a guardar.
    """
    with open(ruta_salida, 'w') as f:
        json.dump(mapas, f, indent=4)


def dibujar_mapas_conceptuales(ruta_salida: str, mapas: dict):
    """
    Crea una visualizaci√≥n pyvis de una lista de mapas conceptuales
    y la guarda como archivo HTML.

    Par√°metros:
        mapas (dict): Lista de mapas conceptuales.
        ruta_salida (str): Archivo HTML donde se guardar√° la visualizaci√≥n.
    """
    G = nx.MultiDiGraph()

    for mapa in mapas:
        pregunta_focal = mapa['pregunta']
        ternas = mapa['ternas']

        for terna in ternas:
            f = terna['f']
            r = terna['r']
            o = terna['o']

            if f not in G:
                G.add_node(f, label=f, color='black')
            if o not in G:
                G.add_node(o, label=o, color='black')

            G.add_edge(
                f,
                o,
                label=r,
                title=pregunta_focal,
                color='blue'
            )

    vis = net.Network(directed=True)
    vis.from_nx(G)
    vis.save_graph(ruta_salida)


Abrimos el lote de documentos y mostramos el texto del primer documento que est√° almacenado all√≠. Si revisan el archivo `documentos.json` ver√°n que cada documento consiste de un t√≠tulo y un texto.

In [None]:
documentos = abrir_lote_de_documentos('./datos/documentos.json')
texto = documentos[0]['texto']
print(texto)

Definimos una funci√≥n auxiliar para normalizar la etiqueta de un concepto o una relaci√≥n sem√°ntica. Esta elimina el car√°cter especial `@`, quita los espacios en blanco innecesarios y convierte todas las letras a min√∫sculas

In [None]:
def normalizar_etiqueta(etiqueta: str):
    etiqueta = etiqueta.replace('@','')
    etiqueta = etiqueta.strip()
    etiqueta = " ".join(etiqueta.split())
    etiqueta = etiqueta.lower()
    return etiqueta

Formateamos el prompt de usuario para instruirle al modelo que genere una pregunta de enfoque.

In [None]:
instruccion_crear_pregunta_formateada = crear_pregunta_usuario.format(texto = texto)
print(instruccion_crear_pregunta_formateada )

Invocamos al modelo de lenguaje y le solicitamos que cree una pregunta focal para el texto dado.

In [None]:
pregunta_focal = invocar_llm(
    usuario = instruccion_crear_pregunta_formateada,
    sistema = crear_pregunta_sistema)

pregunta_focal = normalizar_etiqueta(pregunta_focal)
print(pregunta_focal)

Formateamos el prompt de usuario para instruirle al modelo que genere una lista de conceptos.

In [None]:
instruccion_crear_conceptos_formateada = crear_conceptos_usuario.format(pregunta = pregunta_focal, texto = texto)
print(instruccion_crear_conceptos_formateada)

Invocamos al modelo de lenguaje para que genere una lista de conceptos a partir del texto y la pregunta de enfoque:

In [None]:
respuesta_llm = invocar_llm(
    usuario = instruccion_crear_conceptos_formateada,
    sistema = crear_conceptos_sistema)

print(respuesta_llm)

Convertimos el texto extraido en una lista de Python:

In [None]:
# Expresi√≥n regular para extraer una lista de conceptos:
conceptos_exp_reg = r'[\w\d].*?\n|[\w\d].*$'

lista_conceptos = re.findall(conceptos_exp_reg, respuesta_llm)
lista_conceptos = [normalizar_etiqueta(concepto) for concepto in lista_conceptos]

pprint.pprint(lista_conceptos)

Formateamos el prompt de usuario para instruirle al modelo que genere una lista de relaciones sem√°nticas:

In [None]:
instruccion_crear_relaciones_formateada = crear_relaciones_usuario.format(
    pregunta = pregunta_focal,
    conceptos = "\n".join(lista_conceptos),
    texto = texto)
print(instruccion_crear_relaciones_formateada)

Invocamos al modelo de lenguaje para que genere una lista de relaciones a partir del texto, la pregunta de enfoque y la lista de conceptos:

In [None]:
respuesta_llm = invocar_llm(
    sistema = crear_relaciones_sistema,
    usuario = instruccion_crear_relaciones_formateada)

print(respuesta_llm)

Convertimos el texto extraido en una lista de Python:

In [None]:
# Expresi√≥n regular para extraer una lista de relaciones sem√°nticas:
relaciones_exp_reg = r'[\w\d].*?\n|[\w\d].*$'

lista_relaciones = re.findall(relaciones_exp_reg, respuesta_llm)
lista_relaciones = [normalizar_etiqueta(relacion) for relacion in lista_relaciones]

pprint.pprint(lista_relaciones)

Formateamos el prompt de usuario para instruirle al modelo que genere una lista de ternas de conocimiento:

In [None]:
instruccion_crear_ternas_formateada = crear_ternas_usuario.format(
    pregunta = pregunta_focal,
    conceptos = "\n".join(lista_conceptos),
    relaciones = "\n".join(lista_relaciones),
    texto = texto)

print(instruccion_crear_ternas_formateada)

Invocamos al modelo de lenguaje para que genere una lista de ternas de conocimiento  a partir del texto, la pregunta de enfoque, la lista de conceptos y la lista de relaciones sem√°nticas:

In [None]:
respuesta_llm = invocar_llm(
    sistema = crear_ternas_sistema,
    usuario = instruccion_crear_ternas_formateada)

print(respuesta_llm)

Extraemos las ternas de conocimiento del modelo:

In [None]:
ternas_exp_reg = r'@! (.+?) @ (.+?) @ (.+?) !@'

L = re.findall(ternas_exp_reg, respuesta_llm)

lista_ternas = []

for f, r, o in L:
    lista_ternas.append({
        'f': normalizar_etiqueta(f),
        'r': normalizar_etiqueta(r),
        'o': normalizar_etiqueta(o)
    })

pprint.pprint(lista_ternas)

Unimos todas las componentes obtenidas en un √∫nico diccionario Python que representa el grafo de conocimiento (o mapa conceptual):

In [None]:
mapa_conceptual = {'titulo': documentos[0]['titulo'], 'pregunta': pregunta_focal, 'ternas': lista_ternas, 'conceptos': lista_conceptos, 'relaciones': lista_relaciones}
pprint.pprint(mapa_conceptual)

Almacenamos en un archivo JSON el grafo de conocimiento obtenido y lo visalizamos en un archivo HTML üòÄ. Para ver el grafo descarguen el archivo `mapas.html` y abranlo en una nueva pesta√±a de su navegador:

In [None]:
guardar_mapas_conceptuales('./mapas.json', [mapa_conceptual])
dibujar_mapas_conceptuales('./mapas.html', [mapa_conceptual])

# Tarea

La tarea consiste en dise√±ar e implementar una estrategia propia para la creaci√≥n de mapas conceptuales utilizando el modelo de lenguaje Gemini. Todo el proceso debe integrarse en una funci√≥n llamada crear_mapa_conceptual, la cual recibe como entrada un texto y devuelve como salida un diccionario de Python que codifica el mapa conceptual correspondiente.

A partir del archivo `documentos.json`, deber√°n generar un √∫nico mapa conceptual por cada texto, y almacenar todos ellos en un √∫nico archivo JSON `mapas.json`, siguiendo el formato ilustrado en el ejemplo anterior.

Se recomienda experimentar con distintas estrategias de prompting y diferentes algoritmos. Pueden usar como referencia los prompts y piezas de c√≥digo presentados en la secci√≥n previa. Adem√°s, el siguiente recurso puede serles √∫til como gu√≠a para dise√±ar prompts:
https://www.promptingguide.ai/

**Consejo**:
* Incorporen un paso adicional en la estrategia anterior que le pida al LLM mejorar un mapa conceptual previamente generado.

---

### Entrega

Cuando finalicen, suban su notebook, los prompts utilizados y todos los archivos con los mapas conceptuales generados a un repositorio p√∫blico de GitHub. Env√≠en el enlace del repositorio al correo mat.torreta@gmail.com con el asunto:

* *InforSanLuis25-LLMs Entrega*

En el cuerpo del correo deben incluir:

* Nombre completo

* DNI

La entrega deber√° realizarse antes del viernes 05 de diciembre a las 23:59 para aprobar el curso.

---

### M√©todo a implementar

Implementen la mayor parte de su estrategia de creaci√≥n de mapas conceptuales en el cuerpo de esta funci√≥n. Pueden crear sus propias funciones auxiliares e invocarlas desde aqu√≠ si lo necesitan.

In [4]:
import json
import re
import time
from typing import List, Dict, Any

# Librer√≠as esenciales (Asume que ya ejecutaste !pip install pyvis)
from pyvis.network import Network
from google.colab import userdata
from pyvis import network as net
from google.genai import types
from google import genai
import networkx as nx
import pprint

## üõ†Ô∏è CONFIGURACI√ìN E INICIALIZACI√ìN
# ==============================================================================

# 1. Inicializar el cliente Gemini
try:
    GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
    cliente_genai = genai.Client(api_key=GOOGLE_API_KEY)
except Exception as e:
    print(f"ERROR: No se pudo inicializar el cliente Gemini. Detalle: {e}")
    cliente_genai = None

# 2. Expresiones Regulares Globales
ternas_exp_reg = r'@! (.+?) @ (.+?) @ (.+?) !@'
conceptos_exp_reg = r'[\w\d].*?\n|[\w\d].*$'
relaciones_exp_reg = r'[\w\d].*?\n|[\w\d].*$'

# 3. Funciones Auxiliares
def invocar_llm(sistema: str, usuario: str) -> str:
    """Invoca al modelo de lenguaje Gemini 2.5 Flash."""
    global cliente_genai
    if not cliente_genai:
        return ""
    try:
        respuesta = cliente_genai.models.generate_content(
            config = types.GenerateContentConfig(
                system_instruction = sistema,
                temperature = 0.1
            ),
            model = "gemini-2.5-flash",
            contents = usuario
        )
        return respuesta.text
    except Exception as e:
        print(f"Error LLM: {e}")
        return ""

def normalizar_etiqueta(etiqueta: str) -> str:
    """Limpia y normaliza etiquetas de conceptos/relaciones."""
    etiqueta = etiqueta.replace('@','')
    etiqueta = etiqueta.strip()
    etiqueta = " ".join(etiqueta.split())
    etiqueta = etiqueta.lower()
    return etiqueta

def abrir_contenido_archivo(nombre_archivo: str) -> str:
    """Lee el contenido de un archivo (usado para cargar prompts)."""
    try:
        with open(nombre_archivo, 'r', encoding='utf-8') as f:
            return f.read()
    except FileNotFoundError:
        print(f"ADVERTENCIA: Archivo de prompt no encontrado: {nombre_archivo}")
        return ""

def abrir_lote_de_documentos(ruta_entrada: str) -> list[dict]:
    """Abre un lote de documentos desde un archivo JSON."""
    try:
        with open(ruta_entrada, 'r', encoding='utf-8') as f:
            return json.load(f)
    except Exception as e:
        print(f"Error al cargar documentos: {e}")
        return []

def guardar_mapas_conceptuales(ruta_salida: str, mapas: list[dict]):
    """Guarda una lista de mapas conceptuales en un archivo JSON."""
    with open(ruta_salida, 'w', encoding='utf-8') as f:
        json.dump(mapas, f, indent=4, ensure_ascii=False)

def dibujar_mapas_conceptuales(ruta_salida: str, mapas: list[dict]):
    """Crea una visualizaci√≥n pyvis de una lista de mapas conceptuales."""
    G = nx.MultiDiGraph()
    for mapa in mapas:
        pregunta_focal = mapa['pregunta']
        ternas = mapa['ternas']
        for terna in ternas:
            f = terna['f']
            r = terna['r']
            o = terna['o']
            if f not in G: G.add_node(f, label=f, color='black')
            if o not in G: G.add_node(o, label=o, color='black')
            G.add_edge(f, o, label=r, title=pregunta_focal, color='blue')
    vis = net.Network(directed=True)
    vis.from_nx(G)
    vis.save_graph(ruta_salida)


## üìù CARGA DE PROMPTS Y DEFINICI√ìN DE REFINAMIENTO
# ==============================================================================
# Carga de Prompts (Asumiendo que est√°n en './instrucciones/')
crear_pregunta_sistema   = abrir_contenido_archivo('./instrucciones/crear_pregunta_sistema.txt')
crear_conceptos_sistema  = abrir_contenido_archivo('./instrucciones/crear_conceptos_sistema.txt')
crear_relaciones_sistema = abrir_contenido_archivo('./instrucciones/crear_relaciones_sistema.txt')
crear_ternas_sistema     = abrir_contenido_archivo('./instrucciones/crear_ternas_sistema.txt')

crear_pregunta_usuario   = abrir_contenido_archivo('./instrucciones/crear_pregunta_usuario.txt')
crear_conceptos_usuario  = abrir_contenido_archivo('./instrucciones/crear_conceptos_usuario.txt')
crear_relaciones_usuario = abrir_contenido_archivo('./instrucciones/crear_relaciones_usuario.txt')
crear_ternas_usuario     = abrir_contenido_archivo('./instrucciones/crear_ternas_usuario.txt')

# Prompts para el Paso 5: Refinamiento
refinar_ternas_sistema = """
Eres un experto en extracci√≥n de informaci√≥n y refinamiento de grafos de conocimiento. Tu tarea es analizar un texto, una pregunta focal, una lista de conceptos y una colecci√≥n de ternas de conocimiento existentes. Debes refinar estas ternas para mejorar su precisi√≥n, completar informaci√≥n faltante o establecer nuevas conexiones l√≥gicas, asegur√°ndote de que todas las ternas sean consistentes con el texto original y la pregunta focal.

El formato de salida deseado es una lista de ternas de conocimiento revisadas, cada una en el formato `@! concepto_fuente @ relacion @ concepto_objetivo !@`. Solo debes devolver las ternas revisadas, una por l√≠nea, sin texto adicional.
"""
refinar_ternas_usuario = """
Texto de Conocimiento:
@
{texto}
@
Pregunta Focal:
{pregunta}
Lista de Conceptos:
{conceptos}
Lista de Relaciones:
{relaciones}
Ternas de Conocimiento Originales:
{ternas_originales}
@
Tripletas de Conocimiento Revisadas:
"""

## üöÄ FUNCIONES PRINCIPALES
# ==============================================================================

def crear_mapa_conceptual(texto: str) -> dict:
    """Genera la estructura inicial de un mapa conceptual (Pasos 1 a 4)."""
    global conceptos_exp_reg, relaciones_exp_reg, ternas_exp_reg

    # 1. Pregunta Focal
    pregunta_focal = normalizar_etiqueta(invocar_llm(
        usuario=crear_pregunta_usuario.format(texto=texto), sistema=crear_pregunta_sistema))

    # 2. Lista de Conceptos
    respuesta_conceptos = invocar_llm(
        usuario=crear_conceptos_usuario.format(pregunta=pregunta_focal, texto=texto), sistema=crear_conceptos_sistema)
    lista_conceptos = [normalizar_etiqueta(c) for c in re.findall(conceptos_exp_reg, respuesta_conceptos) if c.strip()]

    # 3. Lista de Relaciones
    respuesta_relaciones = invocar_llm(
        sistema=crear_relaciones_sistema,
        usuario=crear_relaciones_usuario.format(pregunta=pregunta_focal, conceptos="\n".join(lista_conceptos), texto=texto))
    lista_relaciones = [normalizar_etiqueta(r) for r in re.findall(relaciones_exp_reg, respuesta_relaciones) if r.strip()]
    if lista_relaciones and lista_relaciones[0] == 'relaciones sem√°nticas:': lista_relaciones.pop(0)

    # 4. Ternas de Conocimiento Iniciales
    respuesta_ternas = invocar_llm(
        sistema=crear_ternas_sistema,
        usuario=crear_ternas_usuario.format(pregunta=pregunta_focal, conceptos="\n".join(lista_conceptos), relaciones="\n".join(lista_relaciones), texto=texto))

    L = re.findall(ternas_exp_reg, respuesta_ternas)
    lista_ternas = [{'f': normalizar_etiqueta(f), 'r': normalizar_etiqueta(r), 'o': normalizar_etiqueta(o)} for f, r, o in L]

    return {
        'pregunta': pregunta_focal,
        'ternas': lista_ternas,
        'conceptos': lista_conceptos,
        'relaciones': lista_relaciones
    }

def refinar_mapa_conceptual(mapa: dict, texto_original: str, num_iteraciones: int = 1) -> dict:
    """Implementa el Paso 5: Refina las ternas de un mapa conceptual de forma iterativa."""
    global refinar_ternas_usuario, refinar_ternas_sistema
    ternas_actuales = mapa['ternas']

    for i in range(num_iteraciones):
        # Prepara el string de ternas para el prompt
        ternas_originales_str = "\n".join([f"@! {t['f']} @ {t['r']} @ {t['o']} !@" for t in ternas_actuales])

        # Formatea el prompt de usuario
        instruccion_refinar_ternas = refinar_ternas_usuario.format(
            texto=texto_original,
            pregunta=mapa['pregunta'],
            conceptos="\n".join(mapa['conceptos']),
            relaciones="\n".join(mapa['relaciones']),
            ternas_originales=ternas_originales_str)

        # Invoca al LLM para refinamiento
        respuesta_llm_refinada = invocar_llm(
            sistema=refinar_ternas_sistema, usuario=instruccion_refinar_ternas)

        # Parsear y actualizar las ternas para la siguiente iteraci√≥n
        refined_L = re.findall(ternas_exp_reg, respuesta_llm_refinada)
        ternas_actuales = [{'f': normalizar_etiqueta(f), 'r': normalizar_etiqueta(r), 'o': normalizar_etiqueta(o)} for f, r, o in refined_L]

    mapa['ternas'] = ternas_actuales
    return mapa

## ‚öôÔ∏è ORQUESTACI√ìN Y EJECUCI√ìN
# ==============================================================================

def procesar_lote_de_documentos(ruta_entrada: str = './datos/documentos.json', ruta_salida_json: str = './mapas.json', ruta_salida_html: str = './mapas.html', iteraciones_refinamiento: int = 2, delay_seg: int = 20):
    """Orquesta la generaci√≥n y refinamiento de mapas para todos los documentos."""

    documentos = abrir_lote_de_documentos(ruta_entrada)
    if not documentos: return

    mapas_conceptuales_finales = []
    num_documentos = len(documentos)

    print(f"Iniciando procesamiento de {num_documentos} documentos (Refinamiento: {iteraciones_refinamiento} iteraciones)...")

    for i, doc in enumerate(documentos):
        titulo = doc.get('titulo', f"Documento {i+1}")
        texto = doc.get('texto', '')

        if not texto.strip():
            print(f"--- Saltando Documento {i+1}: '{titulo}' (Texto vac√≠o) ---")
            continue

        print(f"\n--- Procesando {i+1}/{num_documentos}: {titulo} ---")

        try:
            # 1. Generaci√≥n Inicial (Pasos 1-4)
            mapa_generado = crear_mapa_conceptual(texto)
            mapa_generado['titulo'] = titulo

            # 2. Refinamiento (Paso 5)
            mapa_final = refinar_mapa_conceptual(mapa_generado, texto, num_iteraciones=iteraciones_refinamiento)

            mapas_conceptuales_finales.append(mapa_final)
            print(f"‚úÖ Mapa finalizado y refinado. Ternas finales: {len(mapa_final['ternas'])}")

        except Exception as e:
            print(f"‚ùå Error al procesar '{titulo}': {e}")

        # Pausa para evitar exceder los l√≠mites de la API
        if i < num_documentos - 1 and delay_seg > 0:
            print(f"Esperando {delay_seg} segundos...")
            time.sleep(delay_seg)

    # 3. Guardar y Dibujar el resultado
    guardar_mapas_conceptuales(ruta_salida_json, mapas_conceptuales_finales)
    dibujar_mapas_conceptuales(ruta_salida_html, mapas_conceptuales_finales)

    print(f"\n‚ú® ¬°Proceso completado! Archivos '{ruta_salida_json}' y '{ruta_salida_html}' generados.")


if __name__ == "__main__":
    # --- Ejecuci√≥n del Proceso ---
    # Asume que el directorio ya est√° configurado con !git clone y %cd
    procesar_lote_de_documentos(
        ruta_entrada='./datos/documentos.json',
        ruta_salida_json='./mapas.json',
        ruta_salida_html='./mapas.html',
        iteraciones_refinamiento=2,
        delay_seg=20
    )

Iniciando procesamiento de 5 documentos (Refinamiento: 2 iteraciones)...

--- Procesando 1/5: agua ---
‚úÖ Mapa finalizado y refinado. Ternas finales: 15
Esperando 20 segundos...

--- Procesando 2/5: don_quijote ---
‚úÖ Mapa finalizado y refinado. Ternas finales: 10
Esperando 20 segundos...

--- Procesando 3/5: proteina_a ---
‚úÖ Mapa finalizado y refinado. Ternas finales: 20
Esperando 20 segundos...

--- Procesando 4/5: anticuerpo ---
‚úÖ Mapa finalizado y refinado. Ternas finales: 14
Esperando 20 segundos...

--- Procesando 5/5: ojo ---
‚úÖ Mapa finalizado y refinado. Ternas finales: 21

‚ú® ¬°Proceso completado! Archivos './mapas.json' y './mapas.html' generados.


# Bibliograf√≠a

* [Unifying Large Language Models and Knowledge Graphs: A Roadmap](https://arxiv.org/abs/2306.08302) de Shirui Pan, et al.
* [The Theory Underlying Concept Maps and How
to Construct and Use Them](https://cmap.ihmc.us/publications/researchpapers/theoryunderlyingconceptmaps.pdf) de Joseph D. Novak y Alberto J. Ca√±as.