<div align="right"><i>Mat√≠as Torres Esteban<br>Diciembre, 2025</i></div>

# Interpretaci√≥n de Textos con LLMs

Los grandes modelos de lenguaje (LLMs) son conocidos por su capacidad de aprender patrones complejos de los textos y de resolver en consecuencia varias tareas de procesamiento del lenguaje natural, como lo son la traducci√≥n autom√°tica, la generaci√≥n de res√∫menes y la resoluci√≥n de preguntas de dominios especializados. Es por esto que han surgido nuevas lineas de investigaci√≥n que buscan utilizar a los grandes modelos de lenguaje (LLMs) como *interpretadores sem√°nticos de textos*. Su objetivo es representar el significado de un texto escrito en lenguaje natural en uno o m√°s lenguajes l√≥gicos ‚Äîpor ejemplo, la l√≥gica proposicional o la l√≥gica de primer orden‚Äî para explicitar la informaci√≥n contenida all√≠ y brindarle mayor estructura. De esta manera, podemos obtener representaciones avanzadas del significado de un texto que sean m√°s faciles de almacenar en una computadora y puedan ser manipuladas algor√≠tmicamente.

Un lenguaje l√≥gico que podemos utilizar para representar la informaci√≥n contenida en un texto es el lenguaje de los *Grafos de Conocimiento (KGs)*, los cuales permiten codificar hechos y proposiciones del mundo mediante ternas $(f,r,o)$ donde $f$ denota un concepto fuente, $r$ una relaci√≥n sem√°ntica y $o$ un concepto objetivo. As√≠, la informaci√≥n contenida en el siguiente texto:

* *"El Covid-19 es una enfermedad infecciosa causada por el SARS-CoV-2. Produce s√≠ntomas que incluyen fiebre, tos y fatiga"*,

puede representarse como la siguiente colecci√≥n de ternas de conocimiento:

* *(Covid-19, es una, Enfermedad Infecciosa)*
* *(Covid-19, causada por, SARS-CoV-2)*.
* *(Covid-19, tiene s√≠ntoma, Fiebre)*.
* *(Covid-19, tiene s√≠ntoma, Tos)*.
* *(Covid-19, tiene s√≠ntoma, Fatiga)*.

Esta colecci√≥n de ternas puede representase como un grafo dirigido y etiquetado, como se muestra en la siguiente figura:

![GrafoConocimiento](https://raw.githubusercontent.com/matizzat/InforSanLuis-2025-LLMs/5596c0c724cd8e63742866ad998479ecd6f685d2/imagenes/grafo_conocimiento_covid19.svg)

Vemos que este tipo de representaci√≥n es m√°s rica que el texto puro porque explicita los conceptos y relaciones m√°s relevantes. De esta manera, la interpretaci√≥n y el an√°lisis de la informaci√≥n extra√≠da se vuelven m√°s accesibles tanto para un usuario como para una computadora, y adem√°s se facilita su almacenamiento en bases de datos. Finalmente, si pudi√©ramos procesar autom√°ticamente un gran conjunto de documentos de un dominio especializado ‚Äîcomo la biolog√≠a o la medicina‚Äî y transformarlos en grafos de conocimiento, podr√≠amos aplicar todo el aparato matem√°tico de la Teor√≠a de Grafos para analizar estos sistemas conceptuales y revelar informaci√≥n del dominio que est√° escondida en los textos.

En esta notebook utilizaremo al modelo Gemini junto a c√≥digo Python para crear autom√°ticamente grafos de conocimiento a partir de textos. Este ejercicio nos ense√±ar√° a coordinar diferentes invocaciones al modelo y a escribir correctamente nuestros prompts para sacarle el m√°ximo provecho posible.

## Proceso de Interpretaci√≥n

Vamos a implementar un procedimiento de interpretaci√≥n textual inspirado en la metodolog√≠a propuesta por Joseph Novak para la construcci√≥n de mapas conceptuales [1]. Este procedimiento permite generar un KG a partir de un texto expositivo mediante una secuencia estructurada de 4 pasos:

1. Solicitamos al modelo que analice el texto ``<texto>`` y genere una pregunta de enfoque ``<pregunta>``. Las ternas de conocimiento generadas en los
pr√≥ximos pasos deberƒ±ÃÅan ayudar a responder esta pregunta.

2. Solicitamos al modelo que analice ``<texto>`` y ``<pregunta>`` y que luego genere una lista de conceptos ``<conceptos>``. Los conceptos extraƒ±ÃÅdos deben
estar explicitamente mencionados en el texto y tienen que ayudar a responder la pregunta de enfoque.

3. Solictamos al modelo que analice ``<texto>``, ``<pregunta>`` y ``<conceptos>`` y que genere una lista de relaciones sem√°nticas ``<relaciones>``.

4. Solicitamos al modelo que analice ``<texto>``, ``<pregunta>``, ``<conceptos>`` y ``<relaciones>`` en conjunto y que luego genere una lista de ternas de conocimiento ``<ternas>``.

En cada paso realizamos un procesamiento de las etiquetas de conceptos y relaciones para convertir todos sus caracteres a min√∫sculas y eliminar espacios en blanco innecesarios.

## C√≥digo

**Advertencia:** Si la API de Gemini no est√° disponible en este momento pueden simular el proceso en ChatGPT o el chat de Gemini y reintentar ejecutar el c√≥digo m√°s tarde.

Primero extraemos los recursos desde Github (textos y prompts):

In [1]:
!git clone https://github.com/matizzat/InforSanLuis-2025-LLMs
%cd InforSanLuis-2025-LLMs

Cloning into 'InforSanLuis-2025-LLMs'...
remote: Enumerating objects: 118, done.[K
remote: Counting objects: 100% (118/118), done.[K
remote: Compressing objects: 100% (106/106), done.[K
remote: Total 118 (delta 57), reused 31 (delta 9), pack-reused 0 (from 0)[K
Receiving objects: 100% (118/118), 758.78 KiB | 8.93 MiB/s, done.
Resolving deltas: 100% (57/57), done.
/content/InforSanLuis-2025-LLMs


Instalamos la librer√≠a Pyvis para visualizar grafos de conocimiento:

In [2]:
!pip install pyvis

Collecting pyvis
  Downloading pyvis-0.3.2-py3-none-any.whl.metadata (1.7 kB)
Collecting jedi>=0.16 (from ipython>=5.3.0->pyvis)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading pyvis-0.3.2-py3-none-any.whl (756 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m756.0/756.0 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.6/1.6 MB[0m [31m56.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: jedi, pyvis
Successfully installed jedi-0.19.2 pyvis-0.3.2


Importamos las librer√≠as necesarias

In [3]:
from pyvis.network import Network
from google.colab import userdata
from pyvis import network as net
from google.genai import types
from google import genai
from typing import List
import networkx as nx
import pprint
import json
import re

Instanciamos un cliente para invocar al modelo Gemini. Para ejecutar esta celda deben obtener una clave del siguiente [enlace](https://ai.google.dev/gemini-api/docs/api-key). Tambi√©n tienen que configurar Google Colab para utilizar esta clave (Ver  [Tutorial](https://www.youtube.com/watch?v=snrvP_TZjvw))

In [4]:
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
cliente_genai = genai.Client(api_key=GOOGLE_API_KEY)

Definimos una funci√≥n auxiliar para abrir el contenido de un archivo y cargamos las instrucciones con las que invocaremos al modelo. En cada invocaci√≥n nosotros le proveemos al modelo una **instrucci√≥n de sistema** y una **instrucci√≥n de usuario**:

* En la instrucci√≥n de sistema nosotros le especificamos al modelo cual es el rol que debe cumplir, le explicamos en t√©rminos generales la tarea a resolver y le brindamos ejemplos concretos de c√≥mo hay que resolverla y cual es el formato de salida esperado.

* En la instrucci√≥n de usuario especificamos cual es el texto corriente que queremos analizar.

La t√©cnica donde le damos ejemplos concretos al modelo de c√≥mo debe resolver una tarea se denomina **aprendizaje en contexto** y es muy importante aprenderla para embeber a los LLMs en procesos autom√°ticos y aplicarlos en dominios especializados.

In [5]:
def abrir_contenido_archivo(nombre_archivo: str):
    with open(nombre_archivo, 'r') as f:
        return f.read()

crear_pregunta_sistema   = abrir_contenido_archivo('./instrucciones/crear_pregunta_sistema.txt')
crear_conceptos_sistema  = abrir_contenido_archivo('./instrucciones/crear_conceptos_sistema.txt')
crear_relaciones_sistema = abrir_contenido_archivo('./instrucciones/crear_relaciones_sistema.txt')
crear_ternas_sistema     = abrir_contenido_archivo('./instrucciones/crear_ternas_sistema.txt')

crear_pregunta_usuario   = abrir_contenido_archivo('./instrucciones/crear_pregunta_usuario.txt')
crear_conceptos_usuario  = abrir_contenido_archivo('./instrucciones/crear_conceptos_usuario.txt')
crear_relaciones_usuario = abrir_contenido_archivo('./instrucciones/crear_relaciones_usuario.txt')
crear_ternas_usuario     = abrir_contenido_archivo('./instrucciones/crear_ternas_usuario.txt')

Ejecuten la siguiente celda probando distintos valores para visualizar las instrucciones con las que vamos a invocar al modelo. Observar que las instrucciones del usuario funcionan como plantillas: las completamos din√°micamente a medida que el LLM avance en cada paso del proceso. Los espacios a modificar din√°micamente est√°n encerrados entre llaves ``{`` y ``}``.

In [6]:
print(crear_conceptos_sistema)

Eres un creador de mapas conceptuales que analiza textos cient√≠ficos y extrae de ellos los conceptos y relaciones m√°s importantes. Un concepto es un patr√≥n o regularidad en objetos, eventos o registros de objetos y eventos, designado con una etiqueta. Los conceptos se relacionan entre s√≠ mediante frases significativas que forman proposiciones. Te dar√© un texto de conocimiento delimitado por @ con la siguiente estructura:
    1. Pregunta Focal: Una pregunta que debes responder enumerando los conceptos relevantes.
    2. Conocimiento: Un texto que responde la pregunta focal utilizando conceptos relevantes. Los conceptos que extraigas deben estar expl√≠citamente mencionados o derivados de este texto.
Tu tarea es escribir una lista de conceptos que luego utilizaremos para responder la pregunta focal. Los conceptos deben estar expl√≠citamente mencionados o derivados del Texto de Conocimiento. Incluye los conceptos mencionados en la Pregunta Focal.

Ejemplos:

Texto de Conocimiento:
@
P

A continuaci√≥n definimos funciones auxiliares que necesitaremos en nuestro proceso:
* ``invocar_llm`` recibe como par√°metros una instrucci√≥n de sistema y una instrucci√≥n de usuario y con ellos invoca al modelo Gemini 2.5 Flash. La invocaci√≥n esta fijada con un valor de temperatura bajo para que las respuestas del modelo sean determin√≠sticas y no var√≠en en diferentes invocaciones.  
* ``abrir_lote_de_documentos`` se encarga de abrir una lista de documentos desde la ruta especificada. Cada documento posee un t√≠tulo y un texto.
* ``guardar_mapa_conceptuales``: Almacena una lista de mapas conceptuales en un archivo JSON. Cada mapa conceptual est√° codificado como un diccionario que tiene los siguientes elementos:
  * ``titulo``: Un string con el t√≠tulo del mapa conceptual para identificarlo.
  * ``pregunta``: Un string que representa la pregunta focal.
  * ``conceptos``: Una lista de strings que representa las etiquetas de conceptos.
  * ``relaciones``: Una lista de strings que representa las etiquetas de las relaciones sem√°nticas.
  * ``ternas``. Una lista de ternas de conocimiento, donde cada una es un diccionario con las componentes `f` (concepto fuente), `r` (relaci√≥n) y `o` (concepto objetivo).
* ``dibujar_mapas_conceptuales``: Dibuja un conjunto de mapas conceptuales como un √∫nico grafo dirigido y etiquetado, el cual se almacena en un archivo HTML.

In [7]:
def invocar_llm(sistema: str, usuario: str):
    """
    Invoca al modelo de lenguaje Gemini 2.5 Flash.

    Par√°metros:
        sistema (str): Instrucciones del sistema para el modelo.
        usuario  (str): Consulta o instrucciones del usuario.

    Retorna:
        str: Texto generado por el modelo.
    """
    global cliente_genai

    respuesta = cliente_genai.models.generate_content(
        config = types.GenerateContentConfig(
            system_instruction = sistema,
            temperature = 0.1
        ),
        model = "gemini-2.5-flash",
        contents = usuario
    )

    return respuesta.text


def abrir_lote_de_documentos(ruta_entrada: str) -> list[dict]:
    """
    Abre un lote de documentos desde un archivo JSON.

    Par√°metros:
        ruta_entrada (str): Ruta del archivo que contiene los documentos.

    Retorna:
        list[dict]: Lista de documentos.
    """
    with open(ruta_entrada, 'r') as f:
        textos = json.load(f)
    return textos


def guardar_mapas_conceptuales(ruta_salida: str, mapas: dict):
    """
    Guarda una lista de mapas conceptuales en un archivo JSON.

    Par√°metros:
        ruta_salida (str): Ruta del archivo de salida.
        mapas (dict): Mapas conceptuales a guardar.
    """
    with open(ruta_salida, 'w') as f:
        json.dump(mapas, f, indent=4)


def dibujar_mapas_conceptuales(ruta_salida: str, mapas: dict):
    """
    Crea una visualizaci√≥n pyvis de una lista de mapas conceptuales
    y la guarda como archivo HTML.

    Par√°metros:
        mapas (dict): Lista de mapas conceptuales.
        ruta_salida (str): Archivo HTML donde se guardar√° la visualizaci√≥n.
    """
    G = nx.MultiDiGraph()

    for mapa in mapas:
        pregunta_focal = mapa['pregunta']
        ternas = mapa['ternas']

        for terna in ternas:
            f = terna['f']
            r = terna['r']
            o = terna['o']

            if f not in G:
                G.add_node(f, label=f, color='black')
            if o not in G:
                G.add_node(o, label=o, color='black')

            G.add_edge(
                f,
                o,
                label=r,
                title=pregunta_focal,
                color='blue'
            )

    vis = net.Network(directed=True)
    vis.from_nx(G)
    vis.save_graph(ruta_salida)


Abrimos el lote de documentos y mostramos el texto del primer documento que est√° almacenado all√≠. Si revisan el archivo `documentos.json` ver√°n que cada documento consiste de un t√≠tulo y un texto.

In [8]:
documentos = abrir_lote_de_documentos('./datos/documentos.json')
texto = documentos[0]['texto']
print(texto)

El agua es una sustancia cuya mol√©cula est√° compuesta por dos √°tomos de hidr√≥geno y uno de ox√≠geno (H2O) unidos por un enlace covalente.
El t√©rmino agua, generalmente, se refiere a la sustancia en su estado l√≠quido, aunque esta puede hallarse en su forma s√≥lida, llamada hielo, y en su forma gaseosa, denominada vapor.
Es una sustancia bastante com√∫n en la Tierra y el sistema solar, donde se encuentra principalmente en forma de vapor o de hielo.
Es indispensable para el origen y sustento de la vida.



Definimos una funci√≥n auxiliar para normalizar la etiqueta de un concepto o una relaci√≥n sem√°ntica. Esta elimina el car√°cter especial `@`, quita los espacios en blanco innecesarios y convierte todas las letras a min√∫sculas

In [9]:
def normalizar_etiqueta(etiqueta: str):
    etiqueta = etiqueta.replace('@','')
    etiqueta = etiqueta.strip()
    etiqueta = " ".join(etiqueta.split())
    etiqueta = etiqueta.lower()
    return etiqueta

Formateamos el prompt de usuario para instruirle al modelo que genere una pregunta de enfoque.

In [10]:
instruccion_crear_pregunta_formateada = crear_pregunta_usuario.format(texto = texto)
print(instruccion_crear_pregunta_formateada )

Texto de Conocimiento:
@
El agua es una sustancia cuya mol√©cula est√° compuesta por dos √°tomos de hidr√≥geno y uno de ox√≠geno (H2O) unidos por un enlace covalente.
El t√©rmino agua, generalmente, se refiere a la sustancia en su estado l√≠quido, aunque esta puede hallarse en su forma s√≥lida, llamada hielo, y en su forma gaseosa, denominada vapor.
Es una sustancia bastante com√∫n en la Tierra y el sistema solar, donde se encuentra principalmente en forma de vapor o de hielo.
Es indispensable para el origen y sustento de la vida.

@
Pregunta Focal:



Invocamos al modelo de lenguaje y le solicitamos que cree una pregunta focal para el texto dado.

In [11]:
pregunta_focal = invocar_llm(
    usuario = instruccion_crear_pregunta_formateada,
    sistema = crear_pregunta_sistema)

pregunta_focal = normalizar_etiqueta(pregunta_focal)
print(pregunta_focal)

¬øqu√© es el agua y cu√°les son sus principales caracter√≠sticas?


Formateamos el prompt de usuario para instruirle al modelo que genere una lista de conceptos.

In [12]:
instruccion_crear_conceptos_formateada = crear_conceptos_usuario.format(pregunta = pregunta_focal, texto = texto)
print(instruccion_crear_conceptos_formateada)

Texto de Conocimiento:
@
Pregunta Focal:
¬øqu√© es el agua y cu√°les son sus principales caracter√≠sticas?
Conocimiento:
El agua es una sustancia cuya mol√©cula est√° compuesta por dos √°tomos de hidr√≥geno y uno de ox√≠geno (H2O) unidos por un enlace covalente.
El t√©rmino agua, generalmente, se refiere a la sustancia en su estado l√≠quido, aunque esta puede hallarse en su forma s√≥lida, llamada hielo, y en su forma gaseosa, denominada vapor.
Es una sustancia bastante com√∫n en la Tierra y el sistema solar, donde se encuentra principalmente en forma de vapor o de hielo.
Es indispensable para el origen y sustento de la vida.

@
Lista de Conceptos:



Invocamos al modelo de lenguaje para que genere una lista de conceptos a partir del texto y la pregunta de enfoque:

In [13]:
respuesta_llm = invocar_llm(
    usuario = instruccion_crear_conceptos_formateada,
    sistema = crear_conceptos_sistema)

print(respuesta_llm)

Agua
Sustancia
Mol√©cula
√Åtomos de hidr√≥geno
√Åtomos de ox√≠geno
H2O
Enlace covalente
Estado l√≠quido
Forma s√≥lida
Hielo
Forma gaseosa
Vapor
Tierra
Sistema solar
Origen de la vida
Sustento de la vida
Vida


Convertimos el texto extraido en una lista de Python:

In [14]:
# Expresi√≥n regular para extraer una lista de conceptos:
conceptos_exp_reg = r'[\w\d].*?\n|[\w\d].*$'

lista_conceptos = re.findall(conceptos_exp_reg, respuesta_llm)
lista_conceptos = [normalizar_etiqueta(concepto) for concepto in lista_conceptos]

pprint.pprint(lista_conceptos)

['agua',
 'sustancia',
 'mol√©cula',
 '√°tomos de hidr√≥geno',
 '√°tomos de ox√≠geno',
 'h2o',
 'enlace covalente',
 'estado l√≠quido',
 'forma s√≥lida',
 'hielo',
 'forma gaseosa',
 'vapor',
 'tierra',
 'sistema solar',
 'origen de la vida',
 'sustento de la vida',
 'vida']


Formateamos el prompt de usuario para instruirle al modelo que genere una lista de relaciones sem√°nticas:

In [15]:
instruccion_crear_relaciones_formateada = crear_relaciones_usuario.format(
    pregunta = pregunta_focal,
    conceptos = "\n".join(lista_conceptos),
    texto = texto)
print(instruccion_crear_relaciones_formateada)

Texto de Conocimiento:
@
Pregunta Focal:
¬øqu√© es el agua y cu√°les son sus principales caracter√≠sticas?
Lista de Conceptos:
agua
sustancia
mol√©cula
√°tomos de hidr√≥geno
√°tomos de ox√≠geno
h2o
enlace covalente
estado l√≠quido
forma s√≥lida
hielo
forma gaseosa
vapor
tierra
sistema solar
origen de la vida
sustento de la vida
vida
Conocimiento:
El agua es una sustancia cuya mol√©cula est√° compuesta por dos √°tomos de hidr√≥geno y uno de ox√≠geno (H2O) unidos por un enlace covalente.
El t√©rmino agua, generalmente, se refiere a la sustancia en su estado l√≠quido, aunque esta puede hallarse en su forma s√≥lida, llamada hielo, y en su forma gaseosa, denominada vapor.
Es una sustancia bastante com√∫n en la Tierra y el sistema solar, donde se encuentra principalmente en forma de vapor o de hielo.
Es indispensable para el origen y sustento de la vida.

@
Relaciones Sem√°nticas:



Invocamos al modelo de lenguaje para que genere una lista de relaciones a partir del texto, la pregunta de enfoque y la lista de conceptos:

In [16]:
respuesta_llm = invocar_llm(
    sistema = crear_relaciones_sistema,
    usuario = instruccion_crear_relaciones_formateada)

print(respuesta_llm)

Relaciones Sem√°nticas:
Es una
Est√° compuesta por
Unidos por
Se refiere a
Puede hallarse como
Es llamada
Es denominada
Es com√∫n en
Se encuentra como
Es indispensable para


Convertimos el texto extraido en una lista de Python:

In [17]:
# Expresi√≥n regular para extraer una lista de relaciones sem√°nticas:
relaciones_exp_reg = r'[\w\d].*?\n|[\w\d].*$'

lista_relaciones = re.findall(relaciones_exp_reg, respuesta_llm)
lista_relaciones = [normalizar_etiqueta(relacion) for relacion in lista_relaciones]

pprint.pprint(lista_relaciones)

['relaciones sem√°nticas:',
 'es una',
 'est√° compuesta por',
 'unidos por',
 'se refiere a',
 'puede hallarse como',
 'es llamada',
 'es denominada',
 'es com√∫n en',
 'se encuentra como',
 'es indispensable para']


Formateamos el prompt de usuario para instruirle al modelo que genere una lista de ternas de conocimiento:

In [18]:
instruccion_crear_ternas_formateada = crear_ternas_usuario.format(
    pregunta = pregunta_focal,
    conceptos = "\n".join(lista_conceptos),
    relaciones = "\n".join(lista_relaciones),
    texto = texto)

print(instruccion_crear_ternas_formateada)

Texto de Conocimiento:
@
Pregunta Focal:
¬øqu√© es el agua y cu√°les son sus principales caracter√≠sticas?
Lista de Conceptos:
agua
sustancia
mol√©cula
√°tomos de hidr√≥geno
√°tomos de ox√≠geno
h2o
enlace covalente
estado l√≠quido
forma s√≥lida
hielo
forma gaseosa
vapor
tierra
sistema solar
origen de la vida
sustento de la vida
vida
Lista de Relaciones:
relaciones sem√°nticas:
es una
est√° compuesta por
unidos por
se refiere a
puede hallarse como
es llamada
es denominada
es com√∫n en
se encuentra como
es indispensable para
Conocimiento:
El agua es una sustancia cuya mol√©cula est√° compuesta por dos √°tomos de hidr√≥geno y uno de ox√≠geno (H2O) unidos por un enlace covalente.
El t√©rmino agua, generalmente, se refiere a la sustancia en su estado l√≠quido, aunque esta puede hallarse en su forma s√≥lida, llamada hielo, y en su forma gaseosa, denominada vapor.
Es una sustancia bastante com√∫n en la Tierra y el sistema solar, donde se encuentra principalmente en forma de vapor o de hielo.


Invocamos al modelo de lenguaje para que genere una lista de ternas de conocimiento  a partir del texto, la pregunta de enfoque, la lista de conceptos y la lista de relaciones sem√°nticas:

In [19]:
respuesta_llm = invocar_llm(
    sistema = crear_ternas_sistema,
    usuario = instruccion_crear_ternas_formateada)

print(respuesta_llm)

@! agua @ es una @ sustancia !@
@! mol√©cula @ est√° compuesta por @ √°tomos de hidr√≥geno !@
@! mol√©cula @ est√° compuesta por @ √°tomos de ox√≠geno !@
@! √°tomos de hidr√≥geno @ unidos por @ enlace covalente !@
@! √°tomos de ox√≠geno @ unidos por @ enlace covalente !@
@! agua @ es llamada @ h2o !@
@! agua @ se refiere a @ estado l√≠quido !@
@! agua @ puede hallarse como @ forma s√≥lida !@
@! forma s√≥lida @ es llamada @ hielo !@
@! agua @ puede hallarse como @ forma gaseosa !@
@! forma gaseosa @ es denominada @ vapor !@
@! agua @ es com√∫n en @ tierra !@
@! agua @ es com√∫n en @ sistema solar !@
@! agua @ se encuentra como @ vapor !@
@! agua @ se encuentra como @ hielo !@
@! agua @ es indispensable para @ origen de la vida !@
@! agua @ es indispensable para @ sustento de la vida !@


Extraemos las ternas de conocimiento del modelo:

In [None]:
ternas_exp_reg = r'@! (.+?) @ (.+?) @ (.+?) !@'

L = re.findall(ternas_exp_reg, respuesta_llm)

lista_ternas = []

for f, r, o in L:
    lista_ternas.append({
        'f': normalizar_etiqueta(f),
        'r': normalizar_etiqueta(r),
        'o': normalizar_etiqueta(o)
    })

pprint.pprint(lista_ternas)

[{'f': 'agua', 'o': 'sustancia', 'r': 'es una'},
 {'f': 'h2o', 'o': 'mol√©cula', 'r': 'es una'},
 {'f': 'h2o', 'o': '√°tomos de hidr√≥geno', 'r': 'est√° compuesta por'},
 {'f': 'h2o', 'o': '√°tomo de ox√≠geno', 'r': 'est√° compuesta por'},
 {'f': '√°tomos de hidr√≥geno', 'o': 'enlace covalente', 'r': 'unidos por'},
 {'f': '√°tomo de ox√≠geno', 'o': 'enlace covalente', 'r': 'unidos por'},
 {'f': 'agua', 'o': 'estado l√≠quido', 'r': 'se refiere a'},
 {'f': 'agua', 'o': 'forma s√≥lida', 'r': 'puede hallarse en su forma'},
 {'f': 'forma s√≥lida', 'o': 'hielo', 'r': 'llamada'},
 {'f': 'agua', 'o': 'forma gaseosa', 'r': 'puede hallarse en su forma'},
 {'f': 'forma gaseosa', 'o': 'vapor', 'r': 'denominada'},
 {'f': 'agua', 'o': 'origen de la vida', 'r': 'es indispensable para'},
 {'f': 'agua', 'o': 'sustento de la vida', 'r': 'es indispensable para'}]


Unimos todas las componentes obtenidas en un √∫nico diccionario Python que representa el grafo de conocimiento (o mapa conceptual):

In [None]:
mapa_conceptual = {'titulo': documentos[0]['titulo'], 'pregunta': pregunta_focal, 'ternas': lista_ternas, 'conceptos': lista_conceptos, 'relaciones': lista_relaciones}
pprint.pprint(mapa_conceptual)

{'conceptos': ['agua',
               'sustancia',
               'mol√©cula',
               '√°tomos de hidr√≥geno',
               '√°tomo de ox√≠geno',
               'h2o',
               'enlace covalente',
               'estado l√≠quido',
               'forma s√≥lida',
               'hielo',
               'forma gaseosa',
               'vapor',
               'tierra',
               'sistema solar',
               'origen de la vida',
               'sustento de la vida',
               'vida'],
 'pregunta': '¬øqu√© es el agua, cu√°l es su composici√≥n, sus estados y su '
             'importancia?',
 'relaciones': ['relaciones sem√°nticas:',
                'es una',
                'est√° compuesta por',
                'unidos por',
                'se refiere a',
                'puede hallarse en su forma',
                'llamada',
                'denominada',
                'se encuentra en forma de',
                'es indispensable para'],
 'ternas': [{'f': 'a

Almacenamos en un archivo JSON el grafo de conocimiento obtenido y lo visalizamos en un archivo HTML üòÄ. Para ver el grafo descarguen el archivo `mapas.html` y abranlo en una nueva pesta√±a de su navegador:

In [None]:
guardar_mapas_conceptuales('./mapas.json', [mapa_conceptual])
dibujar_mapas_conceptuales('./mapas.html', [mapa_conceptual])

# Tarea

La tarea consiste en dise√±ar e implementar una estrategia propia para la creaci√≥n de mapas conceptuales utilizando el modelo de lenguaje Gemini. Todo el proceso debe integrarse en una funci√≥n llamada crear_mapa_conceptual, la cual recibe como entrada un texto y devuelve como salida un diccionario de Python que codifica el mapa conceptual correspondiente.

A partir del archivo `documentos.json`, deber√°n generar un √∫nico mapa conceptual por cada texto, y almacenar todos ellos en un √∫nico archivo JSON `mapas.json`, siguiendo el formato ilustrado en el ejemplo anterior.

Se recomienda experimentar con distintas estrategias de prompting y diferentes algoritmos. Pueden usar como referencia los prompts y piezas de c√≥digo presentados en la secci√≥n previa. Adem√°s, el siguiente recurso puede serles √∫til como gu√≠a para dise√±ar prompts:
https://www.promptingguide.ai/

**Consejo**:
* Incorporen un paso adicional en la estrategia anterior que le pida al LLM mejorar un mapa conceptual previamente generado.

---

### Entrega

Cuando finalicen, suban su notebook, los prompts utilizados y todos los archivos con los mapas conceptuales generados a un repositorio p√∫blico de GitHub. Env√≠en el enlace del repositorio al correo mat.torreta@gmail.com con el asunto:

* *InforSanLuis25-LLMs Entrega*

En el cuerpo del correo deben incluir:

* Nombre completo

* DNI

La entrega deber√° realizarse antes del viernes 05 de diciembre a las 23:59 para aprobar el curso.

---

### M√©todo a implementar

Implementen la mayor parte de su estrategia de creaci√≥n de mapas conceptuales en el cuerpo de esta funci√≥n. Pueden crear sus propias funciones auxiliares e invocarlas desde aqu√≠ si lo necesitan.

In [20]:
crear_mejora_sistema = """
Eres un experto en la revisi√≥n y refinamiento de mapas conceptuales cient√≠ficos.
Tu tarea es recibir un mapa conceptual preliminar (conceptos, relaciones y sus ternas) y el texto original del que se extrajo.
Debes analizar cr√≠ticamente el mapa y generar una versi√≥n MEJORADA de las ternas de conocimiento.

Tus objetivos de mejora son:
1. Completitud: ¬øFaltan relaciones clave que est√°n claras en el texto entre los conceptos existentes? Agr√©galas.
2. Precisi√≥n: ¬øAlguna terna actual no es fiel al texto o es ambigua? Corr√≠gela o elim√≠nala.
3. Redundancia: ¬øHay ternas repetidas o que expresan lo mismo? Fusi√≥nalas.

IMPORTANTE: Tu salida debe ser √öNICAMENTE la lista final de ternas mejoradas. Usa exactamente el mismo formato de entrada para cada terna:
@! concepto_fuente @ relaci√≥n @ concepto_objetivo !@
No incluyas introducciones, explicaciones ni texto adicional. Solo la lista de ternas.
"""

crear_mejora_usuario = """
Aqu√≠ tienes los elementos del mapa conceptual generado hasta ahora y el texto fuente para su revisi√≥n:

=== Texto Original ===
{texto}

=== Pregunta Focal ===
{pregunta}

=== Lista de Conceptos Validados (Nodos) ===
{conceptos}

=== Lista de Relaciones Validadas (Tipos de Aristas) ===
{relaciones}

=== BORRADOR ACTUAL DE TERNAS (A MEJORAR) ===
{ternas_actuales}

Bas√°ndote en el texto original, genera una lista MEJORADA y definitiva de ternas. Devuelve solo la lista con el formato @! f @ r @ o !@.
"""


In [21]:
def crear_mapa_conceptual(texto: str) -> dict:
    """
    IMPORTANTE!
    Aqu√≠ deben implementar la estrategia para crear mapas conceptuales
    a partir de texto. Deber√°n coordinar las diferentes invocaciones
    al modelo de lenguaje y procesar correctamente las respuestas.
    """
    """
    PASO 1: Pregunta Focal
    """
    prompt_pregunta = crear_pregunta_usuario.format(texto=texto)
    pregunta = invocar_llm(crear_pregunta_sistema, prompt_pregunta)
    pregunta = normalizar_etiqueta(pregunta)

    """
    PASO 2: Conceptos
    """
    prompt_conceptos = crear_conceptos_usuario.format(pregunta=pregunta, texto=texto)
    resp_conceptos = invocar_llm(crear_conceptos_sistema, prompt_conceptos)
    conceptos_regex = r'[\w\d].*?\n|[\w\d].*$'
    lista_conceptos = re.findall(conceptos_regex, resp_conceptos)
    lista_conceptos = list(set([normalizar_etiqueta(c) for c in lista_conceptos]))

    """
    PASO 3: Relaciones
    """
    str_conceptos = "\n".join(lista_conceptos)
    prompt_relaciones = crear_relaciones_usuario.format(pregunta=pregunta, conceptos=str_conceptos, texto=texto)
    resp_relaciones = invocar_llm(crear_relaciones_sistema, prompt_relaciones)
    relaciones_regex = r'[\w\d].*?\n|[\w\d].*$'
    lista_relaciones = re.findall(relaciones_regex, resp_relaciones)
    lista_relaciones = list(set([normalizar_etiqueta(r) for r in lista_relaciones]))

    """
    PASO 4: Ternas
    """
    str_relaciones = "\n".join(lista_relaciones)
    prompt_ternas = crear_ternas_usuario.format(
        pregunta=pregunta,
        conceptos=str_conceptos,
        relaciones=str_relaciones,
        texto=texto
    )
    ternas_actuales_texto = invocar_llm(crear_ternas_sistema, prompt_ternas)

    """
    PASO 5: MEJORA ITERATIVA
    """
    CANTIDAD_ITERACIONES = 3

    for i in range(CANTIDAD_ITERACIONES):

        prompt_mejora = crear_mejora_usuario.format(
            texto=texto,
            pregunta=pregunta,
            conceptos=str_conceptos,
            relaciones=str_relaciones,
            ternas_actuales=ternas_actuales_texto
        )

        ternas_actuales_texto = invocar_llm(crear_mejora_sistema, prompt_mejora)

    ternas_regex = r'@! (.+?) @ (.+?) @ (.+?) !@'
    matches_ternas = re.findall(ternas_regex, ternas_actuales_texto)

    lista_ternas_dict = []
    for f, r, o in matches_ternas:
        lista_ternas_dict.append({
            'f': normalizar_etiqueta(f),
            'r': normalizar_etiqueta(r),
            'o': normalizar_etiqueta(o)
        })

    return {
        'pregunta': pregunta,
        'conceptos': lista_conceptos,
        'relaciones': lista_relaciones,
        'ternas': lista_ternas_dict
    }


In [22]:
ruta_docs = './datos/documentos.json'
lista_documentos = abrir_lote_de_documentos(ruta_docs)

lista_mapas_finales = []

for i, doc in enumerate(lista_documentos):
    titulo = doc['titulo']
    texto = doc['texto']

    print(f"--- Generando mapa {i+1}/{len(lista_documentos)}: {titulo} ---")

    try:
        mapa_generado = crear_mapa_conceptual(texto)

        mapa_generado['titulo'] = titulo

        lista_mapas_finales.append(mapa_generado)

    except Exception as e:
        print(f"Error procesando {titulo}: {e}")

guardar_mapas_conceptuales('./mapas.json', lista_mapas_finales)
dibujar_mapas_conceptuales('./mapas.html', lista_mapas_finales)

--- Generando mapa 1/5: agua ---
--- Generando mapa 2/5: don_quijote ---
--- Generando mapa 3/5: proteina_a ---
--- Generando mapa 4/5: anticuerpo ---
--- Generando mapa 5/5: ojo ---


# Bibliograf√≠a

* [Unifying Large Language Models and Knowledge Graphs: A Roadmap](https://arxiv.org/abs/2306.08302) de Shirui Pan, et al.
* [The Theory Underlying Concept Maps and How
to Construct and Use Them](https://cmap.ihmc.us/publications/researchpapers/theoryunderlyingconceptmaps.pdf) de Joseph D. Novak y Alberto J. Ca√±as.