<div align="right"><i>Matías Torres Esteban<br>Abril, 2025</i></div>

# Un Sistema para el Ingeniero de Conocimiento

La idea de esta notebook es bosquejar un sistema que ayude a investigadores y desarrolladores a organizar su conocimiento personal y el que se encuentra en textos científicos. Sería lindo organizar y almacenar todo este conocimiento en una computadora y construir luego herramientas informáticas que lo utilicen. Este tipo de sistemas se los llama *Bases de Conocimiento Personales* y algunos ejemplos famosos son [Obsidian](https://obsidian.md/), [Anki](https://apps.ankiweb.net/) y [CmapTools](https://cmap.ihmc.us/).

Las siguientes preguntas son difíciles de responder y son temas de investigación actuales en las Ciencias de la Computación:

* ¿Cual sería una manera adecuada de representar nuestro conocimiento, pero que a la vez sea útil para diseñar y programar agentes inteligentes con los que podamos colaborar y nos ayuden a resolver problemas?

* ¿Cómo podemos enseñarle a la Inteligencia Artificial a interpretar nuestros textos científicos? ¿Es posible crear un sistema que lo haga de manera automática, o sería mejor plantear un proceso cooperativo entre el hombre y la máquina?

* ¿Cómo podemos mejorar artefactos de la Inteligencia Artificial actuales, tales como los modelos de lenguaje, con información estructurada? ¿Podemos resolver sus deficiencias, tales como su falta de conocimiento experto y alucinaciones, con grafos de conocimiento? ¿Qué aplicaciones podríamos desarrollar si combinamos ambas tecnologías?

### ¿Qué es el conocimiento?

Es muy importante definir claramente qué es el **conocimiento**. Esto nos permitirá representarlo en una computadora y diseñar a nuestros agentes científicos en base a nuestra definición. Una descripción muy sencilla del término es la siguiente:

* Nosotros, las personas, observamos en el mundo objetos y eventos. A través del tiempo percibimos patrones o regularidades en objetos, eventos y registros de objetos y eventos. A estos patrones les damos un nombre o símbolo para identificarlos, y es en ese momento en el que hemos creado un **concepto**, un átomo en nuestra estructura mental que nos permitirá pensar y comunicarnos.

* Los conceptos no están disconexos en nuestra estructura mental, si no que los relacionamos entre sí mediante palabras o frases significativas, llamadas **palabras de enlace**. Los conceptos y sus relaciones forman **proposiciones**, que son unidades de pensamiento que nos permiten realizar, por ejemplo, deducciones lógicas.

Esta descripción del mundo fue la que utilizó [Joseph D. Novak](https://www.ihmc.us/joseph-novak/), un educador estadounidense, para crear la herramienta de los **mapas conceptuales**. Esta herramienta tuvo mucho éxito en el ámbito de la educación para evaluar el conocimiento de los estudiantes sobre algún dominio. La imágen de abajo muestra un mapa conceptual de las ideas de esta notebook:

![MapaConceptual](https://github.com/matizzat/Knowledge/blob/main/Imagenes/MapaConceptual.svg?raw=1)

### ¿Cómo representamos el conocimiento?

La lógica proposicional y de primer orden, las redes semánticas, los grafos de conocimiento y los mapas conceptuales son maneras distintas de representar conocimiento. Lo interesante de los mapas conceptuales es que surgieron en un ámbito totalmente distinto al de la Inteligencia Artificial y las Matemáticas. Un mapa conceptual es un diagrama donde los nodos son conceptos y las aristas, etiquetadas mediante frases significativas, son relaciones entre conceptos. La idea es que los conceptos y proposiciones de un mapa conceptual respondan una **pregunta de enfoque** o de **contexto**. Para el mapa conceptual de arriba la pregunta de enfoque es:

* ¿Cual es el sistema que queremos simular en esta notebook?

Los mapas conceptuales tienen una historia muy interesante pero la idea de esta notebook no es adentrarnos en su teoría. Sin embargo, creo que son una buena inspiración para diseñar una representación de conocimiento que sea amena al humano y la máquina. Esto por dos motivos:

1. Los mapas conceptuales son considerados en la comunidad educativa como una manera efectiva de representar el conocimiento de una persona. En ellos quedan explícitos los conceptos y proposiciones de nuestra mente. Nos ayudan a identificar lagunas conceptuales, proposiciones falsas y conexiones entre ideas de las que antes no eramos concientes.

2. Los mapas conceptuales se parecen mucho a los grafos de conocimiento que vemos en la materia y a otros formalismos de la IA como redes semánticas y grafos conceptuales. Que muchos científicos de diferentes disciplinas, y trabajando de manera independiante, hayan derivado formas similares de representar conocimiento, nos da indicios de que estamos ante un modelo de conocimiento válido.

Abajo muestro el modelo algebraico de base de datos que diseñé en base a los mapas conceptuales y grafos de conocimiento.

![ModeloAlgebraico](https://github.com/matizzat/Knowledge/blob/main/Imagenes/ModeloAlgebraico.svg?raw=1)

Este modelo es simple y puede extenderse de muchas maneras, pero nos seriviría como base para construir nuestro sistema.

# Gemini como Intérprete de Texto

Vamos a jugar con el modelo de lenguaje Gemini para crear grafos de conocimiento de manera automática a partir de texto. Nuestros textos los almacenamos en la carpeta ```Conocimiento```. Utilizaremos un proceso de tres pasos para completar la tarea:

1. Identificar una pregunta de enfoque la cual el texto responde o analiza. Este sería el **contexto** de las ternas que vamos a generar.
2. Listar los conceptos más importantes mencionados en el texto que se relacionan con la pregunta de enfoque.
3. Extraer las ternas de conocimiento a partir de la pregunta de enfoque, la lista de conceptos y el texto.

Estos pasos son arbitrarios y podrían mejorarse de muchas maneras distintas. Nuestro objetivo es simplemente observar cómo se comporta el modelo y ver qué grafos de conocimiento es capaz de construir.

### El Proceso

Importamos las librerías necesarias.

In [1]:
from google import genai
from google.genai import types
from pyvis.network import Network
from pyvis import network as net
import networkx as nx
import json

Instanciamos un cliente para invocar al modelo Gemini. Para ejecutar esta celda deben obtener una clave del siguiente [enlace](https://ai.google.dev/gemini-api/docs/api-key). También tienen que configurar Google Colab para utilizar esta clave (Ver  [Tutorial](https://www.youtube.com/watch?v=snrvP_TZjvw))

In [2]:
GOOGLE_API_KEY = "AIzaSyA-fqEcgHHoXQCcYTWqEmtsN_SfxT6Rsj4"

In [2]:
client = genai.Client()

Definimos funciones auxiliares y variables

In [3]:
delimitador_texto_conocimiento = "```"

def obtener_contenido_archivo(nombre_archivo: str) -> str:
    with open(nombre_archivo, 'r') as archivo:
        contenido = archivo.read()

    return contenido

def invocar_modelo_lenguaje(prompt: str) -> str:
    respuesta = client.models.generate_content(
        model = "gemini-2.0-flash",
        contents = [prompt]
    )
    return respuesta.text

Abrimos los archivos y extraemos su contenido.

In [4]:
texto_conocimiento = obtener_contenido_archivo("./datos/conocimiento.txt")
plantilla_extraer_pregunta   = obtener_contenido_archivo("./plantillas/extraer_pregunta_enfoque.txt")
plantilla_extraer_conceptos  = obtener_contenido_archivo("./plantillas/extraer_conceptos.txt")
plantilla_extraer_ternas     = obtener_contenido_archivo("./plantillas/extraer_ternas_json.txt")

Creamos un Prompt que instruye a Gemini a extraer una Pregunta de Enfoque a partir de `texto_conocimiento`

In [5]:
delimitador_texto_conocimiento = "```"

prompt_extraer_pregunta = plantilla_extraer_pregunta.format(delimitador = delimitador_texto_conocimiento,
                                                           conocimiento = texto_conocimiento)
print(prompt_extraer_pregunta)

Escribí una pregunta de enfoque que el Texto de Conocimiento dado responde o brinda información. 
El Texto de Conocimiento está delimitado por ``` 

Texto de Conocimiento:
```
William Lyon Mackenzie King fue un abogado, político y estadista canadiense que ejerció como primer ministro de Canadá por tres periodos no consecutivos: de 1921 a 1926, de 1926 a 1930 y de 1935 a 1948. King fue la figura central de la política canadiense desde la década de 1920 hasta su retiro en 1948. Es principalmente conocido por su liderazgo durante la Gran Depresión y la Segunda Guerra Mundial, así como por su rol en la creación de la Canadá moderna, especialmente el estado de bienestar. Es hasta ahora el primer ministro canadiense con más años en el poder, con un total de 21 años.
```

Pregunta de Enfoque:


Invocamos a Gemini con este Prompt y obtenemos una Pregunta de Enfoque.

In [6]:
pregunta_enfoque = invocar_modelo_lenguaje(prompt_extraer_pregunta)
print(pregunta_enfoque)

¿Quién fue William Lyon Mackenzie King y cuál fue su importancia en la historia de Canadá?



Creamos un Prompt que instruye a Gemini a extraer una Lista de Conceptos a partir de ```pregunta_enfoque``` y ```texto_conocimiento```.

In [7]:
prompt_extraer_conceptos = plantilla_extraer_conceptos.format(delimitador = delimitador_texto_conocimiento,
                                                                 pregunta = pregunta_enfoque,
                                                             conocimiento = texto_conocimiento)
print(prompt_extraer_conceptos)

Sos un creador de mapas conceptuales. 

Te doy un Texto de Conocimiento, delimitado por ```, con la siguiente estructura:
    1. Pregunta de Enfoque: Una pregunta que debes responder listando los conceptos relevantes.
    2. Conocimiento: Un texto que responde la pregunta de enfoque usando conceptos relevantes. Los conceptos que extraigas deberían estar explicitamente mencionados o derivados de este texto. 

Tu tarea es escribir una lista de conceptos que usaremos luego para responder la pregunta de enfoque. 
Cada concepto tiene a lo más tres palabras. Los conceptos deberían estar explicitamente mencionados o derivados
del Texto de Conocimiento. Incluí los Conceptos mencionades en la Pregunta de Enfoque. 

La salida debería ser en el siguiente formato:
* Concepto
* Concepto
...
* Concepto

Texto Conocimiento: 
```
Pregunta de Enfoque: ¿Quién fue William Lyon Mackenzie King y cuál fue su importancia en la historia de Canadá?

Conocimiento:
William Lyon Mackenzie King fue un abogado, pol

Invocamos a Gemini con este Prompt y obtenemos una Lista de Conceptos.

In [8]:
lista_conceptos = invocar_modelo_lenguaje(prompt_extraer_conceptos)
print(lista_conceptos)

* William Lyon Mackenzie King
* Primer ministro de Canadá
* Política canadiense
* Gran Depresión
* Segunda Guerra Mundial
* Estado de bienestar
* Historia de Canadá



Creamos un Prompt que instruye a Gemini a extraer una Lista de Ternas de Conocimiento a partir de `pregunta_enfoque`, `lista_conceptos` y `texto_conocimiento`.

In [9]:
prompt_extraer_ternas = plantilla_extraer_ternas.format(delimitador = delimitador_texto_conocimiento,
                                                           pregunta = pregunta_enfoque,
                                                          conceptos = lista_conceptos,
                                                       conocimiento = texto_conocimiento)
print(prompt_extraer_ternas)

Eres un creador de mapas conceptuales. 
Se te proporciona un Texto de Conocimiento con la siguiente estructura:

    1. Pregunta de Enfoque: Una pregunta que debes responder con Tripletas de Conocimiento.
    2. Lista de Conceptos: Una lista de etiquetas de conceptos relevantes para la Pregunta de Enfoque, que debes usar para construir las Tripletas de Conocimiento.
    3. Conocimiento: Un texto que responde a la Pregunta de Enfoque utilizando los conceptos de la Lista de Conceptos. Las Tripletas de Conocimiento deben derivarse explícitamente de este texto.

Tu tarea es devolver una lista de Tripletas de Conocimiento que respondan a la Pregunta de Enfoque. Una Tripleta de Conocimiento tiene tres componentes:

    1. Etiqueta de Concepto Origen
    2. Etiqueta de Concepto Destino
    3. Frase de Relación

Cada etiqueta de concepto debe pertenecer a la Lista de Conceptos. Cada Frase de Relación denota una relación semántica entre conceptos. Algunos ejemplos son: “Vive En”, “Ocurrió En”, 

Invocamos a Gemini con este Prompt y obtenemos una Lista de Ternas de Conocimiento.

In [10]:
lista_ternas_str = invocar_modelo_lenguaje(prompt_extraer_ternas)
print(lista_ternas_str)

```json
[
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Primer ministro de Canadá",
    "Relation": "Fue"
  },
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Política canadiense",
    "Relation": "Fue una figura central en"
  },
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Gran Depresión",
    "Relation": "Lideró durante la"
  },
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Segunda Guerra Mundial",
    "Relation": "Lideró durante la"
  },
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Estado de bienestar",
    "Relation": "Tuvo un rol en la creación del"
  },
  {
    "SourceConcept": "William Lyon Mackenzie King",
    "TargetConcept": "Historia de Canadá",
    "Relation": "Es importante para la"
  }
]
```


A continuación eliminamos los substrings `"```json"` y `"```¨` de la respuesta anterior. Parece que Gemini siempre escribe esas subcadenas cuando le pedimos que la salida sea en formato Json.

In [11]:
tam_str = len(lista_ternas_str)
lista_ternas_str_procesada = lista_ternas_str[8:tam_str-4]

Ahora transformamos `lista_ternas_procesada` en una lista de Python.

In [12]:
lista_ternas = json.loads(lista_ternas_str_procesada)

A continuación vamos a construir un grafo `G` de NetworkX con las ternas de conocimiento que nos devolvió el modelo.

In [13]:
G = nx.Graph()

for terna in lista_ternas:
    fuente, destino, relacion = terna["SourceConcept"], terna["TargetConcept"], terna["Relation"]
    G.add_node(fuente)
    G.add_node(destino)
    G.add_edge(fuente, destino, title=relacion, label=relacion)

Ejecuten la próxima celda de código y descarguen el archivo generado. Luego abran el archivo HTML en una nueva puestaña de su navegador. Esto les permitirá ver el Grafo de Conocimiento generado por el modelo 🙂

In [14]:
vis = net.Network(notebook = True, directed = True)
vis.from_nx(G)
vis.save_graph("./salidas/grafo_conocimiento.html")

