<div align="right"><i>MatÃ­as Torres Esteban<br>Abril, 2025</i></div>

# Un Sistema para el Ingeniero de Conocimiento

La idea de esta notebook es bosquejar un sistema que ayude a investigadores y desarrolladores a organizar su conocimiento personal y el que se encuentra en textos cientÃ­ficos. SerÃ­a lindo organizar y almacenar todo este conocimiento en una computadora y construir luego herramientas informÃ¡ticas que lo utilicen. Este tipo de sistemas se los llama *Bases de Conocimiento Personales* y algunos ejemplos famosos son [Obsidian](https://obsidian.md/), [Anki](https://apps.ankiweb.net/) y [CmapTools](https://cmap.ihmc.us/).

Las siguientes preguntas son difÃ­ciles de responder y son temas de investigaciÃ³n actuales en las Ciencias de la ComputaciÃ³n:

* Â¿Cual serÃ­a una manera adecuada de representar nuestro conocimiento, pero que a la vez sea Ãºtil para diseÃ±ar y programar agentes inteligentes con los que podamos colaborar y nos ayuden a resolver problemas?

* Â¿CÃ³mo podemos enseÃ±arle a la Inteligencia Artificial a interpretar nuestros textos cientÃ­ficos? Â¿Es posible crear un sistema que lo haga de manera automÃ¡tica, o serÃ­a mejor plantear un proceso cooperativo entre el hombre y la mÃ¡quina?

* Â¿CÃ³mo podemos mejorar artefactos de la Inteligencia Artificial actuales, tales como los modelos de lenguaje, con informaciÃ³n estructurada? Â¿Podemos resolver sus deficiencias, tales como su falta de conocimiento experto y alucinaciones, con grafos de conocimiento? Â¿QuÃ© aplicaciones podrÃ­amos desarrollar si combinamos ambas tecnologÃ­as?

### Â¿QuÃ© es el conocimiento?

Es muy importante definir claramente quÃ© es el **conocimiento**. Esto nos permitirÃ¡ representarlo en una computadora y diseÃ±ar a nuestros agentes cientÃ­ficos en base a nuestra definiciÃ³n. Una descripciÃ³n muy sencilla del tÃ©rmino es la siguiente:

* Nosotros, las personas, observamos en el mundo objetos y eventos. A travÃ©s del tiempo percibimos patrones o regularidades en objetos, eventos y registros de objetos y eventos. A estos patrones les damos un nombre o sÃ­mbolo para identificarlos, y es en ese momento en el que hemos creado un **concepto**, un Ã¡tomo en nuestra estructura mental que nos permitirÃ¡ pensar y comunicarnos.

* Los conceptos no estÃ¡n disconexos en nuestra estructura mental, si no que los relacionamos entre sÃ­ mediante palabras o frases significativas, llamadas **palabras de enlace**. Los conceptos y sus relaciones forman **proposiciones**, que son unidades de pensamiento que nos permiten realizar, por ejemplo, deducciones lÃ³gicas.

Esta descripciÃ³n del mundo fue la que utilizÃ³ [Joseph D. Novak](https://www.ihmc.us/joseph-novak/), un educador estadounidense, para crear la herramienta de los **mapas conceptuales**. Esta herramienta tuvo mucho Ã©xito en el Ã¡mbito de la educaciÃ³n para evaluar el conocimiento de los estudiantes sobre algÃºn dominio. La imÃ¡gen de abajo muestra un mapa conceptual de las ideas de esta notebook:

![MapaConceptual](https://github.com/matizzat/Knowledge/blob/main/Imagenes/MapaConceptual.svg?raw=1)

### Â¿CÃ³mo representamos el conocimiento?

La lÃ³gica proposicional y de primer orden, las redes semÃ¡nticas, los grafos de conocimiento y los mapas conceptuales son maneras distintas de representar conocimiento. Lo interesante de los mapas conceptuales es que surgieron en un Ã¡mbito totalmente distinto al de la Inteligencia Artificial y las MatemÃ¡ticas. Un mapa conceptual es un diagrama donde los nodos son conceptos y las aristas, etiquetadas mediante frases significativas, son relaciones entre conceptos. La idea es que los conceptos y proposiciones de un mapa conceptual respondan una **pregunta de enfoque** o de **contexto**. Para el mapa conceptual de arriba la pregunta de enfoque es:

* Â¿Cual es el sistema que queremos simular en esta notebook?

Los mapas conceptuales tienen una historia muy interesante pero la idea de esta notebook no es adentrarnos en su teorÃ­a. Sin embargo, creo que son una buena inspiraciÃ³n para diseÃ±ar una representaciÃ³n de conocimiento que sea amena al humano y la mÃ¡quina. Esto por dos motivos:

1. Los mapas conceptuales son considerados en la comunidad educativa como una manera efectiva de representar el conocimiento de una persona. En ellos quedan explÃ­citos los conceptos y proposiciones de nuestra mente. Nos ayudan a identificar lagunas conceptuales, proposiciones falsas y conexiones entre ideas de las que antes no eramos concientes.

2. Los mapas conceptuales se parecen mucho a los grafos de conocimiento que vemos en la materia y a otros formalismos de la IA como redes semÃ¡nticas y grafos conceptuales. Que muchos cientÃ­ficos de diferentes disciplinas, y trabajando de manera independiante, hayan derivado formas similares de representar conocimiento, nos da indicios de que estamos ante un modelo de conocimiento vÃ¡lido.

Abajo muestro el modelo algebraico de base de datos que diseÃ±Ã© en base a los mapas conceptuales y grafos de conocimiento.

![ModeloAlgebraico](https://github.com/matizzat/Knowledge/blob/main/Imagenes/ModeloAlgebraico.svg?raw=1)

Este modelo es simple y puede extenderse de muchas maneras, pero nos serivirÃ­a como base para construir nuestro sistema.

# Gemini como IntÃ©rprete de Texto

Vamos a jugar con el modelo de lenguaje Gemini para crear grafos de conocimiento de manera automÃ¡tica a partir de texto. Nuestros textos los almacenamos en la carpeta ```Conocimiento```. Utilizaremos un proceso de tres pasos para completar la tarea:

1. Identificar una pregunta de enfoque la cual el texto responde o analiza. Este serÃ­a el **contexto** de las ternas que vamos a generar.
2. Listar los conceptos mÃ¡s importantes mencionados en el texto que se relacionan con la pregunta de enfoque.
3. Extraer las ternas de conocimiento a partir de la pregunta de enfoque, la lista de conceptos y el texto.

Estos pasos son arbitrarios y podrÃ­an mejorarse de muchas maneras distintas. Nuestro objetivo es simplemente observar cÃ³mo se comporta el modelo y ver quÃ© grafos de conocimiento es capaz de construir.

### El Proceso

Extraemos los recursos desde Github (Textos y Prompts)

In [52]:
!git clone https://github.com/matizzat/Knowledge.git

fatal: destination path 'Knowledge' already exists and is not an empty directory.


Instalamos la librerÃ­a Pyvis para visualizar los grafos

In [53]:
!pip install pyvis



Importamos las librerÃ­as necesarias.

In [54]:
from google import genai
from google.genai import types
from pyvis.network import Network
from pyvis import network as net
import networkx as nx
import json
from google.colab import userdata

Instanciamos un cliente para invocar al modelo Gemini. Para ejecutar esta celda deben obtener una clave del siguiente [enlace](https://ai.google.dev/gemini-api/docs/api-key). TambiÃ©n tienen que configurar Google Colab para utilizar esta clave (Ver  [Tutorial](https://www.youtube.com/watch?v=snrvP_TZjvw))

In [55]:
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')
client = genai.Client(api_key=GOOGLE_API_KEY)

Definimos funciones auxiliares y variables

In [56]:
delimitador_texto_conocimiento = "```"

def obtener_contenido_archivo(nombre_archivo: str) -> str:
    with open(nombre_archivo, 'r') as archivo:
        contenido = archivo.read()

    return contenido

def invocar_modelo_lenguaje(prompt: str) -> str:
    respuesta = client.models.generate_content(
        model = "gemini-2.0-flash",
        contents = [prompt]
    )
    return respuesta.text

Abrimos los archivos y extraemos su contenido.

In [57]:
texto_conocimiento = obtener_contenido_archivo("/content/Knowledge/Conocimiento/Conocimiento3.txt")
plantilla_extraer_pregunta   = obtener_contenido_archivo("/content/Knowledge/Instrucciones/ExtraerPregunta.txt")
plantilla_extraer_conceptos  = obtener_contenido_archivo("/content/Knowledge/Instrucciones/ExtraerConceptos.txt")
plantilla_extraer_ternas     = obtener_contenido_archivo("/content/Knowledge/Instrucciones/ExtraerTernasJson.txt")

Creamos un Prompt que instruye a Gemini a extraer una Pregunta de Enfoque a partir de `texto_conocimiento`

In [58]:
delimitador_texto_conocimiento = "```"

prompt_extraer_pregunta = plantilla_extraer_pregunta.format(delimitador = delimitador_texto_conocimiento,
                                                           conocimiento = texto_conocimiento)
print(prompt_extraer_pregunta)

Write a focus question that the given Knowledge Text answers or gives insight into. 
The knowledge text is delimited by ```

Knowledge text:
```
Word and Object is a 1960 work by the philosopher Willard Van Orman Quine, in which the author expands upon the line of thought of his earlier writings in From a Logical Point of View (1953), and reformulates some of his earlier arguments, such as his attack in "Two Dogmas of Empiricism" on the analyticâ€“synthetic distinction. The thought experiment of radical translation and the accompanying notion of indeterminacy of translation are original to Word and Object, which is Quine's most famous book.

Quine emphasizes his naturalism, the doctrine that philosophy should be pursued as part of natural science. He argues in favor of naturalizing epistemology, physicalism as against phenomenalism and mind-body dualism, and extensionality as against intensionality. He also develops a behavioristic conception of sentence-meaning, theorizes about langua

Invocamos a Gemini con este Prompt y obtenemos una Pregunta de Enfoque.

In [59]:
pregunta_enfoque = invocar_modelo_lenguaje(prompt_extraer_pregunta)
print(pregunta_enfoque)

What are the central arguments and themes explored in Quine's "Word and Object," and how do they reflect his philosophical naturalism and linguistic behaviorism?



Creamos un Prompt que instruye a Gemini a extraer una Lista de Conceptos a partir de ```pregunta_enfoque``` y ```texto_conocimiento```.

In [60]:
prompt_extraer_conceptos = plantilla_extraer_conceptos.format(delimitador = delimitador_texto_conocimiento,
                                                                 pregunta = pregunta_enfoque,
                                                             conocimiento = texto_conocimiento)
print(prompt_extraer_conceptos)

You are a knowledge map creator. 

You are given a Knowledge Text, delimited by ```, with the following structure:
    1. Focus Question: A question that you have to answer listing relevant Concept Labels. 
    2. Knowledge: A text that answers the Focus Questions using relevant concepts. The Concept Labels you extract should be explicitly mentioned or derived from this text.

Your task is to write a List of Concept Labels that we will later use to answer the Focus Question. 
Each Concept Label has at most three words. The Concept Labels should be explicitly mentioned or derived from the Knowledge Text. Include the Concepts mentioned in the Focus Question.

The output should have the following format:
* Concept Label
* Concept Label
...
* Concept Label

Knowledge text: 
```
Focus Question: What are the central arguments and themes explored in Quine's "Word and Object," and how do they reflect his philosophical naturalism and linguistic behaviorism?

Knowledge:
Word and Object is a 1960

Invocamos a Gemini con este Prompt y obtenemos una Lista de Conceptos.

In [61]:
lista_conceptos = invocar_modelo_lenguaje(prompt_extraer_conceptos)
print(lista_conceptos)

* Quine
* Word and Object
* Philosophical naturalism
* Linguistic behaviorism
* Radical translation
* Indeterminacy of translation
* Naturalizing epistemology
* Physicalism
* Mind-body dualism
* Extensionality
* Intensionality
* Sentence-meaning
* Language learning
* Ontogenesis of reference
* Ambiguity
* Vagueness
* Regimenting language
* Ontic commitments
* Quantified modal logic
* Essentialism
* Platonic realism
* Instrumentalism
* Scientific realism
* Philosophical analysis
* Explication
* Analyticity
* Holism
* Theoretical sentences
* Reference of terms



Creamos un Prompt que instruye a Gemini a extraer una Lista de Ternas de Conocimiento a partir de `pregunta_enfoque`, `lista_conceptos` y `texto_conocimiento`.

In [62]:
prompt_extraer_ternas = plantilla_extraer_ternas.format(delimitador = delimitador_texto_conocimiento,
                                                           pregunta = pregunta_enfoque,
                                                          conceptos = lista_conceptos,
                                                       conocimiento = texto_conocimiento)
print(prompt_extraer_ternas)

You are a knowledge map creator. 

You are given a Knowledge Text with the following structure:
    1. Focus Question: A question that you have to answer with Knowledge Triples.
    2. List of Concepts: A list of concept labels that are relevant to the Focus Question and that you have to use to construct the Knowledge Triples. 
    3. Knowledge: A text that answers the Focus Question with the concepts from the List of Concepts. The Knowledge Triples should be explicetly derived from this text.  

Your task is to return a list of Knowledge Triples that answer the Focus Question. A Knowledge Triple has three components: 
    1. Source Concept Label
    2. Target Concept Label
    3. Linking Phrase

Each Concept Label must belong to the List of Concepts. 
Each Linking Phrase denotes a semantic relationship between concepts. Some examples are: "Lives In", "Occurred In", "Is A"
Together, all the components of a Knowledge Triple form a Proposition. 
The Knowledge Triples must answer the Focu

Invocamos a Gemini con este Prompt y obtenemos una Lista de Ternas de Conocimiento.

In [65]:
lista_ternas_str = invocar_modelo_lenguaje(prompt_extraer_ternas)
print(lista_ternas_str)

ServerError: 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}

A continuaciÃ³n eliminamos los substrings `"```json"` y `"```Â¨` de la respuesta anterior. Parece que Gemini siempre escribe esas subcadenas cuando le pedimos que la salida sea en formato Json.

In [11]:
tam_str = len(lista_ternas_str)
lista_ternas_str_procesada = lista_ternas_str[8:tam_str-4]

Ahora transformamos `lista_ternas_procesada` en una lista de Python.

In [12]:
lista_ternas = json.loads(lista_ternas_str_procesada)

A continuaciÃ³n vamos a construir un grafo `G` de NetworkX con las ternas de conocimiento que nos devolviÃ³ el modelo.

In [13]:
G = nx.Graph()

for terna in lista_ternas:
    fuente, destino, relacion = terna["SourceConcept"], terna["TargetConcept"], terna["Relation"]
    G.add_node(fuente)
    G.add_node(destino)
    G.add_edge(fuente, destino, title=relacion, label=relacion)

Ejecuten la prÃ³xima celda de cÃ³digo y descarguen el archivo generado. Luego abran el archivo HTML en una nueva puestaÃ±a de su navegador. Esto les permitirÃ¡ ver el Grafo de Conocimiento generado por el modelo ðŸ™‚

In [66]:
vis = net.Network(notebook = True, directed = True)
vis.from_nx(G)
vis.sage_graph("/content/Knowledge/Grafo.html")



AttributeError: 'Network' object has no attribute 'sage_graph'