## Pruebas para recuperar información a partir de páginas web del ISEP usando IA

- Tecnología: [LlamaIndex](https://docs.llamaindex.ai/en/stable/) 🦙
- Método: RAG
- Modelo: Google Gemini Pro (investigar alternativas)

### Loading stage

Esto implica la carga y el procesamiento de la información

In [None]:
from llama_index.core import SummaryIndex
from llama_index.readers.web import SimpleWebPageReader, WholeSiteReader
from IPython.display import Markdown, display
import os

In [3]:
from llama_index.readers.web import SitemapReader

In [4]:
import nest_asyncio
nest_asyncio.apply()

In [19]:
documents1 = SitemapReader(html_to_text=True, limit=5).load_data(
    "https://isep-cba.edu.ar/web/nivel-sitemap.xml"
)

In [21]:
documents2 = SitemapReader(html_to_text=True, limit=3).load_data(
    "https://isep-cba.edu.ar/web/page-sitemap.xml"
)

ValueError: One of the inputs is not a valid url: https://isep-cba.edu.ar/web/galeria-de-videos/

In [22]:
documents = documents1 #+ documents2

In [23]:
len(documents)

8

In [24]:
documents[0].get_content()

'[Portal ISEP](https://isep-cba.edu.ar/web "Portal ISEP")\n\n[![Portal ISEP](https://isep-\ncba.edu.ar/autogestion/assets/iconos/Portal_celeste.svg)](https://isep-\ncba.edu.ar/web "Portal ISEP")\n\n  * [Iniciar sesión](https://isep-cba.edu.ar/sesion/iniciarcidi.php?origen=portal&state=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJjdXJyZW50X3VybCI6Imh0dHBzOlwvXC9pc2VwLWNiYS5lZHUuYXJcL3dlYlwvbml2ZWxcLzItaW5pY2lhbFwvIn0.mepgRuOKmSxMZwwxqyDsaNIGnVYJS3s0sH9Kl4Fkflo)\n\n[![](https://isep-cba.edu.ar/web/wp-\ncontent/uploads/2017/08/Isologo_ISEP_Encabezado.png)](https://isep-\ncba.edu.ar/web/)\n\n![](https://isep-cba.edu.ar/web/wp-\ncontent/uploads/2017/08/gob_ministerio-1.jpg)\n\n[ Facebook ](https://www.facebook.com/ISEPCba/)\n\nFacebook\n\n[ YouTube ](https://www.youtube.com/channel/UCXiKTCbUnnPBK3J2gMMgexQ)\n\nYouTube\n\n[ Instagram ](https://www.instagram.com/isep.cba/)\n\nInstagram\n\n[__Menú](javascript:void\\(0\\);)\n\n  * Institucional\n    * Sobre el ISEP\n      * [Quiénes somos](https://i

A continuación vamos a dividir los documentos en nodos, usando formato MD

In [8]:
from llama_index.core.node_parser import MarkdownNodeParser


parser = MarkdownNodeParser(include_metadata=True, include_prev_next_rel=True)

nodes = parser.get_nodes_from_documents(documents)

In [9]:
len(nodes)

99

In [10]:
nodes[1]

TextNode(id_='156b2256-91a4-4bf9-a4ea-a67552d7af3d', embedding=None, metadata={'Header_1': 'Nivel: Inicial', 'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='dfced5d3-ea96-4025-a0eb-08f589a67923', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, hash='4cb73f43516636f0413bad01e73322ccdfb03a521e3c6d72c6bef769a265ba76'), <NodeRelationship.PREVIOUS: '2'>: RelatedNodeInfo(node_id='ad370a52-688d-4a37-82af-a0be821004ad', node_type=<ObjectType.TEXT: '1'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, hash='4bd0b5bf82ef7ad7139eb2f8577f4885ec6fc4cb4cef201d80e835626490f666'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='0e36a2cc-2fbc-409f-8c2f-c1f6726d391e', node_type=<ObjectType.TEXT: '1'>, metadata={'Header_1': 'Nivel: Inicial', 'Header_2': ' [Seminario “Tecnolo

In [11]:
nodes[1].get_content()

'Nivel: Inicial\n\n[ ](https://isep-cba.edu.ar/web/seminario-tecnologia-y-cultura-lo-nuevo-y-lo-\nviejo-de-la-inteligencia-artificial/)'

In [12]:
nodes[2].get_content()

'[Seminario “Tecnología y Cultura: lo nuevo y lo viejo de la inteligencia\nartificial”](https://isep-cba.edu.ar/web/seminario-tecnologia-y-cultura-lo-\nnuevo-y-lo-viejo-de-la-inteligencia-artificial/)\n\nnoviembre 14, 2023[Micaela Militich](https://isep-\ncba.edu.ar/web/author/mmilitich/)\n\nSOBRE LA PROPUESTA Esta propuesta parte de reconocer que la formación docente\nen el siglo XXI está ineludiblemente ligada a los nuevos desafíos que trae\nconsigo el aumento exponencial de la información a la que, además, puede\nacceder de inmediato el conjunto de la población. Desde ya, no hay aula sin\ntecnologías: desde el pizarrón...\n\n[ ](https://isep-cba.edu.ar/web/ateneo-didactico-de-lenguaje-lengua-y-\nliteratura/)'

In [13]:
nodes[3].get_content()

'[Ateneo Didáctico de Lenguaje, Lengua y Literatura](https://isep-\ncba.edu.ar/web/ateneo-didactico-de-lenguaje-lengua-y-literatura/)\n\njulio 15, 2021[xj5p7](https://isep-cba.edu.ar/web/author/xj5p7/)\n\nSOBRE LA PROPUESTA Esta propuesta se inscribe dentro de una oferta de\nformación continua y se propone el análisis de secuencias didácticas\ndestinadas a estudiantes de diferentes niveles en el área de lenguaje y\nliteratura y lengua y literatura. Las secuencias didácticas fueron producidas\ndesde el ISEP en el marco del programa Tu Escuela en...\n\n[ ](https://isep-cba.edu.ar/web/actualizacion-academica-en-educacion-inicial/)'

### Indexing stage

Vectorizando los datos para el acceso rápido a los datos almacenados en una base de datos especializada llamada *"vector store"*.

In [14]:
import os
from dotenv import load_dotenv

load_dotenv('.env', override=True)

GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")

In [15]:
from llama_index.embeddings.gemini import GeminiEmbedding

# get API key and create embeddings

model_name = "models/embedding-001"

embed_model = GeminiEmbedding(
    model_name=model_name, api_key=GOOGLE_API_KEY, title="this is a document"
)

embeddings = embed_model.get_text_embedding("Google Gemini Embeddings.")

In [16]:
from llama_index.core import VectorStoreIndex

index = VectorStoreIndex(nodes, embed_model=embed_model)

### Querying stage

Buscamos la información en la base de datos "vectorial"

In [17]:
retriever = index.as_retriever()

In [18]:
ans = retriever.retrieve("computación")

ans

[NodeWithScore(node=TextNode(id_='0de8f1e6-01e3-442e-97e6-871c53c0cd6a', embedding=None, metadata={'Header_1': 'Nivel: Secundario', 'Source': 'https://isep-cba.edu.ar/web/nivel/4-secundario/'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='96996b03-983b-4c85-a53e-8db803587f70', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/4-secundario/'}, hash='c5dbb6bab1aa107964d93989ab6aa154bb70622159a072e1f8da62ac28f104f9'), <NodeRelationship.PREVIOUS: '2'>: RelatedNodeInfo(node_id='27673371-d405-4bc2-bcb0-4eac1349e617', node_type=<ObjectType.TEXT: '1'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/4-secundario/'}, hash='51c2afa6562fe10c70330476558940acbcc28633953c2207526ad40d8eb0a41c'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='1b5a84cf-b261-4087-80ec-032822f82581', node_type=<ObjectType.TEXT: '1'>, metadata={'Header_1': 'Nivel: Secundario'

In [61]:
from llama_index.llms.gemini import Gemini

llm = Gemini()

In [89]:
from llama_index.core import get_response_synthesizer

response_synthesizer = get_response_synthesizer(response_mode="tree_summarize", llm=llm)

In [90]:
query_engine = index.as_query_engine(response_synthesizer=response_synthesizer, llm=llm)

In [95]:
response = query_engine.query('necesito enlaces de seminarios de tecnología')

In [96]:
print(response)

El seminario aborda el campo de las Ciencias de la Computación con énfasis en distintos aspectos: su marco referencial y su mapa conceptual, la cuestión de la enseñanza y una introducción a su didáctica específica: experimentación con diferentes entornos y recursos que permitan profundizar en conceptos y procesos de la programación.


# Probamos "Auto Mergin Retriever"

In [None]:
from llama_index.readers.web import SitemapReader

In [None]:
import nest_asyncio
nest_asyncio.apply()

In [None]:
documents = SitemapReader(html_to_text=True, limit=5).load_data(
    "https://isep-cba.edu.ar/web/nivel-sitemap.xml"
)

In [30]:
from llama_index.core.node_parser import (
    HierarchicalNodeParser,
    SentenceSplitter,
)

node_parser = HierarchicalNodeParser.from_defaults()

nodes = node_parser.get_nodes_from_documents(documents)


In [31]:
len(nodes)

429

In [32]:
from llama_index.core.node_parser import get_leaf_nodes, get_root_nodes

leaf_nodes = get_leaf_nodes(nodes)

root_nodes = get_root_nodes(nodes)

In [33]:
print(len(leaf_nodes))
print(len(root_nodes))

344
16


In [34]:
# define storage context
from llama_index.core.storage.docstore import SimpleDocumentStore
from llama_index.core import StorageContext
from llama_index.llms.openai import OpenAI

docstore = SimpleDocumentStore()

# insert nodes into docstore
docstore.add_documents(nodes)

# define storage context (will include vector store by default too)
storage_context = StorageContext.from_defaults(docstore=docstore)

In [36]:
from llama_index.embeddings.gemini import GeminiEmbedding

# get API key and create embeddings

model_name = "models/embedding-001"

embed_model = GeminiEmbedding(
    model_name=model_name, api_key=GOOGLE_API_KEY, title="this is a document"
)

embeddings = embed_model.get_text_embedding("Google Gemini Embeddings.")

In [37]:
## Load index into vector index
from llama_index.core import VectorStoreIndex

base_index = VectorStoreIndex(
    leaf_nodes,
    storage_context=storage_context,
    embed_model=embed_model
)

In [38]:
from llama_index.core.retrievers import AutoMergingRetriever

base_retriever = base_index.as_retriever(similarity_top_k=6)
retriever = AutoMergingRetriever(base_retriever, storage_context, verbose=True)

In [44]:
query_str = (
    "Matemáticas"
)

nodes = retriever.retrieve(query_str)
base_nodes = base_retriever.retrieve(query_str)

In [45]:
from llama_index.core.response.notebook_utils import display_source_node

for node in nodes:
    display_source_node(node, source_length=10000)

**Node ID:** b515daa0-3292-4dc5-a168-b41d69548c73<br>**Similarity:** 0.8192154958627221<br>**Text:** edu.ar/web/ateneo-
didactico-matematica/)

septiembre 15, 2020[xj5p7](https://isep-cba.edu.<br>

**Node ID:** 9151abc4-3be7-4982-8926-f7bc0c660839<br>**Similarity:** 0.7965193657692249<br>**Text:** [ ](https://isep-cba.edu.ar/web/trayecto-pedagogico-profesorado-de-educacion-
superior-en-matematica/)

##  [Profesorado de Educación Superior en Matemática](https://isep-
cba.edu.ar/web/trayecto-pedagogico-profesorado-de-educacion-superior-en-
matematica/)

abril 30,<br>

**Node ID:** 1f2e0588-b8f5-433e-a173-1786394ea4bb<br>**Similarity:** 0.7953171248793194<br>**Text:** combinatoria; relaciones de proporcionalidad, entre otros. En ese
sentido, la Actualización Académica en Matemática y su Enseñanza busca aportar
a la formación, no solo.

[ ](https://isep-cba.edu.<br>

**Node ID:** 808a779b-6fa8-42f2-81d3-8eceee198da5<br>**Similarity:** 0.7786571077507968<br>**Text:** 2020[xj5p7](https://isep-cba.edu.ar/web/author/xj5p7/)

SOBRE LA PROPUESTA Esta propuesta se inscribe dentro de una oferta de
formación continua y se propone el análisis de una secuencia didáctica
destinada a estudiantes de 6º grado de la Educación Primaria y 1º año de la
Educación Secundaria, en el área de Matemática.<br>

**Node ID:** ddffb536-9c0c-42c0-954e-c12d294746a9<br>**Similarity:** 0.7785792346389442<br>**Text:** Se articula a través de tres núcleos que abordan las
siguientes temáticas: Núcleo 1.<br>

**Node ID:** 50869bc8-23b7-4c2f-8e51-b3b2bc50338e<br>**Similarity:** 0.7683314960025022<br>**Text:** 2023[Micaela Militich](https://isep-cba.edu.ar/web/author/mmilitich/)

SOBRE LA PROPUESTA Se considera que, en la enseñanza de la matemática, los
docentes deben abordar múltiples situaciones problemáticas sobre diferentes
ejes de contenidos: geometría; números y sus representaciones; operaciones
aritméticas; combinatoria; relaciones de proporcionalidad, entre otros.<br>

In [46]:
for node in base_nodes:
    display_source_node(node, source_length=10000)

**Node ID:** b515daa0-3292-4dc5-a168-b41d69548c73<br>**Similarity:** 0.8192154958627221<br>**Text:** edu.ar/web/ateneo-
didactico-matematica/)

septiembre 15, 2020[xj5p7](https://isep-cba.edu.<br>

**Node ID:** 9151abc4-3be7-4982-8926-f7bc0c660839<br>**Similarity:** 0.7965193657692249<br>**Text:** [ ](https://isep-cba.edu.ar/web/trayecto-pedagogico-profesorado-de-educacion-
superior-en-matematica/)

##  [Profesorado de Educación Superior en Matemática](https://isep-
cba.edu.ar/web/trayecto-pedagogico-profesorado-de-educacion-superior-en-
matematica/)

abril 30,<br>

**Node ID:** 1f2e0588-b8f5-433e-a173-1786394ea4bb<br>**Similarity:** 0.7953171248793194<br>**Text:** combinatoria; relaciones de proporcionalidad, entre otros. En ese
sentido, la Actualización Académica en Matemática y su Enseñanza busca aportar
a la formación, no solo.

[ ](https://isep-cba.edu.<br>

**Node ID:** 808a779b-6fa8-42f2-81d3-8eceee198da5<br>**Similarity:** 0.7786571077507968<br>**Text:** 2020[xj5p7](https://isep-cba.edu.ar/web/author/xj5p7/)

SOBRE LA PROPUESTA Esta propuesta se inscribe dentro de una oferta de
formación continua y se propone el análisis de una secuencia didáctica
destinada a estudiantes de 6º grado de la Educación Primaria y 1º año de la
Educación Secundaria, en el área de Matemática.<br>

**Node ID:** ddffb536-9c0c-42c0-954e-c12d294746a9<br>**Similarity:** 0.7785792346389442<br>**Text:** Se articula a través de tres núcleos que abordan las
siguientes temáticas: Núcleo 1.<br>

**Node ID:** 50869bc8-23b7-4c2f-8e51-b3b2bc50338e<br>**Similarity:** 0.7683314960025022<br>**Text:** 2023[Micaela Militich](https://isep-cba.edu.ar/web/author/mmilitich/)

SOBRE LA PROPUESTA Se considera que, en la enseñanza de la matemática, los
docentes deben abordar múltiples situaciones problemáticas sobre diferentes
ejes de contenidos: geometría; números y sus representaciones; operaciones
aritméticas; combinatoria; relaciones de proporcionalidad, entre otros.<br>