## Pruebas para recuperar información a partir de páginas web del ISEP usando IA

- Tecnología: [LlamaIndex](https://docs.llamaindex.ai/en/stable/) 🦙
- Método: RAG
- Modelo: Google Gemini Pro (investigar alternativas)

### Loading stage

Esto implica la carga y el procesamiento de la información

In [1]:
from llama_index.core import SummaryIndex
from llama_index.readers.web import SimpleWebPageReader, WholeSiteReader
from IPython.display import Markdown, display
import os

In [7]:
from llama_index.readers.web import SitemapReader

In [9]:
import nest_asyncio
nest_asyncio.apply()

In [20]:
documents = SitemapReader(html_to_text=True, limit=5).load_data(
    "https://isep-cba.edu.ar/web/nivel-sitemap.xml"
)

In [21]:
len(documents)

8

In [22]:
documents[0].get_content()

'[Portal ISEP](https://isep-cba.edu.ar/web "Portal ISEP")\n\n[![Portal ISEP](https://isep-\ncba.edu.ar/autogestion/assets/iconos/Portal_celeste.svg)](https://isep-\ncba.edu.ar/web "Portal ISEP")\n\n  * [Iniciar sesión](https://isep-cba.edu.ar/sesion/iniciarcidi.php?origen=portal&state=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJjdXJyZW50X3VybCI6Imh0dHBzOlwvXC9pc2VwLWNiYS5lZHUuYXJcL3dlYlwvbml2ZWxcLzItaW5pY2lhbFwvIn0.mepgRuOKmSxMZwwxqyDsaNIGnVYJS3s0sH9Kl4Fkflo)\n\n[![](https://isep-cba.edu.ar/web/wp-\ncontent/uploads/2017/08/Isologo_ISEP_Encabezado.png)](https://isep-\ncba.edu.ar/web/)\n\n![](https://isep-cba.edu.ar/web/wp-\ncontent/uploads/2017/08/gob_ministerio-1.jpg)\n\n[ Facebook ](https://www.facebook.com/ISEPCba/)\n\nFacebook\n\n[ YouTube ](https://www.youtube.com/channel/UCXiKTCbUnnPBK3J2gMMgexQ)\n\nYouTube\n\n[ Instagram ](https://www.instagram.com/isep.cba/)\n\nInstagram\n\n[__Menú](javascript:void\\(0\\);)\n\n  * Institucional\n    * Sobre el ISEP\n      * [Quiénes somos](https://i

Ahora parseamos el contenido de los documentos, únicamente nos interesa el contenido entre `<div>`

In [12]:
from llama_index.core.node_parser import HTMLNodeParser

parser = HTMLNodeParser(tags=["div"])  # optional list of tags
nodes = parser.get_nodes_from_documents(documents)

In [16]:
nodes[0].get_metadata_str()

'tag: div\nSource: https://isep-cba.edu.ar/web/nivel/2-inicial/'

In [15]:
nodes[0].get_content()

'Facebook\n\n\nFacebook\n\n\n\n\nYouTube\n\n\nYouTube\n\n\n\n\nInstagram\n\n\nInstagram\n\nMenúInstitucional\n\nSobre el ISEP\n\nQuiénes somos \nEquipos de trabajo \nIntegrantes del ISEP \nIFD Asociados al ISEP \n\n\nProgramas institucionales\n\nNuevos lugares docentes \nEntre Lenguas \nCultura Digital \nHablar, leer y escribir \n\n\n\n\nPublicaciones\n\nRevista Scholé \nLibros\n\nColección “Pedagogía y Cultura” \n\n\nItinerarios en el tiempo \nAnuarios\n\n2022 \n2023 \n\n\n\n\nNuestras plataformas\n\nHacemos Escuela \nCanal ISEP en YouTube \n\n\nOferta académica\n\nExplorá nuestras propuestas formativas \nSobre nuestra oferta académica \nReglamento Académico Institucional \n\n\nInscripciones\nContacto\nBuscar\n\nPortal ISEP\n\nIniciar sesión\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nFacebook\nFacebook\nYouTube\nYouTube\nInstagram\nInstagram\n\n\nMenúInstitucional\n\nSobre el ISEP\n\nQuiénes somos \nEquipos de trabajo \nIntegrantes del ISEP \nIFD Asociados al ISEP \n\n\nProgramas institucionales\

In [23]:
from llama_index.core.node_parser import MarkdownNodeParser


parser = MarkdownNodeParser(include_metadata=True, include_prev_next_rel=True)

nodes = parser.get_nodes_from_documents(documents)

In [24]:
len(nodes)

99

In [26]:
nodes[1]

TextNode(id_='6ad3843b-b4fc-49fd-8a41-b0e5e2b28665', embedding=None, metadata={'Header_1': 'Nivel: Inicial', 'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='1a9abfc1-66b2-4fc1-8423-023755bdec8a', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, hash='4cb73f43516636f0413bad01e73322ccdfb03a521e3c6d72c6bef769a265ba76'), <NodeRelationship.PREVIOUS: '2'>: RelatedNodeInfo(node_id='8523e10d-693a-4c8a-815c-817ef2fd5bd9', node_type=<ObjectType.TEXT: '1'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/2-inicial/'}, hash='4bd0b5bf82ef7ad7139eb2f8577f4885ec6fc4cb4cef201d80e835626490f666'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='7d7a4aba-273f-43d1-89e9-521aff07947d', node_type=<ObjectType.TEXT: '1'>, metadata={'Header_1': 'Nivel: Inicial', 'Header_2': ' [Seminario “Tecnolo

### Indexing stage

Vectorizando los datos para el acceso rápido a los datos almacenados en una base de datos especializada llamada *"vector store"*.

In [None]:
import os
from dotenv import load_dotenv

load_dotenv('.env', override=True)

GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
print(GOOGLE_API_KEY)

In [43]:
from llama_index.embeddings.gemini import GeminiEmbedding

# get API key and create embeddings

model_name = "models/embedding-001"

embed_model = GeminiEmbedding(
    model_name=model_name, api_key=GOOGLE_API_KEY, title="this is a document"
)

embeddings = embed_model.get_text_embedding("Google Gemini Embeddings.")

In [44]:
from llama_index.core import VectorStoreIndex

index = VectorStoreIndex(nodes, embed_model=embed_model)

### Querying stage

Buscamos la información en la base de datos "vectorial"

In [45]:
retriever = index.as_retriever()

In [49]:
ans = retriever.retrieve("ateneo didáctico de lenguaje")

ans

[NodeWithScore(node=TextNode(id_='1d966d4d-fde8-474a-a4ce-d2d3077d83c4', embedding=None, metadata={'Header_1': 'Nivel: Formación Docente Complementaria', 'Source': 'https://isep-cba.edu.ar/web/nivel/formacion-docente-complementaria/'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='4973fcb0-d8df-4b18-802b-7d1b5215c82d', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/formacion-docente-complementaria/'}, hash='0fcea7b8c997dcadc0b782dc4a977ba2502590db076de1e7cdfacb7846538e6e'), <NodeRelationship.PREVIOUS: '2'>: RelatedNodeInfo(node_id='1118447b-3948-4970-903f-9c3790902b43', node_type=<ObjectType.TEXT: '1'>, metadata={'Source': 'https://isep-cba.edu.ar/web/nivel/formacion-docente-complementaria/'}, hash='579a6e7012d402ade7e8c918f7e9f958025529562785390524c2a9435634b893'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='c99a9c55-3ce3-42a8-bde6-4d55a9ed

In [61]:
from llama_index.llms.gemini import Gemini

llm = Gemini()

In [89]:
from llama_index.core import get_response_synthesizer

response_synthesizer = get_response_synthesizer(response_mode="tree_summarize", llm=llm)

In [90]:
query_engine = index.as_query_engine(response_synthesizer=response_synthesizer, llm=llm)

In [95]:
response = query_engine.query('necesito información sobre seminarios de tecnología')

In [96]:
print(response)

El seminario aborda el campo de las Ciencias de la Computación con énfasis en distintos aspectos: su marco referencial y su mapa conceptual, la cuestión de la enseñanza y una introducción a su didáctica específica: experimentación con diferentes entornos y recursos que permitan profundizar en conceptos y procesos de la programación.
