<a href="https://colab.research.google.com/github/evinracher/3010090-ontological-engineering/blob/main/week3/part2/05_BD_vectores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 - Cargadores de documentos con LangChain 1.0 y Gemini üá®üá¥

En este cuaderno trabajaremos el tema de **conectores de datos** en el contexto de **LangChain 1.0** usando como LLM **Gemini**.

Ver√°s los siguientes temas b√°sicos, listos para ejecutar en **Google Colab**:

1. Instalaci√≥n de dependencias para LangChain 1.0 + Gemini  
2. Configuraci√≥n de la API Key de Gemini  
3. Cargadores de documentos (PDF como caso base)  
4. Transformaci√≥n de documentos: divisi√≥n en *chunks*  
5. Creaci√≥n de *embeddings* con Gemini  
6. Creaci√≥n de una base vectorial (FAISS)  
7. Cadena de pregunta-respuesta (RAG) sobre el PDF usando Gemini  

> **Nota:** Todos los ejemplos est√°n simplificados para que sirvan como plantilla did√°ctica.


## 1. Instalaci√≥n de librer√≠as necesarias

In [1]:
# Si est√°s en Google Colab, ejecuta esta celda primero.
# Puede tardar un poco.

!pip -q install -U langchain-core langchain-community langchain-text-splitters google-generativeai langchain-google-genai fastembed faiss-cpu pypdf

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/501.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m [32m491.5/501.4 kB[0m [31m66.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m501.4/501.4 kB[0m [31m12.5 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/2.5 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m2.5/2.5 MB[0m [31m116.2 MB/s[0m eta [36m0:00

## 2. Configuraci√≥n de la clave de API de Gemini

In [2]:
from google.colab import userdata
import os

# Obtener la API key desde userdata
api_key = userdata.get('GOOGLE_API_KEY')

# Opcional: Guardarla como variable de entorno
os.environ['GOOGLE_API_KEY'] = api_key

# Verificar que se haya cargado correctamente
print("API Key cargada:", "S√≠" if api_key else "No")
print("Primeros caracteres:", api_key[:10] if api_key else "No encontrada")

API Key cargada: S√≠
Primeros caracteres: AIzaSyDx4e


## 3. Importaciones base: LangChain 1.0 + Gemini

In [3]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
from langchain_community.embeddings.fastembed import FastEmbedEmbeddings

print("‚úÖ Librer√≠as importadas correctamente.")

‚úÖ Librer√≠as importadas correctamente.


## 4. Cargadores de documentos: ejemplo con PDF

En este ejemplo vamos a:

1. Subir un archivo PDF a Colab  
2. Cargarlo con `PyPDFLoader`  
3. Ver parte de su contenido

> Puedes usar cualquier PDF que tengas a mano (art√≠culo, paper, cap√≠tulo de libro, etc.).


In [4]:
# 4.1. Subir el archivo PDF desde tu equipo
# Ejecuta esta celda y selecciona un archivo .pdf

from google.colab import files

upload = files.upload()
pdf_path = list(upload.keys())[0]
print(f"üìÑ Archivo cargado: {pdf_path}")

Saving Documento tecnologiÃÅas emergentes.pdf to Documento tecnologiÃÅas emergentes.pdf
üìÑ Archivo cargado: Documento tecnologiÃÅas emergentes.pdf


In [5]:
# 4.2. Cargar el PDF usando PyPDFLoader
loader = PyPDFLoader(pdf_path)
docs = loader.load()

print(f"‚úÖ P√°ginas cargadas: {len(docs)}")
print("\nüìÑ Vista previa del contenido de la primera p√°gina:\n")
print(docs[0].page_content[:1000])

‚úÖ P√°ginas cargadas: 4

üìÑ Vista previa del contenido de la primera p√°gina:

Estas son las 9 tecnolog√≠as 
emergentes para el pr√≥ximo 
2025 
  
‚ÄúQue la tecnolog√≠a ha cambiado nuestra manera de vivir e interactuar 
es un hecho. Sin embargo, a√∫n no somos conscientes de las 
potencialidades de usos de las tecnolog√≠as.Por ejemplo, para el a√±o 
2025 se espera una verdadera revoluci√≥n tecnol√≥gica, sobre todo 
enfocado en el sector bio-m√©dico pero tambi√©n en las relaciones 
humanas entre individuos a distancia, en la protecci√≥n del medio 
ambiente o en la protecci√≥n de nuestros datos personales‚Äù, afirma 
Juan Quintanilla, director general de Syntonize. 
9 Tecnolog√≠as emergentes seg√∫n Syntonize 
La aplicaci√≥n de nuevas tecnolog√≠as que hagan m√°s f√°cil la vida a 
profesionales, estudiantes, mayores, empresas o instituciones 
p√∫blicas se espera que aumente en los pr√≥ximos a√±os. Entre ellas se 
encuentran; 
ÔÇ∑ Producci√≥n optimizada por la Inteligencia Artificial: las

## 5. Transformaci√≥n de documentos: divisi√≥n en *chunks*

Para usar un LLM de forma eficiente y tambi√©n para crear una base vectorial,
es conveniente dividir el documento en fragmentos (*chunks*).

In [6]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,      # longitud m√°xima de cada chunk
    chunk_overlap=100,   # solapamiento entre chunks para mantener contexto
)

chunks = text_splitter.split_documents(docs)
print(f"‚úÖ N√∫mero de chunks generados: {len(chunks)}")
print("\nüìÑ Ejemplo de un chunk:\n")
print(chunks[0].page_content[:500])

‚úÖ N√∫mero de chunks generados: 9

üìÑ Ejemplo de un chunk:

Estas son las 9 tecnolog√≠as 
emergentes para el pr√≥ximo 
2025 
  
‚ÄúQue la tecnolog√≠a ha cambiado nuestra manera de vivir e interactuar 
es un hecho. Sin embargo, a√∫n no somos conscientes de las 
potencialidades de usos de las tecnolog√≠as.Por ejemplo, para el a√±o 
2025 se espera una verdadera revoluci√≥n tecnol√≥gica, sobre todo 
enfocado en el sector bio-m√©dico pero tambi√©n en las relaciones 
humanas entre individuos a distancia, en la protecci√≥n del medio 
ambiente o en la protecci√≥n de nuestros 


## 6. Incrustaciones de texto (Embeddings) con Gemini

Usaremos el modelo `BAAI/bge-small-en-v1.5` de FastEmbedEmbeddings para convertir cada chunk
en un vector num√©rico de alta dimensi√≥n.

In [7]:
embeddings = FastEmbedEmbeddings(model_name="BAAI/bge-small-en-v1.5")

# Probar con un texto simple
vector_ejemplo = embeddings.embed_query("La inteligencia artificial est√° transformando la educaci√≥n.")
print(f"Dimensi√≥n del vector de ejemplo: {len(vector_ejemplo)}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading (incomplete total...): 0.00B [00:00, ?B/s]

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]

Dimensi√≥n del vector de ejemplo: 384


## 7. Creaci√≥n de una base vectorial con FAISS

Ahora creamos una base de datos vectorial a partir de los *chunks* usando FAISS.
Esto permitir√° hacer **b√∫squeda sem√°ntica** sobre el contenido del PDF.

In [8]:
vectorstore = FAISS.from_documents(chunks, embeddings) # Se guarda el texto y la representaci√≥n sem√°ntica
retriever = vectorstore.as_retriever(search_kwargs={"k": 4}) # Primeros 4 resultados

print("‚úÖ Base vectorial creada y retriever configurado.")

‚úÖ Base vectorial creada y retriever configurado.


## 8. Definir el modelo de chat Gemini

In [9]:
llm = ChatGoogleGenerativeAI(
    model="models/gemini-2.5-flash-lite",
    temperature=0.3,
)

print("‚úÖ Modelo Gemini configurado: models/gemini-2.5-flash-lite")

‚úÖ Modelo Gemini configurado: models/gemini-2.5-flash-lite


## 9. Cadena de Pregunta-Respuesta (RAG) sobre el PDF

Usaremos el patr√≥n LCEL de LangChain 1.0 para construir una cadena que:

1. Recupera los chunks m√°s relevantes v√≠a `retriever`  
2. Forma un prompt con contexto + pregunta del usuario  
3. Env√≠a el prompt a Gemini  
4. Devuelve una respuesta en lenguaje natural


In [10]:
prompt = ChatPromptTemplate.from_template("""
Eres un asistente experto en comprensi√≥n de documentos.

Usando exclusivamente la siguiente informaci√≥n de contexto, responde de forma clara,
estructurada y en espa√±ol a la pregunta del usuario.

Contexto:
{context}

Pregunta:
{question}
""")

# 1) Definimos un paso que obtiene contexto desde el retriever
def get_context(query: str):
    docs_relacionados = retriever.invoke(query)   # << CORRECTO EN LC 1.0
    return "\n\n".join([d.page_content for d in docs_relacionados])


# 2) Construimos la cadena con LCEL
rag_chain = (
    RunnableParallel(
        context=lambda x: get_context(x["question"]),
        question=RunnablePassthrough()
    )
    | prompt
    | llm
    | StrOutputParser()
)

print("‚úÖ Cadena RAG construida correctamente.")

‚úÖ Cadena RAG construida correctamente.


## 10. Probar la cadena RAG con tus propias preguntas

Ahora puedes hacer preguntas en lenguaje natural sobre el contenido del PDF cargado.


In [11]:
pregunta = "¬øCu√°l es el tema principal del documento y cu√°les son sus conclusiones m√°s importantes?"

respuesta = rag_chain.invoke({"question": pregunta})

print("üß† Pregunta:", pregunta)
print("\nüìå Respuesta de Gemini:\n")
print(respuesta)

üß† Pregunta: ¬øCu√°l es el tema principal del documento y cu√°les son sus conclusiones m√°s importantes?

üìå Respuesta de Gemini:

El documento aborda las transformaciones tecnol√≥gicas esperadas en los pr√≥ximos a√±os y sus impactos en diversos √°mbitos.

Las conclusiones m√°s importantes son:

*   **Avances en la comprensi√≥n de pat√≥genos:** La tecnolog√≠a permitir√° acelerar el muestreo, digitalizaci√≥n e interpretaci√≥n de datos de microbiomas, lo que transformar√° la comprensi√≥n de la propagaci√≥n de pat√≥genos.
*   **Privacidad como prioridad:** La privacidad ser√° generalizada y priorizada, considerando la protecci√≥n y control de activos de datos confidenciales como la norma. Las tecnolog√≠as de mejora de la privacidad se convertir√°n en una categor√≠a tecnol√≥gica propia y un elemento fundamental en las estrategias empresariales.
*   **Aumento de la aplicaci√≥n de nuevas tecnolog√≠as:** Se espera un incremento en la aplicaci√≥n de tecnolog√≠as que faciliten la vida de pr

Al hacer una pregunta m√°s espec√≠fica:

In [12]:
pregunta = "¬øA qu√© se refieren con 'La privacidad estar√° generalizada y priorizada'"

respuesta = rag_chain.invoke({"question": pregunta})

print("üß† Pregunta:", pregunta)
print("\nüìå Respuesta de Gemini:\n")
print(respuesta)

üß† Pregunta: ¬øA qu√© se refieren con 'La privacidad estar√° generalizada y priorizada'

üìå Respuesta de Gemini:

Con "La privacidad estar√° generalizada y priorizada" se refieren a que la capacidad de los consumidores para proteger y controlar sus activos de datos confidenciales se convertir√° en la norma, no en la excepci√≥n. Las tecnolog√≠as de mejora de la privacidad se consolidar√°n como una categor√≠a tecnol√≥gica propia y ser√°n un componente esencial en las estrategias de privacidad y seguridad de las empresas.


---

### ‚úÖ Resumen de este cuaderno

En este notebook vimos:

- C√≥mo configurar **Gemini** en Google Colab usando `langchain-google-genai`.  
- C√≥mo cargar un **PDF** con `PyPDFLoader`.  
- C√≥mo dividir el documento en **chunks** con `RecursiveCharacterTextSplitter`.  
- C√≥mo generar **embeddings** con `GoogleGenerativeAIEmbeddings`.  
- C√≥mo construir una base vectorial con **FAISS**.  
- C√≥mo implementar una cadena **RAG** con LCEL para hacer preguntas sobre el PDF.

Este cuaderno sirve como plantilla base para extensiones posteriores: integraci√≥n con m√°s tipos de documentos,
uso de otros almacenes vectoriales, o construcci√≥n de interfaces (por ejemplo, Gradio o Streamlit).


In [13]:
!pip freeze > 05_BD_vectores_requirements.txt