# RAG: Retrieval-Augmented Generation

**RAG (Generación Aumentada por Recuperación)** es una técnica que combina **modelos de lenguaje (LLMs)** con **motores de recuperación de información**.  
Su objetivo es permitir que el modelo genere respuestas más precisas y actualizadas al **recuperar documentos relevantes** desde una base de datos, un buscador o un sistema de conocimiento, antes de producir la salida final.

###  Funcionamiento básico:
1. **Consulta del usuario** → se convierte en un *query*.  
2. **Recuperación** → se buscan documentos relevantes en una base vectorial o índice semántico.  
3. **Generación** → el LLM recibe tanto la consulta como los documentos recuperados y genera una respuesta más confiable.  

###  Ventajas:
- Reduce **alucinaciones** del modelo.  
- Permite respuestas basadas en **información actualizada**.  
- Facilita integrar **bases de conocimiento privadas o especializadas**.  

Ejemplo de aplicación: chatbots con información de manuales internos, sistemas de soporte técnico, búsqueda académica, etc.

La imagen siguiente ilustra el proceso:

<img src="imgs/RAG.png" alt="Diagrama RAG" width="800"/>

Un elemento muy importante a la hora de diseñar los sistemas RAG, son los embeddings. A continuación hacemos una instroducción a su uso dentro de la linea que hemos venido desarrollando.

## Incrustaciones mediante embedings


Una vez que los documentos han sido divididos en fragmentos con herramientas como `CharacterTextSplitter`, el siguiente paso común en un flujo de trabajo con LangChain es generar *incrustaciones* o *embeddings*.

Los embeddings son representaciones numéricas (vectores) de cada fragmento de texto. Estas representaciones permiten comparar y buscar similitudes entre fragmentos de manera eficiente utilizando operaciones matemáticas.

Este proceso es esencial para construir aplicaciones como chatbots con recuperación de contexto, motores de búsqueda semántica o sistemas de preguntas y respuestas basados en documentos. Cada fragmento, ahora convertido en vector, puede almacenarse en una base de datos vectorial y recuperarse rápidamente según su similitud con una consulta dada.


## Embedding Propietarios y Open Source. 

### - Importación de clases para modelos open source o comerciales

#### Importación de clase sobre las librerías de OpenAI para LLM

#### Importación de clases sobre las librerias de Ollama para LLM

### Importación de clases para conectar con Groq

In [None]:
import os
from dotenv import load_dotenv
from langchain_groq import ChatGroq

# Cargar la API key desde .env
load_dotenv(override=True)

# Crear conexión con Groq
chat = ChatGroq(
    model="llama3-70b-8192",   # También puedes usar "mixtral-8x7b-32768"
    temperature=0.2
)

# Probar conexión
respuesta = chat.invoke("Hola, ¿cómo estás?, ¿quién eres?")
print(respuesta.content)

##  Incrustación de texto (embedding) de OpenAI

In [None]:
# from langchain_openai import OpenAIEmbeddings

In [None]:
# embeddings = OpenAIEmbeddings(openai_api_key = api_key)

In [None]:
# texto = "Esto es un texto enviado a OpenAI para ser incrustado en un vector n-dimensonal"

In [None]:
# embedded_text = embeddings.embed_query(texto)

In [None]:
# type(embedded_text)

In [None]:
# len(embedded_text)

In [None]:
# embedded_text[:5]

##  Incrustación de texto (embedding) con MiniLM Multilingüe

In [None]:
# instalar LangChain HuggingFace wrapper (para integrar embeddings open-source en LangChain):
#pip install -U langchain-huggingface

#instalar: Sentence Transformers (librería base para embeddings como MiniLM, mE5, LaBSE, etc.):
#pip install -U sentence-transformers

# PyTorch (el motor de deep learning que ejecuta los modelos): Si solo se dispone de CPU:
#pip install torch

# Si se dispone de GPU (CUDA), se debe instalar la versión adecuada según el driver. Ejemplo para CUDA 12.1:
# pip install --index-url https://download.pytorch.org/whl/cu121 torch torchvision torchaudio

# Este ultimo suele ser mas facil con conda:
# conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia)

# Opcional, para mejorar las descargar de HugginFace
# pip install "huggingface_hub[hf_xet]"

# Ver widgets como barra de progreso
# pip install -U ipywidgets

#from langchain_community.embeddings import HuggingFaceEmbeddings

In [None]:
# Con este código se puede verificar si está instalada la GPU

import torch
print("Versión Torch:", torch.__version__)
print("CUDA disponible:", torch.cuda.is_available())

In [None]:
from langchain_huggingface import HuggingFaceEmbeddings

import torch
device = "cuda" if torch.cuda.is_available() else "cpu"


embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True}
)


In [None]:
texto = "La inteligencia artificial está transformando la educación."
vec = embeddings.embed_query(texto)

print("Dim:", len(vec), "| primeros 8:", vec[:8])

##  Incrustación de texto (embedding) con mE5

In [None]:
import torch
from langchain_huggingface import HuggingFaceEmbeddings

# Detectar GPU si está disponible
device = "cuda" if torch.cuda.is_available() else "cpu"

# Instanciar el modelo (puedes cambiar entre "base" y "large")
embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-base",   # o "intfloat/multilingual-e5-large"
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True}
)



In [None]:
# Texto de prueba (en español)
texto = "La inteligencia artificial está transformando la educación."
vec = embeddings.embed_query(texto)

print("Dimensión del embedding:", len(vec))
print("Primeros 8 valores:", vec[:8])

##  Incrustación de texto (embedding) con LaBSE

In [None]:
import torch
from langchain_huggingface import HuggingFaceEmbeddings

# Detectar GPU si está disponible
device = "cuda" if torch.cuda.is_available() else "cpu"

# Instanciar LaBSE
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/LaBSE",
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True}
)


In [None]:
# Texto en español
texto = "La inteligencia artificial está transformando la educación."
vec = embeddings.embed_query(texto)

print("Dimensión del embedding:", len(vec))
print("Primeros 8 valores:", vec[:8])

# Ejemplo: Contruyendo un Mini Sistema RAG

In [None]:
# Librerías

from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader

## Creando la Base De Datos vectorial

- Vamos a cargar los documentos, dividirlos en segmentos (chuncks) y codificarlos en embeddings. Luego almacenarlos en una base de datos vectorial.

### 1. Cargar y dividir el documento

In [None]:

loader = TextLoader('Datos/ReglamentoEstudiantil.txt', encoding = "utf8")
documents = loader.load()

In [None]:
# Dividir en chunks

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size = 500) # Otro método de split basado número de tokens
documentos = text_splitter.split_documents(documents)

In [None]:
len(documentos)

In [None]:
print(documentos[0].page_content)

### 2. Usaremos embeddings Open Source

In [None]:
funcion_embedding = HuggingFaceEmbeddings(
    model_name="sentence-transformers/LaBSE",
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True}
)


## Bases de Datos Vectoriales

Después de generar embeddings a partir de fragmentos de texto, es necesario almacenarlos de manera eficiente para poder realizar búsquedas basadas en similitud. Para esto se utilizan las bases de datos vectoriales.

A diferencia de las bases de datos tradicionales, estas están diseñadas para manejar vectores y permiten realizar operaciones como "buscar el vector más parecido a este otro", lo cual es fundamental en aplicaciones como:

- Búsquedas semánticas
- Chatbots con recuperación de contexto
- Recomendadores
- Análisis de similitud entre textos

### Bases de datos vectoriales conocidas

Algunas de las más utilizadas en el ecosistema de IA son:

- **FAISS** (Facebook AI Similarity Search): muy rápida y eficiente, ideal para producción.
- **Chroma**: ligera y fácil de usar, integrada con LangChain.
- **Pinecone**: servicio en la nube con capacidades avanzadas de escalabilidad.
- **Weaviate** y **Milvus**: orientadas a grandes volúmenes de datos y con funcionalidades de búsqueda híbrida.

### Alternativa local: SKLearnVectorStore

Para entornos locales, pruebas rápidas o proyectos pequeños, LangChain ofrece una alternativa sencilla llamada `SKLearnVectorStore`. Utiliza el algoritmo `NearestNeighbors` de Scikit-learn para realizar búsquedas de similitud entre los vectores generados.

Aunque no está pensada para entornos de producción, es una excelente opción para experimentar en notebooks sin depender de servicios externos ni base
## ¿Qué es Parquet?

Parquet es un formato de almacenamiento de datos en columnas, optimizado para trabajar con grandes volúmenes de información de manera eficiente. Fue desarrollado por Apache como parte del ecosistema Hadoop, pero hoy en día es ampliamente usado en proyectos de ciencia de datos, big data y aprendizaje automático.

### Características principales

- **Formato columnar**: en lugar de almacenar los datos fila por fila (como un CSV), almacena cada columna por separado. Esto permite acceder rápidamente a columnas específicas sin tener que leer todo el archivo.
- **Compresión eficiente**: al agrupar datos similares (por columna), logra una compresión muy efectiva, reduciendo el tamaño del archivo.
- **Compatible con pandas y PyArrow**: puedes leer y escribir archivos Parquet fácilmente en Python usando bibliotecas como `pandas` y `pyarrow`.

### ¿Por qué usar Parquet?

- Es ideal para almacenar datasets grandes de forma compacta.
- Reduce el tiempo de lectura y escritura, especialmente cuando se trabaja con subconjuntos de columnas.
- Es compatible con muchas plataformas de procesamiento de datos como Spark, Hive, Dask, DuckDB, entre otras.
s de datos adicionales.


### 3. Codificamos el texto en embeddings y lo almacenamos

In [None]:
# instalar con pip install scikit-learn  
# pip install pandas pyarrow

from langchain_community.vectorstores import  SKLearnVectorStore 

In [None]:
persist_path = "ejemplosk_embedding_db"  # ruta donde se guardará la BBDD vectorizada

# Se crea la BBDD de vectores a partir de los documentos y la función embeddings

vector_store = SKLearnVectorStore.from_documents(
    documents = documentos,
    embedding = funcion_embedding,
    persist_path = persist_path,
    serializer = "parquet", # El serializador o formato de la BD lo definimos como parquet
)

In [None]:
# Fuerza a guardar los nuevos embeddins en disco
vector_store.persist()

### Consulta del Usuario

- El usuario desea saber cual es el procedimiento para validar materias. Consultaremos en la base de datos lo que dice el reglamento y entregaremos esa información al LLM, para que construya una respuesta adecuada.

- **Pregunta del usuario**

In [None]:
pregunta_usuario = "¿Qué procedimiento debo seguir para validar una materia en la universidad?"

- **Consulta a la base de conocimiento**

In [None]:
# Creamos un nuevo documento que será nuestra "consulta" para buscar el de mayor similitud en nuestra BD

consulta = "Dame información validación de materias"
recuperados = vector_store.similarity_search(consulta)
print(f"CANTIDAD DE RECUPERADOS: {len(recuperados)}\n ====== \n")
print(recuperados[0].page_content)

In [None]:
contexto = "\n\n".join([d.page_content for d in recuperados])

- **Construcción del prompt para enviar al LLM**

In [None]:
from langchain.prompts import PromptTemplate

plantilla = """
Responde la siguiente consulta de manera clara y completa **usando EXCLUSIVAMENTE la información proporcionada en los documentos recuperados**. 
Si la información no está en los documentos, responde indicando: 
"No encontré información suficiente en los documentos recuperados."

---
Documentos recuperados:
{contexto}

Pregunta:
{pregunta}

Respuesta:
"""

prompt = PromptTemplate(
    template=plantilla,
    input_variables=["contexto", "pregunta"]
)


- **estructuramos el prompt final**

In [None]:
prompt_final = prompt.format(contexto=contexto, pregunta=pregunta_usuario)
#print(prompt_final)  # opcional, para ver cómo quedó


- **Lanzamos la pregunta al LLM**

In [None]:
respuesta = chat.invoke(prompt_final).content

In [None]:
print(respuesta)

## Cargar la base de datos de vectores (Uso posterior, una vez tenemos creada la BD)

In [None]:
vector_store_connection = SKLearnVectorStore(
    embedding = funcion_embedding, persist_path = persist_path, serializer = 'parquet' )

print("Una instancia de la BBDD de vectores se ha cargado desde ",persist_path)

In [None]:
vector_store_connection

In [None]:
nueva_consulta = "Buscar información sobre Trabajo Grado"

In [None]:
docs = vector_store_connection.similarity_search(nueva_consulta)
print(docs[0].page_content)