# Una aplicación LangChain 1.0 que puede conversar con un documento PDF
* Como verás, esto aún no es un agente. Lo convertiremos en un agente en el próximo ejercicio.

## ¿Qué es la Búsqueda Semántica?

**La búsqueda semántica** es una técnica de búsqueda que comprende el **significado** (semántica) de tu consulta en lugar de simplemente buscar palabras clave exactas. En lugar de buscar coincidencias exactas de palabras, encuentra contenido que es conceptualmente similar a tu pregunta.

**¿Por qué este código es un ejemplo de búsqueda semántica?**
- La búsqueda tradicional por palabras clave buscaría palabras exactas como "Gartner" o "porcentaje"
- La búsqueda semántica convierte tanto tu pregunta COMO los fragmentos del documento en vectores numéricos (embeddings)
- Luego encuentra los fragmentos cuyos vectores están más cerca en el espacio matemático del vector de tu pregunta
- Esto significa que puede encontrar respuestas relevantes incluso si la redacción exacta es diferente

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("gen-ai-in-2026.pdf")

data = loader.load()

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=200, add_start_index=True
)

all_splits = text_splitter.split_documents(data)

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

from langchain_core.vectorstores import InMemoryVectorStore

vector_store = InMemoryVectorStore(embeddings)

ids = vector_store.add_documents(documents=all_splits)

results = vector_store.similarity_search(
    "According to Gartner, what percentage of enterprises will use Generative AI APis or deploy generative AI-enabled applications in production environments in 2026?"
)

print(results[0])

## Explicación del código anterior en términos sencillos

```python
from langchain_community.document_loaders import PyPDFLoader
```
**Importa el cargador de PDF** - Esta es una herramienta que puede leer archivos PDF y convertirlos en un formato con el que LangChain puede trabajar.

```python
loader = PyPDFLoader("gen-ai-in-2026.pdf")
```
**Crea un objeto cargador** para el archivo PDF específico. Piensa en esto como apuntar a tu documento.

```python
data = loader.load()
```
**Carga el PDF** y lo convierte en objetos Document. Cada página se convierte en un documento con `page_content` (el texto) y `metadata` (información sobre la página).

```python
from langchain_text_splitters import RecursiveCharacterTextSplitter
```
**Importa el divisor de texto** - Los PDFs suelen ser demasiado largos para procesarlos de una vez, así que necesitamos dividirlos en trozos más pequeños.

```python
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=200, add_start_index=True
)
```
**Configura cómo dividir el texto**:
- `chunk_size=1000`: Cada trozo tendrá aproximadamente 1000 caracteres de longitud
- `chunk_overlap=200`: Los trozos se solapan 200 caracteres para evitar cortar frases de forma incómoda
- `add_start_index=True`: Recuerda de dónde vino cada trozo en el documento original

```python
all_splits = text_splitter.split_documents(data)
```
**Realiza realmente la división** - Toma el PDF completo y lo divide en trozos más pequeños y manejables.

```python
from langchain_openai import OpenAIEmbeddings
```
**Importa el modelo de embeddings** - Esto convertirá el texto en vectores numéricos.

```python
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
```
**Crea un objeto de embeddings** usando el modelo text-embedding-3-large de OpenAI. Este modelo está especializado en comprender el significado del texto y convertirlo en números.

```python
from langchain_core.vectorstores import InMemoryVectorStore
```
**Importa la base de datos vectorial** - Esta es una base de datos especial diseñada para almacenar y buscar vectores de manera eficiente.

```python
vector_store = InMemoryVectorStore(embeddings)
```
**Crea una base de datos vectorial** que utilizará nuestro modelo de embeddings. "InMemory" significa que almacena todo en RAM (rápido pero temporal).

```python
ids = vector_store.add_documents(documents=all_splits)
```
**Añade todos los fragmentos del documento a la base de datos** - Cada fragmento se convierte en un vector y se almacena. Los `ids` son identificadores únicos para cada fragmento almacenado.

```python
results = vector_store.similarity_search(
    "According to Gartner, what percentage of enterprises will use Generative AI APis or deploy generative AI-enabled applications in production environments in 2026?"
)
```
**Realiza la búsqueda semántica**:
1. Convierte tu pregunta en un vector
2. Lo compara con todos los vectores de fragmentos almacenados
3. Devuelve los fragmentos más similares (por defecto, 4 fragmentos)
4. La "similitud" se mide por lo cerca que están los vectores en el espacio matemático

```python
print(results[0])
```
**Imprime el primer resultado (el más similar)** - Esto muestra el fragmento de texto que es semánticamente más similar a tu pregunta.


#### ¿Por qué los resultados no son muy buenos?

Cuando ejecutas `print(results[0])`, obtienes **un fragmento de documento en bruto**, no una respuesta real. Los problemas son:

1. **Sin extracción de respuesta**: Solo estás viendo el texto recuperado, pero no hay ninguna IA leyéndolo y respondiendo a tu pregunta
2. **Formato en bruto**: La salida incluye metadatos y el fragmento completo, lo que dificulta su lectura
3. **Sin síntesis de contexto**: Si la respuesta requiere información de múltiples fragmentos, solo ves uno
4. **Sin razonamiento**: No hay ningún LLM para interpretar el contenido recuperado y formular una respuesta adecuada


## Cómo mejoraremos los resultados en el próximo ejercicio con RAG

Este código demuestra **búsqueda semántica** (encontrar información relevante por significado), pero para obtener buenas respuestas, necesitas **RAG** (Retrieval-Augmented Generation) que combina:
1. **Recuperación**: Encontrar fragmentos relevantes (lo que tenemos)
2. **Generación**: Usar un LLM para leer esos fragmentos y generar una respuesta coherente (lo que nos falta)

## Cómo ejecutar este código desde Visual Studio Code
* Abre el Terminal.
* Asegúrate de estar en la carpeta del proyecto.
* Asegúrate de tener activado el entorno poetry.
* Introduce y ejecuta el siguiente comando:
    * `python 020-pdf-agent.py`