# Cargadores: Integración con documentos otras plataformas



LangChain ofrece una variedad de cargadores de documentos, incluyendo aquellos que se integran con plataformas externas. Estos cargadores de tipo "integración" funcionan de forma similar a los cargadores estándar, pero están diseñados para conectarse directamente con fuentes de datos externas.

### Ejemplos de integraciones disponibles:

- Plataformas de terceros como Google Cloud, AWS, Google Drive o Dropbox.
- Bases de datos como MongoDB.
- Sitios web específicos, como Wikipedia.
- Fuentes no convencionales como videos de YouTube o conversaciones de WhatsApp.

Estas integraciones permiten cargar contenido directamente desde múltiples fuentes para luego ser procesado por LangChain, lo cual es útil en aplicaciones como sistemas de preguntas y respuestas basados en videos, análisis de conversaciones y más.

### Documentación oficial

Puedes consultar el listado completo de cargadores con integración en:

https://python.langchain.com/v0.2/docs/integrations/document_loaders/


## Iniciamos creando el objeto LLM

In [None]:
# Conexion con OpenAI
from langchain_openai import ChatOpenAI
import os
from dotenv import load_dotenv, find_dotenv

# Cargar archivo .env (busca automáticamente en el directorio actual o superiores)
load_dotenv(find_dotenv(), override=True)

# Verificar que la API key esté disponible
if not os.getenv("OPENAI_API_KEY"):
    raise ValueError("!! No se encontró OPENAI_API_KEY en el .env ni en el entorno")



In [None]:
chat = ChatOpenAI(
    openai_api_key=os.getenv("OPENAI_API_KEY"),   # sk-proj-...
    model="gpt-4o",
    temperature=0.2,
)

print(chat.invoke("Hola, ¿cómo estás?, ¿quién eres?").content)

## Integración con Wikipedia

### WikipediaLoader (LangChain)

Un *document loader* que carga artículos de **Wikipedia** como objetos `Document`. Configurable por idioma, cantidad máxima, metadatos y tamaño del contenido. Ideal para integraciones en flujos RAG

---

#### Uso

```python
from langchain.document_loaders import WikipediaLoader

loader = WikipediaLoader(query="Machine learning", lang="es", load_max_docs=2)
docs = loader.load()
```
## Parámetros principales

- **`query`** *(str)* → término de búsqueda en Wikipedia.  
- **`lang`** *(str, default="en")* → idioma de la búsqueda.  
- **`load_max_docs`** *(int, default=100, límite 300)* → número máximo de artículos a cargar.  
- **`load_all_available_meta`** *(bool, default=False)* → si se incluye toda la metadata disponible.  
- **`doc_content_chars_max`** *(int, default=4000)* → límite de caracteres por documento.  


In [None]:
#pip install wikipedia en una terminal
from langchain.document_loaders import WikipediaLoader 

# Carguemos las demas clases requeridas de LangChain
from langchain.prompts import (PromptTemplate, 
                                SystemMessagePromptTemplate, 
                                ChatPromptTemplate, 
                                HumanMessagePromptTemplate)

### Crear el objeto de conexión y realizar la consulta

In [None]:
 # obtener artículo de wikipedia
personaje = "Francisco de Paula Santander"

# Para ver los parámetros posibles en: https://python.langchain.com/v0.1/docs/integrations/document_loaders/wikipedia/
docs = WikipediaLoader(query = personaje, lang = "es", load_max_docs = 10)  

documentos_recuperados = docs.load()

# para que sea más rápido solo pasamos el primer documento [0] como contexto extra
contexto_extra = documentos_recuperados[0].page_content  


In [None]:
print(documentos_recuperados[0].page_content)


In [None]:
# pregunta usuario
human_prompt = HumanMessagePromptTemplate.from_template('Responde a esta pregunta\n{pregunta}, responde ESTRICTAMENTE sobre  el contenido extra dado a continuación:\n{contenido}')

# Construir prompt
chat_prompt = ChatPromptTemplate.from_messages([human_prompt])

# Resultado
pregunta_arg = "¿En que fecha nacio Simón Bolivar?"
result = chat.invoke(chat_prompt.format_prompt(pregunta = pregunta_arg, contenido = contexto_extra).to_messages())
    
print(result.content)

- **Veamos el contexto extra que ha tenido el LLM como base:**

In [None]:
print(contexto_extra)

## Conexión con basa de datos Artículos Científicos


El **`ArxivLoader`** es un *document loader* de LangChain que permite buscar y cargar artículos científicos desde **arXiv**.  

- **Búsqueda**: acepta consultas por palabra clave, categorías (`cs.AI`, `stat.ML`, etc.) o ID de paper.  
- **Salida**: devuelve una lista de objetos `Document`.  
  - `page_content`: texto del paper (abstract o PDF completo si está disponible).  
  - `metadata`: incluye título, autores, fecha de publicación, categorías, URL del PDF y el **abstract** oficial (`Summary`).  
- **Parámetros clave**:  
  - `query` → término de búsqueda.  
  - `load_max_docs` → número máximo de resultados.  

Ideal para integrar papers en flujos de **RAG** o para análisis de literatura científica en proyectos de investigación.

El manual de usuario de la API de ArXiv aqui: https://info.arxiv.org/help/api/user-manual.html
El manual de cargador aqui: https://python.langchain.com/docs/integrations/document_loaders/arxiv/

### Ejemplo:
- Buscar 3 papers en arXiv y mostrar la metadata:

In [None]:
#  Instalar por consola: 
# pip install  arxiv
# pip install pymupdf

from langchain_community.document_loaders import ArxivLoader

# 1) Configura tu búsqueda (palabras clave o categorías de arXiv, p. ej. "cs.AI")
query = "cs.AI and transformers for time series"
n_results = 3

# 2) Carga resultados desde arXiv (abstracts + metadatos)
loader = ArxivLoader(query=query, load_max_docs=n_results)

docs = loader.load()

In [None]:
print(docs[0].metadata)

In [None]:
# Requiere: pip install langchain langchain-community arxiv pymupdf 

import textwrap  # Para dar formato a cadenas de texto largas

def limpia(texto: str) -> str:
    # Quita saltos de línea raros y espacios dobles
    return " ".join(texto.split())

for i, d in enumerate(docs[:n_results], start=1):
    m = d.metadata or {}
    titulo = m.get("Title", "N/A")
    autores = m.get("Authors", "N/A")
    anio = (m.get("Published") or "N/A")[:4]
    abstract = m.get("Summary") or d.page_content  # prefiero el abstract oficial

    print(f"\n=== Documento {i} ===")
    print(f"Título : {titulo}")
    print(f"Autores: {autores}")
    print(f"Año    : {anio}")
    print("\nAbstract:")
    print(textwrap.fill(limpia(abstract), width=100))  # Escribe lineas de maximo 100 caracteres

# Transformación de documentos


Una vez que se carga un documento desde una fuente externa mediante un cargador, se obtiene un objeto de tipo `Document`, cuyo contenido principal se encuentra en el campo `page_content`.

### División en fragmentos (chunks)

En muchos casos, el texto dentro de `page_content` puede ser demasiado extenso para ser procesado directamente por un modelo de lenguaje, ya que estos modelos suelen tener un límite en la cantidad de tokens que pueden manejar (por ejemplo, unos 8,000 tokens, equivalentes a unas 6,000 palabras aproximadamente).

Para resolver este problema, LangChain proporciona transformadores de documentos. Estos permiten dividir el contenido de `page_content` en fragmentos más pequeños, llamados *chunks*, de manera automática y controlada.

### Utilidad de los fragmentos

Estos fragmentos tienen múltiples usos. Uno de los más importantes es la conversión de cada fragmento en un vector numérico mediante un proceso de incrustación (*embedding*). Estos vectores pueden almacenarse y luego utilizarse para realizar búsquedas eficientes basadas en similitud.

Por ejemplo, si estamos construyendo una aplicación de preguntas y respuestas basada en documentos, los vectores de cada fragmento permitirán encontrar rápidamente el contenido más relevante para responder una consulta, sin necesidad de recorrer todo el contenido de manera secuencial.

Esta estrategia mejora significativamente la eficiencia y precisión cuando se necesita proporcionar contexto adicional a un modelo de lenguaje grande (LLM).


#  Transformadores de documentos en LangChain

| Categoría                     | Clase / Ejemplo                               | Uso principal                                                                 |
|--------------------------------|-----------------------------------------------|-------------------------------------------------------------------------------|
| **Text Splitters**            | `CharacterTextSplitter`                      | Divide texto por separadores simples (ej. saltos de línea, espacios).          |
|                                | `RecursiveCharacterTextSplitter`              | Divide jerárquicamente (párrafos → frases → palabras), el más recomendado.     |
|                                | `TokenTextSplitter`                          | Divide en chunks según número de *tokens* (ej. compatible con OpenAI).        |
|                                | `MarkdownTextSplitter`                       | Divide preservando la estructura de encabezados Markdown.                      |
|                                | `LatexTextSplitter`                          | Especializado en documentos LaTeX.                                            |
|                                | `HTMLHeaderTextSplitter`                     | Divide respetando encabezados HTML (h1, h2, etc.).                            |
|                                | `PythonCodeTextSplitter`, `JavascriptSplitter` | Segmentación de código por funciones, clases o bloques.                        |
| **Metadata & Filters**        | `EmbeddingsRedundantFilter`                  | Elimina chunks redundantes usando similitud de embeddings.                     |
|                                | `EmbeddingsClusteringFilter`                 | Agrupa chunks en *clusters* semánticos.                                       |
|                                | `EmbeddingsFilter`                           | Filtra documentos según relevancia semántica.                                 |
|                                | `LLMChainFilter`                             | Usa un LLM para decidir qué documentos conservar.                             |
| **Document Compressors**      | `DocumentCompressorPipeline`                 | Encadena pasos de compresión y filtrado de documentos.                        |
|                                | `LLMChainExtractor`                          | Usa un LLM para extraer información clave y reducir texto.                    |
| **Summarization Chains**      | `StuffDocumentsChain`                        | Une todos los documentos en un solo prompt.                                   |
|                                | `MapReduceDocumentsChain`                    | Resumen en dos fases: map (local) y reduce (global).                          |
|                                | `RefineDocumentsChain`                       | Construye resúmenes incrementales, refinando cada paso.                       |
| **Custom Transformers**       | `BaseDocumentTransformer` (clase base)       | Crear tus propios transformadores: limpieza, normalización, extracción, etc.  |



## Cargar Fichero

In [None]:
with open('Datos/ReglamentoEstudiantil.txt', encoding= "utf8") as file:
    texto_completo = file.read()

In [None]:
# Número de caracteres
len(texto_completo)

In [None]:
# Numero de palabras
len(texto_completo.split())

## Transformador "CharacterTextSplitter"


Uno de los transformadores más utilizados en LangChain para dividir texto en fragmentos es `CharacterTextSplitter`. Este componente permite separar el contenido de un documento (`page_content`) en bloques más pequeños basados en un número específico de caracteres.

Esta división es útil cuando el texto original es demasiado largo para ser procesado por completo por un modelo de lenguaje, ya que permite mantener fragmentos manejables en tamaño, sin perder el orden ni el contexto general.

`CharacterTextSplitter` permite ajustar parámetros como:
- `chunk_size`: la longitud máxima de cada fragmento.
- `chunk_overlap`: la cantidad de caracteres que se solapan entre fragmentos consecutivos (útil para preservar contexto entre divisiones).

Es una herramienta simple pero poderosa para preparar documentos antes de realizar tareas como incrustación (embeddings), búsqueda semántica o consultas con LLMs.


In [None]:
from langchain.text_splitter import CharacterTextSplitter

In [None]:
 # Se indica que se divida en párrafos de tamaño de alrededor de 1000 caracteres
text_splitter = CharacterTextSplitter(separator = '\n', chunk_size = 1000)

In [None]:
# se crea el documento utilizando el transformador
textos = text_splitter.create_documents([texto_completo])

In [None]:
print(type(textos)) # Verficamos el tipo del objeto obtenido
print('\n')
print(type(textos[0]))  # Verificamos el tipo de cada elemento
print('\n')
print(textos[2])
#print(textwrap.fill(textos[2].page_content, width=80))


In [None]:
len(textos)

In [None]:
len(textos[2].page_content)

In [None]:
print(textos[1])

In [None]:
len(textos[1].page_content)

In [None]:
textos[1].page_content

### Y si esta en pdf ( ejemplo anterior)

In [None]:
from langchain.document_loaders import PyPDFLoader 

In [None]:
loader = PyPDFLoader('Datos/ReglamentoEstudiantil.pdf')

In [None]:
splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50, separator=" ")

In [None]:
pages = loader.load_and_split(text_splitter=splitter)

In [None]:
len(pages)

In [None]:
print(pages[0].page_content)