# Cargadores: Integración con documentos otras plataformas



LangChain ofrece una variedad de cargadores de documentos, incluyendo aquellos que se integran con plataformas externas. Estos cargadores de tipo "integración" funcionan de forma similar a los cargadores estándar, pero están diseñados para conectarse directamente con fuentes de datos externas.

### Ejemplos de integraciones disponibles:

- Plataformas de terceros como Google Cloud, AWS, Google Drive o Dropbox.
- Bases de datos como MongoDB.
- Sitios web específicos, como Wikipedia.
- Fuentes no convencionales como videos de YouTube o conversaciones de WhatsApp.

Estas integraciones permiten cargar contenido directamente desde múltiples fuentes para luego ser procesado por LangChain, lo cual es útil en aplicaciones como sistemas de preguntas y respuestas basados en videos, análisis de conversaciones y más.

### Documentación oficial

Puedes consultar el listado completo de cargadores con integración en:

https://python.langchain.com/v0.2/docs/integrations/document_loaders/


## Iniciamos creando el objeto LLM

In [None]:
# importamos las clases para manejar conversaciones con modelos de Ollama
from langchain_ollama.chat_models import ChatOllama

### Instaciamos un chat con uno de los modelos: llama3.2:3b, mistral:latest, gema3:4b, o los que se hayan instalado en Ollama

chat = ChatOllama(model="llama3.2:3b")
#chat = ChatOllama(model="mistral:latest")
#chat = ChatOllama(model="gemma3:4b")

## Integración con Wikipedia

### WikipediaLoader (LangChain)

Un *document loader* que carga artículos de **Wikipedia** como objetos `Document`. Configurable por idioma, cantidad máxima, metadatos y tamaño del contenido. Ideal para integraciones en flujos RAG

---

#### Uso

```python
from langchain.document_loaders import WikipediaLoader

loader = WikipediaLoader(query="Machine learning", lang="es", load_max_docs=2)
docs = loader.load()
```
## Parámetros principales

- **`query`** *(str)* → término de búsqueda en Wikipedia.  
- **`lang`** *(str, default="en")* → idioma de la búsqueda.  
- **`load_max_docs`** *(int, default=100, límite 300)* → número máximo de artículos a cargar.  
- **`load_all_available_meta`** *(bool, default=False)* → si se incluye toda la metadata disponible.  
- **`doc_content_chars_max`** *(int, default=4000)* → límite de caracteres por documento.  


In [None]:
#pip install wikipedia en una terminal
from langchain.document_loaders import WikipediaLoader 

# Carguemos las demas clases requeridas de LangChain
from langchain.prompts import PromptTemplate, SystemMessagePromptTemplate, ChatPromptTemplate, HumanMessagePromptTemplate

In [None]:
 # obtener artículo de wikipedia
personaje = "Francisco de Paula Santander"

# Para ver los parámetros posibles en: https://python.langchain.com/v0.1/docs/integrations/document_loaders/wikipedia/
docs = WikipediaLoader(query = personaje, lang = "es", load_max_docs = 10)  

# para que sea más rápido solo pasamos el primer documento [0] como contexto extra
contexto_extra = docs.load()[0].page_content 
    
# pregunta usuario
human_prompt = HumanMessagePromptTemplate.from_template('Responde a esta pregunta\n{pregunta}, aqui tienes contenido extra:\n{contenido}')

# Construir prompt
chat_prompt = ChatPromptTemplate.from_messages([human_prompt])

# Resultado
pregunta_arg = "¿Dame una breve biografía del personaje?"
result = chat.invoke(chat_prompt.format_prompt(pregunta = pregunta_arg, contenido = contexto_extra).to_messages())
    
print(result.content)

- **Veamos el contexto extra que ha tenido el LLM como base:**

In [None]:
print(contexto_extra)


El **`ArxivLoader`** es un *document loader* de LangChain que permite buscar y cargar artículos científicos desde **arXiv**.  

- **Búsqueda**: acepta consultas por palabra clave, categorías (`cs.AI`, `stat.ML`, etc.) o ID de paper.  
- **Salida**: devuelve una lista de objetos `Document`.  
  - `page_content`: texto del paper (abstract o PDF completo si está disponible).  
  - `metadata`: incluye título, autores, fecha de publicación, categorías, URL del PDF y el **abstract** oficial (`Summary`).  
- **Parámetros clave**:  
  - `query` → término de búsqueda.  
  - `load_max_docs` → número máximo de resultados.  

Ideal para integrar papers en flujos de **RAG** o para análisis de literatura científica en proyectos de investigación.

El manual de usuario de la API de ArXiv aqui: https://info.arxiv.org/help/api/user-manual.html
El manual de cargador aqui: https://python.langchain.com/docs/integrations/document_loaders/arxiv/

### Ejemplo:
- Buscar 3 papers en arXiv y mostrar la metadata:

In [33]:
#  Instalar por consola: 
# pip install  arxiv
# pip install pymupdf

from langchain_community.document_loaders import ArxivLoader

# 1) Configura tu búsqueda (palabras clave o categorías de arXiv, p. ej. "cs.AI")
query = "cs.AI and transformers for time series"
n_results = 3

# 2) Carga resultados desde arXiv (abstracts + metadatos)
loader = ArxivLoader(query=query, load_max_docs=n_results)
docs = loader.load()

In [34]:
print(docs[0].metadata)

{'Published': '2023-10-30', 'Title': 'DDMT: Denoising Diffusion Mask Transformer Models for Multivariate Time Series Anomaly Detection', 'Authors': 'Chaocheng Yang, Tingyin Wang, Xuanhui Yan', 'Summary': 'Anomaly detection in multivariate time series has emerged as a crucial\nchallenge in time series research, with significant research implications in\nvarious fields such as fraud detection, fault diagnosis, and system state\nestimation. Reconstruction-based models have shown promising potential in\nrecent years for detecting anomalies in time series data. However, due to the\nrapid increase in data scale and dimensionality, the issues of noise and Weak\nIdentity Mapping (WIM) during time series reconstruction have become\nincreasingly pronounced. To address this, we introduce a novel Adaptive Dynamic\nNeighbor Mask (ADNM) mechanism and integrate it with the Transformer and\nDenoising Diffusion Model, creating a new framework for multivariate time\nseries anomaly detection, named Denoi

In [35]:
# Requiere: pip install langchain langchain-community arxiv pymupdf 

import textwrap  # Para dar formato a cadenas de texto largas

def limpia(texto: str) -> str:
    # Quita saltos de línea raros y espacios dobles
    return " ".join(texto.split())

for i, d in enumerate(docs[:n_results], start=1):
    m = d.metadata or {}
    titulo = m.get("Title", "N/A")
    autores = m.get("Authors", "N/A")
    anio = (m.get("Published") or "N/A")[:4]
    abstract = m.get("Summary") or d.page_content  # prefiero el abstract oficial

    print(f"\n=== Documento {i} ===")
    print(f"Título : {titulo}")
    print(f"Autores: {autores}")
    print(f"Año    : {anio}")
    print("\nAbstract:")
    print(textwrap.fill(limpia(abstract), width=100))  # Escribe lineas de maximo 100 caracteres


=== Documento 1 ===
Título : DDMT: Denoising Diffusion Mask Transformer Models for Multivariate Time Series Anomaly Detection
Autores: Chaocheng Yang, Tingyin Wang, Xuanhui Yan
Año    : 2023

Abstract:
Anomaly detection in multivariate time series has emerged as a crucial challenge in time series
research, with significant research implications in various fields such as fraud detection, fault
diagnosis, and system state estimation. Reconstruction-based models have shown promising potential
in recent years for detecting anomalies in time series data. However, due to the rapid increase in
data scale and dimensionality, the issues of noise and Weak Identity Mapping (WIM) during time
series reconstruction have become increasingly pronounced. To address this, we introduce a novel
Adaptive Dynamic Neighbor Mask (ADNM) mechanism and integrate it with the Transformer and Denoising
Diffusion Model, creating a new framework for multivariate time series anomaly detection, named
Denoising Diffusi

# Transformación de documentos


Una vez que se carga un documento desde una fuente externa mediante un cargador, se obtiene un objeto de tipo `Document`, cuyo contenido principal se encuentra en el campo `page_content`.

### División en fragmentos (chunks)

En muchos casos, el texto dentro de `page_content` puede ser demasiado extenso para ser procesado directamente por un modelo de lenguaje, ya que estos modelos suelen tener un límite en la cantidad de tokens que pueden manejar (por ejemplo, unos 8,000 tokens, equivalentes a unas 6,000 palabras aproximadamente).

Para resolver este problema, LangChain proporciona transformadores de documentos. Estos permiten dividir el contenido de `page_content` en fragmentos más pequeños, llamados *chunks*, de manera automática y controlada.

### Utilidad de los fragmentos

Estos fragmentos tienen múltiples usos. Uno de los más importantes es la conversión de cada fragmento en un vector numérico mediante un proceso de incrustación (*embedding*). Estos vectores pueden almacenarse y luego utilizarse para realizar búsquedas eficientes basadas en similitud.

Por ejemplo, si estamos construyendo una aplicación de preguntas y respuestas basada en documentos, los vectores de cada fragmento permitirán encontrar rápidamente el contenido más relevante para responder una consulta, sin necesidad de recorrer todo el contenido de manera secuencial.

Esta estrategia mejora significativamente la eficiencia y precisión cuando se necesita proporcionar contexto adicional a un modelo de lenguaje grande (LLM).


## Cargar Fichero

In [37]:
with open('Datos/ReglamentoEstudiantil.txt', encoding= "utf8") as file:
    texto_completo = file.read()

In [38]:
# Número de caracteres
len(texto_completo)

116473

In [39]:
# Numero de palabras
len(texto_completo.split())

17235

## Transformador "CharacterTextSplitter"


Uno de los transformadores más utilizados en LangChain para dividir texto en fragmentos es `CharacterTextSplitter`. Este componente permite separar el contenido de un documento (`page_content`) en bloques más pequeños basados en un número específico de caracteres.

Esta división es útil cuando el texto original es demasiado largo para ser procesado por completo por un modelo de lenguaje, ya que permite mantener fragmentos manejables en tamaño, sin perder el orden ni el contexto genercon LLMs.


#  Transformadores de documentos en LangChain

| Categoría                     | Clase / Ejemplo                               | Uso principal                                                                 |
|--------------------------------|-----------------------------------------------|-------------------------------------------------------------------------------|
| **Text Splitters**            | `CharacterTextSplitter`                      | Divide texto por separadores simples (ej. saltos de línea, espacios).          |
|                                | `RecursiveCharacterTextSplitter`              | Divide jerárquicamente (párrafos → frases → palabras), el más recomendado.     |
|                                | `TokenTextSplitter`                          | Divide en chunks según número de *tokens* (ej. compatible con OpenAI).        |
|                                | `MarkdownTextSplitter`                       | Divide preservando la estructura de encabezados Markdown.                      |
|                                | `LatexTextSplitter`                          | Especializado en documentos LaTeX.                                            |
|                                | `HTMLHeaderTextSplitter`                     | Divide respetando encabezados HTML (h1, h2, etc.).                            |
|                                | `PythonCodeTextSplitter`, `JavascriptSplitter` | Segmentación de código por funciones, clases o bloques.                        |
| **Metadata & Filters**        | `EmbeddingsRedundantFilter`                  | Elimina chunks redundantes usando similitud de embeddings.                     |
|                                | `EmbeddingsClusteringFilter`                 | Agrupa chunks en *clusters* semánticos.                                       |
|                                | `EmbeddingsFilter`                           | Filtra documentos según relevancia semántica.                                 |
|                                | `LLMChainFilter`                             | Usa un LLM para decidir qué documentos conservar.                             |
| **Document Compressors**      | `DocumentCompressorPipeline`                 | Encadena pasos de compresión y filtrado de documentos.                        |
|                                | `LLMChainExtractor`                          | Usa un LLM para extraer información clave y reducir texto.                    |
| **Summarization Chains**      | `StuffDocumentsChain`                        | Une todos los documentos en un solo prompt.                                   |
|                                | `MapReduceDocumentsChain`                    | Resumen en dos fases: map (local) y reduce (global).                          |
|                                | `RefineDocumentsChain`                       | Construye resúmenes incrementales, refinando cada paso.                       |
| **Custom Transformers**       | `BaseDocumentTransformer` (clase base)       | Crear tus propios transformadores: limpieza, normalización, extracción, etc.  |



## Ejemplo de aplicación con `CharacterTextSplitter`

`CharacterTextSplitter` permite ajustar parámetros como:
- `chunk_size`: la longitud máxima de cada fragmento.
- `chunk_overlap`: la cantidad de caracteres que se solapan entre fragmentos consecutivos (útil para preservar contexto entre divisiones).

Es una herramienta simple pero poderosa para preparar documentos antes de realizar tareas como incrustación (embeddings), búsqueda semántica o consultas con LLMs.


In [40]:
from langchain.text_splitter import CharacterTextSplitter

In [43]:
 # Se indica que se divida en párrafos de tamaño de alrededor de 1000 caracteres
text_splitter = CharacterTextSplitter(separator = '\n', chunk_size = 1000)

In [44]:
# se crea el documento utilizando el transformador
textos = text_splitter.create_documents([texto_completo])

In [64]:
print(type(textos)) # Verficamos el tipo del objeto obtenido
print('\n')
print(type(textos[0]))  # Verificamos el tipo de cada elemento
print('\n')
print(textos[2])
#print(textwrap.fill(textos[2].page_content, width=80))


<class 'list'>


<class 'langchain_core.documents.base.Document'>


page_content='b. Admisión: Resultado del proceso de selección de los aspirantes, según los 
criterios de selección vigentes y políticas que la Universidad emita para tal 
fin. 
c. Matrícula: Acto que realiza una persona voluntariamente para inscribirse en 
un programa académico, que involucra registro de la información personal, 
matrícula financiera y matrícula académica. 

Acuerdo No.186 del 02 de diciembre de 2005 
d. 
e. 
Homologación: Reconocimiento por las autoridades académicas de 
contenidos y créditos cursados y aprobados, ó intensidad horaria, en un 
programa académico debidamente reconocido por el MEN y registrado ante el 
ICFES, o su equivalente en el exterior, de esta u otra Institución de Educación 
Superior. 
Validación de asignaturas: Mecanismo mediante el cual se podrá tener por 
cumplidas las exigencias académicas de una asignatura teórica que no haya 
sido cursada. 
f. 
g. 
Cancelación: Anulación to

In [65]:
len(textos[2].page_content)

964

In [66]:
print(textos[1])

page_content='4. Que se deben ajustar las normas y procedimientos a las políticas de cobertura 
social establecidas y a la retención de estudiantes y mejoramiento de la calidad de 
la educación. 
5. Que es necesario, establecer y aplicar en el Reglamento Académico Estudiantil, 
los principios de equidad y justicia, consagrados en la Constitución Nacional. 
6. Que el propósito del presente Acuerdo, es tener un documento único que consigne 
todas las modificaciones efectuadas y propuestas. 
ACUERDA: 
CAPÍTULO I. GENERALIDADES 
ARTÍCULO 1.-Definiciones. 
a. Inscripción: Proceso de registro de la información personal y académica de 
los solicitantes a programas que la Universidad de Pamplona ofrece en las 
diferentes modalidades, para adquirir la calidad de aspirante. 
b. Admisión: Resultado del proceso de selección de los aspirantes, según los 
criterios de selección vigentes y políticas que la Universidad emita para tal 
fin.'


In [67]:
len(textos[1].page_content)

923

In [69]:
textos[1].page_content

'4. Que se deben ajustar las normas y procedimientos a las políticas de cobertura \nsocial establecidas y a la retención de estudiantes y mejoramiento de la calidad de \nla educación. \n5. Que es necesario, establecer y aplicar en el Reglamento Académico Estudiantil, \nlos principios de equidad y justicia, consagrados en la Constitución Nacional. \n6. Que el propósito del presente Acuerdo, es tener un documento único que consigne \ntodas las modificaciones efectuadas y propuestas. \nACUERDA: \nCAPÍTULO I. GENERALIDADES \nARTÍCULO 1.-Definiciones. \na. Inscripción: Proceso de registro de la información personal y académica de \nlos solicitantes a programas que la Universidad de Pamplona ofrece en las \ndiferentes modalidades, para adquirir la calidad de aspirante. \nb. Admisión: Resultado del proceso de selección de los aspirantes, según los \ncriterios de selección vigentes y políticas que la Universidad emita para tal \nfin.'