# Cargadores de documentos en LangChain


LangChain incluye cargadores integrados que permiten leer archivos y convertirlos rápidamente en objetos del tipo `Document`, listos para su procesamiento dentro del flujo de trabajo de la biblioteca.

### Objeto `Document` en LangChain

El objeto `Document` es una estructura fundamental en LangChain que representa una unidad de texto junto con sus metadatos asociados. 

- **Contenido principal (`page_content`)**: Texto o información que se desea procesar o analizar.
- **Metadatos (`metadata`)**: Información adicional contextual que puede incluir el origen del documento, número de página, etiquetas, etc.

Este diseño facilita la manipulación y el seguimiento de fragmentos de texto en flujos de trabajo con modelos de lenguaje, permitiendo almacenar tanto el contenido como datos relevantes que mejoran la gestión y el análisis.

---


### Características de los cargadores
- Permiten cargar documentos desde múltiples formatos como PDF, HTML, TXT, entre otros.
- Transforman el contenido en una estructura uniforme que LangChain puede utilizar directamente.

### Dependencias externas
Muchos cargadores requieren bibliotecas adicionales. Por ejemplo:

- Para archivos PDF, se necesita la biblioteca `pypdf`.
- Para archivos HTML, se requiere `beautifulsoup4`.

Es importante asegurarse de instalar las bibliotecas necesarias antes de usar cada cargador. Si una dependencia falta, LangChain mostrará un mensaje indicando cuál debes instalar.

### Documentación oficial
Puedes consultar la lista completa de cargadores disponibles en la siguiente dirección:

https://python.langchain.com/v0.2/docs/integrations/document_loaders/


Nota: Es posible que se deba instalar alguna libreria
Instalar la librería de langChain Community:
- En cmd: pip install langchain-community

## Importar librerías e instancia de modelos de chat

In [None]:
from langchain.prompts import PromptTemplate, SystemMessagePromptTemplate, ChatPromptTemplate, HumanMessagePromptTemplate


In [None]:
# importamos las clases para manejar conversaciones con modelos de Ollama
from langchain_ollama.chat_models import ChatOllama

### Instaciamos un chat con uno de los modelos: llama3.2:3b, mistral:latest, gema3:4b, o los que se hayan instalado en Ollama

chat = ChatOllama(model="llama3.2:3b")
#chat = ChatOllama(model="mistral:latest")
#chat = ChatOllama(model="gemma3:4b")


## Carga de datos CSV


CSVLoader es un cargador de documentos en LangChain que permite leer archivos .csv y convertir cada fila (o el archivo completo) en uno o varios objetos Document.

#### Características clave:
- Lee archivos CSV delimitados por comas u otros caracteres.
- Por defecto, cada fila del CSV se convierte en un documento independiente.
- Puedes configurar qué columna usar como contenido principal (page_content_column) y cuáles como metadatos.
- Útil para datos tabulares: reportes, logs, registros estructurados.

El `CSVLoader` de LangChain facilita la integración directa de archivos CSV en flujos de trabajo con modelos de lenguaje, ya que convierte automáticamente cada fila en un documento estructurado con contenido principal y metadatos, lo que simplifica la manipulación, búsqueda y análisis de datos tabulares. Esto permite aprovechar de manera eficiente la información contenida en CSVs para tareas de procesamiento de lenguaje natural, evitando la necesidad de preprocesamientos complejos y garantizando una compatibilidad óptima con las herramientas y componentes del ecosistema LangChain.

In [10]:
# pip install langchain-community en una terminal. 

from langchain.document_loaders import CSVLoader

In [31]:
# cargamos un fichero CSV

loader = CSVLoader(
    file_path="Datos/Datos_Empleados.csv",
    encoding='utf-8',  # probar con 'latin-1' si se ven caracteres raros
    )


In [32]:
# Se crea el objeto "data" con los datos desde el cargador "loader"

data = loader.load()

In [34]:
# print(data) # vemos que se ha cargado un documento por cada fila donde el campo page_content contiene los datos

In [35]:
type(data)

list

In [36]:
len(data)

100

In [37]:
data[0]

Document(metadata={'source': 'Datos/Datos_Empleados.csv', 'row': 0}, page_content='Doc: 1344702176\nNombre: Dwayne\nApellido: Chapman\nCargo: Analista\nProfesion: Ingeniero\nNivel: Semi-Senior\nSalario: 37454\nCiudad: East Sandratown\nPaís: Iceland\nTelefono: 071-524-3083')

In [38]:
data[1]

Document(metadata={'source': 'Datos/Datos_Empleados.csv', 'row': 1}, page_content='Doc: 4799197514\nNombre: Madison\nApellido: Merritt\nCargo: Recursos Humanos\nProfesion: Ingeniero\nNivel: Senior\nSalario: 71516\nCiudad: New Bruce\nPaís: Venezuela\nTelefono: +1-511-535-4543x1825')

In [18]:
print(data[2].page_content)

Doc,Nombre,Apellido,Cargo,Profesion,Nivel,Salario,Ciudad,PaÃ­s,Telefono: 8113304588,Derek,Mccoy,Soporte TÃ©cnico,Abogado,Senior,54075,Thomasport,Tokelau,709-586-4973x4021


In [40]:
# imprimir estructuras complejas en forma organizada
from pprint import pprint

n = 3 # visualizar los tres primeros documentos (filas)
for doc in data[:n]:
    pprint({
        "page_content": doc.page_content,
        "metadata": doc.metadata
    })


{'metadata': {'row': 0, 'source': 'Datos/Datos_Empleados.csv'},
 'page_content': 'Doc: 1344702176\n'
                 'Nombre: Dwayne\n'
                 'Apellido: Chapman\n'
                 'Cargo: Analista\n'
                 'Profesion: Ingeniero\n'
                 'Nivel: Semi-Senior\n'
                 'Salario: 37454\n'
                 'Ciudad: East Sandratown\n'
                 'País: Iceland\n'
                 'Telefono: 071-524-3083'}
{'metadata': {'row': 1, 'source': 'Datos/Datos_Empleados.csv'},
 'page_content': 'Doc: 4799197514\n'
                 'Nombre: Madison\n'
                 'Apellido: Merritt\n'
                 'Cargo: Recursos Humanos\n'
                 'Profesion: Ingeniero\n'
                 'Nivel: Senior\n'
                 'Salario: 71516\n'
                 'Ciudad: New Bruce\n'
                 'País: Venezuela\n'
                 'Telefono: +1-511-535-4543x1825'}
{'metadata': {'row': 2, 'source': 'Datos/Datos_Empleados.csv'},
 'page_content': 'Do

## Cargador de datos HTML

In [43]:
# pip install beautifulsoup4
# pip install lxml  # Parser de respaldo

from langchain.document_loaders import BSHTMLLoader 

In [53]:
loader = BSHTMLLoader('Datos/IngenieriaSistemasUP.html')


In [54]:
data = loader.load()

In [55]:
len(data)

1

In [56]:
data

[Document(metadata={'source': 'Datos/IngenieriaSistemasUP.html', 'title': 'Ingenieria de Sistemas - Unipamplona - Semillero de Investigación en Ingeniería de Sistemas - SIIS'}, page_content='\n\nIngenieria de Sistemas - Unipamplona - Semillero de Investigación en Ingeniería de Sistemas - SIIS\n\n\n\n\n\n\n\n\n\n\n\nIngeniería de Sistemas\xa0Pamplona - Villa del Rosario\n\n\n\n\nInicio\nCorreo\nTransacciones\n\n\n\n\n\n\n\n\n\nInstitucional\n\nPrograma \nProfesorado\nInvestigación \nTrabajo Social\nTrabajos de Grado\nEgresados\nAcreditación\nActividades\n\nDocumentos\n\n\n\nNormatividad Académica\nSIG - Gestión Académica\n\nOtros Enlaces\n\nAsociaciones\nRevistas Científicas\nImagen Institucional\nRepositorio\nContactos\n\n\n\n\n\nSemillero de Investigación en Ingeniería de Sistemas - SIIS\nLíneas de investigación\n \n\nCiencias      Computacionales\nIngeniería      del Software\nTecnologías      de la Información\nSistemas de información\n\n  \nMisión\nDesarrollar competencias investig

In [57]:
print(data[0].page_content)
#print(data[0].metadata)



Ingenieria de Sistemas - Unipamplona - Semillero de Investigación en Ingeniería de Sistemas - SIIS











Ingeniería de Sistemas Pamplona - Villa del Rosario




Inicio
Correo
Transacciones









Institucional

Programa 
Profesorado
Investigación 
Trabajo Social
Trabajos de Grado
Egresados
Acreditación
Actividades

Documentos



Normatividad Académica
SIG - Gestión Académica

Otros Enlaces

Asociaciones
Revistas Científicas
Imagen Institucional
Repositorio
Contactos





Semillero de Investigación en Ingeniería de Sistemas - SIIS
Líneas de investigación
 

Ciencias      Computacionales
Ingeniería      del Software
Tecnologías      de la Información
Sistemas de información

  
Misión
Desarrollar competencias investigativas en el área de ingeniería de sistemas a través del estudio de metodologías de investigación y la estructura del sistema de ciencia y tecnología de Colombia.
Visión
Consolidar el semillero de investigación en ingeniería de sistemas de la Universidad de Pamplona

## Cargar contenidos de una URL en linea

In [63]:
from langchain_community.document_loaders import WebBaseLoader

#loader = WebBaseLoader("https://www.unipamplona.edu.co")

# opcionar para simular el browser de conexion

loader = WebBaseLoader(
    web_paths=["https://www.unipamplona.edu.co"],
    header_template={"User-Agent": "Mozilla/5.0 (compatible; MyBot/1.0)"}
)

data = loader.load()


In [64]:
#print(data[0].page_content)
print(data[0].metadata)

{'source': 'https://www.unipamplona.edu.co', 'title': 'Universidad de Pamplona', 'description': 'Sitio Oficial de la Universidad de Pamplona, Norte de Santander, Colombia', 'language': 'es'}


## Carga de datos en PDF

In [71]:
# pip install pypdf en una terminal

from langchain.document_loaders import PyPDFLoader 

In [72]:
loader = PyPDFLoader('Datos/TendenciasTecnologicas2025.pdf')

In [85]:
# Una paguna un documento
pages = loader.load()

# opcional: Divide de acuerdo al parámetro CharacterTextSplitter
#pages = loader.load_and_split()


Overwriting cache for 0 802


In [86]:
type(pages)

list

In [87]:
len(pages)

5

In [88]:
pages[0]

Document(metadata={'producer': 'Microsoft® Word for Microsoft 365', 'creator': 'Microsoft® Word for Microsoft 365', 'creationdate': '2024-11-28T09:25:20+01:00', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_enabled': 'true', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_setdate': '2024-09-10T15:55:11Z', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_method': 'Standard', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_name': 'Confidential', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_siteid': '41eb501a-f671-4ce0-a5bf-b64168c3705f', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_actionid': '3392ec8e-7e55-48d2-b2dd-59bfea7a42ef', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_contentbits': '2', 'title': 'Press Release Template', 'author': 'Capgemini', 'moddate': '2024-11-28T09:25:20+01:00', 'source': 'Datos/TendenciasTecnologicas2025.pdf', 'total_pages': 5, 'page': 0, 'page_label': '1'}, page_content='Nota de Prensa \nPrensa Capgemini  \nLuis Antón / Ángeles García Moler

In [89]:
print(pages[0].metadata)

{'producer': 'Microsoft® Word for Microsoft 365', 'creator': 'Microsoft® Word for Microsoft 365', 'creationdate': '2024-11-28T09:25:20+01:00', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_enabled': 'true', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_setdate': '2024-09-10T15:55:11Z', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_method': 'Standard', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_name': 'Confidential', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_siteid': '41eb501a-f671-4ce0-a5bf-b64168c3705f', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_actionid': '3392ec8e-7e55-48d2-b2dd-59bfea7a42ef', 'msip_label_8e19d756-792e-42a1-bcad-4cb9051ddd2d_contentbits': '2', 'title': 'Press Release Template', 'author': 'Capgemini', 'moddate': '2024-11-28T09:25:20+01:00', 'source': 'Datos/TendenciasTecnologicas2025.pdf', 'total_pages': 5, 'page': 0, 'page_label': '1'}


## Caso de uso: Resumir PDF's

In [90]:
contenido_pdf = pages[0].page_content

In [91]:
human_template = '"Necesito que hagas un resumen del siguiente texto en 500 caracteres: \n{contenido}"'
human_prompt = HumanMessagePromptTemplate.from_template(human_template)

In [92]:
chat_prompt = ChatPromptTemplate.from_messages([human_prompt])
##chat_prompt.format_prompt(contenido = contenido_pdf)

In [93]:
solicitud = chat_prompt.format_prompt(contenido = contenido_pdf).to_messages()

In [94]:
#solicitud

In [95]:
result = chat.invoke(solicitud)

In [96]:
result.content

'"A continuación, te presentamos las 5 tendencias tecnológicas que se espera que alcancen un punto de inflexión en 2025, según Capgemini:\n\n*   IA Generativa: La inteligencia artificial generativa (Gen IA) estará evolucionando para convertirse en agentes de IA con capacidad para razonar, lo que permitirá a los sistemas de IA tomar decisiones dinámicas y gestionar tareas sin supervisión humana constante.\n*   Robótica: La robótica seguirá creciendo y se convertirá en una tecnología clave en varios sectores, como la industria manufacturera y el servicio al cliente. \n*   Criptografía post-cuántica: La criptografía post-cuántica seguirá siendo un tema importante, ya que las normas del Instituto Nacional de Estándares y Tecnología confirmaron su importancia en el verano pasado.\n*   Semiconductores: Los semiconductores seguirán evolucionando y seguirán impulsados por la IA e IA Generativa, así como por los cambios en la dinámica del mercado. \n*   Cadenas de suministro inteligentes: La te

### Resumen del documento completo

- Si queremos resumir el documento completo, Creamos un string concatendando el contenido de todas las páginas:

In [97]:

documento_completo = ""
for page in pages:
    documento_completo += page.page_content

#print(documento_completo)

In [108]:
human_template = '"Realizar un resumen del texto dado a continuación. Importante!!: El texto generado debe tener más de  300 palabras \n{contenido}"'
human_prompt = HumanMessagePromptTemplate.from_template(human_template)

In [109]:
nueva_solicitud = chat_prompt.format_prompt(contenido = documento_completo).to_messages()

In [110]:
resultado = chat.invoke(nueva_solicitud)


In [111]:
resultado.content

'El informe "TechnoVision 2025" de Capgemini presenta 5 tendencias tecnológicas que habrá que seguir en el próximo año:\n\n1. **Biología de ingeniería**: esta tecnología está en proceso de escalado y se espera que alcance la madurez y sea comercialmente viable en 2030.\n2. **Informática cuántica**: se espera que la computación cuántica sea una de las 3 tecnologías principales dentro del espacio de "Computación y Redes" que tendrá un mayor impacto en 2025, con el 55% de los expertos expectando que se aplique en alguna forma en 2025.\n3. **Inteligencia Artificial General (AGI)**: se espera que la AGI alcance la madurez y sea comercialmente viable en 2030, con el 60% de los expertos creyendo que alcanzará esta etapa en los próximos 5 años.\n4. **Cadenas de suministro de nueva generación**: se espera que las cadenas de suministro impulsadas por tecnologías sean la principal tendencia en la industria y la ingeniería en 2025, con el 37% de los expertos creyendo que serán esenciales para cont

In [116]:
# Contemos las palabras

len(resultado.content.split())

291