# Usando Document Loader

 üîç **¬øQu√© es Document Loader?**  
Un Document Loader es un componente de LangChain cuya misi√≥n principal es:  
Cargar datos desde distintas fuentes y convertirlos en objetos **Document**, para que la IA pueda trabajar con ellos.  
Proporcionan m√©todos para cargar datos como:  
‚úÖ PDFs  
‚úÖ Archivos Word (.docx)  
‚úÖ Archivos de texto (.txt)  
‚úÖ Excel (.xlsx)  
‚úÖ P√°ginas web (URL)  
‚úÖ Bases de datos (SQL)  
‚úÖ Carpetas enteras  
‚úÖ Otras de aplicaciones como Notion, Evernote, etc.


![Imagen](https://miro.medium.com/v2/resize:fit:828/format:webp/1*ZwDfKQkV6RUhp35aJjW0Iw.png)

## üì¶ ¬øQu√© es un Document?
Un Document es una estructura de datos est√°ndar en LangChain que representa un fragmento de informaci√≥n textual con sus metadatos.  
La estructura de datos contiene:  
**üìÑ page_content:** el texto del documento.  
**üè∑Ô∏è metadata:** un diccionario con metadatos relacionados al contenido (como la fuente, posici√≥n, timestamp, etc.).

In [5]:
from langchain.schema import Document

doc = Document(
    page_content="L7" \
    "" \
    "a inteligencia artificial est√° transformando el mundo.",
    metadata={
        "source": "articulo_web",
        "url": "https://example.com/ia",
        "author": "Juan P√©rez",
        "fecha": "2024-12-01",
        "page": 2
    }
)

In [6]:
print(doc.page_content)
# ‚û§ "La inteligencia artificial est√° transformando el mundo."

print(doc.metadata)
# ‚û§ {
#      "source": "articulo_web",
#      "url": "https://example.com/ia",
#      "author": "Juan P√©rez",
#      "fecha": "2024-12-01",
#      "page": 2
#    }

L7a inteligencia artificial est√° transformando el mundo.
{'source': 'articulo_web', 'url': 'https://example.com/ia', 'author': 'Juan P√©rez', 'fecha': '2024-12-01', 'page': 2}


#### üß† **¬øPara qu√© se usa la metadata?**
Para saber de d√≥nde vino el contenido.  
Para filtrar los resultados por fuente o tipo.  
Para hacer trazabilidad del conocimiento.  
Para indicar tiempo (start, end) si viene de audio o video.  
Para paginar textos largos.

## Web

In [7]:
# üëâ Document Loader especializado en leer el contenido HTML de una URL, extraer el texto legible, y lo transforma en un documento que LangChain.
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://www.unesco.org/es/digital-education/artificial-intelligence") #WebBaseLoader(["https://url1/", "https://url2"])
dataweb = loader.load()

In [8]:
len(dataweb), dataweb

(1,
 [Document(metadata={'source': 'https://www.unesco.org/es/digital-education/artificial-intelligence', 'title': 'La inteligencia artificial en la educaci√≥n | UNESCO', 'description': 'La inteligencia artificial en la educaci√≥n', 'language': 'es'}, page_content='La inteligencia artificial en la educaci√≥n | UNESCO   Pasar al contenido principal   UNESCOSecondary menu Centro de Medios Eventos  Alianzas Gobernanza Enlaces r√°pidos Enlaces r√°pidos   UNESCO  go to www.unesco.org Buscar en la UNESCO Cerrar  News & Events Calendario de eventos Reuniones de Programa √ìrganos rectores Delegates Meetings Eventos culturales en la Sede Conmemoraciones de la UNESCO Sala de prensa Noticias y comunicados de prensa Testimonios Press Releases International Days and Years Qui√©nes somos Acerca de La UNESCO en breve Historia de la UNESCO Key data Laboratory of ideas Casa de la UNESCO - Vis√≠tenos Gobernanza Portal de los Estados Miembros Conferencia General Consejo Ejecutivo Directora General Consej

## PDF

In [9]:
pwd

'/workspaces/tallerIA'

In [10]:
# üëâ Document Loader especializado en leer archivos PDF, extraer el texto legible, y lo transforma en un documento que LangChain.
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("3.2_data/StateofAI-Espanol.pdf")
datapdf = loader.load()

In [11]:
len(datapdf), datapdf

(79,
 [Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 0, 'page_label': '1'}, page_content='Estado de la IA.\nAm√©rica Latina 2023\nReporte de investigaci√≥n de ALLVP'),
  Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 1, 'page_label': '2'}, page_content='ha surgido como una fuerza transformadora a nivel mundial, con el potencial de \nrevolucionar industrias y generar impactos t

# CSV

In [12]:
# üëâ Document Loader especializado en leer archivos CSV y Convierte cada fila del CSV en un objeto Document de LangChain.
from langchain.document_loaders.csv_loader import CSVLoader

loader = CSVLoader( file_path = "3.2_data/minerasdelmundo.csv",
                    #source_column="TipoMina",  # üëâ Esta columna ser√° el contenido principal
                    metadata_columns=["Pais"],  # üëâ Esta columna se incluir√° como metadato
                    encoding="utf-8",  # üëà importante para caracteres especiales
                    csv_args={"delimiter": ","}
                  )
datacsv = loader.load()

In [13]:
len(datacsv), datacsv

(56,
 [Document(metadata={'source': '3.2_data/minerasdelmundo.csv', 'row': 0, 'Pais': 'Chile'}, page_content='N: 1\nMina: Escondida\nEmpresa: BHP\nAnioOperacion: 1990\nTipoMina: Open pit\nMetal: Cobre'),
  Document(metadata={'source': '3.2_data/minerasdelmundo.csv', 'row': 1, 'Pais': 'Chile'}, page_content='N: 2\nMina: Chuquicamata\nEmpresa: Codelco\nAnioOperacion: 1915\nTipoMina: Open pit\nMetal: Cobre'),
  Document(metadata={'source': '3.2_data/minerasdelmundo.csv', 'row': 2, 'Pais': 'Chile'}, page_content='N: 3\nMina: Collahuasi\nEmpresa: Anglo American\nAnioOperacion: 1993\nTipoMina: Open pit\nMetal: Cobre'),
  Document(metadata={'source': '3.2_data/minerasdelmundo.csv', 'row': 3, 'Pais': 'Polonia'}, page_content='N: 4\nMina: Radom\nEmpresa: KGHM Polska Mied?\nAnioOperacion: 1957\nTipoMina: Underground\nMetal: Cobre'),
  Document(metadata={'source': '3.2_data/minerasdelmundo.csv', 'row': 4, 'Pais': 'Per√∫'}, page_content='N: 5\nMina: Cerro Verde\nEmpresa: Freeport-McMoRan\nAnioOper

## üß† ¬øQu√© es un DocumentTransformer?


Es una clase que toma uno o varios documentos (Document) como entrada y devuelve documentos transformados.  
Por ejemplo:  
üìé Dividir un documento en fragmentos m√°s peque√±os.  
üìå Agregar metadatos (como fecha, autor, etc.).  
‚úÇÔ∏è Filtrar partes irrelevantes.  
üß± Aplicar embeddings o anotaciones.  


Un ejemplo simple es dividir un documento largo en partes m√°s peque√±as que puedan entrar en la ventana de contexto   
de un modelo de lenguaje (GPT4, Llama 3, Mistral, Claude, DeepSeek, etc).  
(https://python.langchain.com/docs/modules/data_connection/document_transformers/)

![image](https://miro.medium.com/v2/resize:fit:828/format:webp/1*n4XS0XkKM8RsRwgJxWpNpQ.jpeg)

In [14]:
len(datapdf), datapdf

(79,
 [Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 0, 'page_label': '1'}, page_content='Estado de la IA.\nAm√©rica Latina 2023\nReporte de investigaci√≥n de ALLVP'),
  Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 1, 'page_label': '2'}, page_content='ha surgido como una fuerza transformadora a nivel mundial, con el potencial de \nrevolucionar industrias y generar impactos t

In [15]:
id=2
print(datapdf[id].page_content)
print(len(datapdf[id].page_content))

04 Capital de riesgo: Integrando IA en el proceso de inversi√≥n 
03 Corporativos: explorando el potencial de la IA
02 Startups: liderando el avance
01 Introducci√≥n a la IA: explorando la revoluci√≥n
Agenda
3
205


### üß† ¬øQu√© es RecursiveCharacterTextSplitter?
Es un algoritmo de segmentaci√≥n de texto que corta el contenido en trozos ("chunks") manteniendo el mayor contexto posible,  
usando una jerarqu√≠a de separadores.  
Es muy usado cuando trabajas con:  
- Transcripciones largas de audio (como las de Whisper)  
- Documentos PDF extensos  
- Archivos CSV con mucho contenido por fila  
- Web scraping (textos largos de p√°ginas web)  

In [16]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text = """
111111111 222222222 333333333 444444444 555555555 666666666 777777777 888888888 999999999 
"""
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 30, chunk_overlap=10)
text_splitter.create_documents([text])

[Document(metadata={}, page_content='111111111 222222222 333333333'),
 Document(metadata={}, page_content='333333333 444444444 555555555'),
 Document(metadata={}, page_content='555555555 666666666 777777777'),
 Document(metadata={}, page_content='777777777 888888888 999999999'),
 Document(metadata={}, page_content='999999999')]

In [17]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 150
)

docs = text_splitter.split_documents(datapdf)

In [18]:
len(datapdf)

79

In [19]:
len(docs)

149

In [20]:
len(docs), docs

(149,
 [Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 0, 'page_label': '1'}, page_content='Estado de la IA.\nAm√©rica Latina 2023\nReporte de investigaci√≥n de ALLVP'),
  Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 1, 'page_label': '2'}, page_content='ha surgido como una fuerza transformadora a nivel mundial, con el potencial de \nrevolucionar industrias y generar impactos 

In [21]:
len(datapdf), datapdf

(79,
 [Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 0, 'page_label': '1'}, page_content='Estado de la IA.\nAm√©rica Latina 2023\nReporte de investigaci√≥n de ALLVP'),
  Document(metadata={'producer': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creator': 'Microsoft¬Æ PowerPoint¬Æ for Microsoft 365', 'creationdate': '2023-06-28T10:39:53-06:00', 'title': 'PowerPoint Presentation', 'author': 'MBA - Rick Prieto', 'moddate': '2023-06-28T10:39:53-06:00', 'source': '3.2_data/StateofAI-Espanol.pdf', 'total_pages': 79, 'page': 1, 'page_label': '2'}, page_content='ha surgido como una fuerza transformadora a nivel mundial, con el potencial de \nrevolucionar industrias y generar impactos t