# 1 - Recuperación y carga de documentos

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/langchain.jpeg" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Recuperación" data-toc-modified-id="1---Recuperación-1">1 - Recuperación</a></span></li><li><span><a href="#2---Document-Loaders" data-toc-modified-id="2---Document-Loaders-2">2 - Document Loaders</a></span><ul class="toc-item"><li><span><a href="#2.1---Text-File-Loader" data-toc-modified-id="2.1---Text-File-Loader-2.1">2.1 - Text File Loader</a></span></li><li><span><a href="#2.2---CSV-Loader" data-toc-modified-id="2.2---CSV-Loader-2.2">2.2 - CSV Loader</a></span></li><li><span><a href="#2.3---PDF-Loaders" data-toc-modified-id="2.3---PDF-Loaders-2.3">2.3 - PDF Loaders</a></span><ul class="toc-item"><li><span><a href="#2.3.1---PyPDFLoader" data-toc-modified-id="2.3.1---PyPDFLoader-2.3.1">2.3.1 - PyPDFLoader</a></span></li><li><span><a href="#2.3.2---PyMuPDFLoader" data-toc-modified-id="2.3.2---PyMuPDFLoader-2.3.2">2.3.2 - PyMuPDFLoader</a></span></li><li><span><a href="#2.3.3---PDFMinerLoader" data-toc-modified-id="2.3.3---PDFMinerLoader-2.3.3">2.3.3 - PDFMinerLoader</a></span></li></ul></li><li><span><a href="#2.4---YoutubeLoader" data-toc-modified-id="2.4---YoutubeLoader-2.4">2.4 - YoutubeLoader</a></span></li><li><span><a href="#2.5---Otros-loaders" data-toc-modified-id="2.5---Otros-loaders-2.5">2.5 - Otros loaders</a></span></li></ul></li></ul></div>

## 1 - Recuperación

La recuperación en LangChain desempeña un papel crucial en las aplicaciones que requieren datos específicos del usuario, que no están incluidos en el conjunto de entrenamiento del modelo. Este proceso, conocido como generación aumentada por recuperación (RAG, por las siglas en inglés), implica obtener datos externos e integrarlos en el proceso de generación del modelo de lenguaje. LangChain proporciona una gama completa de herramientas y funcionalidades para facilitar este proceso, adaptándose tanto a aplicaciones simples como complejas.

LangChain logra la recuperación a través de una serie de componentes que discutiremos a continuación.

## 2 - Document Loaders

Los cargadores de documentos en LangChain permiten la extracción de datos desde diversas fuentes. Con más de 100 cargadores disponibles, son compatibles con una amplia variedad de tipos de documentos, aplicaciones y fuentes ya sean buckets privados de s3, sitios web públicos o bases de datos. Podemos ver todos los cargadores de documentos en su [documentación](https://python.langchain.com/docs/integrations/document_loaders/).

Todos estos cargadores ingieren datos en clases de Document. Veamos como se usan algunos de estos objetos.

### 2.1 - Text File Loader

Con este objeto podemos cargar archivos con extensión `.txt`.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
from langchain.document_loaders import TextLoader

In [3]:
# cargamos el archivo de texto

loader = TextLoader('../../../files/shakespeare.txt')

In [4]:
# generamos el documento

documento = loader.load()

In [5]:
# devuelve una lista con un solo elemento, esta todo el texto en un solo objeto

type(documento)

list

In [6]:
len(documento)

1

In [7]:
type(documento[0])

langchain_core.documents.base.Document

### 2.2 - CSV Loader

Con este objeto podemos cargar archivos con extensión `.csv`.

In [8]:
from langchain.document_loaders.csv_loader import CSVLoader

In [9]:
# cargamos el archivo csv

loader = CSVLoader('../../../files/airbnb.csv')

In [10]:
# generamos el documento

documento = loader.load()

In [11]:
# devuelve una lista con tantos elementos como filas tiene el archivo csv

type(documento)

list

In [12]:
len(documento)

21312

In [13]:
# primera fila de la tabla

documento[0]

Document(metadata={'source': '../../../files/airbnb.csv', 'row': 0}, page_content='id: 6369\nhost_id: 13660\nhost_is_superhost: 1\nneighbourhood_cleansed: Hispanoamérica\nneighbourhood_group_cleansed: Chamartín\nlatitude: 40.45628\nlongitude: -3.67763\nproperty_type: Apartment\nroom_type: Private room\naccommodates: 2\nbathrooms: 1\nbedrooms: 1\nbeds: 0\nbed_type: Real Bed\namenities: {Wifi,"Air conditioning",Kitchen,Elevator,Heating,"Family/kid friendly",Washer,Essentials,Shampoo,Hangers,"Hair dryer",Iron,"Hot water","Bed linens","Extra pillows and blankets","Pocket wifi"}\nprice: 70\nsecurity_deposit: 0\ncleaning_fee: 5\nguests_included: 2\nextra_people: 15\nminimum_nights: 1\nmaximum_nights: 365\navailability_30: 22\navailability_60: 52\navailability_90: 82\navailability_365: 82\nnumber_of_reviews: 73\nnumber_of_reviews_ltm: 14\ncalculated_host_listings_count: 1\ncalculated_host_listings_count_entire_homes: 0\ncalculated_host_listings_count_private_rooms: 1\ncalculated_host_listings

### 2.3 - PDF Loaders

Los cargadores de PDF en LangChain ofrecen varios métodos para analizar y extraer contenido de archivos PDF. Cada cargador se adapta a diferentes requisitos y utiliza distintas bibliotecas subyacentes. Veamos algunos de ellos:

In [14]:
# ruta al archivo PDF

ruta_pdf = '../../../files/Matematicas_Basicas2023.pdf'

#### 2.3.1 - PyPDFLoader

Es el cargador más básico de PDFs, se usa para un parseo general de los archivos.

In [15]:
from langchain.document_loaders import PyPDFLoader

In [16]:
# cargamos el archivo

loader = PyPDFLoader(ruta_pdf)

In [17]:
# generamos el documento pagina a pagina

paginas = loader.load_and_split()

In [18]:
# nº de paginas

len(paginas)

81

In [19]:
# primera pagina

paginas[0]

Document(metadata={'source': '../../../files/Matematicas_Basicas2023.pdf', 'page': 0}, page_content='M A T E MÁ T I C A S M A T E MÁ T I C A S\nB Á S I C A S B Á S I C A S\nL i b r o  i n t e r ac t i v o L i b r o  i n t e r ac t i v o')

#### 2.3.2 - PyMuPDFLoader

PyMuPDFLoader es rápido e incluye una extracción detallada de metadatos. Para usarlo hay que ejecutar el siguiente comando:


```bash
pip install pymupdf
```

In [20]:
from langchain.document_loaders import PyMuPDFLoader

In [21]:
# cargamos el archivo

loader = PyMuPDFLoader(ruta_pdf)

In [22]:
# generamos el documento

paginas = loader.load()

In [23]:
len(paginas)

84

#### 2.3.3 - PDFMinerLoader

El PDFMinerLoader se utiliza para un control más detallado sobre la extracción de texto.

In [24]:
from langchain.document_loaders import PDFMinerLoader

In [25]:
# cargamos el archivo

loader = PDFMinerLoader(ruta_pdf)

In [26]:
# generamos el documento

paginas = loader.load_and_split()

In [27]:
len(paginas)

11

Existen más cargadores de PDF, tales como `MathPixLoader`, `AmazonTextractPDFLoader` o `PDFMinerPDFasHTMLLoader`, cada uno especializado en una manera de leer e interpretar los datos del PDF. Algunos de ellos necesitan la obtención de API KEY para poder usarlos.

### 2.4 - YoutubeLoader

YouTubeLoader en LangChain es una herramienta diseñada para cargar y extraer datos de videos de YouTube. Su propósito principal es obtener transcripciones o subtítulos de los videos de YouTube, que luego pueden ser utilizados en aplicaciones de procesamiento de lenguaje natural (NLP) dentro de LangChain, como la generación de resúmenes, análisis de contenido o cualquier otra tarea basada en el texto del video.

In [28]:
from langchain.document_loaders import YoutubeLoader

In [29]:
url = 'https://www.youtube.com/watch?v=SMtWvDbfHLo'

In [30]:
loader = YoutubeLoader.from_youtube_url(url, add_video_info=True)

loader.load()

[Document(metadata={'source': 'SMtWvDbfHLo', 'title': 'DNA Transcription (Advanced)', 'description': 'Transcription is the process by which the information in DNA is copied into messenger RNA (mRNA) for protein production. \r\nOriginally created for DNA Interactive ( http://www.dnai.org ).\r\nTRANSCRIPT: The Central Dogma of Molecular Biology: "DNA makes RNA makes protein" Here the process begins. Transcription factors assemble at a specific promoter region along the DNA. The length of DNA following the promoter is a gene and it contains the recipe for a protein. A mediator protein complex arrives carrying the enzyme RNA polymerase. It manoeuvres the RNA polymerase into place... inserting it with the help of other factors between the strands of the DNA double helix. The assembled collection of all these factors is referred to as the transcription initiation complex... and now it is ready to be activated. The initiation complex requires contact with activator proteins, which bind to spe

### 2.5 - Otros loaders

LangChain ofrece una amplia variedad de cargadores personalizados para cargar datos directamente desde tus aplicaciones como Slack, Sigma, Notion, Confluence, Google Drive, AirTable o bases de datos, y utilizarlos en aplicaciones de LLM. Veamos por encima un par de ejemplos:

**Ejemplo Slack**

Slack, una plataforma de mensajería instantánea ampliamente utilizada, puede integrarse en flujos de trabajo y aplicaciones de LLM.

1. Ve a la página de gestión de tu espacio de trabajo de Slack.

2. Navega a {tu_dominio_slack}.slack.com/services/export.

3. Selecciona el rango de fechas deseado e inicia la exportación.

4. Slack te notificará por correo electrónico y mensaje directo (DM) una vez que la exportación esté lista.

5. El resultado de la exportación es un archivo .zip ubicado en tu carpeta de Descargas o en la ruta de descarga que hayas designado.

6. Asigna la ruta del archivo .zip descargado a LOCAL_ZIPFILE.

7. Usa el `SlackDirectoryLoader` del paquete langchain.document_loaders.

**Ejemplo Figma**

Figma, una herramienta popular para el diseño de interfaces, ofrece una API REST para la integración de datos.

1. Obtén la clave del archivo de Figma desde el formato de URL: https://www.figma.com/file/{filekey}/nombreDeArchivoEjemplo.

2. Los IDs de los nodos se encuentran en el parámetro de la URL ?node-id={node_id}.

3. Genera un token de acceso siguiendo las instrucciones del Centro de Ayuda de Figma.

4. La clase `FigmaFileLoader` de langchain.document_loaders.figma se utiliza para cargar los datos de Figma.

5. Varios módulos de LangChain como `CharacterTextSplitter` o `ChatOpenAI` se emplean para el procesamiento.