<a href="https://colab.research.google.com/github/fholken/curso_agentes_ai/blob/main/4_Carga_de_PDF_y_CSV_con_LangChain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%pip install -qU langchain-openai

from langchain_openai import ChatOpenAI
from  langchain_core.messages import HumanMessage, AIMessage
from langchain_core.chat_history import BaseChatMessageHistory, InMemoryChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()
model = ChatOpenAI(model="gpt-3.5-turbo")

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.4/50.4 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m13.7 MB/s[0m eta [36m0:00:00[0m
[?25h··········


# **1. Document Loaders: Cargar Archivos en LangChain.**

Los Document Loaders son herramientas especializadas en LangChain que permiten cargar información desde varios formatos de archivos, como PDF, CSV, Markdown, HTML, entre otros. Cada tipo de archivo tiene su propio loader específico que facilita la extracción de texto y metadatos.

## **a) Carga de PDFs**

Uno de los ejemplos más comunes es cargar y trabajar con **PDFs**. Para ello, utilizamos el paquete **PyPDF** dentro de LangChain.

* **PyPDF** es un cargador de PDFs que te permite acceder al contenido y los metadatos del archivo, como el número de páginas, los títulos o cualquier otra información relevante.

### **Pasos para cargar un PDF:**

1. Instalar el paquete PyPDF y langchain-community.
2. Utilizar el **PDF Loader** para cargar el archivo.
3. Especificar la ruta del archivo PDF en tu entorno de trabajo (como Google Colaboratory).
4. Extraer texto y metadatos para manipularlos o realizar consultas.

## **b) Carga de CSVs**

El **CSV Loader** en LangChain te permite cargar archivos CSV, donde cada fila se trata como un documento independiente. Este loader es especialmente útil cuando deseas analizar grandes volúmenes de datos estructurados.

* **Uso del CSV Loader**: Puedes cargar un archivo CSV, acceder a cada fila y columna, y realizar consultas sobre el contenido. Además, puedes combinar esta funcionalidad con técnicas de **búsqueda semántica** para extraer información relevante.

### **Pasos para cargar un CSV:**

1. Utilizar el **CSV Loader** para cargar el archivo.
2. Acceder a los datos fila por fila.
3. Realizar consultas sobre las columnas y extraer información específica.

# **2. Uso de Vector Stores**

Una vez que cargas un archivo (ya sea PDF, CSV u otro), LangChain te permite realizar búsquedas más sofisticadas utilizando espacios vectoriales. Un **vector store** almacena información en forma de **vectores**, lo que facilita la **búsqueda por similitud**. Esta técnica es útil cuando queremos buscar información relacionada de manera semántica dentro de un documento o conjunto de documentos.

## **a) Vectorización de Documentos**

Para realizar una búsqueda semántica, necesitamos convertir el texto de los documentos en **vectores**. Esto se logra utilizando **Embeddings**, que son representaciones numéricas del texto. En este curso, hemos utilizado **OpenAI Embeddings**, que convierte el contenido textual en números que el sistema puede comparar.

### Proceso de vectorización:

1. Cargar el documento con un loader (como el PDF Loader).
2. Convertir el texto a vectores utilizando Embeddings.
3. Realizar búsquedas basadas en similitudes entre los vectores.

## b) Búsqueda Semántica

Una vez vectorizados los documentos, puedes realizar **búsquedas por similitud**, donde se busca la proximidad entre el texto de consulta y los documentos almacenados como vectores. Esto es extremadamente útil para encontrar respuestas relevantes en grandes volúmenes de información.

**Ejemplo**: Si buscas un texto que incluya una frase específica, el sistema puede encontrar el contenido más cercano en significado y devolverlo como resultado.

# **3. Integración de Agentes en Búsquedas de Datos**

Uno de los aspectos más potentes de LangChain es su capacidad para integrar **agentes**. Un agente es una entidad que puede tomar decisiones autónomas basadas en entradas del usuario y consultar datos desde diversas fuentes.

* **Uso en consultas de CSV**: Los agentes pueden transformar preguntas en lenguaje natural en consultas específicas sobre un archivo CSV, simplificando el acceso a los datos. Esto es útil en escenarios donde el usuario no necesita conocer la estructura de los datos, ya que el agente se encarga de traducir la consulta.

# **4. Preparación para Bases Vectoriales**

En las próximas clases, veremos con mayor profundidad cómo manejar **bases vectoriales**. Las bases vectoriales permiten organizar y consultar información de manera más eficiente, especialmente cuando trabajamos con grandes volúmenes de texto o datos no estructurados.

In [2]:
%pip install -qU langchain_community pypdf
%pip install -qU langchain_community
%pip install -qU faiss-gpu

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/2.4 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m2.4/2.4 MB[0m [31m142.3 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m64.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m298.0/298.0 kB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m82.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.5/49.5 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m85.5/85.5 MB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [3]:
from langchain_community.document_loaders import PyPDFLoader

file_path = ("/content/drive/MyDrive/Colab Notebooks/curso agentes ai/lorem-ipsum_bb6070eb-ed4f-4dca-a255-09ce85625018.pdf")
loader = PyPDFLoader(file_path)
pages = loader.load_and_split()

pages[0]

Document(metadata={'source': '/content/drive/MyDrive/Colab Notebooks/curso agentes ai/lorem-ipsum_bb6070eb-ed4f-4dca-a255-09ce85625018.pdf', 'page': 0}, page_content='Test\xa0document\xa0PDF\xa0\n\xa0\nLorem\xa0ipsum\xa0dolor\xa0sit\xa0amet,\xa0consectetur\xa0adipiscing\xa0elit.\xa0Nulla\xa0est\xa0purus,\xa0ultrices\xa0in\xa0porttitor\xa0\nin,\xa0accumsan\xa0non\xa0quam.\xa0Nam\xa0consectetur\xa0porttitor\xa0rhoncus.\xa0Curabitur\xa0eu\xa0est\xa0et\xa0leo\xa0feugiat\xa0\nauctor\xa0vel\xa0quis\xa0lorem.\xa0Ut\xa0et\xa0ligula\xa0dolor,\xa0sit\xa0amet\xa0consequat\xa0lorem.\xa0Aliquam\xa0porta\xa0eros\xa0sed\xa0\nvelit\xa0imperdiet\xa0egestas.\xa0Maecenas\xa0tempus\xa0eros\xa0ut\xa0diam\xa0ullamcorper\xa0id\xa0dictum\xa0libero\xa0\ntempor.\xa0Donec\xa0quis\xa0augue\xa0quis\xa0magna\xa0condimentum\xa0lobortis.\xa0Quisque\xa0imperdiet\xa0ipsum\xa0vel\xa0\nmagna\xa0viverra\xa0rutrum.\xa0Cras\xa0viverra\xa0molestie\xa0urna,\xa0vitae\xa0vestibulum\xa0turpis\xa0varius\xa0id.\xa0\nVestibulum\xa0

In [5]:
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings.openai import OpenAIEmbeddings

faiss_index = FAISS.from_documents(pages, OpenAIEmbeddings())
docs = faiss_index.similarity_search("lorem ipsum", k=2)

for doc in docs:
  print(str(doc.metadata["page"]) + ":", doc.page_content[:300])

0: Test document PDF 
 
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla est purus, ultrices in porttitor 
in, accumsan non quam. Nam consectetur porttitor rhoncus. Curabitur eu est et leo feugiat 
auctor vel quis lorem. Ut et ligula dolor, sit amet consequat lorem. Aliquam porta eros sed


# CVS


In [8]:
from langchain_community.document_loaders import CSVLoader

file_path_csv = ("/content/drive/MyDrive/Colab Notebooks/curso agentes ai/pokemon.csv")
loader = CSVLoader(file_path_csv)
data = loader.load()

for record in data[:2]:
  print(record)

page_content='id: 1
identifier: bulbasaur
species_id: 1
height: 7
weight: 69
base_experience: 64
order: 1
is_default: 1' metadata={'source': '/content/drive/MyDrive/Colab Notebooks/curso agentes ai/pokemon.csv', 'row': 0}
page_content='id: 2
identifier: ivysaur
species_id: 2
height: 10
weight: 130
base_experience: 142
order: 2
is_default: 1' metadata={'source': '/content/drive/MyDrive/Colab Notebooks/curso agentes ai/pokemon.csv', 'row': 1}
