<a href="https://colab.research.google.com/github/LennyRBriones/langchain-projects/blob/main/langchain_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Insatalar langchain

In [1]:
%%capture
!pip install langchain

In [2]:
!pip show langchain

Name: langchain
Version: 0.0.334
Summary: Building applications with LLMs through composability
Home-page: https://github.com/langchain-ai/langchain
Author: 
Author-email: 
License: MIT
Location: /usr/local/lib/python3.10/dist-packages
Requires: aiohttp, anyio, async-timeout, dataclasses-json, jsonpatch, langsmith, numpy, pydantic, PyYAML, requests, SQLAlchemy, tenacity
Required-by: 


## Document Loader

Ejemplo de pdf descargado desde internet

In [3]:
## import requests

##  url = 'https://www.cs.virginia.edu/~evans/greatworks/diffie.pdf'
##  response = requests.get(url)
##
##  with open('public_key_cryptography.pdf', 'wb') as f:
##     f.write(response.content)

Quizás el Document Loader más relevante es el unstructured pues se encuentra como la base de otros Document Loaders. Sirve por ejemplo para documentos de texto como .txt o .pdf.

In [4]:
%%capture
!pip install langchain unstructured==0.7.12

In [5]:
from langchain.document_loaders import UnstructuredFileLoader

loader = UnstructuredFileLoader("/content/drive/MyDrive/Models/Langchain/test.pdf")
data = loader.load()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


In [6]:
data[0].page_content[:300]

'🏂\n\nCartera de clientes\n\nCartera de clientes es un apartado que se encuentra en Clientes el cual se\n\nutiliza para la creación de Clientes que son frecuentes en el club y agilizar la\n\nventa normal o crédito. Para\n\npoder acceder es necesario contar con permisos especiales. Cualquier duda\n\ncontacta a tu'

In [7]:
type(data)

list

In [8]:
len(data)

1

In [9]:
data[0].metadata

{'source': '/content/drive/MyDrive/Models/Langchain/test.pdf'}

In [10]:
data[0].page_content

'🏂\n\nCartera de clientes\n\nCartera de clientes es un apartado que se encuentra en Clientes el cual se\n\nutiliza para la creación de Clientes que son frecuentes en el club y agilizar la\n\nventa normal o crédito. Para\n\npoder acceder es necesario contar con permisos especiales. Cualquier duda\n\ncontacta a tu Supervisor.\n\nCrear Cliente.\n\n1. Iniciamos sesión en el panel, nos dirigimos al apartado de CLIENTES en el\n\napartado de la Barra superior.\n\n2. Seleccionamos "Cartera de Clientes".\n\nCartera de clientes\n\n1\n\nCartera de clientes\n\n2\n\n3. Al dar "Clic" en "Cartera de clientes" nos manda al siguiente Panel.\n\n3.1. En este apartado encontraremos nuestros clientes agregados.\n\nCartera de clientes\n\n3\n\nCartera de clientes\n\n4\n\n4. Para agregar un Cliente, damos "Clic" en "Acciones", el cual se encuentra en el lado\n\nsuperior derecho y seleccionamos "Crear".\n\n💡 Nota: Es importante ingresar todos los datos del cliente.\n\nCartera de clientes\n\n5\n\nCartera de cli

Existen alternativas que mantienen las páginas del documento PDF en caso de ser necesario esto. Probablemente el más usado es usando PyPDFLoader.

In [11]:
%%capture
!pip install pypdf

In [12]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf")
data = loader.load()

In [13]:
data[5].metadata

{'source': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf',
 'page': 5}


## Text Splitters

Imagina que estás trabajando con un libro muy grueso y necesitas pasarlo por una ventana muy estrecha. ¿Qué harías? Probablemente, lo cortarías en secciones más manejables y las pasarías una por una. Ahora, cambia el libro por un documento largo y la ventana por el modelo de procesamiento de lenguaje natural que estás utilizando. Este escenario es exactamente por qué necesitamos los separadores de texto en el campo de la inteligencia artificial.

LangChain, comprendiendo este desafío, tiene incorporados varios separadores de texto para facilitar la división, combinación, filtrado y manipulación de los documentos. De este modo, puedes transformarlos para que se adapten mejor a tu aplicación.

Cuando nos enfrentamos a textos largos, es imprescindible dividirlos en fragmentos. Aunque esto suena sencillo, no es tan simple como parece. Queremos mantener las partes del texto que están semánticamente relacionadas juntas. Y esto de "semánticamente relacionado" puede variar dependiendo del tipo de texto con el que estés trabajando.

Piensa en el texto como un rompecabezas, cada pieza (o fragmento) tiene su propio significado, pero también contribuye a la imagen general (o el contexto). Queremos separar el rompecabezas en piezas, pero sin perder el sentido de la imagen completa.

Entonces, ¿cómo funcionan exactamente los separadores de texto?

1. Primero, dividen el texto en fragmentos pequeños y semánticamente significativos (a menudo oraciones).
2. Luego, comienzan a combinar estos fragmentos pequeños en un fragmento más grande hasta que alcanzan un tamaño determinado (medido por alguna función).
3. Una vez que alcanzan ese tamaño, hacen de ese fragmento su propio texto y luego comienzan a crear un nuevo fragmento de texto con cierta superposición. Esto es para mantener el contexto entre fragmentos.

En este proceso, puedes personalizar tu separador de texto en dos aspectos: cómo se divide el texto y cómo se mide el tamaño del fragmento.

## RecursiveCharacterTextSplitter

Para facilitar las cosas, LangChain ofrece un separador de texto por defecto: el `RecursiveCharacterTextSplitter`. Este separador de texto toma una lista de caracteres y trata de crear fragmentos basándose en la división del primer carácter. Pero, si algún fragmento resulta demasiado grande, pasa al siguiente carácter, y así sucesivamente. Los caracteres que intenta dividir son ["\n\n", "\n", " ", ""]

El `RecursiveCharacterTextSplitter` ofrece una ventaja importante: intenta preservar tanto contexto semántico como sea posible manteniendo intactos los párrafos, las oraciones y las palabras. Estas unidades de texto suelen tener fuertes relaciones semánticas, lo que significa que las palabras dentro de ellas a menudo están estrechamente relacionadas en significado. Esta es una característica sumamente beneficiosa para muchas tareas de procesamiento del lenguaje natural.

Piensa en una conversación cotidiana, es más fácil entender una idea cuando escuchas la oración completa en lugar de palabras o frases sueltas. Esta misma lógica se aplica a los modelos de procesamiento de lenguaje natural. Al mantener intactos los párrafos, oraciones y palabras, se preserva el 'flujo de conversación' en el texto, lo que puede mejorar la eficacia del modelo al interpretar y comprender el texto.




A partir de nuestros `Document` podemos crear más `Document` con `RecursiveCharacterTextSplitter`, es decir, podemos partirlos manteniendo nuestra metadata.

In [14]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000,
    length_function = len,
    chunk_overlap=200 #Asegurarse de no cortar oraciones
)

documents = text_splitter.split_documents(data)

In [15]:
len(documents)

9

In [16]:
documents[6]

Document(page_content='Cartera de clientes\n7\n2.1 En el Botón " Acciones", el cual se encuentra en la parte superior derecha,  \npodremos editar la informacion del cliente, damos Clic en el y nuevemente Clic en  \n"Editar cliente".', metadata={'source': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf', 'page': 6})

### Tamaño del fragmento y superposición

Imagina que estás trabajando con un rompecabezas de palabras, donde cada pieza es una porción de texto. Para que este rompecabezas sea manejable, necesitas asegurarte de que las piezas son del tamaño correcto y se superponen adecuadamente. En el mundo del procesamiento de texto, estas "piezas" son los fragmentos de texto, y su tamaño y superposición pueden ser esenciales para el rendimiento de tus modelos de aprendizaje automático.

En primer lugar, hablemos del tamaño del fragmento. La pregunta que podrías hacerte es, ¿cuán grande debe ser cada fragmento de texto? Bien, la respuesta depende del modelo de embedding de texto que estés utilizando. Un "modelo de embedding" puede parecer un término intimidante, pero es simplemente una herramienta que convertimos palabras, oraciones o documentos completos en vectores numéricos que las máquinas pueden entender.

Por ejemplo, el modelo de incrustación `text-embedding-ada-002` de OpenAI es excelente para muchas aplicaciones, pero puede manejar hasta 8191 tokens. Ahora, podrías preguntarte, ¿qué es un 'token'? Un token no es lo mismo que un carácter. Un token puede ser una palabra o incluso un signo de puntuación. Por lo tanto, un token podría tener desde un solo carácter hasta una decena de ellos. De esta manera, tu fragmento de texto podría tener miles de caracteres, pero debes asegurarte de que no contenga más de 8191 tokens.

Mantener los fragmentos entre 500 y 1000 caracteres suele ser un buen equilibrio. Este tamaño asegura que el contenido semántico es preservado sin sobrepasar el límite de tokens del modelo.

En cuanto a la superposición, este parámetro decide cuánto texto queremos repetir entre fragmentos. ¿Por qué querríamos hacer esto? Bueno, la superposición ayuda a mantener el contexto entre fragmentos contiguos. Es como tener una pequeña ventana de memoria que se traslada de un fragmento a otro. Generalmente, se recomienda ajustar la superposición al 10-20% del tamaño del fragmento. Esto asegura cierta conexión entre los fragmentos sin causar demasiada repetición. Si la superposición es demasiado grande, puede ralentizar el proceso y aumentar los costos de procesamiento.

Por lo tanto, si estás lidiando con textos relativamente largos, esta es la configuración que podrías utilizar.

In [17]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
    length_function = len,
)

# o

# text_splitter = RecursiveCharacterTextSplitter(
#     chunk_size = 1000,
#     chunk_overlap  = 100,
#     length_function = len,
# )

In [18]:
documents = text_splitter.split_documents(data)

In [19]:
len(documents)

10

In [20]:
type(documents)

list

In [21]:
documents[0].page_content

'Cartera de clientes\n1🏂\nCartera de clientes\nCartera de clientes es un apartado que se encuentra en Clientes el cual se  \nutiliza para la creación de Clientes que son frecuentes en el club y agilizar la  \nventa normal o crédito.                                                                            Para poder  \nacceder es necesario contar con permisos especiales. Cualquier duda contacta a  \ntu Supervisor .\nCrear Cliente.'

### Embeddings instructures

Generadores de embedings para futuros textos

In [22]:
%%capture
!pip install InstructorEmbedding sentence_transformers

In [23]:
from langchain.embeddings import HuggingFaceInstructEmbeddings

# A junio de 2023 no hay modelos Instruct para español
embedding_instruct = HuggingFaceInstructEmbeddings(
    model_name="hkunlp/instructor-large",
    model_kwargs={"device":"cuda"}
)

# El device podría ser cpu

  from tqdm.autonotebook import trange


Downloading (…)c7233/.gitattributes:   0%|          | 0.00/1.48k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/270 [00:00<?, ?B/s]

Downloading (…)/2_Dense/config.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/3.15M [00:00<?, ?B/s]

Downloading (…)9fb15c7233/README.md:   0%|          | 0.00/66.3k [00:00<?, ?B/s]

Downloading (…)b15c7233/config.json:   0%|          | 0.00/1.53k [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Downloading spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

Downloading (…)c7233/tokenizer.json:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/2.41k [00:00<?, ?B/s]

Downloading (…)15c7233/modules.json:   0%|          | 0.00/461 [00:00<?, ?B/s]

load INSTRUCTOR_Transformer
max_seq_length  512



## Bases de datos vectoriales

Imagina que eres un bibliotecario, pero tu biblioteca consta de vectores de alta dimensión en lugar de libros, y tus usuarios son agentes de IA en lugar de humanos. Por futurista que parezca, esta es la realidad de una base de datos de vectores: un banco de memoria para la IA, diseñado para almacenar y recuperar datos vectoriales de alta dimensión con eficiencia y precisión. Al igual que un bibliotecario organizaría y buscaría libros, una base de datos de vectores proporciona un método para gestionar y encontrar vectores en un espacio de alta dimensión.

En este capítulo, profundizaremos en las complejidades de las bases de datos de vectores. Desentrañaremos su creciente importancia, entenderemos qué implica la data vectorial y exploraremos los aspectos prácticos de las bases de datos de vectores.

## El ascenso y la significancia de las bases de datos vectoriales

Las bases de datos de vectores están ganando prominencia en la industria tecnológica, evidenciado por las significativas inversiones en tecnologías de bases de datos de vectores en los últimos años. Algunos ejemplos incluyen la inversión de $28M de Pinecone, la ronda semilla de $10M de LangChain y la ronda semilla de $18M de Chroma. El flujo de dinero habla mucho sobre el futuro y el potencial de las bases de datos de vectores en la IA.

La evolución de las tecnologías de gestión de datos puede asemejarse a un río: siempre fluyendo, adaptándose continuamente al paisaje. Desde esquemas rígidos y estructurados en bases de datos relacionales hasta el manejo flexible de datos no estructurados o semi-estructurados en bases de datos NoSQL, la gestión de datos es un dominio en flujo, evolucionando para satisfacer nuestras crecientes necesidades de datos.

La aparición de las bases de datos de vectores es el último desarrollo en este viaje. Estas bases de datos abordan los desafíos de gestionar y consultar datos vectoriales de alta dimensión, también conocidos como "incrustaciones de vectores".

### El rol de las bases de datos vectoriales

Las bases de datos de vectores, también conocidas como bases de datos de búsqueda de similitud o bases de datos de búsqueda del vecino más cercano, están especialmente diseñadas para almacenar y recuperar incrustaciones de vectores. Estas bases de datos pueden realizar operaciones como encontrar elementos similares a un vector dado o buscar elementos que cumplan con ciertos criterios de similitud. Imagina poder preguntarle a tu base de datos, "encuéntrame más palabras como 'alegre'" y obtener respuestas como 'contento', 'feliz' y 'jubiloso'. Las bases de datos tradicionales no están diseñadas para este tipo de consultas, donde las bases de datos de vectores destacan.

Con los conceptos básicos cubiertos, ahora estamos preparados para adentrarnos más en el mundo de la gestión de datos vectoriales. En las siguientes secciones, exploraremos cómo integrar las bases de datos de vectores usando Python y compararemos algunas de las plataformas líderes como Pinecone, Chroma y LangChain.

Las bases de datos tienen una rica historia, evolucionando desde simples registros hasta estructuras complejas capaces de capturar, consultar y analizar información a lo largo del tiempo. Nos encontramos en un momento crucial, ya que el auge de la IA generativa se entrelaza con nuestras herramientas de gestión de datos, creando nuevos potenciales y desafíos.

Los vectores representan 'objetos' de datos, llevando información sobre el tiempo, el lugar, los atributos y más, permitiéndonos enriquecer nuestros datos. Ayudan a rastrear tendencias temporales, permitiéndonos


In [24]:
%%capture
!pip install chromadb

In [25]:
from langchain.vectorstores import Chroma

NOMBRE_INDICE_CHROMA = "instruct-embeddings-bm-test"

vectorstore_chroma = Chroma.from_documents(
    documents=documents,
    embedding=embedding_instruct,
    persist_directory=NOMBRE_INDICE_CHROMA
)

In [26]:
type(embedding_instruct)

langchain.embeddings.huggingface.HuggingFaceInstructEmbeddings

Hacer que nuestra vectorstore persista en nuestro disco

In [27]:
vectorstore_chroma.persist()

In [28]:
vectorstore_chroma = Chroma(
    persist_directory=NOMBRE_INDICE_CHROMA,
    embedding_function=embedding_instruct
)

Podemos cargar la base de datos persistente desde el disco y usarla en cualqueir momento

In [35]:
query = "¿Cómo elimino a alguien de la cartera?"

docs = vectorstore_chroma.similarity_search_with_score(query, k=5)

In [36]:
len(docs)

5

In [37]:
docs[3]

(Document(page_content='Cartera de clientes\n4\n 4.1 En este apartado, ingresaremos los datos del cliente, así como su dirección y los  \ndatos de la empresa (Si es que pertenecen a una).', metadata={'page': 3, 'source': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf'}),
 0.2347068814817055)


#### Creando un Retriever

Un retriever es una herramienta esencial para realizar búsquedas dentro de nuestros 'vectorstores'. En términos sencillos, un retriever es algo así como un "buscador" o "recuperador".

El retriever permite definir el número de documentos relevantes que queremos obtener como resultado de nuestras búsquedas. Esto se puede ajustar mediante el argumento `search_kwargs` en el método `.as_retriever()`.

Es posible especificar la estrategia que se usará para encontrar los documentos relevantes usando `search_type`. Este parámetro puede tomar dos valores: "similarity" y "exact_match".

**Similaridad ("similarity")**: Busca documentos que sean similares a la consulta. Los documentos se clasifican según su puntuación de similitud, donde una puntuación más baja indica una mejor coincidencia.

**Coincidencia Exacta ("exact_match")**: Busca documentos que coincidan exactamente con la consulta. No considera la similitud entre la consulta y los documentos.

In [38]:
retriever_chroma = vectorstore_chroma.as_retriever(
    search_kwargs={'k': 2}
)

In [39]:
retriever_chroma.get_relevant_documents("¿Qué es la cartera clientes?")

[Document(page_content='Cartera de clientes\n1🏂\nCartera de clientes\nCartera de clientes es un apartado que se encuentra en Clientes el cual se  \nutiliza para la creación de Clientes que son frecuentes en el club y agilizar la  \nventa normal o crédito.                                                                            Para poder  \nacceder es necesario contar con permisos especiales. Cualquier duda contacta a  \ntu Supervisor .\nCrear Cliente.', metadata={'page': 0, 'source': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf'}),
 Document(page_content='Cartera de clientes\n9', metadata={'page': 8, 'source': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf'})]

#### Creando una cadena para preguntar

In [43]:
%%capture
!pip install openai

In [44]:
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(
    openai_api_key="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",
    model_name='gpt-3.5-turbo',
    temperature=0.0
)

In [45]:
from langchain.chains import RetrievalQAWithSourcesChain

qa_chain_with_sources = RetrievalQAWithSourcesChain.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever_chroma
)

In [50]:
query = "¿Qué es la cartera clientes?"
respuesta = qa_chain_with_sources(query)
respuesta

{'question': '¿Qué es la cartera clientes?',
 'answer': 'La cartera de clientes es un apartado utilizado para la creación de clientes frecuentes en un club y agilizar la venta normal o crédito. Se requieren permisos especiales para acceder a ella. No se proporciona información adicional sobre su definición o función específica.\n',
 'sources': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf'}

In [51]:
query = "¿Cómo agrego a un usuario?"
respuesta = qa_chain_with_sources(query)
respuesta

{'question': '¿Cómo agrego a un usuario?',
 'answer': 'Para agregar a un usuario, debes dar clic en "Acciones" en el lado superior derecho y seleccionar "Crear". Es importante ingresar todos los datos del cliente.\n',
 'sources': '/content/drive/MyDrive/Models/Langchain/Cartera de clientes 6c5fd19f890e4317a3c68e8b12da3ea0.pdf'}

Todos estos son resultados buenos y relevantes. Pero, ¿qué podemos hacer con ellos? Existen diversas tareas que podemos realizar, pero una de las más interesantes (y muy bien soportada por LangChain) es la "Generación de Preguntas y Respuestas" o GQA.

En la Generación de Preguntas y Respuestas (GQA), un modelo de lenguaje se utiliza para generar respuestas a preguntas basadas en un texto dado. Esto puede ser particularmente útil en una variedad de aplicaciones, desde chatbots inteligentes que pueden responder a preguntas basadas en manuales de usuario o documentación de productos, hasta motores de búsqueda más avanzados que pueden responder a preguntas en lugar de simplemente proporcionar una lista de documentos relevantes.

Los modelos de GQA trabajan generando representaciones vectoriales de los documentos y las consultas, y luego usan medidas de similitud (como las mencionadas anteriormente) para identificar los documentos o partes de documentos que son más relevantes para la consulta. Esto va más allá de la simple búsqueda de palabras clave, ya que los modelos pueden capturar la semántica y el contexto de las consultas y documentos, lo que les permite responder preguntas más complejas y proporcionar respuestas más precisas y detalladas.

En GQA, tomamos la consulta como una pregunta que debe ser respondida por un LLM, pero el LLM debe responder la pregunta basándose en la información que se le devuelve desde el almacén de vectores.

Para hacer esto, inicializamos un objeto RetrievalQA, pero antes creamos un objeto de tipo llm y en este caso usaremos el modelo `gpt-3.5-turbo` de OpenAI.

In [None]:
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(
    openai_api_key="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",
    model_name='gpt-3.5-turbo',
    temperature=0.0
)