<a href="https://colab.research.google.com/github/IreneCalle/Langchain__OpenAI_Pinecone_paso_a_paso_2024/blob/main/Langchain_%7C%7C_OpenAI_%7C%7C_Pinecone_paso_a_paso_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **LangChain + OpenAI + Pinecone**

‚úÖ En este cuaderno, vamos a instalar langchain y Pinecone y configurar un

entorno de desarrollo con .env.

‚úÖ Cubre los conceptos b√°sicos de cadenas, prompts, plantillas y agentes.

‚úÖ Luego pasamos a embeddings y los vectores, y c√≥mo se guardan en √≠ndices.

‚úÖTratamos Pinecone y c√≥mo se gestionan los √≠ndices.

‚úÖ Finalmente, combinamos todo para crear la base de una aplicaci√≥n.


‚ùóPara que este cuaderno funcione necesitas completarlo con tus propias claves de OpenAI y Pinecone. No ejecutes todas las celdas sin haber configurado tus cuentas. (instrucciones en el cuaderno)

# **LangChain primeros pasos** ü¶ú

LangChain es un marco de orquestaci√≥n de c√≥digo abierto para el desarrollo de aplicaciones que utilizan modelos de lenguaje de gran tama√±o (IBM). Es una especie de herramienta intermedia y entorno que te permite construir aplicaciones que usan, por ejemplo, OpenAI: un chatbot, un procesador de textos, o un asistente de Marketing.

Estos son los pasos para crear un entorno con un cuaderno de Google Colabü™ê
y empezar a usar langchain ‚õìÔ∏èü¶ú

Muchas de las ideas est√°n extra√≠das de materiales del ingeniero de software Andrei Dumitrescu, (definitivamene recomiendo sus cursos), y de los art√≠culos de
PrinceKrampah, claros y directos ü™Ñ





## **1. Creaci√≥n de el entorno**

En primer lugar instalaremos las bibliotecas b√°sicas que utilizaremos.

In [1]:
# Bibliotecas b√°sicas
!pip install --upgrade pip
!pip install python-dotenv
!pip install langchain
!pip install tiktoken
!pip install pinecone-client
!pip install openai
!pip install langchain_openai
!pip install python-decouple
!pip install langchain_experimental -q


Collecting pip
  Downloading pip-23.3.2-py3-none-any.whl (2.1 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.1/2.1 MB[0m [31m9.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
Successfully installed pip-23.3.2
Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.0
[0mCollecting langchain
  Downloading langchain-0.1.0-py3-none-any.whl.metadata (13 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.3-py3-none-any.whl.metadata (25 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting l

### **Archivo .env y variables de entorno**

* **dotenv** es una librer√≠a en Python que permite cargar variables de entorno desde un archivo denominado .env en una aplicaci√≥n.

* En el archivo .env incluiremos las claves de las APIs a las que tenemos que
conectarnos como variables de nuestro entorno.

* Crea una cuenta en [Pinecone](https://app.pinecone.io/?sessionType=login) y [OpenAI](https://platform.openai.com/login) y en la secci√≥n de claves API de cada una genera una nueva clave (Generate API Key) desde cada una de tus cuentas en ambos sitios.

* Copia las claves secretas de openAI y Pinecone y el nombre del entorno de pinecone y p√©galas en la variable env_content.

In [2]:
# Importamos la funcionalidad para leer las variables de entorno

from dotenv import dotenv_values


In [3]:
# Modifica estos datos para usar tus propias claves de openAI y Pinecone y nombre del entorno generado en Pinecone (en la web aparece junto a la clave como "environment")

env_content = '''
OPENAI_API_KEY="AquiTuClave"

PINECONE_API_KEY="AquiTuClave"

PINECONE_ENV="AquiTuEntorno"
'''

In [4]:
# Creaci√≥n de archivo .env donde guardaremos nuestras variables
with open('.env', 'w') as file:
    file.write(env_content)

In [5]:
# Comprobar la creaci√≥n del archivo listando el contenito del directorio actual
!ls -la


total 20
drwxr-xr-x 1 root root 4096 Jan 14 16:33 .
drwxr-xr-x 1 root root 4096 Jan 14 16:31 ..
drwxr-xr-x 4 root root 4096 Jan 11 17:01 .config
-rw-r--r-- 1 root root  155 Jan 14 16:33 .env
drwxr-xr-x 1 root root 4096 Jan 11 17:02 sample_data


In [6]:
# Carga de los valores de las variables del entorno
env_vars = dotenv_values(".env")


In [7]:
# Librer√≠a para trabajar con funcionalidades del sistema operativo
import os

In [8]:
# Importar funci√≥n de carga de las variables y b√∫squeda autom√°tica del archivo .env
from dotenv import load_dotenv, find_dotenv

In [9]:
# Cargamos el dotenv (en este caso seleccionamos que lo encuentre por √©l mismo)
load_dotenv(find_dotenv(), override=True)

True

In [64]:
# Probar que funciona pidi√©ndole una clave
os.environ.get("OPENAI_API_KE")

In [11]:
# Otra forma de exportar claves sin dotenv es la siguiente:
!export OPENAI_API_KEY="AquiTuCLave"


Con eso ya tenemos un entorno completo en el que comenzar a experimentar.üí°

## **2. Conceptos b√°sicos de GPT-3.5 & langchain**

Las "**conversaciones**" en el contexto de un chatmodel como ChatGPT 3.5 se refieren a intercambios de mensajes entre un usuario y el modelo de IA. Estas conversaciones tienen entradas (inputs) y salidas (outputs) que representan los mensajes enviados y recibidos durante la interacci√≥n.

Los **"inputs" son los mensajes o solicitudes** enviadas por el usuario al modelo. Pueden ser preguntas, comentarios, solicitudes de informaci√≥n o cualquier tipo de texto que el usuario desee comunicar al sistema.

Los **"outputs" son las respuestas** generadas por el modelo en respuesta a los inputs.

#### Mensajes
OpenAI emplea una lista de diccionarios llamados mensajes. Los diccionarios definen 3 roles: system, user y assistant.
- **System role:** Permite especificar la forma en que el modelo responde preguntas. Ejemplo cl√°sico: "Eres un asistente √∫til y experto en derecho".

- **User role:** Equivalente a las consultas realizadas por el usuario.

- **Assistant role:** Son las respuestas del modelo (basadas en los mensajes del usuario).

In [12]:
# Primero, importamos un esquema para la estructura llamado "messages"
from langchain.schema import(

AIMessage,
HumanMessage,
SystemMessage
)

### **Primera consulta** ‚ö°

Ya estamos listos para seleccionar un modelo de IA y realizar nuestra primera consulta.

**Par√°metros:**

-**Temperatura** (Temperature):

La temperatura es un par√°metro que afecta la aleatoriedad. Con un valor bajo el modelo tiende a elegir las opciones m√°s probables. Con un valor m√°s alto es m√°s creativo.

-**Max Tokens**
Controla la longitud m√°xima del texto generado.


*-**NOTA**: a fecha de enero 2024 OpenAI est√° actualizando sus tarifas y es posible que el servicio de consultas no sea gratuito. Puedes cargar una cantidad nominal de 2-3 euros en la app para poder ejecutar consultas. Desactiva la opci√≥n de recarga autom√°tica para evitar incurrir en m√°s costes.*

In [13]:
# Aunque no es una pr√°ctica ideal, he suprimido los warnings a efectos de focalizar en langchain
import warnings
warnings.filterwarnings('ignore', module='langchain')

In [14]:
from langchain.chat_models import ChatOpenAI

In [15]:
# Seleccionamos el modelo que queremos, determinamos con system c√≥mo debe comportarse el asistente, solicitamos su respuesta con el mensaje humano
chat = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.5, max_tokens=1024)


messages = [
SystemMessage(content= "you are a scientist and respond only in German"),
HumanMessage(content= "explain relativity in one sentence")

]


output = chat(messages)

In [16]:
# Imprimimos la respuesta, y vemos que responde exactamente seg√∫n lo requerido por los mensajes
print(output)

content='Die Relativit√§tstheorie besagt, dass Raum und Zeit nicht absolut sind, sondern von der Bewegung und der Gravitation abh√§ngen.'


### **Prompt templates** ‚ö°


El t√©rmino prompt se refiere al input que damos al modelo.
Las templates o plantillas son una forma de crear promtps din√°micas que sean m√°s sencillas y flexibles. En una plantilla existe un texto base en el que el usuario introduce el valor de su input.

Son una forma de reproducir un prompt con variaciones.

Se ve mucho mejor con un ejemplo ‚¨áÔ∏è

In [17]:
#from langchain_openai import ChatOpenAI
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from decouple import config
from langchain import PromptTemplate


En primer lugar creamos una plantilla de prompt, e introducimos entre corchetes las variables, que pueden hacer referencia tanto al contenido como al modo de presentaci√≥n de este. Por ejemplo, el tema que queremos tratar, el n√∫mero de l√≠neas que queremos en la respuesta, el idioma de respuesta.

In [18]:
chat = ChatOpenAI()

# creaci√≥n del prompt

prompt_template: str = """/
You are a pathologist expert, give 3 interesting facts about the following disease: {disease}. Do not use technical words, give easy /
to understand and short responses. Answer in {language}
"""

# Objeto prompt template
prompt = PromptTemplate.from_template(template=prompt_template)

Despu√©s se formatea a str la plantilla, con los valores que queremos insertar en ella.

Cuando lo tenemos instanciamos a openAI y generamos una predicci√≥n.

In [19]:
# formateamos las respuestas que queremos
prompt_formatted_str: str = prompt.format(
    disease="HIV", language= "French")

# Se instancia OPENAI con la clave que hemos guardado
llm = OpenAI(openai_api_key=config("OPENAI_API_KEY"))

# Se genera una predicci√≥n
prediction = llm.predict(prompt_formatted_str)


In [20]:
# Probamos a imprimir nuestra prediccion
print(prediction)


1. Le VIH est un virus qui attaque le syst√®me immunitaire du corps, le rendant plus vuln√©rable aux maladies et infections.
2. Bien qu'il n'existe pas encore de rem√®de pour le VIH, des m√©dicaments appel√©s antir√©troviraux peuvent aider √† contr√¥ler la maladie et √† r√©duire les risques de transmission.
3. Le VIH peut √™tre transmis par le sang, les relations sexuelles non prot√©g√©es et de la m√®re √† l'enfant pendant la grossesse, l'accouchement ou l'allaitement. Il est important d'utiliser des pr√©cautions pour se prot√©ger et prot√©ger les autres du VIH.


In [21]:
# Probamos con otras variables para obtener otra respuesta
prompt_formatted_str: str = prompt.format(
    disease="Common cold", language= "Galizian")

prediction = llm.predict(prompt_formatted_str)

print(prediction)


1. O resfriado com√∫n √© unha enfermidade moi com√∫n que afecta as v√≠as respiratorias superiores, como o nariz, garganta e pulm√≥ns.
2. A pesar de ser chamado "resfriado", esta enfermidade non est√° relacionada co fr√≠o ou a humidade, sen√≥n que √© causada principalmente por virus que se propagan de persoa a persoa.
3. A√≠nda que non hai cura para o resfriado com√∫n, pode ser tratado con medicamentos que alivian os s√≠ntomas como a congesti√≥n nasal, a tose e a dor de cabeza. O descanso e a hidrataci√≥n tam√©n son importantes para recuperarse.


### **Cadenas simples** ‚õìÔ∏è

Normalmente, en una aplicaci√≥n el LLM por s√≠ solo no basta. Las cadenas permiten combinar varios elementos para crear una aplicaci√≥n completa. Por ejemplo, podemos crear una aplicaci√≥n que recibe el input del usuario, lo transforma, y luego env√≠a el resultado de esa transformaci√≥n a el LLM para que pueda procesarlo .

Langchain ofrece una implementaci√≥n est√°ndar para estas cadenas que hace que su uso sea m√°s sencillo. En el primer ejemplo, solo contamos con un elemento.



In [22]:
from langchain.chains import LLMChain, SimpleSequentialChain
llm = OpenAI(openai_api_key=config("OPENAI_API_KEY"))


In [23]:
# Creaci√≥n del LLM
llm = ChatOpenAI(model_name='gpt-3.5-turbo', temperature=0.5)

# Plantilla
template = '''You are an a history teacher.
Write a few sentences about the following time of history {time} in {language}.'''

prompt = PromptTemplate(
    input_variables=['time', 'language'],
    template=template
)

chain = LLMChain(llm=llm, prompt=prompt)
output = chain.run({'time': 'Middle Ages', 'language': 'french'})
print(output)


Les Moyen √Çge, √©galement connus sous le nom de l'√©poque m√©di√©vale, √©taient une p√©riode de l'histoire europ√©enne qui s'√©tendait du 5√®me au 15√®me si√®cle. C'√©tait une p√©riode marqu√©e par l'effondrement de l'Empire romain et l'√©mergence de nouveaux royaumes et seigneuries f√©odales. Les Moyen √Çge √©taient caract√©ris√©s par une soci√©t√© hi√©rarchis√©e, o√π les chevaliers, les seigneurs et les paysans jouaient des r√¥les importants. Cette p√©riode a √©galement √©t√© marqu√©e par des √©v√©nements tels que les Croisades, la peste noire et la construction de magnifiques cath√©drales gothiques.


Otro ejemplo con variable de edad.

In [24]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=1.5)

template = """ You are a {age} year-old that loves {hobby}, write a few sentences of why you like it. Answer in Spanish """

prompt= PromptTemplate(
    input_variables=['age', 'hobby'],
    template= template
)

chain = LLMChain(llm=llm, prompt=prompt)
output = chain.run({'age': '11', 'hobby': 'swimming'})
print(output)


Me gusta mucho nadar porque es una forma divertida de ejercitarme. Durante el verano, disfruto pasar d√≠as enteros en la piscina jugando con mis amigos y sumergi√©ndome bajo el agua. Nadar tambi√©n me relaja y me hace sentir libre y en paz. Adem√°s, me encanta aprender diferentes estilos de nataci√≥n y superar nuevos desaf√≠os en el agua.


### **Cadenas secuenciales simples** ‚õìÔ∏è



En las cadenas secuenciales, el output de un prompt se utiliza como input del siguiente.

In [25]:
from langchain.chains import LLMChain, SimpleSequentialChain

# Creaci√≥n de las instancia llm
llm1 = ChatOpenAI(model_name='gpt-3.5-turbo', temperature=0.5, max_tokens=1024)

# Primer prompt: pedimos que defina un concepto
prompt1 = PromptTemplate(
    input_variables=['concept'],
    template='''You are an experienced philosopher, explain in two lines the concept of {concept}, answer in Spanish.'''
)


# Cadena 1
chain1 = LLMChain(llm=llm1, prompt=prompt1)


# Pedimos que ampl√≠e la definici√≥n del prompt1 con definiciones de otros autores
llm2 = ChatOpenAI(model_name='gpt-3.5-turbo', temperature=1.2)
prompt2 = PromptTemplate(
    input_variables=['definition'],
    template='Given the definition {definition}, provide the philosophical approach to it of 2 different philosophers in 2 lines, would they agree with the definition given?. Answer in Spanish'
)


# Cadena 2
chain2 = LLMChain(llm=llm2, prompt=prompt2)


# Cadena final secuencial en orden
overall_chain = SimpleSequentialChain(chains=[chain1, chain2], verbose=True)

# Ejecutamos un ejemplo
output = overall_chain.run('evil')



[1m> Entering new SimpleSequentialChain chain...[0m
[36;1m[1;3mEl concepto de mal se refiere a la manifestaci√≥n de acciones o intenciones que causan da√±o o sufrimiento innecesario a otros seres conscientes, violando principios √©ticos y morales fundamentales.[0m
[33;1m[1;3m1) Para Immanuel Kant, el concepto de mal est√° relacionado con el incumplimiento de los principios √©ticos universales y con la acci√≥n que trata a otros seres como meros medios para un fin, por lo que estar√≠a de acuerdo con la definici√≥n dada.

2) Seg√∫n Friedrich Nietzsche, el concepto de mal es una cuesti√≥n relativa y subjetiva, dependiendo de la perspectiva y los valores individualistas, por lo que podr√≠a cuestionar la definici√≥n dada.[0m

[1m> Finished chain.[0m


Aqu√≠ el ejemplo de una app que pide un concepto filos√≥fico y te aporta una definici√≥n y la visi√≥n de dos autores.

In [26]:
# Funci√≥n que pide un concepto al usuario por pantalla y devuelve la impresi√≥n de la variable output
def get_user_input_and_run_chain():
    concept = input("Ingrese un concepto de filosof√≠a: ")
    output = overall_chain.run(concept)
    print(f"Resultado: {output}")

# Ejecutamos la funci√≥n
"""
get_user_input_and_run_chain()
"""


'\nget_user_input_and_run_chain()\n'

### **Langchain agents** ü¶æ

Los LLM son muy eficientes en algunas tareas, pero pueden dar respuestas terribles en algunas otras como l√≥gica, c√°lculo, o informaci√≥n reciente. Por ejemplo, a d√≠a de hoy, si le preguntas a ChatGPT una operaci√≥n matem√°tica con exponentes o por una respuesta sobre langchain agents probablemente te proporcione respuestas incorrecta.

Los agentes de langchain permiten acceder a las herramientas necesarias para poder hacer tareas como calcular o acceder a informaci√≥n actualizada.


**Ejemplo**
En este caso, en lugar de que el modelo nos genere la respuesta a un c√°lculo directamente, vamos a hacer que genere el c√≥digo de Python y luego lo ejecute para que nos de una respuesta correcta ‚ú®

In [27]:
from langchain_experimental.agents.agent_toolkits import create_python_agent
from langchain_experimental.tools.python.tool import PythonREPLTool
from langchain.llms import OpenAI

In [28]:
llm = OpenAI(temperature=0)

# Agente para ejecutar c√≥digo Python. Los tools son funciones que los agentes emplean para interactuar con el mundo exterior
agent_executor = create_python_agent(
    llm=llm,
    tool= PythonREPLTool(),
    verbose=True

)

In [29]:
# Le pasamos nuestra consulta en lenguaje natural


agent_executor.run("calcula el factorial de 13  y despues calcula la raiz cuadrada del resultado  y nuestralo con dos decimales")
agent_executor.run("5.1**7.3")




[1m> Entering new AgentExecutor chain...[0m




[32;1m[1;3m To calculate the factorial of 13, we can use a for loop to multiply all numbers from 1 to 13. To calculate the square root, we can use the math module.
Action: Python_REPL
Action Input: import math[0m
Observation: [36;1m[1;3m[0m
Thought:[32;1m[1;3m Now that we have imported the math module, we can use the sqrt function to calculate the square root.
Action: Python_REPL
Action Input: math.sqrt(13*12*11*10*9*8*7*6*5*4*3*2*1)[0m
Observation: [36;1m[1;3m[0m
Thought:[32;1m[1;3m We can use string formatting to display the result with two decimal places.
Action: Python_REPL
Action Input: print("{:.2f}".format(math.sqrt(13*12*11*10*9*8*7*6*5*4*3*2*1)))[0m
Observation: [36;1m[1;3m78911.47
[0m
Thought:[32;1m[1;3m I now know the final answer
Final Answer: 78911.47[0m

[1m> Finished chain.[0m


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m I can use the power operator to raise 5.1 to the power of 7.3
Action: Python_REPL
Action Input: 5.1**7.3[0m
Obs

'146306.05007233328'

### **Los embeddings üåü**

 Antes de seguir, conviene mencionar un concepto clave: los embeddings.

 Los embeddings son el n√∫cleo de construir aplicaciones de LMS.

Las embeddings de texto son **representaciones num√©ricas del texto** y se utilizan en NLP y aprendizaje autom√°tico.

Las embeddings de texto se pueden utilizar para medir la **relaci√≥n y similitud** entre dos fragmentos de texto.

- La **relaci√≥n** es una medida de c√≥mo de estrechamente est√°n relacionados en significado dos fragmentos de texto.

- En este contexto, la distancia entre dos embeddings o dos vectores mide su relaci√≥n, lo que se traduce en la relaci√≥n entre los conceptos de texto que representan.

‚û°Ô∏è **Dos Embeddings o vectores similares representan conceptos similares.**

Hay dos enfoques comunes para medir la relaci√≥n y similitud entre embeddings de texto: **Similitud coseno y distancia euclidiana.**

Un ejemplo de c√≥mo se pueden utilizar las embeddings de texto para medir la relaci√≥n y similitud es la clasificaci√≥n de textos, la agrupaci√≥n de textos o el question-anwering.

## **3. Bases de datos de vectores: Pinecone**


Uno de los retos actuales de la IA es el **procesamiento eficiente** de los datos.

- Las Vector Databases son bases de datos dise√±adas para almacenar y recuperar vectores num√©ricos, como **embeddings**.
- Estas bases de datos permiten realizar **consultas eficientes** basadas en la similitud de los vectores.

- Se usan para almacenar **datos no estructurados**.
- Se usan en los chatbots, la traducci√≥n inform√°tica y tareas de aprendizaje autom√°tico.
- En estos ejemplos empleamos Pinecone, que ofrece una infraestructura para almacenar y recuperar vectores similares, como embeddings (representaciones num√©ricas) de texto.

### **Primeros pasos con Pinecone üåü**

In [30]:
# Importamos e iniciamos con las claves guardadas al inicio
import pinecone
pinecone.init(
    api_key=os.environ.get('PINECONE_API_KEY'),
    environment= os.environ.get('PINECONE_ENV'))

  from tqdm.autonotebook import tqdm


In [31]:
pinecone.info.version()

VersionResponse(server='2.0.11', client='2.2.4')

### **√çndices en Pinecone**

- Un √≠ndice es la unidad organizativa de **m√°s alto nivel** de datos vectoriales en Pinecone.

- Acepta y almacena vectores, atiende consultas y realiza otras operaciones vectoriales

- Cada √≠ndice se ejecuta en al menos una c√°psula (**pod**).

- Las c√°psulas son unidades preconfiguradas de hardware para ejecutar un servicio de Pinecone.



In [32]:
# listamos los √≠ndices y no hay nada
pinecone.list_indexes()


['langchain-pinecone']

In [33]:
index_name = 'langchain-pinecone'


# Creamos el √≠ndice si no existe. 1536 es la dimension de los embeddings de OpenAI
# El plan gratuito solo nos permite 1 pod
if index_name not in pinecone.list_indexes():
  print(f'Creando √≠ndice con el nombre {index_name}..........')
  pinecone.create_index(index_name, dimension=1536, metric='cosine', pods=1, pod_type='p1.x2')
  print("Preparado :)")
else:
    print(f'El indice  {index_name} ya existe.')

# Cuando termines puedes comprobar que est√° en tu cuenta de pinecone, en la secci√≥n "indexes"

El indice  langchain-pinecone ya existe.


* **Consultar √≠ndice**: pinecone.describe_index(index_name)
* **Borrar √≠ndice**: pinecone.delete_index(index_name)
* **Estad√≠sticas**: index.describe_index_stats()

In [34]:
# Consultamos las estad√≠sticas del √≠nidce
index = pinecone.Index(index_name)
index.describe_index_stats()




{'dimension': 1536,
 'index_fullness': 0.00605,
 'namespaces': {'': {'vector_count': 605}},
 'total_vector_count': 605}

### **Consultas de similaridad**

 A continuaci√≥n hay un ejemplo b√°sico de b√∫squeda y recuperaci√≥n de informaci√≥n basada en similitud de vectores. Este tipo de enfoque se utiliza en diversas aplicaciones, como sistemas de recomendaci√≥n, b√∫squeda de im√°genes similares, recuperaci√≥n de documentos. En este caso, en lugar de trabajar con datos reales, vamos a generar vectores aleatorios, y compararlos con un vector de consulta, tambi√©n aleatorio.

  **Generar vectores ‚ÜóÔ∏è‚ÜóÔ∏è**


Vamos a generar algunos vectores aleatorios para nuestro √≠ndice con la biblioteca random y list comprehension.
Creamos una lista llamada vectors que contiene 1536 n√∫meros decimales aleatorios en el rango [0.0, 1.0) como necesitamos 5 vectores, hacemos esto 5 veces.

In [35]:
import random

In [36]:
# Generar 5 vectores de 1536 n√∫meros 0-1
vectors = [[random.random() for _ in range (1536)]for v in range (5)]



In [37]:
# Creamos una lista con cinco elementos que se corresponden con los ids de los vectores
ids = list("abcde")

Ahora vamos a conectar los ids que hemos creado y los vectores en una lista de tuplas. El m√©todo que usamos nos devolver√° el n√∫mero de vectores que hemos insertado, en este caso 5.

In [38]:
# Seleccionamos el √≠ndice e insertamos los vectores en el √≠ndice con el m√©todo upsert

index.upsert(vectors=zip(ids, vectors))


{'upserted_count': 5}

**Algunas operaciones √∫tiles con vectores**
* Upsert (inserci√≥n/actualizaci√≥n de vectores):
 - index.upsert(vectors=zip(ids, vectors))
 - index.upsert(vectors=[('c',[0.3]*1536)])
* Selecci√≥n (fetch) :
 - index.fetch(ids=['c','d'])
* Borrar:
 - index.delete(ids=['b','d'])
 *Si seleccionas un vector que no existe no te devolver√° error, sino un vector vac√≠o.




**Queries (consulta)**

Vamos a buscar los vectores m√°s similares a nuestro vector de consulta.

In [39]:
# Creamos el vector de las queries

vector_Q = [random.random() for _ in range(1536) for v in range (1)]

# La query que hagamos devolver√° los ids con de los vectores m√°s similares con el namespace del √≠ndice junto con su similaridad.





In [40]:
# Creamos la query. Si revisas documentaci√≥n antigua, puede que encuentres el par√°metro 'query' en lugar de 'vector', pero ya est√° deprecado

# Esto nos retornar√° los 3 vectores m√°s similares, junto con su puntuaci√≥n, en orden descendente

index.query(
    vector= vector_Q,
    top_k=3,
    include_values= False
)



{'matches': [{'id': 'b', 'score': 0.740012825, 'values': []},
             {'id': 'c', 'score': 0.735981822, 'values': []},
             {'id': '24e56d9c-2c83-4e77-b86b-a789392379ee',
              'score': -0.0174417682,
              'values': []}],
 'namespace': ''}

## **Splitting y embedding de texto con langchain**üìå

Cuando trabajamos con segmentos muy largos de texto, conviene segmentar estos en fragmentos m√°s peque√±os.
A la vez que hacemos esto, debemos de tratar de preservar los textos relacionados sem√°nticamente dentro de la misma unidad a la hora de hacer la segmentaci√≥n.

In [41]:
# Importamos el separador de texto
from langchain.text_splitter import RecursiveCharacterTextSplitter

‚ùó Sube el archivo de churchill_speech a tu Drive antes de ejecutar esta celda.

In [42]:
# Subimos el archivo de texto
from google.colab import drive


# Montar Google Drive
drive.mount('/content/drive')

# Ruta
ruta_del_archivo = '/content/drive/MyDrive/churchill_speech.txt'

# Lee el archivo de texto
with open(ruta_del_archivo, 'r') as archivo:
    churchill_speech = archivo.read()

# Muestra el contenido
print(churchill_speech)


Mounted at /content/drive
Winston Churchill Speech - We Shall Fight on the Beaches
We Shall Fight on the Beaches
June 4, 1940
House of Commons
From the moment that the French defenses at Sedan and on the Meuse were broken at the end of the
second week of May, only a rapid retreat to Amiens and the south could have saved the British and
French Armies who had entered Belgium at the appeal of the Belgian King; but this strategic fact was
not immediately realized. The French High Command hoped they would be able to close the gap, and
the Armies of the north were under their orders. Moreover, a retirement of this kind would have
involved almost certainly the destruction of the fine Belgian Army of over 20 divisions and the
abandonment of the whole of Belgium. Therefore, when the force and scope of the German
penetration were realized and when a new French Generalissimo, General Weygand, assumed
command in place of General Gamelin, an effort was made by the French and British Armies in
Belgi

In [43]:
# Creamos el separador de textos. Size corresponde con el tama√±o de items, en un caso normal ser√≠an m√°s para cada chunk
# Overlap define la cantidad de solapamiento (overlap) entre fragmentos consecutivos.
# Length_function: funci√≥n que se utilizar√° para determinar la longitud del texto. En este caso, la funci√≥n incorporada len.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len
)

In [44]:
# Generamos los chunks con el objeto separador que hemos creado, y lo guardamos en la variable chunks
chunks = text_splitter.create_documents([churchill_speech])

In [45]:
# Probamos a imprimir un chunk por √≠ndice
print(chunks[2])

page_content='From the moment that the French defenses at Sedan and on the Meuse were broken at the end of the'


In [46]:
# Ver solo el contenido
print(chunks[11].page_content)

command in place of General Gamelin, an effort was made by the French and British Armies in


In [47]:
# Ver n√∫mero de segmentos
print(f'Ahora mismo hay un total de {len(chunks)} chunks de texto')

Ahora mismo hay un total de 300 chunks de texto




####**Costes de los embeddings**


La codificaci√≥n para generar embeddings no es gratuita, as√≠ que es conveniente contar con una funci√≥n que permita anticipar los costes.


In [48]:
import tiktoken


In [49]:
def print_embedding_costs(texts):
  enc = tiktoken.encoding_for_model('text-embedding-ada-002')
  total_tokens = sum([len(enc.encode(page.page_content)) for page in texts])
  print(f'Tokens totales = {total_tokens}')
  print(f'Costes de los embeddings en USD = {total_tokens/1000*0.0004:.6f}')

print_embedding_costs(chunks)


Tokens totales = 4820
Costes de los embeddings en USD = 0.001928


####**Generar los embeddings**




-> El siguiente paso que debemos tomar es importar e instanciar los embeddings de OpenAI

In [50]:
from langchain.embeddings import OpenAIEmbeddings
embedding = OpenAIEmbeddings()

Ahora transformamos el primer chunk en un vector. As√≠, hemos codificado el texto.

In [51]:
# El argumento debe ser un texto, le podr√≠amos pasar directamente un string, por ejemplo.
vector = embedding.embed_query(chunks[0].page_content)
vector


[-0.04454859252972275,
 -0.03779107625713776,
 -0.002879912206270699,
 -0.008045266214119192,
 0.015746282084248255,
 0.022516546299967938,
 -0.02843255862727964,
 -0.009734645282265439,
 0.0010447052554574756,
 0.007229264674373191,
 0.007854016333454415,
 0.032742067486658956,
 0.007420515020699245,
 -0.011723648511527381,
 0.006314450277188572,
 -0.005351823642668397,
 0.013234526573466103,
 -0.0025308802194518626,
 0.013502277151454833,
 -0.011003272377775045,
 -0.008140891620112858,
 -0.02685155477090687,
 0.029554560162353798,
 -0.0037612576647914073,
 -0.01436927884564262,
 -0.01841103805835576,
 0.010837522108669883,
 -0.01865328809346232,
 0.0030615999654312587,
 -0.014356529039862813,
 0.007114514559709814,
 -0.008568017564316847,
 -0.016536783081112085,
 0.005144635573456307,
 -0.018296287943692383,
 -0.023880797870148653,
 -0.022465545214203596,
 -0.008727392930532107,
 0.0226057968030717,
 -0.012743650669040521,
 0.013629778003220573,
 0.00470475982347251,
 0.0087528925420

### **Insertar los embeddings en un √≠ndice de Pinecone** üì•

Ahora vamos a transformar todos nuestros chunks en vectores num√©ricos e insertarlos en el √≠ndice de Pinecone

In [52]:

import pinecone
from langchain.vectorstores import  Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings

In [53]:
# Usamos el √≠ndice que hemos creado previamente (index)
# Los pasos para crear un √≠ndice se vieron previamente en este mismo cuaderno
# Comprobamos que est√° creado
index.describe_index_stats()


{'dimension': 1536,
 'index_fullness': 0.00605,
 'namespaces': {'': {'vector_count': 605}},
 'total_vector_count': 605}

Subimos los vectores a Pinecone con Langchain.
Hay que tener en cuenta los objetos que ya hab√≠amos creado:
- **Chunks**, con todos nuestros fragmentos.
- **Embedding**, donde ya ten√≠amos nuestro objeto embedding:


```
      from langchain.embeddings import OpenAIEmbeddings
      embedding = OpenAIEmbeddings()
```
 - **El √≠ndice**, ya creado en Pinecone.
  ****Un apunte, para vaciar el √≠ndice si ejecutas por error varias veces una celda:


```
# Vaciar el √≠ndice
          index.delete(delete_all=True)```




Creamos los vectores:

In [54]:
# Creamos los vectores (si vamos a la app veremos que nuestro √≠ndice, despu√©s de ejecutar esta celda, tiene 4 vectores.)
vector_store = Pinecone.from_documents(chunks, embedding,index_name='langchain-pinecone' )

#  Alternativa: docsearch = Pinecone.from_texts([page.page_content for page in chunks], embedding, index_name='langchain-pinecone')


## **Similarity search:  preguntas üîç**

Vamos a ver c√≥mo realizar preguntas y hacer b√∫squedas por similaridad. El proceso es el siguiente:
 - El usuario define una consulta (query)
 - La query se codifica (embedding) en un vector
 - El texto que se corresponde al vector m√°s similar es la respuesta a la consulta.


In [55]:
# Teniendo en cuenta que el discurso de llama 'we shall fight in the beaches', preguntamos
query = 'where should we fight?'
resultado = vector_store.similarity_search(query)
print(resultado)

[Document(page_content='shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and'), Document(page_content='shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and'), Document(page_content='shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and'), Document(page_content='shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and')]


Como vemos, nos ha devuelto los fragmentos que contienen ese texto. Tambi√©n podemos iterar sobre los fragmentos (chunks), e imprimir solo su texto:

In [56]:
for r in resultado:
  print(r.page_content)
  print('--'*50)



shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and
----------------------------------------------------------------------------------------------------
shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and
----------------------------------------------------------------------------------------------------
shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and
----------------------------------------------------------------------------------------------------
shall fight on the beaches, we shall fight on the landing grounds, we shall fight in the fields and
----------------------------------------------------------------------------------------------------


Aunque ya tenemos respuesta, debemos d√°rsela al usuario en un formato de lenguaje natural, m√°s amigable. Para eso, tomamos los fragmentos (chunks) m√°s relevantes y se los trasladamos al modelo de lenguaje para recibir la respuesta final.

In [57]:
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(model= 'gpt-3.5-turbo', temperature=1)

In [58]:
# El retriever se encargar√° de devolvernos los fragmentos en base a la similaridad
retriever = vector_store.as_retriever(search_type = 'similarity', search_kwargs= {'k':3}) # Devolver√° los tres chunks m√°s similares

# Creamos una cadena para responder, a la que le vamos a pasar el retriever
chain = RetrievalQA.from_chain_type(llm=llm, chain_type='stuff', retriever=retriever) # "Stuff" usa todo el texto de los documentos en el prompt



Ya tenemos todo listo, vamos a hacer preguntas sobre el contenido del documento.

In [59]:
query = "Where should we fight?"
answer = chain.run(query)


¬°Listo! tenemos una respuesta en lenguaje natural, sencilla de leer, user-friendly.

In [60]:
print(answer)

We should fight on the beaches, on the landing grounds, and in the fields.


Probemos a preguntar otra cosa...

In [61]:
query = "Who was the king of Belgium at that time?"
answer = chain.run(query)
print(answer)

King Leopold was the king of Belgium at that time.


In [62]:
query = "C√≥mo se llamaba era el rey de Belgica en aquel momento?"
answer = chain.run(query)
print(answer)

El rey de B√©lgica en ese momento era Leopoldo.


In [63]:
query = "What about French troops?"
answer = chain.run(query)
print(answer)

The context suggests that there are French troops currently holding something, but it does not provide specific details about what they are holding. Without more information, it is difficult to provide a precise answer to your question.


‚ú®‚ú® Si has llegado hasta aqu√≠, enhorabuena, puedes dejar cualquier feedback o correcci√≥n en ireneccprogramacion@gmail.com‚ú®‚ú®
