# 3 - Text Embedding y bases de datos vectoriales

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/langchain.jpeg" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-Text-Embedding" data-toc-modified-id="1---Modelos-de-Text-Embedding-1">1 - Modelos de Text Embedding</a></span></li><li><span><a href="#2---Bases-de-datos-vectoriales" data-toc-modified-id="2---Bases-de-datos-vectoriales-2">2 - Bases de datos vectoriales</a></span></li></ul></div>

## 1 - Modelos de Text Embedding

Los modelos de text embedding en LangChain proporcionan una interfaz estandarizada para varios proveedores de modelos de embedding, como OpenAI o Hugging Face. Estos modelos transforman el texto en representaciones vectoriales, lo que permite realizar operaciones como la búsqueda semántica a través de la similitud de texto en el espacio vectorial. En LangChain, el método embed_documents se utiliza para incrustar múltiples textos, proporcionando una lista de representaciones vectoriales.


In [1]:
# embeddings de OpenAI

from langchain_openai import OpenAIEmbeddings

In [2]:
# primero cargamos la API KEY de OpenAI

from dotenv import load_dotenv 
import os

# carga de variables de entorno
load_dotenv()


# api key openai, nombre que tiene por defecto en LangChain
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

In [3]:
# iniciamos modelo, text-embedding-ada-002 por defecto

modelo = OpenAIEmbeddings()

In [4]:
# lista de textos

textos = ['¡Hola!', '¡Oh, hola!', '¿Cómo te llamas?', 'Mis amigos me llaman Mundo', '¡Hola Mundo!']

len(textos)

5

In [5]:
# embeddings desde una lista de textos

embeddings = modelo.embed_documents(textos)

In [6]:
# nº de vectores

len(embeddings)

5

In [7]:
# dimensiones de cada vector

len(embeddings[0])

1536

Para realizar el embedding un solo texto, como una consulta de búsqueda, se utiliza el método embed_query. Esto es útil para comparar una consulta con un conjunto de incrustaciones de documentos. 

In [8]:
embedding = modelo.embed_query('Hola que tal estas?')

In [9]:
# dimensiones del vector

len(embedding)

1536

Comprender estos embeddings es crucial. Cada fragmento de texto se convierte en un vector, cuya dimensión depende del modelo utilizado. Por ejemplo, los modelos de OpenAI suelen producir vectores de 1536 dimensiones. Estos embeddings se utilizan luego para recuperar información relevante.

La funcionalidad de embeddings de LangChain no se limita a OpenAI, sino que está diseñada para trabajar con varios proveedores. La configuración y el uso pueden variar ligeramente según el proveedor, pero el concepto básico de text embedding en el espacio vectorial sigue siendo el mismo. 

## 2 - Bases de datos vectoriales

Las bases de datos vectoriales en LangChain admiten el almacenamiento y la búsqueda eficiente de embeddings de texto. LangChain se integra con más de 50 bases de datos vectoriales, proporcionando una interfaz estandarizada para facilitar su uso. Vamos a usar `Chroma` para guardar los embeddings y realizar consultas segun la similitud de esos vectores. Para usarla tendremos que ejecutar el siguiente comando:

```bash
pip install chromadb
```

In [10]:
from langchain.vectorstores import Chroma

In [11]:
# creacion de la base de datos

db = Chroma.from_texts(texts=textos,                 # lista de textos a guardar
                       embedding=OpenAIEmbeddings(), # funcion de embedding
                       persist_directory= './',      # ruta guardado de la base de datos
                       collection_name='prueba'      # nombre de la coleccion
                      )

In [12]:
# consulta

db.similarity_search(query='hola',   # consulta de usuario 
                     k=3,            # k documentos mas parecidos
                    )

[Document(metadata={}, page_content='¡Hola!'),
 Document(metadata={}, page_content='¡Hola Mundo!'),
 Document(metadata={}, page_content='¡Oh, hola!')]