<h1 align="center"><font color="yellow">Postgres pgvector Extension - Vector Database with PostgreSQL / Langchain Integration</font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

Link de estudo:

* [Extensão Postgres pgvector - Banco de dados de vetores com integração PostgreSQL / Langchain](https://www.youtube.com/watch?v=FDBnyJu_Ndg)

# <font color="red">Objetivos</font>

Aqui vamos a estudar o seguintes pontos:

* Configure o `PostgreSQL` com a extensão `pgvector` em um contêiner do `Docker` e crie o banco de dados

* Use `langchain` para adicionar `Embeddings` ao banco de dados, criadas com o modelo `text-embedding-ada-002` de Embeddings da OpenAI

* Consulte o banco de dados `langchain` para encontrar os Embeddings mais SIMILARES a uma determinada consulta

* Consulte o banco de dados com `SQL` e explore os recursos `pgvector`

* Explore o conceito de um `banco de dados vetorial` e por que ele pode ser útil no desenvolvimento de aplicativos usando `LLMs`

In [1]:
%pip show langchain

Name: langchain
Version: 0.0.260
Summary: Building applications with LLMs through composability
Home-page: https://www.github.com/hwchase17/langchain
Author: 
Author-email: 
License: MIT
Location: /home/eddygiusepe/1_Eddy_Giusepe/3_estudando_LLMs/Large_Language_Models_LLMs/venv_LLMs/lib/python3.10/site-packages
Requires: aiohttp, async-timeout, dataclasses-json, langsmith, numexpr, numpy, openapi-schema-pydantic, pydantic, PyYAML, requests, SQLAlchemy, tenacity
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import openai
from dotenv import find_dotenv, load_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key  = os.getenv('OPENAI_API_KEY')

# <font color="red">Vetorizando pedaços de texto com Langchain</font>

In [3]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings



loader = TextLoader('./RESUMINHO_estado_da_Uniao.txt', encoding='utf-8')
documents = loader.load()

print(documents)  # Imprime os objetos do documento
print(len(documents))  # 1 - lemos apenas um arquivo/documento no carregador


[Document(page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.\n\nDo presidente Zelenskyy a todos os ucranianos, seu destemo

In [4]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=20) # Dividimos o texto em chunks
texts = text_splitter.split_documents(documents) # Passamos este objeto, lá embaixo, para subri ao DB postgres

print(texts)
print(len(texts))


[Document(page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.', metadata={'source': './RESUMINHO_estado_da_Uniao.txt'}), Do

In [5]:
print(texts[0]) # Visualizamos o primeiro chunk


page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.' metadata={'source': './RESUMINHO_estado_da_Uniao.txt'}


<font color="orange">Agora, vamos converter nossos chunks em embeddings (vetores). </font>

In [6]:
embeddings = OpenAIEmbeddings()

vector = embeddings.embed_query('Testando o modelo Embeddings.')

print(len(vector))  # 1536 dimensions

1536


<font color="orange">Esses vetores podem ser comparados a outros vetores usando métricas de distância, que veremos mais adiante como um recurso adicionado em bancos de dados de vetores, como `pgvector` e `Chroma`.</font>

In [7]:
doc_vectors = embeddings.embed_documents([t.page_content for t in texts[:5]]) # Criamos VETORES para os 5 primeiros chunks

print(len(doc_vectors))  # 5 vetores na saída
print(doc_vectors[0])    # Isso produzirá o vetor de 1536 dimensões do primeiro pedaço

5
[-0.008685705438876467, -0.0011021883929743146, -0.004596570139932078, -0.021220008367901725, -0.0008847161852192196, 0.02207671712156256, 0.009502873960458664, -0.007690605872940405, 0.0011120734509939736, 0.014300440745785108, 0.004906303354865289, 0.005904697940141237, -0.012330011729952304, -0.017608654132869942, 0.002262039857227289, 0.006013434044018784, 0.02839000025381749, -0.02132544898677809, 0.02833727808173412, -0.024897264852376425, 0.016119297940660547, -0.011835756035001565, 0.01236955196203094, 0.000623996790420454, -0.0055554244931293895, 0.004201166422161822, 0.01524941004096276, -0.02421189896703487, 0.023776954551524683, -0.03946130807667504, 0.0006285274420127977, -0.014801285548093027, -0.006721865996062137, -0.007282021612149307, -0.020363299614240892, -0.024765464078780972, -0.012732005020741035, -0.009147010009105748, -0.0006680678487144206, -0.020969586898070363, -0.0019045287454504019, -0.0019704294814941025, -0.006992058978916711, -0.006468148575568293, -0

In [9]:
len(doc_vectors[0])

1536

<font color="orange">Em seguida, queremos obter vetores para todos os blocos e armazená-los no banco de dados `pgvector`.</font>

# <font color="red">pgvector para armazenar Embeddings</font>

Primeiramente, precisamos instalar o `PostgreSQL` e habilitar a extensão `pgvector`. Para fazer isso, usaremos o `Docker` e extrairemos esta [imagem](https://hub.docker.com/r/ankane/pgvector).

Você pode puxar a imagem com o comando: `docker pull ankane/pgvector`

Depois de puxado, você pode iniciar o contêiner com o seguinte comando:

```
docker run --name pgvector-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d ankane/pgvector
```

Neste comando, usamos a imagem `ankane/pgvector` que acabamos de extrair para executar um contêiner e damos um nome ao contêiner, definimos a variável `POSTGRES_PASSWORD` de ambiente e mapeamos a porta 5432 entre o contêiner e o host.

Verifique se isso está sendo executado com: `docker ps`

Agora você pode instalar uma ferramenta GUI como `pgAdmin` para inspecionar o banco de dados que está sendo executado no contêiner ou então usar `psql` na linha de comando. Ao conectar, você pode especificar o host como localhost, e a senha como o que você usou no comando acima - `mysecretpassword`, em nosso caso.

Vamos agora criar um banco de dados e, em seguida, adicionar a extensão `pgvector` a esse banco de dados, com os seguintes comandos `SQL`:

```
CREATE DATABASE vector_db;
CREATE EXTENSION pgvector;
```

A extensão `pgvector` que estamos adicionando já está instalada neste contêiner, pois extraímos da imagem `pgvector` do Docker. Se você não estiver usando esta imagem, precisará instalá-la separadamente pgvector - veja as instruções no repositório do Github [aqui](https://github.com/pgvector/pgvector#installation).

Agora, vamos fazer uma conexão com o PostgreSQL em nosso Jupyter Notebook.

Para fazer isso, precisamos de algumas bibliotecas: `!pip install psycopg2-binary pgvector`

Uma vez instalados, podemos pegar nossos blocos de documentos do texto do Estado da União, incorporá-los e armazená-los no banco de dados.

Para fazer isso, podemos importar o objeto `PGVector` de `langchain.vectorstores`, e usar sua função `from_documents()`:

In [10]:
from langchain.vectorstores.pgvector import PGVector

# Constrói a string de conexão PGVector a partir dos parâmetros.
host= os.environ['DB_HOST']
port= os.environ['DB_PORT']
user= os.environ['DB_USER']
password= os.environ['DB_PASSWORD']
dbname= os.environ['DB_NAME']

#CONNECTION_STRING = "postgresql+psycopg2://postgres:mysecretpassword@localhost:5432/eddy_langchain"
CONNECTION_STRING = f"postgresql://{user}:{password}@{host}:{port}/{dbname}"
COLLECTION_NAME = 'RESUMINHO_estado_da_Uniao'

db = PGVector.from_documents(
    embedding=embeddings,
    documents=texts,
    collection_name=COLLECTION_NAME,
    connection_string=CONNECTION_STRING,
)


<font color="orange">Assim que executarmos este código (a célula anterior), os `Embeddings` serão armazenados no DB, usando `pgvector` para isso.

Se você inspecionar o DB com `pgAdmin` ou outra GUI, deverá ver algo semelhante ao seguinte:</font>

![image.png](attachment:image.png)

<font color="orange">Observe que a tabela possui uma coluna de `embedding`, do tipo `vector` - este é um novo tipo de dados adicionado pela `extensão pgvector`. Isso armazena os vetores que foram produzidos pelo modelo de Embeddings da `OpenAI`.

Agora temos todos os embeddings chunks e armazenados no DB. Isso é benéfico, pois agora não precisamos mais chamar a API de Embeddings para obter Embeddings para nossos blocos - podemos chamar a API uma vez e armazenar os resultados no banco de dados, o que reduzirá os custos.

Agora também podemos encontrar facilmente os blocos `"mais similares"` a uma determinada query, usando uma `métrica de distância`. A extensão pgvector oferece suporte à `distância do cosseno`, `distância L2` e `métricas de produto interno` para encontrar chunks "similares".

Portanto, podemos fazer essa verificação de similaridade no espaço vetorial e podemos usar o seguinte código `Langchain` para fazer isso:</font>

In [11]:
query = "O que o presidente disse sobre a Rússia?"
similar = db.similarity_search_with_score(query, k=2)

for doc in similar:
    print(doc, end="\n\n")
    

(Document(page_content='O Departamento de Justiça dos Estados Unidos está montando uma força-tarefa dedicada a investigar os crimes dos oligarcas russos.\n\nEstamos nos unindo aos nossos aliados europeus para encontrar e apreender seus iates, seus apartamentos de luxo, seus jatos particulares. Estamos vindo para seus ganhos ilegítimos.\n\nE esta noite estou anunciando que nos juntaremos aos nossos aliados para fechar o espaço aéreo americano a todos os vôos russos – isolando ainda mais a Rússia – e adicionando um aperto adicional – em sua economia. O rublo perdeu 30% de seu valor.\n\nO mercado de ações russo perdeu 40% de seu valor e as negociações continuam suspensas. A economia da Rússia está cambaleando e Putin é o único culpado.\n\nJuntamente com nossos aliados, estamos apoiando os ucranianos em sua luta pela liberdade. Assistência militar. Assistência econômica. Assistência humanitária.\n\nEstamos dando mais de US$ 1 bilhão em assistência direta à Ucrânia.', metadata={'source': '.

<font color="orange">O objeto `db` tem uma função `similarity_search_with_score()` que recebe uma query e, opcionalmente, os embeddings `k` mais próximos  que desejamos retornar dessa query.

Portanto, esta função retornará os chunks que são `"mais similares"` à consulta que passamos. Implicitamente, ela incorporará a consulta ao modelo de Embeddings da OpenAI e, em seguida, consultará o banco de dados para encontrar os `vetores` mais próximos nesse espaço vetorial de 1536 dimensões`.

`pgvector` adiciona os operadores para realizar esses cálculos de distância no espaço vetorial. Vamos agora ver como fazer isso em uma consulta `SQL`!

Em primeiro lugar, vamos obter os Embeddings de 1536 dimensões para a consulta acima, com este código:</font>

In [14]:
vector = embeddings.embed_query(query)
print(vector)
#print(len(vector))


[-0.011963745829737178, -0.0007851997060044668, 0.018538758966517306, -0.004688324605649735, -0.008587900060542115, -0.006903132030986591, -0.008449079919436194, -0.011055107530770983, -0.009212589298534978, 0.010108608177333148, 0.0316761639572645, -0.0032906611906014403, -0.009812038764869269, -0.035588359297986163, 0.015787602435315108, -0.0035619908314067483, 0.02086083658555624, -0.025277831084739404, 0.04659298542279496, -0.021264674794738415, 0.013945083271756581, -0.015812841275651156, 0.0058430532394239286, -0.0021722150196247297, -0.017188419541252255, 0.002320499725856669, 0.016532179890194287, -0.016317640434112657, 0.010966766932982203, -0.027006768016205537, 0.03084324311062897, -0.019321196544545605, -0.014550843379497407, -0.001476538283557904, -0.013616964377550118, -0.018576619089666423, 0.005994492800697874, -0.0023646697919204288, -0.0033190560501326475, -0.002651774406427659, 0.015598301819569522, 0.01802133852524274, 0.017920379438608455, -8.094537309815546e-05, -

<font color="pink">Pegamos a saída anterior e lá no SQL fazemos uma consulta, assim:</font>

```
SELECT document, (embedding <=> '[-0.011963745829737178, . . . ,-0.0221102150615419]') as cosine_distance
FROM langchain_pg_embedding 
ORDER BY cosine_distance
LIMIT 2;
```

![image.png](attachment:image.png)