<h1 align="center"><font color="yellow">Postgres pgvector Extension - Vector Database with PostgreSQL / Langchain Integration</font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

Link de estudo:

* [Extensão Postgres pgvector - Banco de dados de vetores com integração PostgreSQL / Langchain](https://www.youtube.com/watch?v=FDBnyJu_Ndg)

# <font color="red">Objetivos</font>

Aqui vamos a estudar o seguintes pontos:

* Configure o `PostgreSQL` com a extensão `pgvector` em um contêiner do `Docker` e crie o banco de dados

* Use `langchain` para adicionar `Embeddings` ao banco de dados, criadas com o modelo `text-embedding-ada-002` de Embeddings da OpenAI

* Consulte o banco de dados `langchain` para encontrar os Embeddings mais SIMILARES a uma determinada consulta

* Consulte o banco de dados com `SQL` e explore os recursos `pgvector`

* Explore o conceito de um `banco de dados vetorial` e por que ele pode ser útil no desenvolvimento de aplicativos usando `LLMs`

In [None]:
%pip show langchain

In [1]:
import os
import openai
from dotenv import find_dotenv, load_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key  = os.getenv('OPENAI_API_KEY')

# <font color="red">Vetorizando pedaços de texto com Langchain</font>

In [2]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings



loader = TextLoader('./RESUMINHO_estado_da_Uniao.txt', encoding='utf-8')
documents = loader.load()

print(documents)  # Imprime os objetos do documento
print(len(documents))  # 1 - lemos apenas um arquivo/documento no carregador


[Document(page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.\n\nDo presidente Zelenskyy a todos os ucranianos, seu destemo

In [3]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=20) # Dividimos o texto em chunks
texts = text_splitter.split_documents(documents) # Passamos este objeto, lá embaixo, para subri ao DB postgres

print(texts)
print(len(texts))


[Document(page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.', metadata={'source': './RESUMINHO_estado_da_Uniao.txt'}), Do

In [4]:
print(texts[0]) # Visualizamos o primeiro chunk


page_content='Senhora Presidente, Senhora Vice-Presidente, nossa Primeira Dama e Segundo Cavalheiro. Membros do Congresso e do Gabinete. Ministros do Supremo Tribunal Federal. Meus companheiros americanos.\n\nNo ano passado, a COVID-19 nos separou. Este ano finalmente estamos juntos novamente.\n\nHoje à noite, nos encontramos como democratas, republicanos e independentes. Mas o mais importante como americanos.\n\nCom um dever para com o outro, para com o povo americano, para com a Constituição.\n\nE com uma determinação inabalável de que a liberdade sempre triunfará sobre a tirania.\n\nSeis dias atrás, o russo Vladimir Putin procurou abalar as fundações do mundo livre pensando que poderia fazê-lo se curvar a seus modos ameaçadores. Mas ele calculou mal.\n\nEle pensou que poderia entrar na Ucrânia e o mundo viraria. Em vez disso, ele encontrou uma parede de força que nunca imaginou.\n\nEle conheceu o povo ucraniano.' metadata={'source': './RESUMINHO_estado_da_Uniao.txt'}


<font color="orange">Agora, vamos converter nossos chunks em embeddings (vetores). </font>

In [5]:
embeddings = OpenAIEmbeddings()

vector = embeddings.embed_query('Testando o modelo Embeddings.')

print(len(vector))  # 1536 dimensions

1536


<font color="orange">Esses vetores podem ser comparados a outros vetores usando métricas de distância, que veremos mais adiante como um recurso adicionado em bancos de dados de vetores, como `pgvector` e `Chroma`.</font>

In [6]:
doc_vectors = embeddings.embed_documents([t.page_content for t in texts[:5]]) # Criamos VETORES para os 5 primeiros chunks

print(len(doc_vectors))  # 5 vetores na saída
print(doc_vectors[0])    # Isso produzirá o vetor de 1536 dimensões do primeiro pedaço

5
[-0.008538450784021219, -0.0010022468253903967, -0.004671112534892719, -0.021227538387698433, -0.000913304581217121, 0.022097194437557456, 0.009401519588793407, -0.007734676963918322, 0.0010648357818490973, 0.014441577918859512, 0.0048325261165542465, 0.005853714414783222, -0.012287199529472458, -0.017590790503853652, 0.002258143564820336, 0.006054657520562954, 0.02838244325472677, -0.02116165476095834, 0.028435150528647906, -0.024824755350441045, 0.0161808909499002, -0.011905077847141435, 0.012214728657645531, 0.000678596023600826, -0.0055868876822633955, 0.004298872651514594, 0.015232174920482126, -0.02428451370899191, 0.02381015569428287, -0.03934539418018226, 0.0007350084482603083, -0.014850052306828456, -0.006509251006043552, -0.007273495302028244, -0.020397411396296295, -0.024864284408897923, -0.012722028485724617, -0.008993044269501817, -0.0006403014915210721, -0.021043065722942404, -0.0018875510747905727, -0.002048964772867431, -0.007036315829012401, -0.0063840733259568115, -

In [7]:
len(doc_vectors[0])

1536

<font color="orange">Em seguida, queremos obter vetores para todos os blocos e armazená-los no banco de dados `pgvector`.</font>

# <font color="red">pgvector para armazenar Embeddings</font>

Primeiramente, precisamos instalar o `PostgreSQL` e habilitar a extensão `pgvector`. Para fazer isso, usaremos o `Docker` e extrairemos esta [imagem](https://hub.docker.com/r/ankane/pgvector).

Você pode puxar a imagem com o comando: `docker pull ankane/pgvector`

Depois de puxado, você pode iniciar o contêiner com o seguinte comando:

```
docker run --name pgvector-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d ankane/pgvector
```

Neste comando, usamos a imagem `ankane/pgvector` que acabamos de extrair para executar um contêiner e damos um nome ao contêiner, definimos a variável `POSTGRES_PASSWORD` de ambiente e mapeamos a porta 5432 entre o contêiner e o host.

Verifique se isso está sendo executado com: `docker ps`

Agora você pode instalar uma ferramenta GUI como `pgAdmin` para inspecionar o banco de dados que está sendo executado no contêiner ou então usar `psql` na linha de comando. Ao conectar, você pode especificar o host como localhost, e a senha como o que você usou no comando acima - `mysecretpassword`, em nosso caso.

Vamos agora criar um banco de dados e, em seguida, adicionar a extensão `pgvector` a esse banco de dados, com os seguintes comandos `SQL`:

```
CREATE DATABASE vector_db;
CREATE EXTENSION vector;
```

A extensão `pgvector` que estamos adicionando já está instalada neste contêiner, pois extraímos da imagem `pgvector` do Docker. Se você não estiver usando esta imagem, precisará instalá-la separadamente pgvector - veja as instruções no repositório do Github [aqui](https://github.com/pgvector/pgvector#installation).

Agora, vamos fazer uma conexão com o PostgreSQL em nosso Jupyter Notebook.

Para fazer isso, precisamos de algumas bibliotecas: `!pip install psycopg2-binary pgvector`

Uma vez instalados, podemos pegar nossos blocos de documentos do texto do Estado da União, incorporá-los e armazená-los no banco de dados.

Para fazer isso, podemos importar o objeto `PGVector` de `langchain.vectorstores`, e usar sua função `from_documents()`:

In [8]:
from langchain.vectorstores.pgvector import PGVector

# Constrói a string de conexão PGVector a partir dos parâmetros.
host= os.environ['DB_HOST']
port= os.environ['DB_PORT']
user= os.environ['DB_USER']
password= os.environ['DB_PASSWORD']
dbname= os.environ['DB_NAME']

#CONNECTION_STRING = "postgresql+psycopg2://postgres:mysecretpassword@localhost:5432/eddy_langchain"
CONNECTION_STRING = f"postgresql://{user}:{password}@{host}:{port}/{dbname}"
COLLECTION_NAME = 'RESUMINHO_estado_da_Uniao'

db = PGVector.from_documents(
    embedding=embeddings,
    documents=texts,
    collection_name=COLLECTION_NAME,
    connection_string=CONNECTION_STRING,
)


OperationalError: (psycopg2.OperationalError) connection to server at "localhost" (127.0.0.1), port 5432 failed: Connection refused
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/20/e3q8)

<font color="orange">Assim que executarmos este código (a célula anterior), os `Embeddings` serão armazenados no DB, usando `pgvector` para isso.

Se você inspecionar o DB com `pgAdmin` ou outra GUI, deverá ver algo semelhante ao seguinte:</font>

![image.png](attachment:image.png)

<font color="orange">Observe que a tabela possui uma coluna de `embedding`, do tipo `vector` - este é um novo tipo de dados adicionado pela `extensão pgvector`. Isso armazena os vetores que foram produzidos pelo modelo de Embeddings da `OpenAI`.

Agora temos todos os embeddings chunks e armazenados no DB. Isso é benéfico, pois agora não precisamos mais chamar a API de Embeddings para obter Embeddings para nossos blocos - podemos chamar a API uma vez e armazenar os resultados no banco de dados, o que reduzirá os custos.

Agora também podemos encontrar facilmente os blocos `"mais similares"` a uma determinada query, usando uma `métrica de distância`. A extensão pgvector oferece suporte à `distância do cosseno`, `distância L2` e `métricas de produto interno` para encontrar chunks "similares".

Portanto, podemos fazer essa verificação de similaridade no espaço vetorial e podemos usar o seguinte código `Langchain` para fazer isso:</font>

In [None]:
query = "O que o presidente disse sobre a Rússia?"
similar = db.similarity_search_with_score(query, k=2)

for doc in similar:
    print(doc, end="\n\n")
    

<font color="orange">O objeto `db` tem uma função `similarity_search_with_score()` que recebe uma query e, opcionalmente, os embeddings `k` mais próximos  que desejamos retornar dessa query.

Portanto, esta função retornará os chunks que são `"mais similares"` à consulta que passamos. Implicitamente, ela incorporará a consulta ao modelo de Embeddings da OpenAI e, em seguida, consultará o banco de dados para encontrar os `vetores` mais próximos nesse espaço vetorial de 1536 dimensões`.

`pgvector` adiciona os operadores para realizar esses cálculos de distância no espaço vetorial. Vamos agora ver como fazer isso em uma consulta `SQL`!

Em primeiro lugar, vamos obter os Embeddings de 1536 dimensões para a consulta acima, com este código:</font>

In [None]:
vector = embeddings.embed_query(query)
print(type(vector))
print(vector)
#print(len(vector))


<font color="pink">Pegamos a saída anterior e lá no SQL fazemos uma consulta, assim:</font>

```
SELECT document, (embedding <=> '[-0.011963745829737178, . . . ,-0.0221102150615419]') as cosine_distance
FROM langchain_pg_embedding 
ORDER BY cosine_distance
LIMIT 2;
```

![image.png](attachment:image.png)

Aqui, estamos selecionando a coluna de `document`, bem como a distância do cosseno (`cosine_distance`) entre o valor na coluna de `embedding` e o `vetor codificado` fornecido no lado direito do operador `<=>`. <font color="red">Nota:</font>  este operador é adicionado pela `extensão pgvector` e representa a distância do cosseno.

Estamos identificando as distâncias do cosseno como `cosine_distance`, e então ordenando por esses valores na instrução `ORDER BY` e limitando apenas aos `2` primeiros com os valores mais baixos.

Isso nos dá os vetores mais SIMILARES ao que passamos, pois uma `distância menor` representa um vetor mais "similar", do ponto de vista geométrico.

Vamos terminar com uma query rápida que agregará todos os vetores da tabela e calculará o `"vetor médio"` ou o `"centróide"` dos dados.

Podemos usar a função `AVG` SQL para isso: 

`SELECT AVG(embedding) FROM langchain_pg_embedding;`


Isso retornará o vetor médio agregando em cada dimensão e, de uma perspectiva de `NLP`, isso pode ser considerado como o "chunk médio" dos blocos de dados que inserimos na tabela.

# <font color="red">Benefícios com LLMs</font>

<font color="orange">Portanto, temos um armazenamento de dados contendo todos os nossos vetores. Isso pode ser usado quando temos `muito contexto` e queremos selecionar apenas os pedaços mais relevantes ou semelhantes como contexto ao consultar e solicitar modelos de linguagem.

Os modelos de linguagem tendem a ter um comprimento de contexto ou janela de contexto, que limita o número de tokens que eles podem considerar por vez. 

Se carregarmos um repositório de `1000` documentos, não podemos passar realisticamente todo esse contexto em uma chamada para o modelo de linguagem. O banco de dados de vetores nos permite selecionar blocos que correspondam ao que fornecemos no prompt e passar apenas determinados segmentos do texto.

Isso é poderoso, pois nos permite aproveitar maiores quantidades de conteúdo de texto. Podemos incorporar um grande corpus de documentos em blocos e selecionar os segmentos relevantes em nosso código.</font>


<font color="yellow">RESUMO:</font>

Nesta postagem, aprendemos como pegar um pedaço de texto, dividi-lo em partes, incorporar as partes usando a API de embeddings da OpenAI e, em seguida, armazenar os Embeddigs resultantes no `PostgreSQL` aproveitando a extensão pgvector.

Vimos como configurar o PostgreSQL com a  pgvector extensão em um `contêiner Docker` e como habilitar a extensão em um banco de dados.

E, finalmente, também mostramos como armazenar os embeddings usando utilitários do `Langchain` e como consultar manualmente a tabela de embeddings para encontrar vetores similares.