# üíª **Hands-on: Banco de dados vetorial**

√â um tipo de banco de dados especializado em armazenar e buscar vetores, que s√£o listas de n√∫meros (chamadas embeddings), que representam semanticamente textos, imagens, √°udios, etc.

### **O que s√£o embeddings?**

Embeddings s√£o representa√ß√µes num√©ricas de textos (palavras, frases ou documentos) utilizadas em  Natural Language Processing (NLP). Esses vetores posicionam os textos em um espa√ßo multidimensional de forma que conte√∫dos semanticamente semelhantes fiquem pr√≥ximos entre si.

Essa capacidade de capturar o **significado e contexto** das palavras torna os embeddings ideais para tarefas como buscas sem√¢nticas, recomenda√ß√µes inteligentes e compreens√£o de linguagem natural ‚Äî mesmo quando o vocabul√°rio usado √© diferente, mas o sentido √© parecido.

<div style="text-align: center;">
  <img src="figures/embedding.png" alt="drawing" width="600"/>
</div>

Com documentos de texto em formato de vetores de embeddings, √© poss√≠vel comparar os mesmos conforme o exemplo a seguir:

<div style="text-align: center;">
  <img src="figures/vector_similarity.webp" alt="drawing" width="800"/>
  <p style="font-size: 14px; color: gray; margin-top: 5px;">
    Fonte: <a href="https://medium.com/@SaumyaBhatt106/understanding-vector-embeddings-ad140dcb916f" target="_blank" rel="noopener noreferrer">Saumya Bhatt no Medium</a>
  </p>
</div>

### **Gerando embeddings com a API da OpenAI**

A OpenAI disponibiliza seus modelos de embeddings por meio do endpoint **Embeddings**, cuja estrutura de requisi√ß√£o √© bastante semelhante √† de outros servi√ßos da API.

Para fazer essas requisi√ß√µes, usamos a biblioteca `openai` e uma **chave de API v√°lida**. O primeiro passo √© configurar o cliente passando a chave.

Em seguida, fazemos a chamada ao m√©todo `create()` atrav√©s de `client.embeddings()`, onde:

- O modelo desejado √© definido com o argumento `model`;
- O texto a ser convertido em embedding √© passado pelo argumento `input`, que pode ser uma **string √∫nica** ou uma **lista de strings**.

Ap√≥s obter a resposta, utilizamos o m√©todo `.model_dump()` para convert√™-la em um **dicion√°rio Python**, o que facilita a manipula√ß√£o dos dados ‚Äî e ent√£o exibimos o resultado com `pprint()` (para melhorar a leitura). A resposta da API costuma ser bastante extensa, j√° que o modelo de embedding retorna **1.536 n√∫meros** (valores `float`) para representar a string fornecida.

In [1]:
from openai import  OpenAI
from dotenv import load_dotenv
import os
import pprint

load_dotenv()  

# OpenAI client
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# request para obter embeddings
response = client.embeddings.create(
  model="text-embedding-3-small",
  input="Esse √© apenas um texto"
)

response_dict = response.model_dump()
pprint.pprint(response_dict)

{'data': [{'embedding': [0.03072541579604149,
                         0.04468948021531105,
                         -0.050037894397974014,
                         0.013538875617086887,
                         -0.008173676207661629,
                         -0.03506680577993393,
                         -0.03869209438562393,
                         0.021046798676252365,
                         0.022814683616161346,
                         -0.023631492629647255,
                         0.005700873676687479,
                         -0.012688499875366688,
                         -0.0017650889931246638,
                         0.012789202854037285,
                         0.007524705957621336,
                         0.0208565816283226,
                         -0.03325416520237923,
                         -0.004623917862772942,
                         0.008302351459860802,
                         -0.016123570501804352,
                         -0.0004143483529333025,
       

### **Por que precisamos de bancos de dados vetoriais?**

Quando geramos embeddings, eles s√£o vetores com valores do tipo *float* com centenas ou milhares de dimens√µes, o que pode resultar em cerca de 13‚ÄØKB por embedding. Em cen√°rios com centenas de milhares ou milh√µes de embeddings, armazen√°-los todos em mem√≥ria torna‚Äëse invi√°vel.

Al√©m disso, se cada consulta recalcula embeddings ao inv√©s de reutiliz√°-los, isso gera custo computacional demasiado!

### **Limites da abordagem "in memory"**

Em um cen√°rio onde √© necess√°rio medir a similaridade entre uma query e m√∫ltiplos documentos em embedding, geralmente usamos a dist√¢ncia de cosseno e comparamos esse valor em rela√ß√£o a todos os embeddings armazenados. Esse processo:
- Requer ler cada embedding em mem√≥ria ou disco;
- Executar um c√°lculo de similaridade ($O(N)$ com $N$ embeddings);
- Classificar os resultados;

<div style="text-align: center;">
  <img src="figures/abordagem_in_memory.png" alt="drawing" width="1000"/>
</div>

Isso √© lent√≠ssimo e tem escalabilidade linear ‚Äî ou seja, √† medida que crescem os dados, cresce tamb√©m o tempo de busca, de forma diretamente proporcional.

### **Solu√ß√£o: bancos de dados vetorial**

No diagrama a seguir, √© apresentada uma aplica√ß√£o t√≠pica que usa banco de dados vetorial, onde os documentos que precisam ser consultados/buscados s√£o vetorizados com modelo de embedding e armazenado no banco de dados vetorial.

<div style="text-align: center;">
  <img src="figures/abordagem_vector_db.png" alt="drawing" width="1000"/>
</div>

Uma query √© enviada da interface da aplica√ß√£o e √© usada para consultar os vetores de embeddings no banco de dados. Essa query pode ser uma consulta para busca sem√¢ntica, ou dados para gerar recomenda√ß√µes. E por fim, esses resultados s√£o retornados ao usu√°rio por meio da interface do aplica√ß√£o.

Como os documentos incorporados s√£o armazenados no banco de dados vetorial, eles n√£o precisam ser criados a cada consulta ou armazenados em mem√≥ria! Al√©m disso, o c√°lculo de similaridade √© realizado com muito mais efici√™ncia.

### **Componentes que podem ser armazenados**

Bancos de dados vetoriais v√£o al√©m do simples armazenamento de vetores de embeddings ‚Äî √© comum tamb√©m manter os documentos originais associados a esses vetores. Nos casos em que a tecnologia utilizada n√£o oferece suporte para guardar os documentos diretamente, √© necess√°rio armazen√°-los em um banco de dados separado, utilizando identificadores √∫nicos para criar a liga√ß√£o entre os dados.

Al√©m dos vetores, os bancos de dados vetoriais tamb√©m armazenam metadados. Esses metadados incluem identificadores, refer√™ncias externas e informa√ß√µes adicionais que podem facilitar o processo de filtragem durante as buscas. No entanto, √© importante manter esses metadados enxutos. Embora possa parecer pr√°tico incluir o conte√∫do completo dos documentos como metadado, essa pr√°tica pode comprometer seriamente o desempenho do sistema, j√° que metadados volumosos tornam as buscas menos eficientes.

Em resumo, um banco de dados vetorial pode conter:

- Embeddings (vetores);
- Documentos originais (quando suportado);
- Metadados, como:
  - Identificadores e links de refer√™ncia;
  - Informa√ß√µes auxiliares que otimizam a recupera√ß√£o de dados.

Ainda sobre metadados em banco de dados vetoriais, supondo que uma plataform de streaming de filmes criou um motor de recomenda√ß√£o usando vetores de embeddings, a mesma estruturou os dados da seguinte forma para persistir os vetores de embedding de cada documento no banco de dados. Esse exemplo expressa qual tipo de dado pode ser usado como metadado, e qual n√£o deve ser usado.  

<div align="center">
  <table>
    <thead>
      <tr>
        <th>Metadados</th>
        <th>N√£o √© metadados</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Ano de lan√ßamento</td>
        <td>Vetores de embedding</td>
      </tr>
      <tr>
        <td>Diretor</td>
        <td>Documentos originais</td>
      </tr>
      <tr>
        <td>G√™nero do filme</td>
        <td>‚Äì</td>
      </tr>
      <tr>
        <td>ID de refer√™ncia p/ outra tabela</td>
        <td>‚Äì</td>
      </tr>
    </tbody>
  </table>
</div>

### **Op√ß√µes de bancos de dados vetoriais**

Quando se trata de banco de dados vetorial, o mercado oferece uma ampla variedade de alternativas, capazes de atender diferentes necessidades e cen√°rios. Diversas solu√ß√µes se destacam em popularidade e desempenho. Na hora de escolher a mais adequada, √© fundamental levar em conta alguns crit√©rios importantes, como requisitos t√©cnicos, escalabilidade e integra√ß√£o com outras ferramentas.

<div style="text-align: center;">
  <img src="figures/vector_db_landscape.png" alt="drawing" width="800"/>
  <p style="font-size: 14px; color: gray; margin-top: 5px;">
    Fonte: <a href="https://x.com/YingjunWu/status/1667232357953466369/photo/1" target="_blank" rel="noopener noreferrer">Yingjun Wu no X</a>
  </p>
</div>


> ***E qual √© a melhor solu√ß√£o de banco de dados vetorial?*** Depende do n√≠vel de gest√£o desejado.

Algumas op√ß√µes s√£o totalmente gerenciadas, o que significa que voc√™ pode focar no desenvolvimento da sua aplica√ß√£o enquanto a infraestrutura √© gerenciada automaticamente. Apesar de terem um custo mais elevado, essas solu√ß√µes costumam compensar pelo ganho de praticidade.

Outra alternativa √© fazer a gest√£o por conta pr√≥pria, configurando o servidor e o banco manualmente, seja na nuvem ou em ambiente local. Essa abordagem costuma ser mais econ√¥mica, mas exige conhecimento t√©cnico e dedica√ß√£o para manuten√ß√£o. Solu√ß√µes open-source oferecem grande liberdade de customiza√ß√£o e s√£o ideais para quem precisa de flexibilidade ou tem um or√ßamento mais limitado.

J√° as solu√ß√µes comerciais tendem a oferecer vantagens como suporte t√©cnico especializado, recursos avan√ßados, maior estabilidade e conformidade com regulamenta√ß√µes. Tamb√©m √© importante avaliar se o tipo de dado que ser√° trabalhado ‚Äî como texto, imagem ou dados multimodais ‚Äî demanda uma arquitetura espec√≠fica.

No presente hands-on usaremos o Chroma, uma solu√ß√£o open-source que se destaca pela facilidade de instala√ß√£o.

### **ChromaDB**

O ChromaDB (https://www.trychroma.com/) oferece duas formas de uso:

- **Modo local**: toda a execu√ß√£o ocorre dentro do ambiente Python, sem necessidade de processos externos. Ideal para desenvolvimento e prototipagem, pois √© simples e r√°pido de configurar.
- **Modo cliente/servidor**: exige rodar um servidor Chroma em um processo separado e utilizar um cliente HTTP para se conectar a ele. Essa abordagem √© mais indicada para ambientes de produ√ß√£o, pois permite escalabilidade e persist√™ncia de dados.

Neste hands-on vamos focar no **modo local**, que √© o m√©todo mais pr√°tico para testes antes de migrar para um cen√°rio mais robusto.

Para se conectar e realizar consultas no banco de dados, o primeiro passo √© criar um cliente. Isso √© feito importando o m√≥dulo `chromadb` e instanciando um cliente persistente por meio da classe `PersistentClient`. Esse tipo de cliente garante que os dados sejam salvos em disco, no path definido, permitindo que as informa√ß√µes permane√ßam dispon√≠veis mesmo ap√≥s a finaliza√ß√£o do processo.




In [2]:
import chromadb

client = chromadb.PersistentClient(path="chromadb_example")

Antes de inserir os vetores de embeddings no banco vetorial, √© necess√°rio criar uma **collection** ‚Äî estrutura semelhante a uma tabela em bancos relacionais, que permite organizar os dados de forma separada e flex√≠vel. Podemos ter diversas cole√ß√µes, cada uma com um prop√≥sito espec√≠fico. Para cri√°-las, utilizamos o m√©todo `.create_collection()`.

Durante a cria√ß√£o, √© preciso informar um nome (que servir√° como identificador da collection) e tamb√©m a fun√ß√£o respons√°vel pela gera√ß√£o dos embeddings. No exemplo, usamos a fun√ß√£o de embeddings da OpenAI, fornecendo a chave da API. Vale lembrar que, no Chroma e em v√°rios outros bancos vetoriais, uma fun√ß√£o padr√£o de embedding ser√° aplicada automaticamente caso nenhuma seja especificada.


In [3]:
from chromadb.utils.embedding_functions import OpenAIEmbeddingFunction

collection = client.create_collection(
    name="my_collection",
    embedding_function=OpenAIEmbeddingFunction(
        model_name="text-embedding-3-small",
        api_key=os.getenv("OPENAI_API_KEY")
    )
)

Agora com o m√©todo `list_collections()` vamos checar todas as cole√ß√µes existentes no banco de dados. Isso √© √∫til para confirmar se a collection desejada foi criada corretamente. Em vers√µes mais recentes (>=‚ÄØ0.6.0), esse m√©todo retorna uma lista de nomes (strings) das cole√ß√µes.

In [4]:
client.list_collections()

[Collection(name=my_collection)]

Agora que a collection foi criada, podemos come√ßar a inserir os embeddings. Para isso, utilizamos o m√©todo `add` da collection. No exemplo, estamos adicionando apenas um documento, mas √© comum inserir v√°rios de uma s√≥ vez, bastando fornecer listas de IDs e textos correspondentes.

√â importante lembrar que o Chroma n√£o gera IDs automaticamente ‚Äî eles precisam ser definidos manualmente. Como a fun√ß√£o de embedding j√° foi associada √† collection no momento da cria√ß√£o, os textos fornecidos ser√£o convertidos em vetores de forma autom√°tica.


In [5]:
# inclus√£o de um documento
collection.add(
    ids=["my-doc"],
    documents=["Este √© um texto original que ser√° vetorizado"]
)

In [6]:
# inclus√£o de m√∫ltiplos documentos
collection.add(
    ids=["my-doc-1", "my-doc-2"],
    documents=[
        "Este √© um texto original que ser√° vetorizado 1",
        "Este √© um texto original que ser√° vetorizado 2"
    ]
)

Ap√≥s adicionar os documentos, √© poss√≠vel verificar o conte√∫do da collection utilizando alguns m√©todos. Por exemplo, o m√©todo `count()` retorna a quantidade total de documentos armazenados na collection, permitindo acompanhar facilmente o volume de dados inserido.


In [7]:
collection.count()

3

J√° o m√©todo `peek()` exibe uma pr√©via dos dados armazenados, retornando os dez primeiros itens da collection. Isso permite verificar rapidamente se os textos foram adicionados corretamente. Como a fun√ß√£o de embedding foi definida anteriormente, os vetores foram gerados automaticamente no momento da inser√ß√£o.


In [8]:
collection.peek()

{'ids': ['my-doc', 'my-doc-1', 'my-doc-2'],
 'embeddings': array([[ 0.02069145,  0.09865065, -0.02034034, ...,  0.0227497 ,
          0.00405596, -0.01525525],
        [ 0.01845874,  0.08873925, -0.00207293, ...,  0.01604415,
          0.00104719, -0.01299221],
        [ 0.01495502,  0.08804083, -0.00070063, ...,  0.01989862,
         -0.00206967, -0.00742161]], shape=(3, 1536)),
 'documents': ['Este √© um texto original que ser√° vetorizado',
  'Este √© um texto original que ser√° vetorizado 1',
  'Este √© um texto original que ser√° vetorizado 2'],
 'uris': None,
 'included': ['metadatas', 'documents', 'embeddings'],
 'data': None,
 'metadatas': [None, None, None]}

Tamb√©m √© poss√≠vel recuperar itens espec√≠ficos da collection utilizando o m√©todo `get()`, informando o ID correspondente. Essa funcionalidade √© √∫til quando queremos acessar diretamente um documento ou vetor j√° armazenado.

In [9]:
collection.get(ids=["my-doc-2"])

{'ids': ['my-doc-2'],
 'embeddings': None,
 'documents': ['Este √© um texto original que ser√° vetorizado 2'],
 'uris': None,
 'included': ['metadatas', 'documents'],
 'data': None,
 'metadatas': [None]}

### **Estimando o custo de gera√ß√£o de embeddings**

A OpenAI divulga os valores cobrados por mil tokens em sua p√°gina de pre√ßos (https://platform.openai.com/docs/pricing). Para calcular o custo total de embeddings, basta multiplicar esse valor pelo n√∫mero de tokens nos textos que queremos processar e dividir o resultado por 1M. Para contar os tokens com precis√£o, podemos utilizar a biblioteca `tiktoken`, tamb√©m fornecida pela OpenAI.

<div style="text-align: center;">
  <img src="figures/open_ai_princing.png" alt="drawing" width="800"/>
</div>

A biblioteca `tiktoken` permite converter qualquer texto em tokens. Para come√ßar, usamos a fun√ß√£o `encoding_for_model`, que retorna o codificador compat√≠vel com o modelo de embedding escolhido.

Para calcular o total de tokens de forma eficiente, podemos aplicar uma abordagem "pythonica": percorremos a lista de documentos, codificamos cada texto com o encoder e usamos `len()` para contar os tokens de cada item. Depois, somamos tudo. Essa forma de escrever o c√≥digo √© mais concisa e perform√°tica do que usar la√ßos tradicionais, embora possa parecer menos intuitiva no in√≠cio.

Com o n√∫mero total de tokens em m√£os, basta multiplic√°-lo pelo custo por mil tokens (fornecido pela OpenAI) e dividir por 1.000.000 para obter o valor final.

In [10]:
import tiktoken

enc = tiktoken.encoding_for_model("text-embedding-3-small")

docs = [
    "Este √© um texto original que ser√° vetorizado",
    "Este √© um texto original que ser√° vetorizado 1",
    "Este √© um texto original que ser√° vetorizado 2"
]

total_tokens = sum(len(enc.encode(text)) for text in docs)

cost_per_1k_tokens = 0.02

print("Total de tokens:", total_tokens)
print("Custo", total_tokens * cost_per_1k_tokens / 1_000_000)


Total de tokens: 31
Custo 6.2e-07


### **Dados da Netflix**

Agora vamos usar os dados da Netflix (https://huggingface.co/datasets/hugginglearners/netflix-shows/tree/main) nos pr√≥ximos exerc√≠cios. Vamos trabalhar com um banco de dados vetorial para gerar embeddings e realizar buscas em um conjunto de 1.000 t√≠tulos entre filmes e s√©ries da Netflix. O objetivo ser√° criar um sistema simples de recomenda√ß√£o com base em uma consulta textual.

Para isso, o primeiro passo √© filtrar as 1.000 prmeiras observ√ß√µes do conjunto de dados usando o pandas (pois o mesmo possui quase 9.000 t√≠tulos), depois, vamos configurar o banco e a collection onde os dados ser√£o armazenados.

A biblioteca `chromadb` j√° est√° dispon√≠vel no ambiente, assim como a fun√ß√£o `OpenAIEmbeddingFunction()`, que foi importada de `chromadb.utils.embedding_functions`. 

#### Instru√ß√µes

- Crie um cliente persistente para que os dados do banco fiquem salvos em disco (n√£o √© necess√°rio definir um caminho de arquivo neste exerc√≠cio);
- Crie uma collection chamada `netflix_titles` utilizando a fun√ß√£o de embeddings da OpenAI;
- Liste todas as cole√ß√µes existentes no banco para verificar se a cria√ß√£o foi realizada com sucesso.


In [11]:
import pandas as pd

df = pd.read_csv("data/netflix_titles.csv")
df[:1000].to_csv("data/netflix_titles_1000.csv", index=False)

In [12]:
# criando um client persistente
client = chromadb.PersistentClient(path="chromadb_netflix")

# criando a collection 'netflix_title'
collection = client.create_collection(
    name="netflix_titles",
    embedding_function=OpenAIEmbeddingFunction(
        model_name="text-embedding-3-small",
        api_key=os.getenv("OPENAI_API_KEY")
    )
)

# lista da collection
print(client.list_collections())

[Collection(name=netflix_titles)]


Agora que j√° configuramos o banco de dados e a collection para armazenar os t√≠tulos da Netflix, podemos iniciar o processo de gera√ß√£o de embeddings.

Antes de processar um conjunto de dados grande, √© fundamental fazer uma estimativa de custos, utilizaremos a biblioteca `tiktoken` para contar os tokens dos textos e calcular o valor correspondente em d√≥lares.

Vamos criar as vari√°veis `ids` e `documents`, s√£o listas com todos os os IDs e respectivos textos que ser√£o transformados em embeddings. A tarefa ser√° percorrer essa lista, codificar cada item com `tiktoken`, contar o n√∫mero total de tokens e, por fim, aplicar o pre√ßo/1M do modelo para calcular o custo aproximado da opera√ß√£o.


In [13]:
import csv

ids = []
documents = []

with open("data/netflix_titles_1000.csv") as csvfile:
  reader = csv.DictReader(csvfile)
  for i, row in enumerate(reader):
    ids.append(row["show_id"])
    text = f"Title: {row['title']} ({row['type']})\nDescription: {row['description']}\nCategories: {row['listed_in']}"
    documents.append(text)

In [14]:
enc = tiktoken.encoding_for_model("text-embedding-3-small")
total_tokens = sum(len(enc.encode(text)) for text in documents)
cost_per_1k_tokens = 0.02

print("Total de tokens:", total_tokens)
print("Custo", total_tokens * cost_per_1k_tokens / 1_000_000)

Total de tokens: 51226
Custo 0.00102452


Agora adicionamos os dados na collection.

In [15]:
# adicionando os documentos e respectivos IDs na collection
collection.add(
    ids=ids,
    documents=documents
)

print(f"Nr. de documentos: {collection.count()}")
print(f"Primeiros 10 documentos: {collection.peek()}")

Nr. de documentos: 1000
Primeiros 10 documentos: {'ids': ['s1', 's2', 's3', 's4', 's5', 's6', 's7', 's8', 's9', 's10'], 'embeddings': array([[ 0.01785463,  0.0447645 , -0.02830042, ...,  0.02738822,
        -0.00348471, -0.02636478],
       [-0.00907512,  0.08432254, -0.04370597, ...,  0.02339769,
         0.03695926, -0.04509166],
       [-0.01197236,  0.04882758, -0.04346683, ..., -0.00438912,
         0.00277391, -0.04806814],
       ...,
       [-0.02871866,  0.05045039, -0.0299233 , ...,  0.03787393,
        -0.01829851, -0.02408078],
       [ 0.00715562,  0.02450066, -0.02061947, ...,  0.01649767,
         0.01788904, -0.05138653],
       [ 0.00340033,  0.06646945, -0.03989564, ...,  0.01655914,
         0.01903951,  0.00062191]], shape=(10, 1536)), 'documents': ['Title: Dick Johnson Is Dead (Movie)\nDescription: As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.\nCategories: Doc

### **Consultas e atualiza√ß√£o do banco de dados**

Agora vamos criar uma aplica√ß√£o de busca sem√¢ntica com o banco de dados vetorial. A l√≥gica √© a seguinte: temos uma frase de consulta e queremos localizar os t√≠tulos mais parecidos na nossa collection da Netflix.

<div style="text-align: center;">
  <img src="figures/querying_netflix_titles.png" alt="drawing" width="1000"/>
</div>

Para fazer uma busca na collection, usamos o m√©todo `query()` e passamos nossa string de consulta no par√¢metro `query_texts`. Apesar de estarmos utilizando apenas uma frase, esse par√¢metro exige uma lista ‚Äî portanto, mesmo uma √∫nica consulta deve estar dentro de colchetes.

Tamb√©m podemos definir quantos resultados queremos retornar usando o par√¢metro `n_results`. A estrutura do retorno n√£o √© t√£o intuitiva √† primeira vista, ent√£o vamos analis√°-la em partes para entender melhor.

O m√©todo `query()` retorna um dicion√°rio com diversas chaves, cada uma contendo informa√ß√µes sobre os resultados da busca:

- **`ids`**: os identificadores dos itens retornados;
- **`embeddings`**: os vetores de embedding dos itens (por padr√£o, este campo vem como `None`);
- **`documents`**: os textos originais correspondentes aos itens retornados;
- **`metadatas`**: os metadados associados aos documentos;
- **`distances`**: a dist√¢ncia entre cada item retornado e a consulta feita.

Exemplo de sa√≠da:

```python
{
  'ids': [...],
  'embeddings': None,
  'documents': [...],
  'metadatas': [...],
  'distances': [...]
}



In [16]:
result = collection.query(
    query_texts=["Movies about climate change"],
    n_results=3
)

pprint.pprint(result)

{'data': None,
 'distances': [[0.9352152347564697, 1.083890438079834, 1.0875649452209473]],
 'documents': [['Title: Breaking Boundaries: The Science Of Our Planet '
                '(Movie)\n'
                'Description: David Attenborough and scientist Johan Rockstr√∂m '
                "examine Earth's biodiversity collapse and how this crisis can "
                'still be averted.\n'
                'Categories: Documentaries',
                'Title: Fantastic Fungi (Movie)\n'
                'Description: Delve into the magical world of fungi, from '
                'mushrooms that clear oil spills to underground fungal '
                'networks that help trees communicate.\n'
                'Categories: Documentaries',
                'Title: Avengers Climate Conundrum (TV Show)\n'
                'Description: When a mysterious force steals Tony Stark‚Äôs '
                'weather machine to wreak havoc on the world, the Avengers '
                'must survive the extre

Como j√° mencionado, o resultado da consulta vem em formato de **dicion√°rio**. Esse dicion√°rio cont√©m algumas chaves importantes: `ids` (os identificadores dos itens retornados), `documents`, `metadatas` e `distances` ‚Äî al√©m de `embeddings`, que por padr√£o vem vazio, j√° que o Chroma n√£o os retorna automaticamente.

Tirando os embeddings, todos os demais campos seguem a mesma estrutura. Vamos come√ßar analisando o campo `ids` para entender como os resultados s√£o organizados.

A chave `ids` no dicion√°rio retornado cont√©m uma **lista de listas**. Isso acontece porque o m√©todo `query()` permite realizar buscas com **m√∫ltiplas strings de consulta** ao mesmo tempo ‚Äî mesmo que, neste caso, tenhamos utilizado apenas uma.

Por essa raz√£o, os resultados seguem essa estrutura: cada lista interna corresponde aos itens retornados para uma consulta espec√≠fica. Ou seja, se tiv√©ssemos feito tr√™s consultas em paralelo, o valor de `ids` conteria tr√™s listas, cada uma com os resultados de uma das buscas.

Claro! Aqui est√° a reformula√ß√£o com linguagem original:

#### **Atualizando uma collection**

√â poss√≠vel modificar itens que j√° est√£o armazenados em uma collection. Para isso, utilizamos o m√©todo `update`, cuja estrutura se assemelha bastante ao `add()`.

#### **Inserindo ou atualizando com `upsert`**

Quando n√£o temos certeza se determinados IDs j√° existem na collection, podemos utilizar o m√©todo `upsert`. Essa abordagem combina as funcionalidades de `add` e `update`: se o ID ainda n√£o estiver presente, ele ser√° inserido; se j√° existir, o conte√∫do ser√° atualizado. Isso torna o `upsert` uma op√ß√£o pr√°tica para manter os dados atualizados sem precisar fazer verifica√ß√µes pr√©vias.

Vamos fazer a atualiza√ß√£o com `upsert` com a vari√°vel `new_data` na collection da Netflix o qual cont√©m dois filmes novos.


In [17]:
new_data = [
    {"id": "s1001", "document": "Title: Cats & Dogs (Movie)\nDescription: A look at the top-secret, high-tech espionage war going on between cats and dogs, of which their human owners are blissfully unaware."},
    {"id": "s6884", "document": 'Title: Goosebumps 2: Haunted Halloween (Movie)\nDescription: Three teens spend their Halloween trying to stop a magical book, which brings characters from the "Goosebumps" novels to life.\nCategories: Children & Family Movies, Comedies'}
]

In [18]:
collection.upsert(
    ids=[doc["id"] for doc in new_data],
    documents=[doc["document"] for doc in new_data]
)

#### **Remo√ß√£o de dados**

Tamb√©m √© poss√≠vel remover itens de uma collection utilizando o m√©todo `delete()`, passando os IDs dos elementos que devem ser exclu√≠dos.

Caso voc√™ deseje apagar **todo o conte√∫do do banco de dados**, incluindo todas as cole√ß√µes e seus dados, basta utilizar o m√©todo `reset()` no cliente ‚Äî essa a√ß√£o limpa completamente o banco.

In [19]:
# deletando o item com ID 's758' e reexecutando a busca
collection.delete(ids=["s758"])

result = collection.query(
    query_texts=["Movies about climate change"],
    n_results=3
)

pprint.pprint(result)

{'data': None,
 'distances': [[1.083890438079834, 1.0875649452209473, 1.0899031162261963]],
 'documents': [['Title: Fantastic Fungi (Movie)\n'
                'Description: Delve into the magical world of fungi, from '
                'mushrooms that clear oil spills to underground fungal '
                'networks that help trees communicate.\n'
                'Categories: Documentaries',
                'Title: Avengers Climate Conundrum (TV Show)\n'
                'Description: When a mysterious force steals Tony Stark‚Äôs '
                'weather machine to wreak havoc on the world, the Avengers '
                'must survive the extreme storms to save the day.\n'
                "Categories: Kids' TV, TV Comedies",
                'Title: Dark Skies (Movie)\n'
                'Description: A family‚Äôs idyllic suburban life shatters when '
                'an alien force invades their home, and as they struggle to '
                'convince others of the deadly threat.\n'
 

#### **Consulta com m√∫ltiplas entradas de texto**

Em muitos cen√°rios, pode ser √∫til realizar buscas no banco de dados vetorial utilizando **mais de uma consulta ao mesmo tempo**. Lembre-se de que essas strings de consulta s√£o transformadas em embeddings usando a **mesma fun√ß√£o de embedding** aplicada aos documentos inseridos anteriormente.

Vamos utilizar os textos associados a dois IDs da collection `netflix_titles` como base para realizar buscas. A ideia √© encontrar os t√≠tulos mais semelhantes e apresent√°-los como recomenda√ß√µes.

In [20]:
reference_ids = ["s999", "s1000"]

reference_texts = collection.get(ids=reference_ids)["documents"]

# query com a reference_texts
result = collection.query(
  query_texts=reference_texts,
  n_results=3
)

pprint.pprint(result["documents"])

[['Title: Searching For Sheela (Movie)\n'
  'Description: Journalists and fans await Ma Anand Sheela as the infamous '
  'former Rajneesh commune‚Äôs spokesperson returns to India after decades for '
  'an interview tour.\n'
  'Categories: Documentaries, International Movies',
  'Title: LSD: Love, Sex Aur Dhokha (Movie)\n'
  'Description: This provocative drama examines how the voyeuristic nature of '
  'modern society affects three unusual couples in Northern India.\n'
  'Categories: Dramas, Independent Movies, International Movies',
  'Title: Tottaa Pataaka Item Maal (Movie)\n'
  'Description: Exasperated with living in perpetual fear for their safety, '
  'four women kidnap a man to show him the realities of being female in '
  'Delhi.\n'
  'Categories: Dramas, Independent Movies, International Movies'],
 ['Title: Stowaway (Movie)\n'
  'Description: A three-person crew on a mission to Mars faces an impossible '
  'choice when an unplanned passenger jeopardizes the lives of everyone 

#### **Adicionando metadados**

At√© o momento, utilizamos apenas os IDs e os textos da base `netflix_titles_1000.csv`. No entanto, o arquivo tamb√©m cont√©m outras informa√ß√µes relevantes ‚Äî como o tipo de t√≠tulo (filme ou s√©rie) e o ano de lan√ßamento ‚Äî que podem enriquecer as buscas e permitir filtros mais precisos, como recomendar apenas produ√ß√µes recentes.

Para isso, vamos criar uma lista de metadados onde, para cada linha do CSV, armazenamos essas informa√ß√µes em um dicion√°rio contendo o `type` e o `release_year`. Assim como fizemos com os textos, tamb√©m geramos uma lista de IDs correspondente, permitindo associar esses metadados aos itens j√° presentes na collection.


In [21]:
ids = []
metadatas = []

with open("data/netflix_titles_1000.csv") as csvfile:
  reader = csv.DictReader(csvfile)
  for i, row in enumerate(reader):
    ids.append(row["show_id"])
    metadatas.append({
      "type": row["type"],
      "release_year": int(row["release_year"])
})

In [22]:
collection.update(
    ids=ids,
    metadatas=metadatas
)

Para associar metadados aos itens j√° inseridos na cole√ß√£o, podemos utilizar o m√©todo `update()`, desta vez passando o argumento metadatas. Depois de atualizados, esses metadados podem ser usados como crit√©rios de filtro nas buscas.

No exemplo a seguir, realizamos a mesma consulta que antes, mas agora aplicamos uma cl√°usula `where` para limitar os resultados apenas aos itens cujo metadado `type` seja igual a `Movie`.

In [23]:
result = collection.query(
    query_texts=reference_texts,
    n_results=3,
    where={
        "type": "Movie"
    }
)

pprint.pprint(result)

{'data': None,
 'distances': [[8.441491559096903e-07, 1.0024981498718262, 1.0188032388687134],
               [9.68887320595968e-07, 0.8243426084518433, 0.8306117653846741]],
 'documents': [['Title: Searching For Sheela (Movie)\n'
                'Description: Journalists and fans await Ma Anand Sheela as '
                'the infamous former Rajneesh commune‚Äôs spokesperson returns '
                'to India after decades for an interview tour.\n'
                'Categories: Documentaries, International Movies',
                'Title: LSD: Love, Sex Aur Dhokha (Movie)\n'
                'Description: This provocative drama examines how the '
                'voyeuristic nature of modern society affects three unusual '
                'couples in Northern India.\n'
                'Categories: Dramas, Independent Movies, International Movies',
                'Title: Tottaa Pataaka Item Maal (Movie)\n'
                'Description: Exasperated with living in perpetual fear for '
 

#### **Operadores de filtragem (`where`)**

O filtro `where` utilizado no exemplo anterior √© uma forma simplificada de dizer que o valor deve ser igual ‚Äî o equivalente a usar o operador `$eq`.

```python
where = {
    "type": "Movie"
}
```

√â equivalente √† forma mais expl√≠cita usando o operador `$eq`:


```python
where = {
    "type": {
        "$eq": "Movie"
    }
}
```

Ao definir condi√ß√µes no par√¢metro `where` das consultas no ChromaDB, voc√™ pode utilizar os seguintes operadores:

- **`$eq`** ‚Äî igual a (aceita `string`, `int` ou `float`)
- **`$ne`** ‚Äî diferente de (aceita `string`, `int` ou `float`)
- **`$gt`** ‚Äî maior que (aceita `int` ou `float`)
- **`$gte`** ‚Äî maior ou igual a (aceita `int` ou `float`)
- **`$lt`** ‚Äî menor que (aceita `int` ou `float`)
- **`$lte`** ‚Äî menor ou igual a (aceita `int` ou `float`)

Esses operadores permitem criar filtros num√©ricos e textuais flex√≠veis, ideais para refinar resultados com base em campos como ano de lan√ßamento, dura√ß√£o ou tipo de conte√∫do.


In [24]:
reference_texts = ["children's story about a car", "lions"]

# query de dois resultados com a reference_texts
result = collection.query(
  query_texts=reference_texts,
  n_results=2,
  # filtros por t√≠tulos com rating G lan√ßado antes de 2019
  where={
    "$and": [
        {"type": 
        	{"$eq": "Movie"}
        },
        {"release_year": 
         	{"$lt": 2019}
        }
    ]
  }
)

pprint.pprint(result)

{'data': None,
 'distances': [[1.2930338382720947, 1.3235375881195068],
               [1.4921047687530518, 1.5082708597183228]],
 'documents': [['Title: A Cinderella Story (Movie)\n'
                'Description: Teen Sam meets the boy of her dreams at a dance '
                "before returning to toil in her stepmother's diner. Can her "
                'lost cell phone bring them together?\n'
                'Categories: Children & Family Movies, Comedies',
                'Title: The Karate Kid (Movie)\n'
                'Description: When a bullied teen befriends an unassuming '
                'martial arts master, he‚Äôll learn life lessons ‚Äî and the right '
                'moves ‚Äî to beat back his merciless rivals.\n'
                'Categories: Action & Adventure, Children & Family Movies, '
                'Classic Movies'],
               ['Title: Underworld: Rise of the Lycans (Movie)\n'
                'Description: Set in the year 1402, this prequel follows '
     

### **Aplica√ß√£o de banco de dados vetorial: RAG**



RAG possui processo linear e fixo:
- Uma consulta √© convertida em embedding;
- Um vetor similar √© recuperado do banco vetorial;
- O LLM gera uma resposta baseada nos documentos recuperados.

<div style="text-align: center;">
  <img src="figures/rag.png" alt="drawing" width="1000"/>
</div>

In [68]:
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI
from langgraph.graph import StateGraph, END

In [69]:
from typing import TypedDict, List, Optional

class RAGState(TypedDict):
    question: str
    context: Optional[List[str]]
    answer: Optional[str]


In [70]:
def retrieve_task_node(state: RAGState) -> RAGState:
    result = collection.query(
        query_texts=[state["question"]],
        n_results=3
    )

    context = "\n\n".join(title for title in result["documents"][0])

    return {
        **state,
        "context": context
    }


In [71]:
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

def movie_expert_agent_node(state: RAGState) -> RAGState:
    
    role_prompt = """
Voc√™ √© um especialista em filmes e s√©ries.
Sua fun√ß√£o √© responder perguntas utilizando o contexto fornecido (documentos recuperados).
"""

    instruction = f"**APENAS E SOMENTE** com base no contexto dos documentos recuperados:\n{state['context']}\n\n"
    instruction += f"Responda a pergunta do usu√°rio:\n{state['question']}\n\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = llm.invoke(messages)

    return {
        **state,
        "answer": response.content
    }


In [72]:
workflow = StateGraph(RAGState)

workflow.add_node("retrieve_task_node", retrieve_task_node)
workflow.add_node("movie_expert_agent_node", movie_expert_agent_node)

workflow.set_entry_point("retrieve_task_node")
workflow.add_edge("retrieve_task_node", "movie_expert_agent_node")
workflow.add_edge("movie_expert_agent_node", END)

graph = workflow.compile()


In [79]:
input_question = "Sugira filmes sobre a 2¬™ guerra mundial e fa√ßa uma breve an√°lise sobre os mesmos."

result = graph.invoke({
    "question": input_question
})

print("Resposta:\n", result["answer"])


Resposta:
 Aqui est√£o algumas sugest√µes de filmes sobre a Segunda Guerra Mundial, com uma breve an√°lise de cada um:

1. **Company of Heroes**
   - **Descri√ß√£o**: Este filme de a√ß√£o e aventura retrata a √∫ltima grande ofensiva alem√£ durante a Segunda Guerra Mundial, onde um grupo de soldados aliados enfrenta desafios extremos para tentar mudar o rumo da guerra.
   - **An√°lise**: "Company of Heroes" √© uma representa√ß√£o intensa da bravura e do sacrif√≠cio dos soldados aliados. O filme destaca a camaradagem entre os soldados e as dificuldades enfrentadas em um cen√°rio de guerra, proporcionando uma vis√£o emocionante e dram√°tica dos eventos que moldaram a hist√≥ria.

2. **Final Account**
   - **Descri√ß√£o**: Este document√°rio apresenta entrevistas in√©ditas com a √∫ltima gera√ß√£o de pessoas que participaram do Terceiro Reich de Hitler, oferecendo uma perspectiva √∫nica sobre os horrores da guerra e do regime nazista.
   - **An√°lise**: "Final Account" √© uma obra poderosa q

In [80]:
print(result["context"])

Title: Company of Heroes (Movie)
Description: During the last major German offensive of World War II, a group of Allied soldiers sets out against all odds to turn the war around.
Categories: Action & Adventure, Dramas

Title: Final Account (Movie)
Description: This documentary stitches together never-before-seen interviews with the last living generation of people who participated in Hitler's Third Reich.
Categories: Documentaries

Title: Europe's Most Dangerous Man: Otto Skorzeny in Spain (Movie)
Description: Declassified documents reveal the post-WWII life of Otto Skorzeny, a close Hitler ally who escaped to Spain and became an adviser to world presidents.
Categories: Documentaries, International Movies


## Refer√™ncias


Documenta√ß√£o do Chroma: https://docs.trychroma.com/docs/overview/introduction

Documenta√ß√£o oficial da OpenAI sobre Embeddings: https://platform.openai.com/docs/api-reference/embeddings

Documenta√ß√£o oficial da OpenAI sobre RAG: https://help.openai.com/en/articles/8868588-retrieval-augmented-generation-rag-and-semantic-search-for-gpts

Documenta√ß√£o sobre banco de dados de vetores da Microsoft: https://learn.microsoft.com/en-us/data-engineering/playbook/solutions/vector-database/

Documenta√ß√£o sobre banco de dados de vetores da Pinecone: https://www.pinecone.io/learn/vector-database/

Livro sobre NLP: https://web.stanford.edu/~jurafsky/slp3/