# Testando BD Vetorial

Usaremos [Chroma DB](https://www.trychroma.com/).

Vou indexar todos os comentários do canal e pesquisar.

In [1]:
import pandas as pd
import chromadb

`comments.csv` é um conjunto de dados com todos os comentários de Programação Popular no Youtube até julho de 2024. Salvaremos esses comentários no ChromaDB para tentar fazer buscas depois.

In [2]:
df = pd.read_csv("./data/comments.csv")
print(f"df.columns = {list(df.columns)}")

['video_id', 'user', 'date', 'comment', 'likes', 'cleaned_comment', 'cluster']


In [3]:
chroma_client = chromadb.PersistentClient("./chroma.db")
collection = chroma_client.create_collection(name="ProgramacaoPopular")

## Salvando no Chroma DB

Aqui vamos tratar cada comentário como um documento. Eu não sei se essa abordagem é a mais apropriada, mas aprenderemos isso no futuro. Além do conteúdo (que é o `document`), também tô salvando metadados em `metadata` (como data, usuário e id do vídeo).

In [4]:
documents = []
metadatas = []
ids = []
for index, row in df.iterrows():
    documents.append(row['comment'])
    metadatas.append({"date": row['date'], "user": row['user'], "video_id": row['video_id']})
    ids.append(str(index))

len(documents), len(metadatas), len(ids)

(2497, 2497, 2497)

Aqui adicionamos no banco. Na minha máquina, para 3000 comentários, demorou 3 min 18 s.

In [5]:
collection.add(
    documents=documents, 
    metadatas=metadatas, 
    ids=ids
)

In [14]:
results = collection.query(
    query_texts=["muito bom"], # Chroma will embed this for you
    n_results=20 # how many results to return
)
results["documents"]

[['muito bom',
  'muito bom',
  'Muito bom',
  'Muito bom!',
  'Muito bom!',
  'Muito bom!',
  'muito bom!',
  'MUITO BOM!',
  'Muito bom!',
  'Muito bom!',
  'Muito bom!',
  'Muito bom!',
  'Muito bom!',
  'muito bom 👏',
  'Muito bom !!!',
  'Muito bom!!!',
  'Muito bom , show.',
  'Muito bom, bem explicado.',
  'Muito bom! :D',
  'muito bom as aulas']]