# Utilizando banco de dados vetorial

Neste notebook iremos utilizar uma banco de dados vetorial para armazenar nossos vetores de maneira mais eficiente do que utilizando o SqLite.

Existem diveras opções de bancos vetoriais para serem utilizadas:

![Vector Database Examples](../public/vecdb-examples.png)

Utilizaremos o ChromaDB para o nosso exemplo. O ChromaDB, assim como o Sqlite, é um banco de dados de ficheiro, ou seja, um banco de dados que pode ser armazenado localmente.



## 1 - Configuração

In [None]:
# Recarrega automaticamente quando há modificação na pasta src/
%load_ext autoreload
%autoreload 2

In [None]:
import os
import sys
from pathlib import Path

import pandas as pd

In [None]:
# Configuração de diretórios
HERE = os.path.abspath(".")
MODULES = Path(HERE).parent
DATA = Path(HERE).parent / "data"

sys.path.insert(
    0, str(MODULES)
)  # para ser possível importar os módulos personalizados da pasta src/

In [None]:
from src.pipe import ETL

etl = ETL(DATA / "0_raw" / "medium_post_titles.csv")

etl.pipeline()

In [None]:
from src.io import ChromaDBIO

chroma = ChromaDBIO(
    DATA / "2_processed" / "medium-chroma-db" / "medium-article"
)

In [None]:
chroma.upsert_data("medium_post_titles.parquet")

In [None]:
chroma.query("Data Science", n_results=1).model_dump()

In [None]:
chroma.read_to_pandas("Data Science", n_results=2)