# 1 - O que é Vector Database

O Vector Database - que será chamado como VecDB nesse repositório - consiste em um banco de dados especializado para armazenar e manipular dados vetoriais altamente dimensionados de forma eficiente.

Hoje em dia é extremamente necessário utilizar esse tipo de banco de dados pois 80% das informações disponíveis estão de maneira não estruturadas ([Onna](https://onna.com/maximizing-value-of-unstructured-data)). Armazenar e fazer queries de maneira eficiente ainda podem ser problemas mesmo nos bancos de dados não relacionais.

# 2 - Casos de uso

O vector database pode ser usado em:

1. LLM
1. Semantic Search

![Semantic Search](../public/semantic_search.png)

3. Sistema de recomendação

![Sistema de recomendação](../public/recomendation.png)

4. Machine Learning

![Machine Learning](../public/machine_learning.png)

5. Detecção de anomalias

![Detecção de anomalias](../public/anomaly.png)

# 3 - Como é armazenado os dados estruturados

No caso dos dados estruturados, utilizamos de banco de dados relacionais para poder amazenar as nossas informações.

Nesta seção utilizaremos o SQLite para demonstrar como normalmente armazenamos os nossos dados.

O SQLite é um banco de dados relacional baseado em arquivos. O seu objetivo é ser um banco de dados rápido, pequeno e eficiente.


## 3.1 - Configuração

In [1]:
# Recarrega automaticamente quando há modificação na pasta src/
%load_ext autoreload
%autoreload 2

In [2]:
import os
import sys
from pathlib import Path

In [3]:
# Configuração de diretórios
HERE = os.path.abspath(".")
MODULES = Path(HERE).parent
DATA = Path(HERE).parent / "data"

sys.path.insert(
    0, str(MODULES)
)  # para ser possível importar os módulos personalizados da pasta src/

In [4]:
from src.io import SQLiteIO

sqlite = SQLiteIO(DATA / "0_raw" / "database.db")

## 3.2 - Criando tabela

Para a nossa tabela, criaremos colunas arbitrárias que irão compor as informações necessárias que precisamos para compor o nosso "objeto".

O nosso schema é:

* ID: integer -> Chave primária;
* Name: string;
* Age: integer;
* Departament: string

In [5]:
sqlite.query(
    """
        CREATE TABLE IF NOT EXISTS employees (
            id INTEGER PRIMARY KEY,
            name TEXT NOT NULL,
            age INTEGER,
            departament TEXT
        )
    """
)

<sqlite3.Cursor at 0x7f18ec4a8b40>

## 3.3 - Inserindo dados

Tradicionalmente, introduzimos esses dados de maneira estruturada em que cada valor pertence a uma coluna.

| Id | Name | Age | Departament |
| - | -------- | -- | ----- |
| 1 | John Doe | 30 | Sales |

In [6]:
sqlite.query(
    "INSERT INTO employees (name, age, departament) VALUES(?, ?, ?)",
    ("John Doe", 30, "Sales"),
)

sqlite.close()

## 3.4 - Buscando dados

Utilizando um método que busca todos os nossos dados da nossa tabela employess conseguimos ver o dado diretamente.

In [7]:
sqlite.read(table_name="employees")

Unnamed: 0,id,name,age,departament
0,1,John Doe,30,Sales


Para consultas mais avançadas, nós filtraríamos as linhas de acordo com as condições necessárias para cada coluna. Seja filtrando pelo nome, idade ou departamento.