[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/gustavocidornelas/rag-iafluente/blob/main/notebooks/index.ipynb)

# Indexação

Este notebook ilustra o processo de indexação, isto é, da criação de um banco de dados de vetores. Para isso, vamos baixar o arquivo `iafluente.txt`, disponível [aqui](https://raw.githubusercontent.com/gustavocidornelas/rag-iafluente/refs/heads/main/data/iafluente.txt), que contém os posts do [`iafluente`](https://iafluente.com/) em um único arquivo `txt`. Depois, vamos utilizar o `chromadb` para criar uma base de dados de vetores que será utilizada pelo nosso sistema RAG.

Este notebook faz parte do tutorial de [RAG](https://iafluente.com/tutoriais/rag), do [`iafluente`](https://iafluente.com/).

## Download dos dados

Primeiro, vamos baixar os dados, caso eles ainda não existam no seu ambiente:

In [None]:
%%bash
if [ ! -f "../data/iafluente.txt" ]; then
    mkdir "../data"
    curl -L -o "../data/iafluente.txt" "https://raw.githubusercontent.com/gustavocidornelas/rag-iafluente/refs/heads/main/data/iafluente.txt"
fi

In [None]:
with open("../data/iafluente.txt", "r") as file:
    data = file.read()

In [None]:
# Cada post está separado por "%%%", então para obter uma lista de posts, basta:
posts = data.split("%%%")

In [None]:
# Conferindo os primeiros 500 caracteres do primeiro post
posts[0][:500]

In [None]:
# Conferindo o número de posts disponíveis
len(posts)

## Criação do banco de dados de vetores

Agora, vamos criar a nossa base de dados de vetores usando `chromadb`.

In [None]:
# Instala o chromadb
!pip install chromadb

In [None]:
import chromadb

In [None]:
# Vamos salvar o banco de dados de vetores em '../app/model/context'
client = chromadb.PersistentClient(path="../app/model/context")

In [None]:
collection = client.get_or_create_collection(name="context")

In [None]:
# Adicionando os posts ao banco de dados
collection.add(
    documents=posts,
    ids=[str(i) for i in range(len(posts))]
)


Agora, o banco de vetores já foi criado. Podemos começar a consultar o banco de vetores com perguntas, para ver se os posts retornados fazem sentido.

In [None]:
collection.query(
    query_texts=["Como posso utilizar computação distribuída para disponibilizar meus modelos de ML?"], # Essa pergunta vai ser embedded e comparada com os embeddings dos posts
n_results=1 # Quantos resultados queremos. No caso, só queremos o mais similar
)

In [None]:
collection.query(
    query_texts=["Qual é a analogia feita no iafluente entre código e construção civil?"],
n_results=1
)