titulos # - subtitulos  ##

# ***<p style="text-align:center;">Análise de Texto através de Bases de Dados Vetoriais</p>***

## Resumo

Este relatório representa o processo de desenvolvimento e implementação de uma Base de Dados Vetorial com o objetivo de serem identificados padrões de texto.

Como Base de Dados vetorial decidimos utilizadr **ChromaDB** devido à sua excelente integração com Python aliada com a sua facilidade de configuração.  
O Projeto dividiu-se essencialmente em 4 fases. **Aquição e Processamento de Dados**, **Geração de Embeddings**, **Armazenamento Vetorial** e **Identificação de Padrões**. Em seguida abordamos cada uma detalhadamente.

Atualmente, é possível carregar variados tipos de ficheiros e pesquisar por um termo ou texto sendo obtido os ficheiros com o conteúdo mais similar.

## Introdução

### importação biblioteca para usar o sistemas de base de dados Chromadb

In [6]:
import chromadb
from chromadb.utils import embedding_functions

importação de funcionalidades cridas fazer a leitura de arquivos a ser usados durante este projeto

In [3]:
import leitor

Importação de bibliotecas necessárias para obter a data e hora com o objetivo fututo de realizar o "benchmarking" dos diversos modelos de conversão de embeddings  

In [8]:
import os

Criar o cliente para o banco de dados ChromaDB

In [7]:
chroma_client = chromadb.Client(
    chromadb.config.Settings(chroma_server_host="chroma", chroma_server_http_port="8000")
)

Escolher o modelo de embeddings, para a conversão do material fornecido pelo Utizador nos respetivos ficheiros "data" em embeddings vetoriais

In [9]:
embedder = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="all-MiniLM-L6-v2"
)

Neste ponto podemos criar a coleção de embeddings numa estrutura de dados predefinida do ChromaDB.

Uma coleção no ChromaDB é um agrupamento com nome de embeddings, dos seus documentos correspondentes e dos respetivos metadados, onde ocorre o processo de organização, gerir e, de forma crucial, efetuar pesquisas por similaridade em dados vetorizados

No caso do ChromaDB, uma coleção é o local fundamental onde se armazenam e organizam os embeddings vetoriais, os dados originais que estes representam, no caso do nosso projeto trabalho com dados do tipo .doc, .pdf e .txt, e os metadados associados.

Como é referido anteriormente, também é possivel trabalhar com outros tipo de dados, tendo o exemplo das imagens,

Assim sendo, na criação da coleção, é necessário definir o nome da coleção  ( name="my_collection" ), o modelo de embeddings ( embedding_function=embedder, sendo o embedder definido pelo Utilizador anteriormente) a utilizar e os metadados que se pretende associar a cada embedding.



In [None]:
collection = chroma_client.get_or_create_collection(
        name="my_collection",
        embedding_function=embedder, 
)

Função para adicionar os dados lidos dos ficheiros à coleção.

In [None]:
def adiciona_dados(collection, dados):
    # Adicionar ficheiros à coleção
    collection.add(
        documents=list(dados.values()),  # lista de ficheiros
        ids=[k for k in dados.keys()]    # ids dos ficheiros
    )
    print(f"Foram adicionados {len(dados)} ficheiros.")
    # Limpar o dicionário para evitar adicionar os mesmos ficheiros novamente
    dados.clear()

Após a criação da coleção, criamos um dicionário vazio para armazenar os metadados associados a cada embedding, onde o nome do ficheiro é a chave e o conteúdo do ficheiro é o valor.

In [5]:
dados = {}

Ler ficheiros pdf

In [22]:
leitor.extract_text(r"..\data/pdf", dados)
adiciona_dados(collection, dados)

..\data/pdf


NameError: name 'adiciona_dados' is not defined

Ler ficheiros docx

In [24]:
leitor.extract_text(r"..\data/txt", dados)
adiciona_dados(collection, dados)

..\data/txt


NameError: name 'adiciona_dados' is not defined

Ler ficheiros txt

In [23]:
leitor.extract_text(r"..\data/docx", dados)
adiciona_dados(collection, dados)

..\data/docx


NameError: name 'adiciona_dados' is not defined

Para efetuar a pesquisa por similaridade, o utilizador escreve o termo ou texto que deseja pesquisar e o número de resultados que deseja obter. Através da função query o termo ou texto é convertido para um embedding e comparado com os embeddings armazenados na coleção, armazenando os resultados mais semelhantes na variável "results".

In [None]:
prompt = input("Digite o termo que deseja pesquisar: ")
n_resultados = int(input("Quantos resultados deseja obter:  "))
results = collection.query(
        query_texts=[prompt],    # o que o utilizador quer pesquisar                  
        n_results=n_resultados   # Número de resultados a serem retornados
)

Após serem obtidos os resultados da pesquisa, processamos os resultados obtidos, extraindo os textos dos ficheiros correspondentes aos embeddings mais semelhantes encontrados na coleção assim como o nome do ficheiro e a distância entre o embedding de consulta e os embeddings encontrados na coleção.

In [None]:
num_results = len(results['documents'][0])
doc_text = []
titles = []
distance = []
for i in range(num_results):
    doc_text.append(results['documents'][0][i])
    distance.append(results['distances'][0][i])
    doc_id_path = results['ids'][0][i]
    titles.append(os.path.basename(doc_id_path))


Apresentamos ao utilizador os títulos dos ficheiros correspondentes aos embeddings mais semelhantes encontrados na coleção, juntamente com a distância entre o embedding de consulta e os embeddings encontrados na coleção. A distância é uma medida que indica o quão semelhante é o embedding de consulta em relação aos embeddings encontrados na coleção.

In [None]:
print(f"\n--- Pesquisas encontradas ---\n")   
j = 0 
for title in titles:
    print(f"--- Resultado {j+1} ---")
    print(f"Ficheiro: {title}")
    print(f"Distância de Similaridade: {distance[j]:.4f}\n")
    j += 1


O utilizador pode então selecionar o resultado que deseja visualizar, sendo exibido o conteúdo do ficheiro. 

In [None]:

choice = input("Digite o número do resultado desejado: ")
try:
    choice = int(choice) - 1  # Ajustar para índice 0
    if 0 <= choice < num_results:
        print("============================================\n")
        print(f"Conteúdo do Resultado {choice + 1}:")
        print(f"Ficheiro: {titles[choice]}")
        print(f"{doc_text[choice]}\n\n")
        
    else:
        print("Opção inválida!")
except ValueError:
    print("Por favor, escreva apenas números.")



Para finalizar, também é possível eliminar dados da coleção, é apresentada ao utilizador uma lista com os ids (path do ficheiro) dos embeddings que pertencem à coleção. O utilizador pode escolher o id do embedding que deseja eliminar, sendo este removido da coleção.

In [None]:
ids = collection.get(include=[])
for id in ids['ids']:
    print(id)
id = input("Digite o ID do ficheiro que deseja eliminar: ")
if id in ids['ids']:
    collection.delete(ids=[id])
    print(f"Ficheiro {id} eliminado com sucesso.")
else:
    print(f"Ficheiro {id} não encontrado.")

Dentro da pasta app, existe um ficheiro chamado main.py, que é o ponto de entrada da aplicação. Este ficheiro contém o código principal que executa a aplicação e inicia um menu interativo para o utilizador. O menu permite ao utilizador escolher entre diferentes opções, como adicionar novos embeddings à coleção, realizar pesquisas por similaridade ou limpar a coleção existente.