<a href="https://colab.research.google.com/github/Anna-Eloyr/Projeto_2_RAG/blob/main/MongoDB_LllmaIndex_OpenAI_Relat%C3%B3rio_Auditoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## How to Build an AI Agent with OpenAI, LlamaIndex and MongoDB

**Goal:** Create an AI Agent using OpenAI, LLamaIndex, and MongoDB that can help us find desirable AirBnB listings according to our queries.

### *Install Libraries*

* `-q` (quiet) - Executa a instalação silenciosamente.

* `-U `(upgrade) - Atualiza o pacote para a versão mais recente disponível

In [1]:
!pip install -qU llama-index # main llamaindex library
!pip install -qU llama-index-vector_stores_mongodb #mongodb vector database
!pip install -qU llama-index-llms-openai #openai llm provider
!pip install -qU llama-index-embeddings-openai # openai embedding provider
!pip install -qU pymongo pandas datasets # mongodb database

In [2]:
!pip install pypdf



### *Setup Prerequisites*

* Need our OpenAI API Key
* Need our MongoDB Connection String

In [3]:
# Descobrindo o IP Público do COLAB - MUITO IMPORTANTE PARA OBTER ACESSO À CLOUD!!!!!
# A cada nova conecção, Oo IP muda!!!

!curl ipecho.net/plain

34.126.107.236

In [4]:
import os
import getpass
from pymongo import MongoClient

In [5]:
from google.colab import userdata
import nest_asyncio

nest_asyncio.apply()

os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

In [6]:
import pymongo

def get_mongo_client(mongo_uri):
    try:
        client = pymongo.MongoClient(mongo_uri)
        print("[SUCCESS] Connected to MongoDB")
        return client
    except pymongo.errors.ConnectionFailure as e:
        print(f"[FAILED] Connection failed: {e}")
        return None

# Connect -> Drivers -> Select Python as driver -> Copy connection string
mongo_uri = "mongodb+srv://annaeloyr28:8Ztej8Xf0qnyIPNj@cluster0.otn8e.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
if not mongo_uri:
    print("MONGO_URI not in env")

mongo_client = get_mongo_client(mongo_uri)

db = mongo_client["auditoria"] # any name
collection = db["relatorios"] # any name

[SUCCESS] Connected to MongoDB


In [8]:
print(db.list_collection_names())

[]


### *Configure LLMs and Embedding Models*

In [7]:
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import Settings

Settings.embed_model = OpenAIEmbedding(
    model="text-embedding-3-small",
    dimensions=512,
    embed_batch_size=10,
    openai_api_key=os.environ['OPENAI_API_KEY']
)

llm = OpenAI(model="gpt-4o", temnperature=0)

### *Dataset*

In [12]:
from pypdf import PdfReader

pdf_reader = PdfReader("/content/drive/MyDrive/Relatorios_Auditoria/RA_02_2024_SEJUS_FUNPAD_2023.pdf")

pagina_inicial = pdf_reader.pages[0].extract_text()

print(pagina_inicial)

Nº SAEWEB: 0000022265 Subcontroladoria de Controle Interno – SUBCI/CGDF
Ed. Anexo do Palácio do Buriti, 14º andar, sala 1401 – CEP 70075-900 – Brasília/DF
Fone: (61) 2108-3301
 
 
Governo do Distrito Federal
Controladoria-Geral do Distrito Federal
Subcontroladoria de Controle Interno
 
RELATÓRIO DE AUDITORIA
Nº 02/2024 - DIACT/COATP/SUBCI/CGDF
 
Unidade: Secretaria de Estado de Justiça e Cidadania
Processo nº: 00480-0005905/2023-05
Assunto:
Avaliação dos controles primários relacionados às parcerias 
celebradas com recursos do Fundo Antidrogas do Distrito Federal, 
entre a Secretaria de Estado de Justiça e Cidadania do Distrito Federal 
e as entidades sem fins lucrativos, no âmbito do Marco Regulatório 
das Organizações da Sociedade Civil
Ordem de Serviço: 066/2023-SUBCI/CGDF de 20/06/2023
103/2023-SUBCI/CGDF de 31/08/2023
Nº SAEWEB: 0000022265
 
 
 1.INTRODUÇÃO
Este relatório visa informar se a unidade auditada está em conformidade com as 
normas e os procedimentos que devem ser segui

In [8]:
import os
import re

# Caminho da pasta
folder_path = "/content/drive/MyDrive/Relatorios_Auditoria"

# Função para extrair metadados do cabeçalho
def extrair_dados_pdf(pdf_reader):
    dados = {}

    pagina_inicial = pdf_reader.pages[0]
    texto_primeira = pagina_inicial.extract_text()

    unidade = re.search(r"Unidade:\s*(.*?)(?=\nProcesso nº:)", texto_primeira, re.DOTALL)
    processo = re.search(r"Processo nº:\s*(.*?)(?:\n[A-Z])", texto_primeira, re.DOTALL)
    saeweb = re.search(r"Nº SAEWEB:\s*(\d+)", texto_primeira, re.DOTALL)
    ano_documento = re.search(r"\d{2}/(\d{4})\s*-\s*", texto_primeira, re.DOTALL)

    if unidade:
        dados["unidade"] = unidade.group(1).strip()
    if processo:
        dados["processo"] = processo.group(1).strip()
    if saeweb:
        dados["saeweb"] = saeweb.group(1).strip()
    if ano_documento:
        dados["ano"] = ano_documento.group(1).strip()

    return dados

In [9]:
# Criar lista para documentos
docs = []

# Processar cada PDF
pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]

In [10]:
pdf_files

['RA_03_2024_METRO_2022.pdf',
 'RA_01_2024_PCDF_2023.pdf',
 'RA_11_2023_SECOM_2021_2022.pdf',
 'RA_01_2024_GUARA_2021_e_2022.pdf',
 'RA_04_2023_CODHAB_2022.pdf',
 'RA_03_2023_SECTI_2022.pdf',
 'RA_03_2024_UNDF_2023.pdf',
 'RA_01_2024_SEAP_2023.pdf',
 'RA_02_2024-SEJUS_2022.pdf',
 'RA_01_2024_PCA_2023.pdf',
 'RA_02_2024_SEDET_2019_a_2023.pdf',
 'RA_02_2024_SEJUS_FUNPAD_2023.pdf',
 'RA_05_2024_SEDUH_2023.pdf',
 'RA_04_2024_PARK_WAY_2022.pdf',
 'RA_07_2024_FUNPAD_2018_2022.pdf',
 'RA_03_2024_PCA_2023.pdf',
 'RA_18_2023_LAGO-NORTE_2020_a_2022.pdf',
 'RA_20_2024_SEDUH_2022.pdf',
 'RI_03.2024_FDS_2022_2023.pdf']

In [13]:
# Percorre cada PDF na pasta
for pdf in pdf_files:
    caminho_pdf = os.path.join(folder_path, pdf)

    pdf_reader = PdfReader(caminho_pdf)  # Lê o arquivo PDF
    dados_cabecalho = extrair_dados_pdf(pdf_reader)  # Extrai os dados do cabeçalho

    # Percorre todas as páginas do documento
    for i, page in enumerate(pdf_reader.pages):
        text = page.extract_text()
        if text:
            docs.append({
                "page_content": text,
                "metadata": {
                    "source": caminho_pdf,
                    "page": i,
                    **dados_cabecalho  # Adiciona os metadados extraídos do cabeçalho
                }
            })

In [14]:
docs[1]

{'page_content': 'Subcontroladoria\xa0de Controle Interno  de 2 19\nNº SAEWEB: 0000022093 Subcontroladoria de Controle Interno – SUBCI/CGDF\nEd. Anexo do Palácio do Buriti, 14º andar, sala 1401 – CEP 70075-900 – Brasília/DF\nFone: (61) 2108-3301\n\xa0\nProcesso Credor Objeto Termos\n0097-000721/2016 MPE Engenharia e Serviços \nSA (04.743.858/0001-05)\nManutenção preventiva e corretiva do sistema metroviário o \nDistrito Federal, incluindo o fornecimento de materiais \nconsumíveis, sobressalentes descartáveis e serviços de reparações. \nLOTE 1 – MATERIAL RODANTE. Processo de \nacompanhamento contratual.\nContrato 023\n/2016 Valor \nTotal: R$ \n34.839.427,16\n00097-00001611/2021-95 MPE Engenharia e Serviços \nSA (04.743.858/0001-05) Pagamento fatura janeiro/2021\nContrato 023\n/2016 Valor \nTotal: R$ \n0,00\n00097-00003161/2021-75 MPE Engenharia e Serviços \nSA (04.743.858/0001-05) Pagamento fatura fevereiro/2021\nContrato 023\n/2016 Valor \nTotal: R$ \n0,00\n00097-00004681/2021-03 MPE E

In [15]:
docs[100]

{'page_content': 'Subcontroladoria de Controle Interno 8 de 27\nrecomendação RI contida no IAC n° 03/2022 DATCS/COLES/SUBCI/CGDF. No entanto,  \nconsiderando a inobservância da legislação quando da prática do ato, mantida a evidência de  \nauditoria e insere-se nova recomendação para que a comissão de acompanhamento seja orientada  \nquanto aos procedimentos de acompanhamento contratual.\nCausa\nSecretaria de Ciência e Tecnologia e Inovação:\nEm 2021 e 2022:\nControles internos insuficientes quanto ao cumprimento de cláusulas contratuais;\nAusência de procedimento administrativo padrão que assegure a correta  \nfiscalização de todas as cláusulas pactuadas em contrato.\nConsequência\nInexecução parcial do contrato.\nRecomendações\nSecretaria de Ciência e Tecnologia e Inovação:\nR.2) Orientar formalmente a comissão de acompanhamento do contrato para que realize  \nlevantamento dos preços quando da inclusão/alteração de novos itens do uniforme, de  \nmodo a comprovar a compatibilidade dos

### *Data Processing*

In [78]:
llama_documents = []

fields_to_include = [
    "source",
    "page",
    "unidade",
    "processo",
    "saeweb",
    "ano"
]

In [79]:
from llama_index.core import Document

from llama_index.core import Document

for doc in docs:
  metadata = {key: doc["metadata"].get(key) for key in fields_to_include} # Access metadata from doc['metadata']
  llama_doc = Document(text=doc["page_content"], metadata=metadata) # Use the extracted metadata
  llama_documents.append(llama_doc)

In [80]:
llama_documents[1]

Document(id_='f5806f62-4503-4a03-ab3b-905e2105e5b5', embedding=None, metadata={'source': '/content/drive/MyDrive/Relatorios_Auditoria/RA_03_2024_METRO_2022.pdf', 'page': 1, 'unidade': 'Companhia do Metropolitano do Distrito Federal', 'processo': '00480-00003597/2024-56', 'saeweb': '0000022093', 'ano': '2024'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='Subcontroladoria\xa0de Controle Interno  de 2 19\nNº SAEWEB: 0000022093 Subcontroladoria de Controle Interno – SUBCI/CGDF\nEd. Anexo do Palácio do Buriti, 14º andar, sala 1401 – CEP 70075-900 – Brasília/DF\nFone: (61) 2108-3301\n\xa0\nProcesso Credor Objeto Termos\n0097-000721/2016 MPE Engenharia e Serviços \nSA (04.743.858/0001-05)\nManutenção preventiva e corretiva do sistema metroviário o \nDistrito Federal, incluindo o fornecimento de materiais \nconsumíveis, sobressalentes 

In [81]:
llama_documents[100]

Document(id_='44123536-9c2a-4f3c-b159-8ef4a7c2a5da', embedding=None, metadata={'source': '/content/drive/MyDrive/Relatorios_Auditoria/RA_03_2023_SECTI_2022.pdf', 'page': 7, 'unidade': None, 'processo': None, 'saeweb': None, 'ano': '2023'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='Subcontroladoria de Controle Interno 8 de 27\nrecomendação RI contida no IAC n° 03/2022 DATCS/COLES/SUBCI/CGDF. No entanto,  \nconsiderando a inobservância da legislação quando da prática do ato, mantida a evidência de  \nauditoria e insere-se nova recomendação para que a comissão de acompanhamento seja orientada  \nquanto aos procedimentos de acompanhamento contratual.\nCausa\nSecretaria de Ciência e Tecnologia e Inovação:\nEm 2021 e 2022:\nControles internos insuficientes quanto ao cumprimento de cláusulas contratuais;\nAusência de procedimento ad

### *Create MongoDB Atlas Vector Store*

In [19]:
from llama_index.vector_stores.mongodb import MongoDBAtlasVectorSearch
from llama_index.core import StorageContext, VectorStoreIndex
from pymongo.errors import OperationFailure

In [82]:
DB_NAME = "auditoria_cgdf"
COLLECTION_NAME = "relatorios"
VS_INDEX_NAME = "vector_search_index"
FTS_INDEX_NAME = "keyword_search_index"
collection = mongo_client[DB_NAME][COLLECTION_NAME]

In [83]:
vector_store = MongoDBAtlasVectorSearch(
    mongo_client,
    db_name=DB_NAME,#Banco de dados onde os vetores e os textos estão armazenados.
    collection_name=COLLECTION_NAME, #Nome da coleção onde os documentos com embeddings estão salvos
    vector_index_name=VS_INDEX_NAME, #Nome do índice vetorial usado para busca por similaridade.
    fulltext_index_name=FTS_INDEX_NAME, #Nome do índice de busca textual para pesquisa baseada em palavras-chave.
    embedding_key="embedding", #Campo dentro do documento que contém os embeddings
    text_key="text" #Campo onde o texto original do documento está armazenado.
)

In [22]:
vector_store_context = StorageContext.from_defaults(vector_store=vector_store)
vector_store_index = VectorStoreIndex(
    llama_documents,
    storage_context=vector_store_context,
    show_progress=True)

Generating embeddings:   0%|          | 0/496 [00:00<?, ?it/s]

### *Create Vector and Full-Text Search Indexes*

In [23]:
from pymongo.operations import SearchIndexModel

In [84]:
vs_model = SearchIndexModel(
    definition={
        "fields": [
            {
                "type": "vector",
                "path": "embedding",
                "numDimensions": 512,
                "similarity": "cosine"
            },
            {"type": "filter", "path": "metadata.unidade"},
            {"type": "filter", "path": "metadata.processo"},
            {"type": "filter", "path": "metadata.saeweb"},
            {"type": "filter", "path": "metadata.ano"},
        ]
    },
    name=VS_INDEX_NAME,
    type="vectorSearch"
)

In [85]:
fts_model = SearchIndexModel(
    definition={"mappings": {"dynamic":False, "fields": {"text":{"type":"string"}}}},
    name=FTS_INDEX_NAME,
    type="search"
)

In [87]:
for model in [vs_model, fts_model]:
  try:
    collection.create_search_index(model=model)
    print(f"Successfully created index for model {model}.")
  except OperationFailure:
    print(f"Duplicate index found for model {model}. Skipping index creation.")

Successfully created index for model SearchIndexModel(name='vector_search_index', definition={'fields': [{'type': 'vector', 'path': 'embedding', 'numDimensions': 512, 'similarity': 'cosine'}, {'type': 'filter', 'path': 'metadata.unidade'}, {'type': 'filter', 'path': 'metadata.processo'}, {'type': 'filter', 'path': 'metadata.saeweb'}, {'type': 'filter', 'path': 'metadata.ano'}]}, type='vectorSearch').
Successfully created index for model SearchIndexModel(name='keyword_search_index', definition={'mappings': {'dynamic': False, 'fields': {'text': {'type': 'string'}}}}, type='search').


## Creating Retriever Tool for the Agent

In [41]:
from llama_index.core.tools import FunctionTool
from llama_index.core.vector_stores import (
    MetadataFilter,
    MetadataFilters,
    FilterOperator,
    FilterCondition
)
from typing import List

In [64]:
def get_airbnb_listings(query: str, unidade: str, saeweb: str, processo: str, ano: str) -> str:
    """
    Fornece informações sobre relatórios com base na consulta e nos filtros utilizados pelo usuário.

    query (str): Consulta do usuário.
    unidade (str): unidade requerida pelo usuário.
    saeweb (str): saeweb requerida pelo usuário.
    processo (str): processo requerido pelo usuário.
    ano (str): ano requerido pelo usuário.
    """

    # Base filter: Review score filter (greater than or equal to 80)

    filters = [
        MetadataFilter(
            key="metadata.unidade",
            value=unidade,
            operator=FilterOperator.EQ
        )
    ]
    saeweb_filter = [
        MetadataFilter(
            key="metadata.saeweb",
            value=saeweb,
            operator=FilterOperator.EQ
        )
    ]
    filters.extend(saeweb_filter)
    processo_filter = [
        MetadataFilter(
            key="metadata.processo",
            value=processo,
            operator=FilterOperator.EQ
        )
    ]
    filters.extend(processo_filter)
    ano_filter = [
        MetadataFilter(
            key="metadata.ano",
            value=ano,
            operator=FilterOperator.EQ
        )
    ]
    filters.extend(ano_filter)

    filters=MetadataFilters(
        filters=filters,
        condition=FilterCondition.AND)

    query_engine = vector_store_index.as_query_engine(
        similiraty_top_k=5, vector_store_query_mode="hybrid",alpha=7,filters=filters)
    response = query_engine.query(query)

    return response.response

In [88]:
def get_airbnb_listings(query: str, unidade: str, saeweb: str, processo: str, ano: str) -> str:
    """
    Fornece informações sobre relatórios com base na consulta e nos filtros utilizados pelo usuário.
    """

    # Filtros de metadata
    filters = [
        MetadataFilter(
            key="metadata.unidade",
            value=unidade,
            operator=FilterOperator.EQ
        ),
        MetadataFilter(
            key="metadata.saeweb",
            value=saeweb,
            operator=FilterOperator.EQ
        ),
        MetadataFilter(
            key="metadata.processo",
            value=processo,
            operator=FilterOperator.EQ
        ),
        MetadataFilter(
            key="metadata.ano",
            value=ano,
            operator=FilterOperator.EQ
        )
    ]

    filters = MetadataFilters(
        filters=filters,
        condition=FilterCondition.AND
    )

    # Correção do erro de digitação e incremento do número de resultados
    query_engine = vector_store_index.as_query_engine(
        similarity_top_k=10,  # Aumentando para mais resultados
        vector_store_query_mode="hybrid",
        alpha=7,
        filters=filters
    )

    # Executando a consulta
    response = query_engine.query(query)

    # Verificando se há resultados
    if not response.source_nodes:
        print("Nenhum resultado encontrado para a consulta.")
    else:
        print(f"Resultados encontrados: {len(response.source_nodes)}")

    # Retorna a resposta do motor de consulta
    return response.response


In [89]:
query_tool = FunctionTool.from_defaults(
    name="get_airbnb_listings",fn=get_airbnb_listings
)

### *Create the AI Agent*

In [44]:
from llama_index.core.agent import AgentRunner
from llama_index.core.agent import FunctionCallingAgentWorker

In [90]:
agent_worker = FunctionCallingAgentWorker.from_tools(
    [query_tool], llm=llm, verbose=True
)

agent = AgentRunner(agent_worker)

In [91]:
response = agent.query("Relatórios produzidos em 2024.")

Added user message to memory: Relatórios produzidos em 2024.
=== Calling Function ===
Calling function: get_airbnb_listings with args: {"query": "Relat\u00f3rios produzidos", "unidade": "", "saeweb": "", "processo": "", "ano": "2024"}
Nenhum resultado encontrado para a consulta.
=== Function Output ===
Empty Response
=== LLM Response ===
Não há informações disponíveis sobre relatórios produzidos em 2024. Se precisar de mais detalhes ou de outro tipo de consulta, por favor, me avise!


In [92]:
metadata

{'source': '/content/drive/MyDrive/Relatorios_Auditoria/RI_03.2024_FDS_2022_2023.pdf',
 'page': 13,
 'unidade': 'Fundo Distrital de Sanidade Animal',
 'processo': '00480-00003459/2024-77',
 'saeweb': '0000022356',
 'ano': '2024'}