In [1]:
import json

from langchain.chains.question_answering import load_qa_chain

from langchain_community.llms import Ollama
# from langchain_community.embeddings.laser import LaserEmbeddings
from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
from langchain_community.vectorstores import FAISS
from langchain_community.chat_models import ChatMaritalk

from langchain_core.prompts.chat import ChatPromptTemplate

from langchain.text_splitter import RecursiveCharacterTextSplitter

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker

import numpy as np

import pandas as pd


- langchain                                0.3.21
- langchain-community                      0.3.20
- langchain-core                           0.3.49
- langchain-huggingface                    0.0.3
- langchain-text-splitters                 0.3.7
- maritalk                                 0.2.6
- pandas                                   2.2.3

    ```
    pip install langchain==0.2.0 langchain-core langchain-huggingface langchain-community
    ```
    

In [2]:
# obtains the API key used to access Maritalk's API
with open('API_KEY.json', 'r') as file:
    maritalk = json.load(file)

model = ChatMaritalk(
    model='sabia-3',
    api_key=maritalk['key'],
    temperature=0.7,
    max_tokens=500,
)

In [2]:
# ollama_base_url= 'http://tempestade.facom.ufms.br:11435'
ollama_base_url = 'http://localhost:11434' 
# model = Ollama(base_url=ollama_base_url, model="phi3:medium", temperature=0)

# ollama_base_url = 'http://localhost:11434' 
model = Ollama(base_url=ollama_base_url, model="llama3.1", temperature=0)

# embeddings_model = HuggingFaceEmbeddings(model_name='sentence-transformers/all-mpnet-base-v2')
embeddings_model = HuggingFaceEmbeddings(model_name='stjiris/bert-large-portuguese-cased-legal-tsdae-gpl-nli-sts-MetaKD-v0')

  model = Ollama(base_url=ollama_base_url, model="llama3.1", temperature=0)
  from .autonotebook import tqdm as notebook_tqdm
Invalid model-index. Not loading eval results into CardData.
Invalid model-index. Not loading eval results into CardData.


In [3]:
doc_folder = 'edital2'

In [68]:
documents_dir_path = f'./database/{doc_folder}'

loader = DirectoryLoader(documents_dir_path, glob='./*.pdf', loader_cls=PyPDFLoader)

loaded_pdfs = loader.load()

text_splitter = SemanticChunker(
    embeddings=embeddings_model
)

pages = text_splitter.split_documents(loaded_pdfs)

In [69]:
vectorstore = FAISS.from_documents(
    pages,
    embeddings_model
)

vectorstore.save_local(f'database/{doc_folder}/document_index')

In [20]:
# loads vectorstore from disk
vectorstore = FAISS.load_local(f'../database/{doc_folder}/document_index', embeddings_model, allow_dangerous_deserialization=True)

In [21]:
retriever = vectorstore.as_retriever()

In [22]:
def assistant(content: str):
    return ("assistant", content)

def user(content: str):
    return ("user", content)

In [23]:
prompt_structure = '''
        Baseado nos seguintes documentos:
        {context}
        Responda a pergunta abaixo:
        {query}
        '''

In [24]:
# role based prompt
qa_prompt = ChatPromptTemplate.from_messages([
        user('''Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta.'''),
        ('human', prompt_structure)
])

In [25]:
# few-shot prompting
qa_prompt = ChatPromptTemplate.from_messages([
        user('''Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:'''),
        user('''Como será a lista de espera?'''),
        assistant('''De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o atendimento por meio da liberação de novas vagas pelo MEC.'''),
        user('''Qual o número mínimo de membros das comissões temporárias constituídas pelo Conselho?'''),
        assistant('''De acordo com o Art. 61, as comissões temporárias deverão ser constituídas por, no mínimo, três membros.'''),
        user(prompt_structure)
])

In [26]:
chain = load_qa_chain(model, chain_type='stuff', verbose=True, prompt=qa_prompt)

stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(model, chain_type='stuff', verbose=True, prompt=qa_prompt)


In [27]:
query = input()

In [28]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import FlashrankRerank

# FlashrankRerank.model_rebuild()

compressor = FlashrankRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

retrieval_result = compression_retriever.invoke(query)


INFO:flashrank.Ranker:Downloading ms-marco-MultiBERT-L-12...
ms-marco-MultiBERT-L-12.zip: 100%|██████████| 98.7M/98.7M [00:04<00:00, 24.8MiB/s]


In [31]:
def reranker_retrieval(query):
    return compression_retriever.invoke(query)

def vectorstore_retrieval(query):
    retrieval_result = vectorstore.similarity_search_with_relevance_scores(query, k=10, score_threshold=0.5)
    return [page[0] for page in retrieval_result]

In [20]:
retrieval_result = vectorstore.similarity_search_with_relevance_scores(query, k=10, score_threshold=0.5)

# retrieved context, no enrichment SOMENTE USADO NA BUSCA DIRETO PELA VECTOR STORE
retrieval_result= [page[0] for page in retrieval_result]

  retrieval_result = vectorstore.similarity_search_with_relevance_scores(query, k=10, score_threshold=0.5)


In [None]:
# enriching the retrieval result PARENT DOCUMENT RETRIEVAL

# get the page index of the page with the most similar chunk
# page_idx = retrieval_result[0][0].metadata['page']

# retrieval_result = np.concatenate(
#     (
#         [x for x in pages if x.metadata['page'] == page_idx],
#         [page[0] for page in retrieval_result]),
#     axis=0
# )

In [19]:
qa_prompt

ChatPromptTemplate(input_variables=['context', 'query'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], input_types={}, partial_variables={}, template='Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento\n         de todo o documento apresentado como contexto e \n         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.\n         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". \n         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], input_types={}, partial_variabl

In [20]:
output = chain.invoke(
        {'input_documents':retrieval_result, 'query':query}
)

print(output['output_text'])



[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mHuman: Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:
Human: Como será a lista de espera?
AI: De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o atendimento por meio da liberação de n

### Geração das respostas

In [4]:
map_editais = {70 : 'edital1', 9 : 'edital2'}

In [14]:
import os

# loads the xlsx documents from tests/second-results/ 
queries = pd.DataFrame()

for item in os.listdir('../tests/second-results/'):
    if item.endswith('.xlsx'):
        # loads the xlsx document
        df = pd.read_excel(f'../tests/second-results/{item}', sheet_name='dataset-ragas-openai-edital2', engine='openpyxl')
        # filter the dataframe to only include rows where the 'use' column is NaN
        queries = pd.concat([queries, df], ignore_index=True)

queries = queries[queries['use'].isna()]
# queries = pd.read_excel('dataset-ragas-openai-2.xlsx', sheet_name='dataset-ragas-openai-edital2', engine='openpyxl')
# queries = queries[queries['use'].isna()]

In [16]:
len(queries)

30

In [32]:
# queries = pd.read_csv('tests/test_questions.csv', dtype={'numero':int})

enrichment = False

answers = []
contexts = []

for num_doc in [9]:

    questions = queries.user_input.tolist()

    for question in questions:

        _ = []
        # query = f'De acordo com o edital {num_doc}. ' + question

        vectorstore = FAISS.load_local(f'../database/{map_editais[num_doc]}/document_index', embeddings_model, allow_dangerous_deserialization=True)

        retrieval_result = reranker_retrieval(question)

        if enrichment:
            # enriching the retrieval result 

            # get the page index of the page with the most similar chunk
            page_idx = retrieval_result[0][0].metadata['page']

            retrieval_result = np.concatenate(
                (
                    [x for x in pages if x.metadata['page'] == page_idx],
                    [page[0] for page in retrieval_result]),
                axis=0
            )
        else:
            # retrieved context, no enrichment
            # retrieval_result= [page[0] for page in retrieval_result]
            pass

        output = chain.invoke(
            {'input_documents':retrieval_result, 'query':question}
        )

        for page in retrieval_result:
            _.append(page.page_content)
            
        contexts.append(_)
        answers.append(output['output_text'])



[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mHuman: Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:
Human: Como será a lista de espera?
AI: De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o atendimento por meio da liberação de n

ValueError: Ollama call failed with status code 500. Details: {"error":"llama runner process has terminated: CUDA error: out of memory\n  current device: 0, in function ggml_backend_cuda_get_device_memory at /go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda.cu:3040\n  cudaMemGetInfo(free, total)\n/go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda.cu:101: CUDA error"}

In [73]:
result = pd.DataFrame(
    {
        'question':queries.user_input.tolist(),
        'answer':answers,
        'contexts':contexts,
        'reference':queries.reference_contexts.tolist(),
        'ground_truths':queries.reference.tolist()
    }
)

In [75]:
result

Unnamed: 0,question,answer,contexts,reference,ground_truths
0,Quais são as informações principais sobre o Pr...,"Desculpe, mas não posso ajudar com essa solici...",[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"['EDITAL PROAES/PROGRAD/PROPP/UFMS N° 9, DE 27...","O Edital PROAES/PROGRAD/PROPP/UFMS N° 9, de 27..."
1,Qual é a finalidade da FUNDAÇÃO UNIVERSIDADE F...,Não consigo encontrar essa informação no docum...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,"['EDITAL PROAES/PROGRAD/PROPP/UFMS N° 9, DE 27...",A FUNDAÇÃO UNIVERSIDADE FEDERAL DE MATO GROSSO...
2,O que é o SIGProj e como os interessados devem...,Não consigo encontrar essa informação no docum...,[3.4. A lista de espera será deﬁnida pela orde...,"['c) Para doutorado, no valor de R$ 5.000,00/m...",O SIGProj é o Sistema de Informação de Projeto...
3,Quais são os requisitos para participação no E...,Não consigo encontrar essa informação no docum...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,"['c) Para doutorado, no valor de R$ 5.000,00/m...",Os requisitos para participação no Edital Edit...
4,Qual é a importância do Siscad no processo sel...,Não consigo encontrar essa informação no docum...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,['e) Comprovante ou Certiﬁcado de Conclusão do...,O Siscad é importante no processo seletivo par...
5,Quais são os critérios de classificação confor...,"De acordo com o item 4.1 do edital, os critéri...",[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,['e) Comprovante ou Certiﬁcado de Conclusão do...,Os critérios para classificação dos inscritos ...
6,O que é Proaes e qual é a sua função no proces...,De acordo com o item 1 da introdução do Edital...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,['e) Comprovante ou Certiﬁcado de Conclusão do...,A Proaes será responsável por homologar o resu...
7,Quais são as condições para a concessão de bol...,"De acordo com o item 4.1 do edital, os critéri...",[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"['7.6. Para solicitar recurso administrativo, ...","A bolsa será concedida semestralmente, com pag..."
8,Qual é o papel da Instituição de Ensino na con...,"De acordo com o item 3.2 do edital, o cadastro...",[SUSPENSÃO DA BOLSA\n6.1. O estudante será des...,"['7.6. Para solicitar recurso administrativo, ...",A Instituição de Ensino é responsável por veri...
9,Como eu peço recurso administrativo na UFMS?,"De acordo com o item 7.4 do edital, os casos o...",[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"['7.6. Para solicitar recurso administrativo, ...","Para solicitar recurso administrativo, o estud..."


In [None]:
result.to_csv(f'tests/results/{model.model}-few-shot-reranker-bertimbau-semantic-split.csv', index=False)

#### MÉTRICAS

In [76]:
from datasets import Dataset

dataset = Dataset.from_pandas(result)

In [53]:
import os
os.environ["OPENAI_API_KEY"] = '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'

In [77]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

result = evaluate(
    dataset = dataset, 
    metrics=[
        context_precision,
        context_recall,
        faithfulness,
        answer_relevancy,
    ],
)

df = result.to_pandas()

Evaluating:   0%|          | 0/64 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
Evaluating:   2%|▏         | 1/64 [00:03<04:00,  3.83s/it]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 20

In [79]:
df

Unnamed: 0,user_input,retrieved_contexts,response,reference,context_precision,context_recall,faithfulness,answer_relevancy
0,Quais são as informações principais sobre o Pr...,[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"Desculpe, mas não posso ajudar com essa solici...","['EDITAL PROAES/PROGRAD/PROPP/UFMS N° 9, DE 27...",1.0,0.0,0.0,0.0
1,Qual é a finalidade da FUNDAÇÃO UNIVERSIDADE F...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,Não consigo encontrar essa informação no docum...,"['EDITAL PROAES/PROGRAD/PROPP/UFMS N° 9, DE 27...",1.0,0.714286,0.0,0.0
2,O que é o SIGProj e como os interessados devem...,[3.4. A lista de espera será deﬁnida pela orde...,Não consigo encontrar essa informação no docum...,"['c) Para doutorado, no valor de R$ 5.000,00/m...",1.0,0.0,0.0,0.0
3,Quais são os requisitos para participação no E...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,Não consigo encontrar essa informação no docum...,"['c) Para doutorado, no valor de R$ 5.000,00/m...",1.0,0.888889,0.0,0.0
4,Qual é a importância do Siscad no processo sel...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,Não consigo encontrar essa informação no docum...,['e) Comprovante ou Certiﬁcado de Conclusão do...,1.0,0.875,1.0,0.0
5,Quais são os critérios de classificação confor...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,"De acordo com o item 4.1 do edital, os critéri...",['e) Comprovante ou Certiﬁcado de Conclusão do...,1.0,0.875,1.0,0.902239
6,O que é Proaes e qual é a sua função no proces...,[CRONOGRAMA\n2.1. O presente Edital tem ﬂuxo c...,De acordo com o item 1 da introdução do Edital...,['e) Comprovante ou Certiﬁcado de Conclusão do...,1.0,0.0,1.0,0.903868
7,Quais são as condições para a concessão de bol...,[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"De acordo com o item 4.1 do edital, os critéri...","['7.6. Para solicitar recurso administrativo, ...",1.0,0.538462,1.0,0.882337
8,Qual é o papel da Instituição de Ensino na con...,[SUSPENSÃO DA BOLSA\n6.1. O estudante será des...,"De acordo com o item 3.2 do edital, o cadastro...","['7.6. Para solicitar recurso administrativo, ...",1.0,0.636364,0.75,0.840193
9,Como eu peço recurso administrativo na UFMS?,[DISPOSIÇÕES GERAIS \n7.1. As informações pres...,"De acordo com o item 7.4 do edital, os casos o...","['7.6. Para solicitar recurso administrativo, ...",1.0,0.25,1.0,0.0


In [80]:
df.to_csv('metricas-edital2.csv', index=False)

In [2]:
#read the csv files called metricas-edital1 and metricas-edital2 and combine them into a single dataframe
df1 = pd.read_csv('metricas-edital1.csv')
df2 = pd.read_csv('metricas-edital2.csv')
df = pd.concat([df1, df2], ignore_index=True)

In [7]:
df.columns

Index(['user_input', 'retrieved_contexts', 'response', 'reference',
       'context_precision', 'context_recall', 'faithfulness',
       'answer_relevancy'],
      dtype='object')

In [11]:
df.iloc[0]['user_input']

'O que diz a Portaria MEC nº 389 e como ela se relaciona com o Edital PROAES/UFMS nº 70?'

In [12]:
df.iloc[0]['response']

'De acordo com o item 1.1 do edital, a Portaria MEC nº 389 é uma das normas que estabelecem as regras para o cadastro de estudantes de graduação para a concessão de Bolsa Permanência pelo MEC - BPMEC.\n\nA Portaria MEC nº 389 é mencionada como uma das portarias que fundamentam o Edital PROAES/UFMS nº 70, juntamente com as Portarias Sesu/MEC nº 9 e MEC nº 1.999.'

In [13]:
df.iloc[0]['retrieved_contexts']

"['CRONOGRAMA\\n2.1. O presente Edital tem ﬂuxo con\\x00nuo e segue o cronograma abaixo:\\nEtapa Data\\nPublicação do Edital no Portal da Proaes e no Bole\\x00m Oﬁcial da\\nUFMS 5 de junho de 2024\\nPeríodo de inscrições exclusivamente on-line no\\nsite sisbp.mec.gov.br/primeiro-acesso\\nde 5 de junho a 1º de\\ndezembro de 2024\\nPublicação do Edital com os cadastros aprovados, indeferidos e\\nlista de espera até o dia 15 de cada mês\\n \\n3. DA DISPONIBILIDADE DE BOLSAS \\n3.1. As bolsas serão disponibilizadas por meio de ﬂuxo con\\x00nuo, respeitando a\\nordem de aprovação de cadastro dos estudantes no Sistema de Gestão da Bolsa Permanência\\n- SISBP e de acordo com a disponibilização de bolsas pelo MEC. 3.2. O cadastro de cada estudante será aprovado pela UFMS, mediante o\\natendimento de todos os documentos e regras estabelecidas pelo MEC e pela UFMS. 3.3. Os estudantes inscritos terão o cadastro analisado de acordo com as regras\\nda Bolsa Permanência, deﬁnidas pelas Portarias MEC