In [1]:
import json

from langchain.chains.question_answering import load_qa_chain

from langchain_community.llms import Ollama
# from langchain_community.embeddings.laser import LaserEmbeddings
from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
from langchain_community.vectorstores import FAISS
from langchain_community.chat_models import ChatMaritalk

from langchain_core.prompts.chat import ChatPromptTemplate

from langchain.text_splitter import RecursiveCharacterTextSplitter

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker

import numpy as np

import pandas as pd


- langchain                                0.3.21
- langchain-community                      0.3.20
- langchain-core                           0.3.49
- langchain-huggingface                    0.0.3
- langchain-text-splitters                 0.3.7
- maritalk                                 0.2.6
- pandas                                   2.2.3

    ```
    pip install langchain==0.2.0 langchain-core langchain-huggingface langchain-community
    ```
    

In [None]:
# obtains the API key used to access Maritalk's API
with open('../API_KEY.json', 'r') as file:
    maritalk = json.load(file)

model = ChatMaritalk(
    model='sabia-3.1',
    api_key=maritalk['key'],
    temperature=0.0001,
    max_tokens=500,
)

In [48]:
# ollama_base_url= 'http://tempestade.facom.ufms.br:11435'
ollama_base_url = 'http://localhost:11434' 
# model = Ollama(base_url=ollama_base_url, model="phi3:medium", temperature=0)

# ollama_base_url = 'http://localhost:11434' 
model = Ollama(base_url=ollama_base_url, model="llama3.2:3b", temperature=0)
# model = Ollama(base_url=ollama_base_url, model="phi3:medium", temperature=0)

In [3]:
# embeddings_model = HuggingFaceEmbeddings(model_name='sentence-transformers/all-mpnet-base-v2')
embeddings_model = HuggingFaceEmbeddings(model_name='stjiris/bert-large-portuguese-cased-legal-tsdae-gpl-nli-sts-MetaKD-v0')

  from .autonotebook import tqdm as notebook_tqdm
Invalid model-index. Not loading eval results into CardData.
Invalid model-index. Not loading eval results into CardData.


In [None]:
doc_folder = 'edital1'

In [None]:
documents_dir_path = f'../database/{doc_folder}'

loader = DirectoryLoader(documents_dir_path, glob='./*.pdf', loader_cls=PyPDFLoader)

loaded_pdfs = loader.load()

text_splitter = SemanticChunker(
    embeddings=embeddings_model
)

pages = text_splitter.split_documents(loaded_pdfs)

In [None]:
vectorstore = FAISS.from_documents(
    pages,
    embeddings_model
)

vectorstore.save_local(f'../database/{doc_folder}/document_index')

In [None]:
# loads vectorstore from disk
vectorstore = FAISS.load_local(f'../database/{doc_folder}/document_index', embeddings_model, allow_dangerous_deserialization=True)

In [None]:
retriever = vectorstore.as_retriever()

In [13]:
def assistant(content: str):
    return ("assistant", content)

def user(content: str):
    return ("user", content)

In [14]:
prompt_structure = '''
        Baseado nos seguintes documentos:
        {context}
        Responda a pergunta abaixo:
        {query}
        '''

In [15]:
# role based prompt
qa_prompt = ChatPromptTemplate.from_messages([
        user('''Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta.'''),
        ('human', prompt_structure)
])

In [16]:
# few-shot prompting
qa_prompt = ChatPromptTemplate.from_messages([
        user('''Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:'''),
        user('''Como será a lista de espera?'''),
        assistant('''De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o atendimento por meio da liberação de novas vagas pelo MEC.'''),
        user('''Qual o número mínimo de membros das comissões temporárias constituídas pelo Conselho?'''),
        assistant('''De acordo com o Art. 61, as comissões temporárias deverão ser constituídas por, no mínimo, três membros.'''),
        user(prompt_structure)
])

In [17]:
chain = load_qa_chain(model, chain_type='stuff', verbose=True, prompt=qa_prompt)

stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(model, chain_type='stuff', verbose=True, prompt=qa_prompt)


In [None]:
query = input()

In [18]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import FlashrankRerank

# FlashrankRerank.model_rebuild()

compressor = FlashrankRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

# retrieval_result = compression_retriever.invoke(query)


In [19]:
def reranker_retrieval(query):
    return compression_retriever.invoke(query)

def vectorstore_retrieval(query):
    retrieval_result = vectorstore.similarity_search_with_relevance_scores(query, k=10, score_threshold=0.5)
    return [page[0] for page in retrieval_result]

In [None]:
retrieval_result = vectorstore.similarity_search_with_relevance_scores(query, k=10, score_threshold=0.5)

# retrieved context, no enrichment SOMENTE USADO NA BUSCA DIRETO PELA VECTOR STORE
retrieval_result= [page[0] for page in retrieval_result]

In [None]:
# enriching the retrieval result PARENT DOCUMENT RETRIEVAL

# get the page index of the page with the most similar chunk
# page_idx = retrieval_result[0][0].metadata['page']

# retrieval_result = np.concatenate(
#     (
#         [x for x in pages if x.metadata['page'] == page_idx],
#         [page[0] for page in retrieval_result]),
#     axis=0
# )

In [None]:
qa_prompt

In [None]:
output = chain.invoke(
        {'input_documents':retrieval_result, 'query':query}
)

print(output['output_text'])

### Geração das respostas

In [49]:
editais = ['edital1', 'edital2', 'regulamento']

In [50]:
mapeamento = {
    'edital1': 'edital-70',
    'edital2': 'edital-9',
    'regulamento': 'regulamento'
}

In [51]:
import os

queries = pd.read_csv(f'../datasets/dataset-ragas-openai.csv')
# queries = queries[queries['use'].isna()]
# queries = pd.read_excel('dataset-ragas-openai-2.xlsx', sheet_name='dataset-ragas-openai-edital2', engine='openpyxl')
# queries = queries[queries['use'].isna()]

In [52]:
queries.head()

Unnamed: 0,user_input,reference,reference_contexts,use,name
0,O que diz a Portaria MEC nº 389 e como ela se ...,"A Portaria MEC nº 389, de 9 de maio de 2013, e...","['EDITAL PROAES/UFMS Nº 70, DE 4 DE JUNHO DE 2...",,edital1
1,Qual é a relevância da Portaria Sesu/MEC nº 9 ...,"A Portaria Sesu/MEC nº 9, de 9 de maio de 2023...","['EDITAL PROAES/UFMS Nº 70, DE 4 DE JUNHO DE 2...",x,edital1
2,O que é a Pro-Reitoria de Assuntos Estudantis ...,A Pro-Reitoria de Assuntos Estudantis - Proaes...,"['EDITAL PROAES/UFMS Nº 70, DE 4 DE JUNHO DE 2...",,edital1
3,Qual é a finalidade da Bolsa Permanência do ME...,"A Bolsa Permanência do MEC, conforme descrito ...","['EDITAL PROAES/UFMS Nº 70, DE 4 DE JUNHO DE 2...",,edital1
4,Qual é a importância da Portaria MEC nº 389 no...,"A Portaria MEC nº 389, de 9 de maio de 2013, é...","['EDITAL PROAES/UFMS Nº 70, DE 4 DE JUNHO DE 2...",x,edital1


In [53]:
from datasets import Dataset

In [54]:
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings

In [None]:
editais = ['edital1', 'edital2', 'regulamento']

In [21]:
import os
os.environ["OPENAI_API_KEY"] = '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'

In [61]:
for edital in editais:
 
    answers = []
    contexts = []

    vectorstore = FAISS.load_local(f'../database/{edital}/document_index', embeddings_model, allow_dangerous_deserialization=True)

    retriever = vectorstore.as_retriever()

    compressor = FlashrankRerank()
    compression_retriever = ContextualCompressionRetriever(
        base_compressor=compressor, base_retriever=retriever
    )

    questions = queries[queries['name'] == edital]

    print(f'Processing {edital} with {len(questions)} queries')

    for question in questions.user_input.tolist():

        _ = []
        # query = f'De acordo com o edital {num_doc}. ' + question

        # vectorstore = FAISS.load_local(f'../database/{map_editais[num_doc]}/document_index', embeddings_model, allow_dangerous_deserialization=True)

        retrieval_result = reranker_retrieval(question)

        output = chain.invoke(
            {'input_documents':retrieval_result, 'query':question}
        )

        for page in retrieval_result:
            _.append(page.page_content)
            
        contexts.append(_)
        answers.append(output['output_text'])

    result = pd.DataFrame(
        {
            'question':questions.user_input.tolist(),
            'answer':answers,
            'contexts':contexts,
            'reference':questions.reference_contexts.tolist(),
            'ground_truths':questions.reference.tolist()
        }           
    )

    result.to_csv(f'../tests/llama/{model.model}-few-shot-reranker-bertimbau-semantic-split-{mapeamento[edital]}.csv', index=False)

    dataset = Dataset.from_pandas(result[['question', 'answer', 'contexts', 'reference', 'ground_truths']])

    llm = LangchainLLMWrapper(ChatOpenAI(model="gpt-4o-mini", temperature=0))
    embeddings = LangchainEmbeddingsWrapper(OpenAIEmbeddings())

    from ragas import evaluate
    from ragas.metrics import (
        faithfulness,
        answer_relevancy,
        context_recall,
        context_precision,
    )

    metrics = [
        faithfulness,
        answer_relevancy,
        context_recall,
        context_precision,
    ]

    for m in metrics:
        # change LLM for metric
        m.__setattr__("llm", llm)

        # check if this metric needs embeddings
        if hasattr(m, "embeddings"):
            # if so change with VertexAI Embeddings
            m.__setattr__("embeddings", embeddings)

    result = evaluate(
        dataset = dataset, 
        metrics=[
            context_precision,
            context_recall,
            faithfulness,
            answer_relevancy,
        ]
    )

    df = result.to_pandas()
    df.to_csv(f'../tests/llama/{model.model}-few-shot-reranker-bertimbau-semantic-split-{mapeamento[edital]}-metrics.csv', index=False)

    


    

Processing edital2 with 41 queries


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mHuman: Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:
Human: Como será a lista de espera?
AI: De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o ate

Evaluating:   0%|          | 0/164 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
Evaluating:   1%|          | 1/164 [00:03<09:29,  3.49s/it]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 

Processing regulamento with 48 queries


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mHuman: Você é um funcionário da Universidade Federal de Mato Grosso do Sul que tem conhecimento
         de todo o documento apresentado como contexto e 
         responde todas as perguntas em Portugues do Brasil. Você responde a perguntas sobre o documento apresentado, usando o contexto fornecido.
         Você sempre cita INTEGRALMENTE o item do edital que contém a resposta desejada. Se não souber a resposta, responda "Não consigo encontrar essa informação no documento". 
         Você cita seomente item necessário para resposta direta da pergunta e nada mais. Você SEMPRE cita o número do item que contém a resposta. Aqui estão alguns exemplos:
Human: Como será a lista de espera?
AI: De acordo com o item 3.4 do edital, a lista de espera será definida pela ordem de cadastro aprovado 
          e permanecerá para o

Evaluating:   0%|          | 0/192 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
Evaluating:   1%|          | 1/192 [00:03<12:04,  3.80s/it]INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 

#### MÉTRICAS

In [None]:
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings

llm = LangchainLLMWrapper(ChatOpenAI(model="gpt-4o-mini", temperature=0))
embeddings = LangchainEmbeddingsWrapper(OpenAIEmbeddings())

In [None]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

metrics = [
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
]

for m in metrics:
    # change LLM for metric
    m.__setattr__("llm", llm)

    # check if this metric needs embeddings
    if hasattr(m, "embeddings"):
        # if so change with VertexAI Embeddings
        m.__setattr__("embeddings", embeddings)

result = evaluate(
    dataset = dataset, 
    metrics=[
        context_precision,
        context_recall,
        faithfulness,
        answer_relevancy,
    ]
)

df = result.to_pandas()

In [None]:
len(df)

In [None]:
df.to_csv(f'../tests/third-results/whole-dataset/{model.model}-few-shot-reranker-bertimbau-semantic-split-regulamento-metrics.csv', index=False)

In [None]:
#read the csv files called metricas-edital1 and metricas-edital2 and combine them into a single dataframe
df = pd.read_csv(f'../tests/third-results/whole-dataset/{model.model}-few-shot-reranker-bertimbau-semantic-split-edital-9-metrics.csv')


In [None]:
df.columns

In [None]:
df['edital'] = 70
df['model'] = model.model

In [None]:
tmp = df.groupby(['edital', 'model']).agg({'faithfulness':'mean', 'answer_relevancy':'mean',
                                      'context_precision':'mean', 'context_recall':'mean'}).reset_index()

In [None]:
import matplotlib.pyplot as plt

In [None]:
tmp.plot.bar(
    x='edital',
    y=['faithfulness', 'answer_relevancy', 'context_precision', 'context_recall'],
    title=f'Sabia3 - Few Shot Reranker Bertimbau Semantic Split {doc_folder}',
    ylabel='Score',
    xlabel='Edital',
    rot=0
)