# LangChain: Data Loaders

## LangChain

```
poetry add langchain
```

Crie um arquivo `.env` com as configurações:

```
AZOPENAI_API_BASE = xxxx
AZOPENAI_API_KEY = xxxx
AZOPENAI_API_TYPE = xxxx

# Gpt 3.5
AZOPENAI_DEPLOYMENT_NAME = xxxx
AZOPENAI_DEPLOYMENT_VERSION = xxxx
AZOPENAI_MODEL_NAME = xxxx

# Embeddings
AZOPENAI_EMBEDDINGS_DEPLOYMENT_NAME = xxxx
AZOPENAI_EMBEDDINGS_MODEL_NAME = xxxx
AZOPENAI_EMBEDDINGS_DEPLOYMENT_VERSION = xxxx
```

In [1]:
from dotenv import load_dotenv
import os
load_dotenv()

from langchain.chat_models import AzureChatOpenAI # Abstraction for ChatGPT API endpoint
from langchain.embeddings import OpenAIEmbeddings
from langchain.schema import HumanMessage, SystemMessage, AIMessage

In [2]:
#from langchain.chat_models import ChatOpenAI
#chat = ChatOpenAI(openai_api_key=api_key)

base_dir = "../dados/"

chat_llm = AzureChatOpenAI(
    openai_api_type=os.getenv('AZOPENAI_API_TYPE'),
    openai_api_key=os.getenv('AZOPENAI_API_KEY'),
    openai_api_base=os.getenv('AZOPENAI_API_BASE'),
    openai_api_version=os.getenv('AZOPENAI_DEPLOYMENT_VERSION'),
    deployment_name=os.getenv('AZOPENAI_DEPLOYMENT_NAME'),
    model=os.getenv('AZOPENAI_MODEL_NAME'),
)

embeddings_model = OpenAIEmbeddings(
        deployment=os.getenv('AZOPENAI_EMBEDDINGS_DEPLOYMENT_NAME'),
        openai_api_key=os.getenv('AZOPENAI_API_KEY'),
        openai_api_base=os.getenv('AZOPENAI_API_BASE'),
        openai_api_version=os.getenv('AZOPENAI_DEPLOYMENT_VERSION'),
        openai_api_type='azure',
        model='text-embedding-ada-002',
        chunk_size=1,
        client="chatcontas"
    )



### Document
Um objeto que contém um trecho de texto e metadados (mais informações sobre esse texto)

In [3]:
from langchain.schema import Document

Document(page_content="Este é o meu documento. Está cheio de textos que reuni de outros lugares",
         metadata={
             'my_document_id' : 234234,
             'my_document_source' : "The LangChain Papers",
             'my_document_create_time' : 1680013019
         })


Document(page_content='Este é o meu documento. Está cheio de textos que reuni de outros lugares', metadata={'my_document_id': 234234, 'my_document_source': 'The LangChain Papers', 'my_document_create_time': 1680013019})

### Document Loaders

In [4]:
# poetry add pypdf
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(base_dir + '/relatorio_auditoria_TC_011165_2022_RTC_97_2022.pdf')
docs = loader.load()
docs

[Document(page_content='                     TRIBUNAL DE CONTAS DO ESTADO DO PARÁ                        Secretaria de Controle Externo - 1ª CCG 1\nRELATÓRIO DE \nAUDITORIA \nPROGRAMADAPROCESSO: 011165/2022ÓRGÃO: Tribunal de Contas dos \nMunicípios do Estado do Pará – \nTCM/PA  e Fundo de Modernização, \nReaparelhamento e Aperfeiçoamento do \nTribunal de Contas dos Municípios do \nEstado do Pará - FUMREAPEXERCÍCIO: 2021RESPONSÁVEL: Exma. Sra. \nConselheira Presidente  Mara Lúcia \nBarbalho da Cruz (14/01/2021 a \n31/12/2023)Setembro/2022', metadata={'source': '../dados//relatorio_auditoria_TC_011165_2022_RTC_97_2022.pdf', 'page': 0}),
 Document(page_content='                    TRIBUNAL DE CONTAS DO ESTADO DO PARÁ                                                         Secretaria de Controle Externo – 1ª CCG 2 SUMÁRIO 1. IDENTIFICAÇÃO DA FISCALIZAÇÃO.........................................................32. INFORMAÇÕES SOBRE O ÓRGÃO AUDITADO.........................................32

In [5]:
docs[0].page_content

'                     TRIBUNAL DE CONTAS DO ESTADO DO PARÁ                        Secretaria de Controle Externo - 1ª CCG 1\nRELATÓRIO DE \nAUDITORIA \nPROGRAMADAPROCESSO: 011165/2022ÓRGÃO: Tribunal de Contas dos \nMunicípios do Estado do Pará – \nTCM/PA  e Fundo de Modernização, \nReaparelhamento e Aperfeiçoamento do \nTribunal de Contas dos Municípios do \nEstado do Pará - FUMREAPEXERCÍCIO: 2021RESPONSÁVEL: Exma. Sra. \nConselheira Presidente  Mara Lúcia \nBarbalho da Cruz (14/01/2021 a \n31/12/2023)Setembro/2022'

In [6]:
docs[3].metadata

{'source': '../dados//relatorio_auditoria_TC_011165_2022_RTC_97_2022.pdf',
 'page': 3}

In [7]:
from langchain.document_loaders import CSVLoader

loader = CSVLoader(file_path=base_dir + "/analise_orcamento.csv", csv_args={"delimiter": ";"})
docs = loader.load()
docs

[Document(page_content='\ufeffCOD: 010009\nDISCRIMINAÇÃO: Locação da obra à trena\nUNID.: m2\nQUANT.: 44,00\nP. UNIT.: \nP. C/ BDI: 2,86\nP. TOTAL: 114,40\nP. TOTAL C/ BDI: 125,84\n(A - B) / B: -11,19%\n: ', metadata={'source': '../dados//analise_orcamento.csv', 'row': 0}),
 Document(page_content='\ufeffCOD: 010004\nDISCRIMINAÇÃO: Placa da obra\nUNID.: m2\nQUANT.: 6,00\nP. UNIT.: \nP. C/ BDI: 275,42\nP. TOTAL: 1.633,80\nP. TOTAL C/ BDI: 1.652,52\n(A - B) / B: -1,60%\n: ', metadata={'source': '../dados//analise_orcamento.csv', 'row': 1}),
 Document(page_content='\ufeffCOD: 020014\nDISCRIMINAÇÃO: Retirada de esquadria sem aproveitamemo\nUNID.: m2\nQUANT.: 20,48\nP. UNIT.: \nP. C/ BDI: 2,93\nP. TOTAL: 59,39\nP. TOTAL C/ BDI: 60,01\n(A - B) / B: -2,73%\n: ', metadata={'source': '../dados//analise_orcamento.csv', 'row': 2}),
 Document(page_content='\ufeffCOD: 020016\nDISCRIMINAÇÃO: Demolição manual de alvenaria de tijolo\nUNID.: m3\nQUANT.: 15,36\nP. UNIT.: \nP. C/ BDI: 29,61\nP. TOTAL: 449

# Retrieval Augmented Generation

1. Faça o load de documentos
2. Quebre-os em Chunks
3. Cálcule dos Embeddings
4. Armazene no VectorDB

> Fizemos algo semelhante na aula mod-03-aula3.ipynb

https://python.langchain.com/assets/images/qa_flow-9fbd91de9282eb806bda1c6db501ecec.jpeg

In [8]:
from langchain.document_loaders.pdf import PyPDFDirectoryLoader

# Carrega Documentos
loader = PyPDFDirectoryLoader(path=base_dir + '/docs/')
documents = loader.load()

len(documents)

144

In [9]:
print(documents[60])
print(len(documents[60].page_content.split()))
[text.page_content for text in documents][:10]

page_content='PLANO DE GESTÃO\n2023 - 2025\nPRAZO\n16/8/2024RESPONSÁVEL\nSEGPMETA\nAprimorar 1 Programa de Saúde Preventiva.Descrição da ação\nExpandir as ações de atendimento aos usuários do Programa de Saúde Preventiva para as \ndemais especialidades disponibilizadas pela Coordenadoria de Saúde e Qualidade de Vida \n(CSQ).AÇÃO\nAprimoramento do Programa de Saúde Preventiva.OBJETIVO ESTRATÉGICO\nAmpliar a efetividade das políticas e diretrizes da gestão de pessoas.\n36\nAÇÃO 21\nTRIBUNAL DE CONTAS DO ESTADO DO PARÁ' metadata={'source': '../dados/docs/Plano_Gestao_2023-2025_Virtual.pdf', 'page': 33}
71


[' \nTRIBUNAL DE CONTAS DO ESTADO DO PARÁ  \nSECRETARIA  \nATO Nº 69  \n \n(Consolidado com as alterações dos atos nºs 71 de 05.02.2015 , \n80 de 07.11.2019  e 88 de 23.05.2023 ) \n \nREGULAMENTO DE SERVIÇOS AUXILIARES  DO \n TRIBUNAL DE CONTAS DO ESTADO DO PARÁ  \n \nCAPÍTULO I  \nDA FINALIDADE E ESTRUTURA  DOS SERVIÇOS AUXILIARES  \n \nArt. 1º Os Serviços Auxiliares compreendem o conjunto de unidades de trabalho que \ntêm por finalidade desempenhar atividades de apoio, assessoramento e gestão \nnecessárias ao pleno exercício das competências do Tribunal de Contas do  Estado do \nPará.  \n \nArt. 2º A estrutura dos Serviços Auxiliares do Tribunal de Contas do Estado do Pará é \ncomposta pelas seguintes unidades:  \n \nI - Na atividade de apoio : \na) Gabinete da Presidência;  \nb) Gabinete da  Vice-Presidência;  \nc) revogado  \nd) Gabinetes dos  Conselheiros;  \ne) Gabinetes dos Auditores.  \n**(alínea “ c” revogada  pelo Ato nº 80/2019)  \n \nII - Na atividade de assessoramento : \n

In [10]:
# Quebrar em Chunks
# https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/recursive_text_splitter
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap= 50)
documents = text_splitter.split_documents(documents)

len(documents)

384

In [11]:
print(documents[60])
print(len(documents[60].page_content.split()))
[text.page_content for text in documents][:10]

page_content='produzido pela Coordenadoria;' metadata={'source': '../dados/docs/Regulamento dos Servicos Auxiliares 2014.pdf', 'page': 15}
3


['TRIBUNAL DE CONTAS DO ESTADO DO PARÁ  \nSECRETARIA  \nATO Nº 69  \n \n(Consolidado com as alterações dos atos nºs 71 de 05.02.2015 , \n80 de 07.11.2019  e 88 de 23.05.2023 ) \n \nREGULAMENTO DE SERVIÇOS AUXILIARES  DO \n TRIBUNAL DE CONTAS DO ESTADO DO PARÁ  \n \nCAPÍTULO I  \nDA FINALIDADE E ESTRUTURA  DOS SERVIÇOS AUXILIARES  \n \nArt. 1º Os Serviços Auxiliares compreendem o conjunto de unidades de trabalho que \ntêm por finalidade desempenhar atividades de apoio, assessoramento e gestão \nnecessárias ao pleno exercício das competências do Tribunal de Contas do  Estado do \nPará.  \n \nArt. 2º A estrutura dos Serviços Auxiliares do Tribunal de Contas do Estado do Pará é \ncomposta pelas seguintes unidades:  \n \nI - Na atividade de apoio : \na) Gabinete da Presidência;  \nb) Gabinete da  Vice-Presidência;  \nc) revogado  \nd) Gabinetes dos  Conselheiros;  \ne) Gabinetes dos Auditores.  \n**(alínea “ c” revogada  pelo Ato nº 80/2019)  \n \nII - Na atividade de assessoramento : \na) 

In [12]:
# Embeddings
# poetry install faiss-cpu
from langchain.vectorstores import FAISS

db = FAISS.from_documents(documents, embeddings_model)

In [46]:
db.save_local("faiss_index")
#new_db = FAISS.load_local("faiss_index", embeddings_model)


In [47]:
# Chroma irá retornar o documento mais similar
#pergunta = "Quais ações do plano de gestão são relacionadas a capacitação dos servidores?"
pergunta = "Qual a meta do plano de gerenciamento de crises?"

documentos_similares = db.similarity_search(query=pergunta, k=5)
documentos_similares

[Document(page_content='33\nAÇÃO\nElaboração do plano de recuperação de desastres em Tecnologia da Informação.OBJETIVO ESTRATÉGICO\nAprimorar a governança, a gestão e o uso da tecnologia da informação.PLANO DE GESTÃO\n2023 - 2025\nDescrição da ação\nElaborar plano de recuperação de desastres em Tecnologia da Informação (TI) com a definição \nde ações à recuperação da infraestrutura tecnológica, dos sistemas e dos dados do Tribunal caso \nocorra interrupção por algum desastre, como: catástrofes naturais, ataques hacker ou falhas em \nequipamentos.\nMETA\nElaborar 1 plano de recuperação de desastres em Tecnologia da Informação.\nRESPONSÁVEL\nSetinPRAZO\n30/11/2024\nPRAZO\n15/12/2024\nPLANO DE GESTÃO 2023 - 2025\nAÇÃO 18\n AÇÃO 17\nTRIBUNAL DE CONTAS DO ESTADO DO PARÁ', metadata={'source': '../dados/docs/Plano_Gestao_2023-2025_Virtual.pdf', 'page': 30}),
 Document(page_content='27\nAÇÃO\nImplantação do módulo de gerenciamento do Plano de Logística Sustentável.OBJETIVO ESTRATÉGICO\nOtimiza

In [48]:
print(documentos_similares[0].page_content)


33
AÇÃO
Elaboração do plano de recuperação de desastres em Tecnologia da Informação.OBJETIVO ESTRATÉGICO
Aprimorar a governança, a gestão e o uso da tecnologia da informação.PLANO DE GESTÃO
2023 - 2025
Descrição da ação
Elaborar plano de recuperação de desastres em Tecnologia da Informação (TI) com a definição 
de ações à recuperação da infraestrutura tecnológica, dos sistemas e dos dados do Tribunal caso 
ocorra interrupção por algum desastre, como: catástrofes naturais, ataques hacker ou falhas em 
equipamentos.
META
Elaborar 1 plano de recuperação de desastres em Tecnologia da Informação.
RESPONSÁVEL
SetinPRAZO
30/11/2024
PRAZO
15/12/2024
PLANO DE GESTÃO 2023 - 2025
AÇÃO 18
 AÇÃO 17
TRIBUNAL DE CONTAS DO ESTADO DO PARÁ


In [49]:
documentos_similares = db.similarity_search_with_relevance_scores(pergunta, k=10)
documentos_similares

[(Document(page_content='33\nAÇÃO\nElaboração do plano de recuperação de desastres em Tecnologia da Informação.OBJETIVO ESTRATÉGICO\nAprimorar a governança, a gestão e o uso da tecnologia da informação.PLANO DE GESTÃO\n2023 - 2025\nDescrição da ação\nElaborar plano de recuperação de desastres em Tecnologia da Informação (TI) com a definição \nde ações à recuperação da infraestrutura tecnológica, dos sistemas e dos dados do Tribunal caso \nocorra interrupção por algum desastre, como: catástrofes naturais, ataques hacker ou falhas em \nequipamentos.\nMETA\nElaborar 1 plano de recuperação de desastres em Tecnologia da Informação.\nRESPONSÁVEL\nSetinPRAZO\n30/11/2024\nPRAZO\n15/12/2024\nPLANO DE GESTÃO 2023 - 2025\nAÇÃO 18\n AÇÃO 17\nTRIBUNAL DE CONTAS DO ESTADO DO PARÁ', metadata={'source': '../dados/docs/Plano_Gestao_2023-2025_Virtual.pdf', 'page': 30}),
  0.7964793591555634),
 (Document(page_content='27\nAÇÃO\nImplantação do módulo de gerenciamento do Plano de Logística Sustentável.OBJE

In [50]:
pergunta2 = "Qual o melhor relógio para quem prática corrida?"

documentos_similares = db.similarity_search_with_relevance_scores(pergunta2, k=10)
documentos_similares

[(Document(page_content='Executivo, as medidas cabíveis.', metadata={'source': '../dados/docs/Ato_n_63_Texto_compilado_-_RITCEPA_alteracoes_ate_ato_87_de_04.04.2023.pdf', 'page': 37}),
  0.6481705419513674),
 (Document(page_content='produzido pela Coordenadoria;', metadata={'source': '../dados/docs/Regulamento dos Servicos Auxiliares 2014.pdf', 'page': 15}),
  0.6477065051492624),
 (Document(page_content='recorrida, que somente os admitirá se interpostos dentro dos respectivos prazos, contendo \nobrigatoriamente o arrazoado correspondente e a fundamentação legal, com indicação da \nnorma violada pela decisão recorrida. \n**(Art. 264, caput, com redação alterada pelo Ato nº 66 de 08.04.2014)', metadata={'source': '../dados/docs/Ato_n_63_Texto_compilado_-_RITCEPA_alteracoes_ate_ato_87_de_04.04.2023.pdf', 'page': 71}),
  0.6426731599126974),
 (Document(page_content='§ 6° Conclusa a fase de instrução, os autos serão remetidos ao Relator, que terá 15 (quinze) \ndias para apreciá-los. \n§ 7°

## Criando Retrievers

In [51]:
type(db)

langchain.vectorstores.faiss.FAISS

In [52]:
retriever = db.as_retriever()
retriever

VectorStoreRetriever(tags=['FAISS'], metadata=None, vectorstore=<langchain.vectorstores.faiss.FAISS object at 0x7f6d84ad8eb0>, search_type='similarity', search_kwargs={})

In [53]:
# Um retriever e uma abstração -> Recuperador
# Possui métodos semelhantes a usar diretamente o ChromaDB
# Usado internamente pelo Langchain
retriever.get_relevant_documents(pergunta)

[Document(page_content='33\nAÇÃO\nElaboração do plano de recuperação de desastres em Tecnologia da Informação.OBJETIVO ESTRATÉGICO\nAprimorar a governança, a gestão e o uso da tecnologia da informação.PLANO DE GESTÃO\n2023 - 2025\nDescrição da ação\nElaborar plano de recuperação de desastres em Tecnologia da Informação (TI) com a definição \nde ações à recuperação da infraestrutura tecnológica, dos sistemas e dos dados do Tribunal caso \nocorra interrupção por algum desastre, como: catástrofes naturais, ataques hacker ou falhas em \nequipamentos.\nMETA\nElaborar 1 plano de recuperação de desastres em Tecnologia da Informação.\nRESPONSÁVEL\nSetinPRAZO\n30/11/2024\nPRAZO\n15/12/2024\nPLANO DE GESTÃO 2023 - 2025\nAÇÃO 18\n AÇÃO 17\nTRIBUNAL DE CONTAS DO ESTADO DO PARÁ', metadata={'source': '../dados/docs/Plano_Gestao_2023-2025_Virtual.pdf', 'page': 30}),
 Document(page_content='27\nAÇÃO\nImplantação do módulo de gerenciamento do Plano de Logística Sustentável.OBJETIVO ESTRATÉGICO\nOtimiza

### Melhorando nossa consulta com o MultiQuery Retrieval

- Às vezes, os documentos o seu vectordb podem conter frases que você não conhece, devido ao seu tamanho.
- Isso pode causar problemas ao tentar pensar na string de consulta correta para comparações de similaridade.
- Podemos usar um LLM para gerar múltiplas variações de nossa consulta usando MultiQueryRetriever, permitindo-nos focar em ideias-chave em vez de frases exatas.

In [54]:
from langchain.retrievers import MultiQueryRetriever

retriever_from_llm = MultiQueryRetriever.from_llm(retriever=retriever, llm=chat_llm)


In [55]:
# LOGGING - O Código abaixo irá mostrar os logs do módulo de multi_query
import logging
logging.basicConfig()
logging.getLogger('langchain.retrievers.multi_query').setLevel(logging.INFO)

In [56]:
pergunta = "Qual a meta do plano de gerenciamento de crises de acordo com o Plano de Gestão?"
results = retriever_from_llm.get_relevant_documents(query=pergunta)

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Qual é o objetivo principal do plano de gerenciamento de crises no Plano de Gestão?', '2. De acordo com o Plano de Gestão, qual é a finalidade do plano de gerenciamento de crises?', '3. Quais são as metas estabelecidas pelo Plano de Gestão para o plano de gerenciamento de crises?']


In [57]:
results

[Document(page_content='27\nAÇÃO\nImplantação do módulo de gerenciamento do Plano de Logística Sustentável.OBJETIVO ESTRATÉGICO\nOtimizar o planejamento e a gestão dos recursos materiais, orçamentários, financeiros e patrimoniais.PLANO DE GESTÃO\n2023 - 2025\nDescrição da Ação\nDesenvolver módulo de  gerenciamento do Plano de Logística Sustentável no sistema de \nmonitoramento do planejamento (Sisplan).\nMETA\nImplantar 1 módulo de gerenciamento do Plano de Logística Sustentável.\nRESPONSÁVEL\nSEPGEPRAZO\n30/11/2023\nAÇÃO 2\nPLANO DE GESTÃO\n2023 - 2025\nRESPONSÁVEL\nACRPPRAZO\n30/11/2023META\nElaborar 1 manual de gestão de crise na área de comunicação e imagem institucional.Descrição da ação\nElaborar o plano de gerenciamento de crise para nortear o posicionamento \ndo TCE-PA quando houver a necessidade.AÇÃO\nPlano de gerenciamento de crise.OBJETIVO ESTRATÉGICO\nAprimorar a comunicação institucional do TCE-PA.\n27PLANO DE GESTÃO 2023 - 2025\nAÇÃO 12\n AÇÃO 11', metadata={'source': '..

In [58]:
pergunta = "Qual a composição do gabinete da presidência?"
results = retriever_from_llm.get_relevant_documents(query=pergunta)
results

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Quais são os membros que compõem o gabinete da presidência?', '2. Quem faz parte do gabinete presidencial e qual é a sua função?', '3. Quais são as pessoas que trabalham no gabinete da presidência e quais são as suas responsabilidades?']


[Document(page_content='X - propor à Diretoria de Gestão de Pessoas da Secretaria de Administração cursos e \nseminários pa ra aprimoramento dos trabalhos;  \nXI - apresentar ao Presidente relatórios trimestrais e anual de suas atividades;  \nXII - desempenhar outras funções que lhe forem atribuídas por determinação do \nPresidente, por deliberação do Tribunal Pleno ou pela Chefia ime diata.  \n \nSEÇÃO I \nGABINETE DA PRESIDÊNCIA  \n \nArt. 8º O Gabinete da Presidência (GPRES) unidade de apoio subordinada diretamente  \nao Presidente tem por finalidade coordenar e organizar as atividades administrativas e \nde representação da Presidência, bem como as ações de comunicação social, \ncerimonial e relação institucional com os Poderes e outros órgãos e entidades nacionais \ne internacionais.  \n \nArt. 9º Compete ao Gabinete da Presidê ncia: \nI - coordenar, organizar e executar atividades administrativas inerentes ao cumprimento \ndas atribuições do Presidente e d os serviços de represen

In [59]:
results[0].page_content

'X - propor à Diretoria de Gestão de Pessoas da Secretaria de Administração cursos e \nseminários pa ra aprimoramento dos trabalhos;  \nXI - apresentar ao Presidente relatórios trimestrais e anual de suas atividades;  \nXII - desempenhar outras funções que lhe forem atribuídas por determinação do \nPresidente, por deliberação do Tribunal Pleno ou pela Chefia ime diata.  \n \nSEÇÃO I \nGABINETE DA PRESIDÊNCIA  \n \nArt. 8º O Gabinete da Presidência (GPRES) unidade de apoio subordinada diretamente  \nao Presidente tem por finalidade coordenar e organizar as atividades administrativas e \nde representação da Presidência, bem como as ações de comunicação social, \ncerimonial e relação institucional com os Poderes e outros órgãos e entidades nacionais \ne internacionais.  \n \nArt. 9º Compete ao Gabinete da Presidê ncia: \nI - coordenar, organizar e executar atividades administrativas inerentes ao cumprimento \ndas atribuições do Presidente e d os serviços de representação da Presidência;'

# Usando o Retrieval QA

In [79]:
from langchain.chains import RetrievalQA
qa = RetrievalQA.from_chain_type(llm=chat_llm, chain_type="stuff", retriever=retriever_from_llm)

In [80]:
qa.run("Quais são as diretrizes do Plano de Gestão para 2023?")

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Quais são as orientações estabelecidas no Plano de Gestão para o próximo ano?', '2. Quais são as metas e objetivos do Plano de Gestão para 2023?', '3. Quais são as estratégias recomendadas pelo Plano de Gestão para o futuro próximo?']


'As 3 diretrizes do Plano de Gestão para 2023 são: Transformação Digital, Sustentabilidade e Transparência. O plano contempla 21 ações alinhadas a essas diretrizes e aos objetivos estratégicos contidos no Plano Estratégico 2022-2027.'

In [81]:
qa.run("Qual a composição do gabinete da presidência?")

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Quais são os membros que compõem o gabinete da presidência?', '2. Quem são as pessoas que fazem parte do gabinete da presidência?', '3. Como é constituído o gabinete da presidência em termos de membros?']


'O Gabinete da Presidência possui a seguinte composição:\nI - Assessoria de Comunicação e Relações Públicas;\nII - Assessoria de Cerimonial e Relações Institucionais;\nIII - Coordenadoria de Apoio Técnico.\nE é dirigido por um Chefe de Gabinete, atualmente ocupado por Diógenes da Silva Fiorese.'

In [82]:
qa.run("Quais as competências do Tribunal?")

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Quais habilidades o Tribunal possui?', '2. Quais são as aptidões do Tribunal?', '3. Quais são as capacidades do Tribunal?']


'O Tribunal de Contas do Estado tem diversas competências, entre elas: decidir sobre denúncias e representações em matéria de sua competência; negar aplicação de Lei ou de ato normativo considerado ilegal ou inconstitucional; determinar a instauração de tomada de contas, inspeções extraordinárias e auditorias especiais; decidir sobre recursos interpostos contra suas decisões, bem como pedidos de rescisão; estabelecer prejulgados, por meio de súmulas; elaborar e alterar seu Regimento Interno; eleger seu Presidente e demais dirigentes, e dar-lhes posse; entre outras atribuições. Você pode conferir todas as competências detalhadas no Regimento Interno do Tribunal.'

In [83]:
r = qa.run("Quem pode redigir as resoluções do Tribunal?")
print(r)

INFO:langchain.retrievers.multi_query:Generated queries: ['1. Quais são os profissionais habilitados a redigir as resoluções do Tribunal?', '2. Existem requisitos específicos para redigir as resoluções do Tribunal?', '3. Quem são os responsáveis pela elaboração das resoluções do Tribunal?']


De acordo com o Art. 191, as Resoluções e Acórdãos serão redigidos pela Secretaria, sob a orientação do Relator.


In [65]:
qa.run("Quais punições o Tribunal pode aplicar aos jurisdicionados?")

'O Tribunal pode aplicar diversas punições aos jurisdicionados, incluindo multas de até cem por cento do valor atualizado do dano causado ao erário estadual, inabilitação para o exercício de cargo em comissão ou função de confiança no âmbito da administração pública estadual por um período de até cinco anos, e medidas cautelares como recomendação de afastamento temporário do responsável, indisponibilidade de bens para garantir o ressarcimento dos danos em apuração e sustação de ato impugnado ou de procedimento. A decisão sobre qual punição aplicar dependerá da gravidade da infração e de outras circunstâncias, como a existência de dolo ou culpa e a proporcionalidade da sanção administrativa imposta.'

In [66]:
qa.run("Qual o carro que consome menos combustível?")

'Desculpe, mas não há informação suficiente no contexto fornecido para responder a essa pergunta. O contexto fala sobre a Coordenadoria e suas atividades, mas não fornece informações sobre carros ou consumo de combustível. Posso ajudar com alguma outra pergunta sobre o contexto fornecido?'

# Avaliando o modelo

### Gerando perguntas

In [67]:
from langchain.evaluation.qa import QAGenerateChain
from langchain.prompts import PromptTemplate

In [68]:
# Recomendo usar o GPT4
example_gen_chain = QAGenerateChain.from_llm(chat_llm)

In [69]:
example_gen_chain.prompt.template

'You are a teacher coming up with questions to ask on a quiz. \nGiven the following document, please generate a question and answer based on that document.\n\nExample Format:\n<Begin Document>\n...\n<End Document>\nQUESTION: question here\nANSWER: answer here\n\nThese questions should be detailed and be based explicitly on information in the document. Begin!\n\n<Begin Document>\n{doc}\n<End Document>'

In [70]:
prompt_ptbr = 'Você é um professor que vem com perguntas para fazer em um teste. \nDado o documento a seguir, gere uma pergunta e uma resposta com base nesse documento.\n\nFormato de exemplo:\n<Documento inicial>\n...\n<Documento final>\nQUESTION: pergunta aqui \nANSWER: responda aqui \n\nEssas perguntas devem ser detalhadas e basear-se explicitamente nas informações do documento. Começar!\n\n<Iniciar Documento>\n{doc}\n<Finalizar Documento>'

prompt_ptbr_template = PromptTemplate.from_template(prompt_ptbr)
example_gen_chain = QAGenerateChain(llm=chat_llm, prompt=prompt_ptbr_template)

In [71]:
import random

random_docs = [random.choice(documents) for _ in range(5)]
exemplos = example_gen_chain.apply_and_parse(
    [{"doc": t} for t in random_docs]
)

exemplos

[{'qa_pairs': {'query': 'Qual é o objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa, de acordo com o documento?',
   'answer': 'O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim. Esse relatório será elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informações e dados necessários.'}},
 {'qa_pairs': {'query': 'Qual é a sanção que pode ser aplicada a um responsável cujas contas foram julgadas irregulares?',
   'answer': 'A inabilitação para o exercício de cargo em comissão ou função de confiança no âmbito da administração pública estadual, por um período não superior a 5 anos, cumulativamente com outras sanções previstas no Capítulo. '}},
 {'qa_pairs': {'query': 'Qual é o procedimento para a

In [72]:
exemplos = [exemplo['qa_pairs'] for exemplo in exemplos]

In [73]:
qa.run(exemplos[0]["query"])

'O objetivo do relatório é apresentar à Assembleia Legislativa um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim, na hipótese prevista no artigo mencionado. O relatório será elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informações e dados necessários.'

### Avaliação Manual


In [74]:
import langchain
langchain.debug = True

In [75]:
qa.run(exemplos[0]["query"])

[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA] Entering Chain run with input:
[0m{
  "query": "Qual é o objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa, de acordo com o documento?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA > 3:chain:StuffDocumentsChain] Entering Chain run with input:
[0m[inputs]
[32;1m[1;3m[chain/start][0m [1m[1:chain:RetrievalQA > 3:chain:StuffDocumentsChain > 4:chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "Qual é o objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa, de acordo com o documento?",
  "context": "direito. \n§ 1º Na hipótese prevista neste artigo, deverá o Tribunal apresentar à Assembleia Legislativa \nminucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos \ncolhidos no curso das fiscalizações realizadas para este fim. \n§ 2º O relatório de que trata o parágrafo anterior será elaborado pelo Rela

'O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado e louvar-se nos elementos colhidos no curso das fiscalizações realizadas para este fim. Isso está estabelecido no § 1º do artigo 103.'

In [76]:
# Turn off the debug mode
langchain.debug = False

## Avaliação assistida por LLM

In [77]:
## Avaliação assistida por LLM
predictions = qa.apply(exemplos)
predictions

[{'query': 'Qual é o objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa, de acordo com o documento?',
  'answer': 'O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim. Esse relatório será elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informações e dados necessários.',
  'result': 'O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim. Esse relatório deve ser elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informações e dados nece

In [78]:
from langchain.evaluation.qa import QAEvalChain
eval_chain = QAEvalChain.from_llm(chat_llm)

graded_outputs = eval_chain.evaluate(exemplos, predictions)

for i, eg in enumerate(exemplos):
    print(f"Exemplo {i}:")
    print("Pergunta: " + predictions[i]['query'])
    print("Resposta correta: " + predictions[i]['answer'])
    print("Resposta do Modelo: " + predictions[i]['result'])
    print("Avaliação: " + graded_outputs[i]['results'])
    print()

Exemplo 0:
Pergunta: Qual é o objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa, de acordo com o documento?
Resposta correta: O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim. Esse relatório será elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informações e dados necessários.
Resposta do Modelo: O objetivo do relatório que deve ser apresentado pelo Tribunal à Assembleia Legislativa é apresentar um minucioso relatório do exercício financeiro encerrado, louvando-se para tanto nos elementos colhidos no curso das fiscalizações realizadas para este fim. Esse relatório deve ser elaborado pelo Relator da prestação de contas, cabendo ao Departamento de Controle Externo oferecer todas as informa

### Outros casos de uso
https://python.langchain.com/docs/use_cases