In [222]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.prompts import ChatPromptTemplate

from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain_core.output_parsers import StrOutputParser

from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain_cohere import CohereRerank


In [223]:
import os
api_key=os.getenv('OPENAI_API_KEY')
print(api_key)

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


In [224]:
## Carregar modelos open ai - embedding e chat

embeddings_model = OpenAIEmbeddings(model="text-embedding-3-small")
llm = ChatOpenAI(model_name="gpt-4o-mini", max_tokens=300)

In [225]:
# Carregar o PDF
pdf_link = "6x1.pdf"
loader = PyPDFLoader(pdf_link, extract_images=False)

pages = loader.load_and_split()

In [226]:
len(pages)

7

In [227]:
# SEPERAR EM CHUNKS

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 4000,
    chunk_overlap = 20,
    length_function = len,
    add_start_index = True
)

# CRIAR OS CHUNKS

chunks = text_splitter.split_documents(pages)

In [228]:
print(chunks)

[Document(metadata={'source': '6x1.pdf', 'page': 0, 'start_index': 0}, page_content='PROPOSTA DE EMENDA À CONSTITUIÇÃO Nº       , DE 2024\n(Da Sra. Erika Hilton)\nDá nova  redação  ao  inciso  XIII, do artigo 7° da\nConstituição Federal para dispor sobre a redução da\njornada de trabalho para quatro dias por semana no\nBrasil.\nAs mesas da Câmara dos Deputados e do Senado Federal, nos termos do § 3º do art. 60\nda Constituição Federal, promulgam a seguinte Emenda ao texto constitucional:\nArt. 1º O inciso XIII do art. 7° passam a vigorar com a seguinte redação:\n"Art.7°……………………………………………\n……………………………………………………\nXIII – duração do trabalho normal não superior a\noito horas diárias e trinta e seis horas semanais, com\njornada  de  trabalho  de  quatro  dias  por  semana,\nfacultada a compensação de horários e a redução de\njornada, mediante acordo ou convenção coletiva de\ntrabalho;" (NR)\nArt.  2º  Esta  Emenda  Constitucional  entra  em  vigor  360  dias  após  a  data  da  sua\npublicaçã

In [229]:
#SALVAR OS CHUNKS NO VECTOR DB

vectordb = Chroma(embedding_function=embeddings_model, persist_directory='naive')

In [230]:
#CARREGAR O DB

naive_retriever = vectordb.as_retriever(search_kwargs={"k": 10})


In [231]:
cohere_api_key=os.getenv('COHERE_API_KEY')
print(cohere_api_key)

55IQ9tT0DJZVLEYYDKryqJxNHeJg6s59gsuRdCxA


In [232]:
rerank = CohereRerank(cohere_api_key=cohere_api_key, top_n=3, model="rerank-english-v3.0")

compressor_retriver = ContextualCompressionRetriever(
  base_compressor= rerank,
  base_retriever= naive_retriever,
)

In [233]:
TEMPLATE = """
  Você é um especialista em legislação e em trabalho. Responda a pergunta abaixo utilizando o contexto informado.
  Query:
  {question}

  Context:
  {context}
"""

rag_prompt = ChatPromptTemplate.from_template(TEMPLATE)

In [234]:
setup_retrival = RunnableParallel({"question": RunnablePassthrough(), "context": compressor_retriver})

output_parser = StrOutputParser()

compressor_retrieval_chain = setup_retrival | rag_prompt | llm | output_parser

In [235]:
compressor_retrieval_chain.invoke("o que a emenda Da Sra. Erika Hilton diz?")

'A emenda da Sra. Erika Hilton, que faz parte de um contexto legislativo mais amplo, geralmente aborda questões relacionadas a direitos humanos, igualdade de gênero, e proteção de grupos vulneráveis. Embora eu não tenha informações específicas sobre o conteúdo da emenda em questão, é comum que propostas dessa natureza busquem promover a inclusão, combater a discriminação e garantir direitos fundamentais.\n\nSe você puder fornecer mais detalhes sobre a emenda específica ou o tema que ela aborda, eu ficaria feliz em oferecer uma análise mais aprofundada.'