In [19]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import PyPDFLoader
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnableSequence

from langchain_core.output_parsers import StrOutputParser

In [6]:
import os

In [7]:
%pip install python-dotenv
import dotenv
%load_ext dotenv
%dotenv

Note: you may need to restart the kernel to use updated packages.


In [12]:
questions = [
    "Qual é a visão de Euclides da Cunha sobre o ambiente natural do sertão nordestino e como ele influencia a vida dos habitantes?",
    "Quais são as principais características da população sertaneja descritas por Euclides da Cunha? Como ele relaciona essas características com o ambiente em que vivem?",
    "Qual foi o contexto histórico e político que levou à Guerra de Canudos, segundo Euclides da Cunha?",
    "Como Euclides da Cunha descreve a figura de Antônio Conselheiro e seu papel na Guerra de Canudos?",
    "Quais são os principais aspectos da crítica social e política presentes em \"Os Sertões\"? Como esses aspectos refletem a visão do autor sobre o Brasil da época?",
]

In [8]:
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
llm = ChatOpenAI(model_name= "gpt-3.5-turbo", max_tokens = 500)

In [10]:
# Carregar PDF

pdf_path = os.path.join("..", "data", "os-sertoes.pdf")
loader = PyPDFLoader(pdf_path, extract_images=False)
pages = loader.load_and_split()

In [13]:
# Splitter
child_splitter = RecursiveCharacterTextSplitter(chunk_size=200)
parent_splitter = RecursiveCharacterTextSplitter(
  chunk_size=4000, 
  chunk_overlap=200, 
  length_function=len, 
  add_start_index=True,
  separators=["\n\n", "\n", ".", "!", "?", ",", " "]
)

In [14]:
# Storage

store = InMemoryStore()
vectorstore = Chroma(embedding_function=embeddings)

  vectorstore = Chroma(embedding_function=embeddings)


In [16]:
parent_document_retriever = ParentDocumentRetriever(
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
    vectorstore=vectorstore,
    docstore=store
)
batch_size = 50
for i in range(0, len(pages), batch_size):
    batch_pages = pages[i:i + batch_size]
    parent_document_retriever.add_documents(batch_pages, ids=None)

In [22]:
TEMPLATE = """
Você é um especialista em literatura brasileira. Responda a pergunta abaixo utilizando o contexto informado

Contexto: {context}
    
Pergunta: {question}
"""

prompt = PromptTemplate(input_variables=["context", "question"], template=TEMPLATE)
parser = StrOutputParser()
sequence = RunnableSequence(prompt | llm | parser)

In [23]:
def answer_question(question: str):
    context = parent_document_retriever.invoke(question)
    if not context:
        return "Desculpe, não consegui encontrar informações relevantes para a pergunta."

    response = sequence.invoke({"context": context, "question": question})
    if not response:
        return "Desculpe, não consegui gerar uma resposta para a pergunta."

    return response

In [24]:
for index, question in enumerate(questions):
  
    resposta = answer_question(question)
    
    print({"numero": index, "pergunta": question, "resposta": resposta})

{'numero': 0, 'pergunta': 'Qual é a visão de Euclides da Cunha sobre o ambiente natural do sertão nordestino e como ele influencia a vida dos habitantes?', 'resposta': 'Euclides da Cunha descreve o ambiente natural do sertão nordestino como uma região árida e selvagem, onde as condições geológicas e topográficas influenciam diretamente a vida dos habitantes. Ele destaca a influência das características genéticas do local, que reagem fortemente sobre os habitantes, contribuindo para o agravamento das condições de vida. A interação entre os agentes físicos e as condições locais resulta em um conflito perene, refletindo na significação mesológica do sertão. Euclides da Cunha ressalta que a região é pouco explorada pelos cientistas e que a vida no sertão é marcada por adversidades e dificuldades, tornando-se um local desconhecido e desafiador.'}
{'numero': 1, 'pergunta': 'Quais são as principais características da população sertaneja descritas por Euclides da Cunha? Como ele relaciona essa