In [1]:
"""
Testing with the Parent Document Retrievel methodology
Available at
https://python.langchain.com/docs/how_to/parent_document_retriever/
"""

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

data_path = "../../data/edital_text/edital_text.txt"


In [2]:
# Loading Documents
docs = []

document_loader = TextLoader("../../data/edital_text/edital_text.txt")

docs.extend(document_loader.load())

In [3]:
# Loading Documents
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=4000, chunk_overlap=50,
    length_function=len,)

In [4]:
child_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50,
    length_function=len,)

In [5]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="parental_retriever", embedding_function=OllamaEmbeddings(model="mistral-nemo:latest", temperature=0.3)
)


In [6]:
# The storage layer for the parent documents
store = InMemoryStore()
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    parent_splitter=parent_splitter,
    child_splitter=child_splitter,
)

In [7]:
retriever.add_documents(docs, ids=None)


In [8]:
print(list(store.yield_keys()))

['41518f34-6862-49ae-b232-a3a09c9137c2', '639e2431-f688-4b0f-ac8e-1d1554a00ea0', '84253edd-b984-420c-9c62-e99b741280d6', 'fe7260b1-1b51-4e8d-a6a1-39e5c18b200b', '545bb4c1-9f6f-4b03-8ace-ae557342bf1c', '5bc648d6-55e2-4d93-b794-ee83d47e2cbb', 'dcb7818e-cc9d-4825-90a8-a5c48489dd30', '8fefdb57-649f-422e-b2a5-0bd2bfdb9507', '7550be2b-ff62-41e6-9168-df1314382c06', 'a187f03d-d7b0-4614-bd96-b7bf496c438e', '021bfc9e-2d88-44a3-a2c0-128576502b8d', '74c66480-b7d9-4144-accc-44669dcd4e3f', '0fec0fa4-ead2-47a5-a070-5af1f4f620a5', 'da1a9661-a60d-4be9-bd75-400b57329aa7', '011283d6-1958-4f2d-9005-a197608e6a68', 'd897d0e4-0e16-4058-a6a3-81c58b18eae5', 'b2ff6007-f3e4-4685-886c-abe1beb1b2cd', 'f97caac2-7868-434d-8c4c-9d46aa146ed7', '9c000b3b-2805-470e-942d-1992365ed7ff', 'e32c05c0-643f-4dcd-8b20-93277f5da10a', '56e1245d-57fd-4120-814a-819ca681ba21', '8ccd18f1-e300-43f7-ba2c-f5ca28e8ff7a', '74febcac-3dd3-4586-a802-c240838a095e', 'ca231865-fb30-4281-b20a-0bf0ff3e19fa', 'a7e685a3-36cb-4963-98c9-221da9e7c567',

In [10]:
sub_docs = vectorstore.similarity_search("Posso apresentar o histórico de graduação ou a Certidão de Conclusão de Graduação, no lugar dos documentos do ensino médio?")
print(sub_docs)

[Document(metadata={'doc_id': '8fefdb57-649f-422e-b2a5-0bd2bfdb9507', 'source': '../../data/edital_text/edital_text.txt'}, page_content='3.10.16 Poderá ser concedida isenção ao candidato inscrito para o cargo dos CFOs de Cadete PM ou\nCadete BM que:14\n\na) Comprove não poder arcar com tal ônus junto ao NC/UFPR, mediante inscrição do Cadastro\nÚnico para Programas Sociais do Governo Federal – CadÚnico (Decreto nº 6.593/2008), em\nconformidade com a Lei estadual nº 19.695/2018; ou,\nb) Comprove a prestação de serviço para a Justiça Eleitoral por, no mínimo, dois eventos eleitorais,\nconsecutivos ou não, em conformidade com o disposto na Lei estadual nº 19.196/2017; ou,\nc) Comprove ter realizado doação de sangue por, no mínimo, duas vezes nos últimos doze meses\nanteriores à publicação deste edital ou comprove a condição de doador de medula óssea,\nconforme disposto na Lei estadual nº 19.293/2017 (data de referência conforme estabelecido\nno Cronograma disponível no Anexo I deste Edital

In [31]:
retrieved_docs = retriever.invoke("exame musical")

In [32]:
len(retrieved_docs)

4

In [33]:
print(retrieved_docs[0].page_content)

3.3 Ao se inscrever, o candidato deverá optar por uma das categorias de concorrência – concorrência
geral ou concorrência especial –, nos termos da reserva de vagas amparada na Lei nº 12.711/12.

3.3.1 Os candidatos da concorrência geral que optarem por concorrer à vaga suplementar destinada a
pessoas com deficiência (PCD) deverão satisfazer as condições estabelecidas no item 3.11 deste
edital. Neste caso, os candidatos deverão selecionar a opção correspondente ao tipo de vaga no
momento do preenchimento do formulário de inscrição.9

3.3.2 Os candidatos que optarem pela categoria de concorrência especial deverão, necessariamente,
optar por uma das seguintes categorias de concorrência:

a) Renda familiar igual ou inferior a 1,5 salário mínimo (RI);
b) Pessoa com deficiência, com renda familiar igual ou inferior a 1,5 salário mínimo (RI+PCD);
c) Autodeclarados pretos, pardos ou indígenas, com renda familiar igual ou inferior a 1,5 salário
mínimo (RI+PPI);
d) Pessoa com deficiência, autod

In [34]:
print(retrieved_docs[1].page_content)

11.3 É de inteira responsabilidade do candidato em Lista de Espera, conforme estabelecido no subitem
9.14 deste Edital, verificar todas as publicações no site do NC/UFPR a respeito da ocupação das
vagas remanescentes, nos prazos e condições estabelecidas em cada publicação.

11.4 Na data estabelecida no Cronograma do Anexo I deste Edital, serão convocados todos os
candidatos que compõem a lista de espera para realizar o envio da documentação necessária para
Registro Acadêmico no período definido no cronograma do Anexo I.

11.5 O envio da documentação necessária para Registro Acadêmico não assegura direito à vaga.

11.6 No período estabelecido no Cronograma do Anexo I deste Edital, os candidatos deverão fazer o
upload dos seguintes documentos no site do NC/UFPR:

a) Documento de identificação ou, para candidatos estrangeiros, o RNE-PERMANENTE (Registro
Nacional de Estrangeiro-PERMANENTE) ou o RNM (Registro Nacional de Migrante);

b) Certidão de nascimento ou casamento (e que conste a in

In [35]:
print(retrieved_docs[2].page_content)

b) Imposto de Renda de Pessoa Física (IRPF):
Para os declarantes de IRPF: declaração de Ajuste Anual do DIRPF (todas as páginas) e do recibo
de entrega à Receita Federal do Brasil, referente ao exercício 2023, ano- calendário de 2022. Quando
houver, notificação da restituição do IRPF;
Para os não declarantes de IRPF: comprovante da Situação das Declarações IRPF 2023, disponível
no link
https://servicos.receita.fazenda.gov.br/Servicos/ConsRest/Atual.app/paginas/index.asp

c) Extratos bancários de todas as contas corrente e poupança, relativos aos meses de março, abril e
maio de 2023, de todos os membros do grupo familiar que possuírem conta em agências bancárias
(pessoa física e das pessoas jurídicas vinculadas). Caso não possuam conta bancária, deve-se
apresentar declaração de negativa de conta bancária, conforme modelo disponibilizado no Anexo VII;

d) Pensão alimentícia – Para componentes do grupo familiar menores de 21 anos com pais falecidos ou
separados (separação legalizada ou nã

In [36]:
print(retrieved_docs[3].page_content)

8.1.8 A Banca Examinadora constitui última instância para recurso, sendo soberana em suas decisões,
razão pela qual não caberão recursos adicionais.

8.1.9 À exceção dos recursos previstos, não se concederá revisão de provas, recontagem de pontos das
provas, segunda chamada ou vistas das provas, devido às características do PS-UFPR.

8.2 Do Processamento da Leitura Óptica do Cartão-Resposta

8.2.1 No prazo estabelecido conforme cronograma do Anexo I, será publicado o resultado do
processamento da leitura óptica do cartão-resposta, no site do NC/UFPR o qual ficará disponível
para acesso do candidato exclusivamente neste período.

8.2.2 Serão aceitos questionamentos sobre o processamento da leitura óptica do cartão-resposta durante
o período estabelecido conforme cronograma do Anexo I, no site do NC/UFPR.

8.2.3 Os questionamentos devem estar fundamentados e apresentados em formulário específico
disponibilizado no site do NC/UFPR, devendo o candidato seguir as instruções contidas no refe