# Testando rag

In [1]:
from rag.ingestion import ingest_data, clear_db
from rag.retrieval import load_db, get_relevant_docs
from rag.generation import generate_answer

pdf1_path = "data/PPC_TSI_EaD.pdf"
pdf2_path = "data/PPC_TEC_INFO.pdf"
index_path = "faiss_index"

# 1) (Opcional) Limpar a base
print("=== Limpeza inicial da base ===")
clear_db(index_path)
print("\n")

# 2) Criar/atualizar a base com pdf1
print("=== Ingestão do primeiro PDF (criando base) ===")
ingest_data(pdf_path=pdf1_path, index_path=index_path, update_existing_db=True)
print("\n")

# 3) Carregar a base do disco
print("=== Carregando a base do disco ===")
db = load_db(index_path=index_path)
print("\n")

# 4) Recuperação e geração
print("=== Recuperando documentos (Test 2) ===")
docs = get_relevant_docs(db, query="Quais são as disciplinas do curso?", k=10)
print(f"Quantidade de documentos retornados: {len(docs)}")

print("=== Geração de resposta ===")
answer = generate_answer(docs, "Quais são as disciplinas do curso?")
print("Resposta do modelo:\n", answer)
print("\n")

# 5) Atualizar a base com outro PDF (outra ingestão)
print("=== Atualizando a base com PDF2 ===")
ingest_data(pdf_path=pdf2_path, index_path=index_path, update_existing_db=True)
print("\n")

# 6) Carregar novamente e verificar
print("=== Carregando após atualização ===")
db = load_db(index_path=index_path)
docs = get_relevant_docs(db, query="Quais são as disciplinas do curso?", k=10)
nova_resposta = generate_answer(docs, "Quais são as disciplinas do curso?")
print("Resposta do modelo após atualização:\n", nova_resposta)

=== Limpeza inicial da base ===
Base FAISS removida: diretório 'faiss_index' apagado.


=== Ingestão do primeiro PDF (criando base) ===
Exemplo do primeiro chunk:
 page_content='Ministério da Educação
Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte
DELIBERAÇÃO Nº 59/2022 - CONSEPEX/IFRN DELIBERAÇÃO Nº 59/2022 - CONSEPEX/IFRN   
   21 de dezembro de 2022    21 de dezembro de 2022
O PRESIDENTE DO CONSELHO DE ENSINO, PESQUISA E EXTE NSÃO DO INSTITUTO FEDERAL DE
EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO RIO GRANDE DO NOR TE, faz saber que este Conselho, reunido
extraordinariamente, de forma híbrida, em 18 de novembro de 2022, no uso das at ribuições que lhe confere o art. 13 do Estatuto do
IFRN, e
CONSIDERANDO
o que consta nos Processos nºs.  
23057.001221.2020-05, 23057.001222.2020-41, de 14 de fevereiro de 2020,
D E L I B E R A:
I – APROV AR, na forma dos anexos, para serem submetidos ao Conselho Superior, o Proje to Pedagógico e o Projeto de
Autorização de Funcionamen

  embeddings = OllamaEmbeddings(model="mxbai-embed-large")


Nova base criada com 623 vetores.
Base FAISS salva/atualizada em 'faiss_index'.


=== Carregando a base do disco ===
Base FAISS carregada de 'faiss_index'.


=== Recuperando documentos (Test 2) ===
Quantidade de documentos retornados: 10
=== Geração de resposta ===
Prompt gerado: 

Responda a questão baseada apenas no texto a seguir:

Contexto: "disciplina, número da aula e conteúdo. Para algumas disciplinas, previu-se, também, mat erial 
complementar como videoaulas e objetos virtuais de aprendizagem. Esses recursos podem ser, 
inclusive, agregados ao material didático a cada demanda dos professores que ministrarã o as 
disciplinas do curso.
egresso do curso. 
d) Número de vagas ofertadas – deve corresponder à dimensão (quantitativa) do corpo 
docente e às condições de infraestrutura no âmbito do curso. 
e) Estrutura curricular – deve apresentar flexibilidade, interdisciplinaridade, atualização 
com o mundo do trabalho e articulação da teoria com a prática. 
f) Conteúdos curriculares 

  docs = retriever.get_relevant_documents(query)


Resposta do modelo:
 Aqui estão as disciplinas do curso de Tecnologia em Sistemas para Internet, na modalidade a distância, do IFRN:

1. Fundamentos e Práticas na EaD
2. Gerenciamento de Projeto de Software
3. Gerenciamento de Projetos de Software
4. Fundamentos e Práticas na EaD

Essas disciplinas são parte da matriz curricular do curso e estão disponíveis para os alunos que aderirem ao programa.

Além disso, há também a possibilidade de aproveitamento de estudos de disciplinas de outros cursos superiores de graduação e certificação de conhecimentos por meio de experiências vivenciadas previamente ao início do curso.


=== Atualizando a base com PDF2 ===
Exemplo do primeiro chunk:
 page_content='Projeto Pedagógico do Curso
Técnico de Nível Médio em 
Informática para 
Internet 
na forma subsequente,  
na modalidade à distância' metadata={'source': 'data/PPC_TEC_INFO.pdf', 'page': 2}
Quantidade de chunks: 231
Carregando base FAISS existente em 'faiss_index'...
Tamanho atual da base (ant