In [1]:
# --- 0. CONFIGURA√á√ÉO DO AMBIENTE ---
import sys
import os
import json 
import re 
import unidecode 
from pathlib import Path
import warnings

notebook_dir = os.getcwd() 
PROJECT_ROOT_PATH = os.path.abspath(os.path.join(notebook_dir, '..'))
SRC_PATH = os.path.join(PROJECT_ROOT_PATH, "src")
if SRC_PATH not in sys.path:
    sys.path.append(SRC_PATH)
    print(f"Adicionado ao sys.path: {SRC_PATH}")

warnings.filterwarnings("ignore", category=UserWarning, module='huggingface_hub')

try:
    from rag_pipeline.loader import load_and_process_jsons
    from rag_pipeline.vector_store import get_embedding_model, get_vector_store
    from rag_pipeline.model_setup import get_llm
    from rag_pipeline.chain import create_rag_chain
except ImportError as e:
    print(f"!!! ERRO DE IMPORTA√á√ÉO !!! Falha ao importar m√≥dulos da 'src/rag_pipeline'.")
    print(f"Verifique se o PROJECT_ROOT_PATH est√° correto: {PROJECT_ROOT_PATH}")
    print(f"Erro: {e}")
    raise e

# --- L√ìGICA DE NORMALIZA√á√ÉO DE PERGUNTA ---
def carregar_dicionarios(input_dir: str) -> dict[str, dict[str, str]]:
    """Carrega os dicion√°rios de normaliza√ß√£o."""
    dictionaries_path = os.path.join(input_dir, 'dicionarios.json')
    try:
        with open(dictionaries_path, 'r', encoding='utf-8') as f:
            dictionaries = json.load(f)
        
        acronyms = {k.lower(): v.lower() for k, v in dictionaries.get("acronyms", {}).items()}
        standardization = {k.lower(): v.lower() for k, v in dictionaries.get("standardization_map", {}).items()}
        
        print("-> Dicion√°rios de normaliza√ß√£o carregados para o Testador RAG.")
        return {"acronyms": acronyms, "standardization": standardization}
    except FileNotFoundError:
        print(f"-> AVISO: 'dicionarios.json' n√£o encontrado. Usando dicion√°rios vazios.")
        return {"acronyms": {}, "standardization": {}}

def normalize_query(text: str, acronyms_map: dict, standardization_map: dict) -> str:
    """Aplica a mesma normaliza√ß√£o dos dados √† pergunta do usu√°rio."""
    if not isinstance(text, str):
        return ""
    text = text.lower()  
    text = unidecode.unidecode(text)
    
    # Ordem: Siglas primeiro, depois Padroniza√ß√£o
    for acronym, expansion in acronyms_map.items():
        replacement_string = f"{acronym} {expansion}"
        text = re.sub(r'\b' + re.escape(acronym) + r'\b', replacement_string, text)
        
    for key, value in standardization_map.items():
        text = re.sub(r'\b' + re.escape(key) + r'\b', value, text)

    text = re.sub(r'[^a-z0-9\s.,-]', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# --- FUN√á√ÉO DE LIMPEZA DE RESPOSTA ---
def clean_model_response(response: str) -> str:
    """Limpa o 'eco' do prompt e remove duplica√ß√µes do texto normalizado."""
    
    match = re.search(r'<start_of_turn>model\s*(.*)', response, re.DOTALL)
    if match:
        response = match.group(1).strip()

    response = re.sub(r'(\b\w+\b\s+\b\w+\b\s+\b\w+\b.*)\s+\1', r'\1', response, flags=re.IGNORECASE)
    response = re.sub(r'\b(ifnmg\s+instituto\s+federal.*?)\b', r'IFNMG', response, flags=re.IGNORECASE)
    response = re.sub(r'\s+', ' ', response).strip()
    
    return response.strip()

print("\n‚úÖ --- C√©lula 1 (Setup) Conclu√≠da: Fun√ß√µes e paths carregados. --- ‚úÖ")

Adicionado ao sys.path: C:\Users\extre\RAG-para-pdfs\src

‚úÖ --- C√©lula 1 (Setup) Conclu√≠da: Fun√ß√µes e paths carregados. --- ‚úÖ


In [2]:
print("\n--- INICIANDO PIPELINE RAG COMPLETO (VERS√ÉO NOTEBOOK) ---")

# --- FASE 0.5: CARREGAR DICION√ÅRIOS ---
DATA_INPUT_DIRECTORY = os.path.join(PROJECT_ROOT_PATH, "data", "input")
mapas_normalizacao = carregar_dicionarios(DATA_INPUT_DIRECTORY)
acronyms = mapas_normalizacao["acronyms"]
standardization = mapas_normalizacao["standardization"]

# --- FASE 1: CARREGAMENTO DOS DADOS ---
JSONL_DIRECTORY = os.path.join(PROJECT_ROOT_PATH, "data", "output")
all_documents, report = load_and_process_jsons(JSONL_DIRECTORY)
if not all_documents:
    print("!!! ERRO: Nenhum documento foi carregado. Abortando.")
    raise ValueError("Nenhum documento foi carregado.")
else:
    print(f"\n--- Fase 1 Conclu√≠da: {len(all_documents)} documentos (blocos) carregados. ---")


# --- FASE 2: VECTOR STORE ---
embedding_model = get_embedding_model()
index_name = "faiss_index_v_smart_chunk" 
vector_store = get_vector_store(
    documents=all_documents,
    embedding_model=embedding_model,
    index_path=index_name 
)

retriever = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={'k': 12}
)
print(f"Retriever configurado para buscar k=12 documentos.")
print(f"\n--- Fase 2 Conclu√≠da: Retriever est√° pronto! ---")


# --- FASE 3: CARREGAR O LLM ---
llm = get_llm()
if llm is None:
    print("!!! ERRO: O LLM falhou ao carregar (√© 'None'). Abortando.")
    raise ValueError("LLM falhou ao carregar.")
else:
    print(f"\n--- Fase 3 Conclu√≠da: LLM (Gemma) est√° pronto! ---")


# --- FASE 4: MONTAR O PIPELINE DE RAG ---
rag_chain = create_rag_chain(retriever, llm)
print(f"\n--- Fase 4 Conclu√≠da: Pipeline RAG est√° pronto! ---")


# --- FASE 5: TESTE DE PERGUNTAS E RESPOSTAS ---
print("\n\n--- INICIANDO FASE 5: TESTE DE PERGUNTAS E RESPOSTAS ---")
perguntas_teste = [
    "Qual √© a frequencia necessario para ser aprovado em uma materia?",
    "Quais s√£o os objetivos do curso de Ci√™ncia da Computa√ß√£o?",
    "Qual a forma de ingresso no curso de Ci√™ncia da Computa√ß√£o?",
    "Qual √© a carga horaria semanal do est√°gio?",
    "Qual carga horaria m√°xima das Atividades Complementares no curso?",
    "Qual a carga horaria do curso?",
    "Quais s√£o os professores que podem ser orientadores do TCC?",
    "Qual √© o tempo m√°ximo permitido para que um estudante conclua o curso de Ci√™ncia da Computa√ß√£o?",
    "Como o aluno sabe se foi aprovado ou reprovado no TCC?",
    "Qual o criterio para aprova√ß√£o em uma materia?"
]

resultados_finais = {} 

for i, pergunta_bruta in enumerate(perguntas_teste):
    print(f"\n--- Processando Pergunta {i+1}/{len(perguntas_teste)} ---")
    print(f"PERGUNTA (Bruta): {pergunta_bruta}")
    
    # --- NORMALIZA A PERGUNTA ---
    pergunta_normalizada = normalize_query(pergunta_bruta, acronyms, standardization)
    print(f"PERGUNTA (Normalizada): {pergunta_normalizada}")
    
    # 1. Executa o RAG com a pergunta normalizada
    resposta_bruta = rag_chain.invoke(pergunta_normalizada)
    
    # 2. Limpa a resposta
    resposta_limpa = clean_model_response(resposta_bruta)
    print(f"\nRESPOSTA (Gemma):\n{resposta_limpa}")
    
    # 3. Mostra as fontes (usando a pergunta normalizada para o debug)
    documentos_fonte = retriever.invoke(pergunta_normalizada)
    print("\nFONTES (Documentos encontrados pelo FAISS):")
    for j, doc in enumerate(documentos_fonte):
        print(f"  Fonte {j+1}: {doc.metadata.get('source_file')} (P√°gina: {doc.metadata.get('pagina')})")
        print(f"    Trecho (Busca): {doc.page_content[:100]}...")
        print(f"    Trecho (Resposta):    {doc.metadata.get('texto_bruto_resposta', 'N/A')[:100]}...\n")
    
    resultados_finais[pergunta_bruta] = resposta_limpa
    
    print("--------------------------------------------------")

print("\n--- Teste de Perguntas Conclu√≠do! ---")


--- INICIANDO PIPELINE RAG COMPLETO (VERS√ÉO NOTEBOOK) ---
-> Dicion√°rios de normaliza√ß√£o carregados para o Testador RAG.
--- [RAG Loader v_SMART_CHUNK] Iniciando Tarefa 1: Carregamento e Fatiamento ---
 [RAG Loader] Processando e fatiando 2 arquivos .jsonl...
 [RAG Loader] Processando arquivo: Est√°gio.jsonl
   -> Conclu√≠do. 28 chunks sem√¢nticos criados.
 [RAG Loader] Processando arquivo: PPCBCC2019.jsonl
   -> Conclu√≠do. 206 chunks sem√¢nticos criados.
--- [RAG Loader] Processamento Conclu√≠do ---
Total de 234 documentos (chunks agrupados) prontos para o vector store.

--- Fase 1 Conclu√≠da: 234 documentos (blocos) carregados. ---
üî§ Carregando modelo de embeddings: neuralmind/bert-base-portuguese-cased


No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


  [RAG VectorStore] Modelo de embedding carregado (na CPU).
--- [RAG VectorStore] Iniciando Tarefa 2: Cria√ß√£o do Vector Store ---
  [RAG VectorStore] Carregando √≠ndice FAISS existente de: 'faiss_index_v_smart_chunk'
    -> √çndice FAISS carregado com sucesso.
--- [RAG VectorStore] Tarefa 2 Conclu√≠da. Vector Store est√° pronto. ---
Retriever configurado para buscar k=12 documentos.

--- Fase 2 Conclu√≠da: Retriever est√° pronto! ---
--- [RAG ModelSetup] Iniciando Tarefa 3: Carregando LLM: 'google/gemma-2b-it' ---
  [RAG ModelSetup] Tokenizador carregado.
  [RAG ModelSetup] Configurando quantiza√ß√£o de 8-bit COM offload para CPU...


Gemma's activation function should be approximate GeLU and not exact GeLU.
Changing the activation function to `gelu_pytorch_tanh`.if you want to use the legacy `gelu`, edit the `model.config` to set `hidden_activation=gelu`   instead of `hidden_act`. See https://github.com/huggingface/transformers/pull/29402 for more details.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.
  llm_pipeline = HuggingFacePipeline(pipeline=pipe)


  [RAG ModelSetup] Modelo LLM carregado (em 8-bit, com offload GPU/CPU).
--- [RAG ModelSetup] Tarefa 3 Conclu√≠da. LLM est√° pronto. ---

--- Fase 3 Conclu√≠da: LLM (Gemma) est√° pronto! ---
--- [RAG Chain] Iniciando Tarefa 4: Montando o RAG Chain ---
--- [RAG Chain] Tarefa 4 Conclu√≠da. O RAG Chain est√° pronto. ---

--- Fase 4 Conclu√≠da: Pipeline RAG est√° pronto! ---


--- INICIANDO FASE 5: TESTE DE PERGUNTAS E RESPOSTAS ---

--- Processando Pergunta 1/10 ---
PERGUNTA (Bruta): Qual √© a frequencia necessario para ser aprovado em uma materia?
PERGUNTA (Normalizada): qual e a frequencia necessario para ser aprovado em uma disciplina

RESPOSTA (Gemma):
A frequ√™ncia precisa ser igual ou superior a 75% do total de aulas da disciplina.

FONTES (Documentos encontrados pelo FAISS):
  Fonte 1: None (P√°gina: None)
    Trecho (Busca): a avaliacao do desempenho do aluno constituira elemento fundamental para acompanha- mento e redireci...
    Trecho (Resposta):    a avaliacao do desempenho do

In [3]:
# --- RESUMO FINAL (Limpo) ---
print("\n\n" + "="*60)
print("--- RESUMO FINAL (PERGUNTAS E RESPOSTAS DIRETAS) ---")
print("="*60 + "\n")

if not resultados_finais:
    print("Nenhum resultado para exibir.")
else:
    for i, (pergunta, resposta) in enumerate(resultados_finais.items()):
        print(f"--- Pergunta {i+1} ---")
        print(f"P: {pergunta}")
        print(f"R: {resposta}\n")

print("="*60)



--- RESUMO FINAL (PERGUNTAS E RESPOSTAS DIRETAS) ---

--- Pergunta 1 ---
P: Qual √© a frequencia necessario para ser aprovado em uma materia?
R: A frequ√™ncia precisa ser igual ou superior a 75% do total de aulas da disciplina.

--- Pergunta 2 ---
P: Quais s√£o os objetivos do curso de Ci√™ncia da Computa√ß√£o?
R: Os objetivos do curso de ci√™ncia da computa√ß√£o do IFNMG do norte de minas gerais - campus montes claros s√£o: - formar profissionais com competencia para promover o desenvolvimento cientifico teorias, metodos, linguagens, modelos, dentre outras e tecnologico computacao na regiao norte de minas gerais; - desenvolver no futuro profissional a capacidade de resolver problemas computacionais complexos, desenvolver novos algoritmos, sistemas, provas, metodos e metricas relacionadas a computacao; - formar profissionais capazes de empreender na criacao de novos neg√≥cios e favorecerem o desenvolvimento regional; - propiciar condicoes para a formacao de lideranca, capacitando-os 

## Avalia√ß√£o final


O pipeline RAG teve um desempenho bem-sucedido. Ele **respondeu corretamente a todas as perguntas** e conseguiu extrair as respostas de **trechos relevantes** dos documentos. O mecanismo funcionou identificando os *chunks* dos documentos separadamente e, em seguida, comparando o conte√∫do dos blocos de cada *chunk* para formular a resposta, assim n√£o possuindo confus√£o entre os documentos.