1 - bibliotecas

In [None]:
import arxiv
import requests
import os
import re
import json
from PyPDF2 import PdfReader
from sentence_transformers import SentenceTransformer
import torch
import faiss
import pickle
import numpy as np
import gc
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

from sklearn.metrics.pairwise import cosine_similarity

2 - download dos artigos

In [None]:
os.makedirs("pdfs", exist_ok=True)

# 2. Configura o cliente e a busca
client = arxiv.Client()
search = arxiv.Search(
    query="cat:astro-ph",
    max_results=1000,
    sort_by=arxiv.SortCriterion.Relevance
)

print("Iniciando busca e download...")

for i, result in enumerate(client.results(search)):
    pdf_url = result.pdf_url
    safe_title = "".join(c for c in result.title if c.isalnum() or c in (' ', '_')).rstrip()
    filename = f"pdfs/paper_{i}_{safe_title[:50]}.pdf"
    
    print(f"Baixando: {result.title}...")
    
    try:
        r = requests.get(pdf_url)
        r.raise_for_status() 
        
        with open(filename, "wb") as f:
            f.write(r.content)
            
    except Exception as e:
        print(f"Erro ao baixar o artigo {i}: {e}")

print("\nProcesso finalizado!")

3 - extra√ß√£o de textos dos PDFs

In [None]:
path = "pdfs"
output_dir = "processed_data"
os.makedirs(output_dir, exist_ok=True)

texts_metadata = []

def clean_academic_text(text):
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'http\S+', '', text)
    return text.strip()

if os.path.exists(path):
    files = sorted([f for f in os.listdir(path) if f.endswith(".pdf")])
    print(f"Iniciando a leitura de {len(files)} arquivos...")

    for i, file in enumerate(files):
        try:
            reader = PdfReader(os.path.join(path, file))
            full_text = ""
            
            for page in reader.pages:
                page_text = page.extract_text()
                if page_text:
                    full_text += page_text + " "
            
            cleaned_text = clean_academic_text(full_text)
            
            if len(cleaned_text) > 100:
                
                texts_metadata.append({
                    "source": file,
                    "text": cleaned_text
                })
            
            if (i + 1) % 50 == 0:
                print(f"Progresso: {i + 1}/{len(files)} arquivos processados.")
            
        except Exception as e:
            print(f"Erro no arquivo {file}: {e}")

    with open(os.path.join(output_dir, "extracted_texts.json"), "w", encoding="utf-8") as f:
        json.dump(texts_metadata, f, ensure_ascii=False, indent=4)
    
    print(f"\nExtra√ß√£o conclu√≠da! {len(texts_metadata)} textos salvos em '{output_dir}/extracted_texts.json'")

else:
    print("A pasta 'pdfs' n√£o foi encontrada.")

4 - chunckeriza√ß√£o

In [None]:
input_dir = "processed_data"
output_dir = "processed_data"
json_input = os.path.join(input_dir, "extracted_texts.json")

if os.path.exists(json_input):
    with open(json_input, "r", encoding="utf-8") as f:
        texts_metadata = json.load(f)
else:
    print("Erro: extracted_texts.json n√£o encontrado. Rode o c√≥digo de extra√ß√£o primeiro.")
    texts_metadata = []

def chunk_text_with_overlap(text, size=500, overlap=50):
    words = text.split()
    chunks = []
    
    for i in range(0, len(words), size - overlap):
        chunk = " ".join(words[i : i + size])
        chunks.append(chunk)
        if i + size >= len(words):
            break
            
    return chunks

all_chunks_with_metadata = []

print(f"Iniciando a divis√£o de {len(texts_metadata)} documentos...")

for entry in texts_metadata:
    source_name = entry["source"]
    text_content = entry["text"]
    
    doc_chunks = chunk_text_with_overlap(text_content, size=512, overlap=50)
    
    for chunk in doc_chunks:
        
        all_chunks_with_metadata.append({
            "source": source_name,
            "text": chunk
        })

output_path = os.path.join(output_dir, "chunks_data.json")
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(all_chunks_with_metadata, f, ensure_ascii=False, indent=4)

print(f"Total de chunks gerados: {len(all_chunks_with_metadata)}")
print(f"Dados de chunks salvos em: {output_path}")

if all_chunks_with_metadata:
    print(f"\nExemplo de metadados do primeiro chunk:")
    print(f"Fonte: {all_chunks_with_metadata[0]['source']}")
    print(f"Conte√∫do: {all_chunks_with_metadata[0]['text'][:100]}...")

5 - embbending

In [None]:

print("Carregando o modelo BGE-Large...")
model = SentenceTransformer("BAAI/bge-large-en-v1.5")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

input_path = os.path.join("processed_data", "chunks_data.json")
with open(input_path, "r", encoding="utf-8") as f:
    chunks_with_metadata = json.load(f)

all_chunks_text = [item["text"] for item in chunks_with_metadata]

print(f"Iniciando a codifica√ß√£o de {len(all_chunks_text)} blocos...")
embeddings = model.encode(
    all_chunks_text, 
    show_progress_bar=True, 
    batch_size=32, 
    convert_to_numpy=True
)

Carregando o modelo BGE-Large...
Iniciando a codifica√ß√£o de 15604 blocos...


Batches:   0%|          | 0/488 [00:00<?, ?it/s]

6 - banco vetorial FAISS

In [None]:
dimension = embeddings.shape[1] 
index = faiss.IndexFlatL2(dimension) 
index.add(embeddings.astype('float32')) 

faiss_path = os.path.join("processed_data", "vector_index.faiss")
faiss.write_index(index, faiss_path)

print(f"\n‚úÖ Matriz de embeddings conclu√≠da: {embeddings.shape}")
print(f"‚úÖ √çndice FAISS salvo em: {faiss_path}")


‚úÖ Matriz de embeddings conclu√≠da: (15604, 1024)
‚úÖ √çndice FAISS salvo em: processed_data\vector_index.faiss


7 - recupera√ß√£o

In [None]:

input_dir = "processed_data"
faiss_path = os.path.join(input_dir, "vector_index.faiss")
chunks_path = os.path.join(input_dir, "chunks_data.json")

print("Carregando √≠ndice FAISS e metadados...")
if not os.path.exists(faiss_path) or not os.path.exists(chunks_path):
    print("Erro: Arquivos de dados processados n√£o encontrados. Rode o Pipeline de Ingest√£o primeiro.")
else:

    index = faiss.read_index(faiss_path)
    
    with open(chunks_path, "r", encoding="utf-8") as f:
        all_chunks_with_metadata = json.load(f)
    
    model = SentenceTransformer("BAAI/bge-large-en-v1.5")
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model.to(device)
    print(f"Sistema pronto! Usando {device} para busca.")

def retrieve(query, k=5):
    instruction = "Represent this sentence for searching relevant passages: "
    
    q_emb = model.encode([instruction + query]).astype("float32")
    
    D, I = index.search(q_emb, k)
    
    retrieved_results = []
    for idx in I[0]:

        chunk_info = all_chunks_with_metadata[idx]
        retrieved_results.append({
            "text": chunk_info["text"],
            "source": chunk_info["source"]
        })
        
    return retrieved_results

pergunta = "What are the main observations of gravitational waves in neutron stars?"
contextos = retrieve(pergunta, k=3)

print(f"\nüîé Pergunta: {pergunta}")
print(f"üìö {len(contextos)} trechos t√©cnicos encontrados.\n")

for i, res in enumerate(contextos):
    print(f"üìç [Trecho {i+1}] - Fonte: {res['source']}")
    print(f"üìÑ Conte√∫do: {res['text'][:400]}...") 
    print("-" * 60)

8 - minstral

In [None]:
if 'model' in globals():
    try:
        model.to("cpu")
    except:
        pass

torch.cuda.empty_cache()
gc.collect()

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16 
)

model_id = "mistralai/Mistral-7B-Instruct-v0.3"

print("Carregando Mistral-7B a partir do cache/hub...")

tokenizer = AutoTokenizer.from_pretrained(model_id)

model_llm = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quant_config,
    device_map="auto",
    low_cpu_mem_usage=True,
    max_memory={0: "4.8GiB"}
)

print("\n‚úÖ Mistral-7B carregado com sucesso e pronto para ler o FAISS/JSON!")

9 - fun√ß√£o de prompt

In [None]:
def ask(query):
    results = retrieve(query, k=4)
    
    context_text = ""
    for i, res in enumerate(results):

        context_text += f"[Reference {i+1} from {res['source']}]: {res['text']}\n\n"

    prompt = (
        f"<s>[INST] SYSTEM: You are a rigorous scientific validator. Use ONLY the provided SOURCES to answer. "
        f"If the specific details (equations, constants, or data) are not in the SOURCES, "
        f"say 'Information not available in dataset'. DO NOT use general knowledge about physics. "
        f"Be precise about Energy Conditions and Wormhole stability as described in the text.\n\n"
        f"SOURCES:\n{context_text[:2500]}\n\n"
        f"QUESTION:\n{query} [/INST]\n"
        f"Scientific Analysis based on Sources:"
    )

    inputs = tokenizer(prompt, return_tensors="pt").to(model_llm.device)
    input_length = inputs.input_ids.shape[1]

    output_tokens = model_llm.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.1, 
        do_sample=True,
        repetition_penalty=1.1, 
        top_p=0.9, 
        pad_token_id=tokenizer.eos_token_id
    )

    generated_tokens = output_tokens[0][input_length:]
    clean_answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()

    return clean_answer, results

10 - teste final

In [None]:
pergunta = "how does the wormhole solution work according to equation 3.57?"

print(f"üöÄ [1/2] Gerindo mem√≥ria e preparando busca...")

if 'model' in globals():
    model.to("cpu")
    device_embedding = "cpu" 
else:
    device_embedding = "cuda" if torch.cuda.is_available() else "cpu"

torch.cuda.empty_cache()
gc.collect()

try:
    print(f"üß† [2/2] Consultando Mistral-7B (4-bit) na GPU...")
    
    resposta, results = ask(pergunta)

    print("\n" + "‚ïê"*60)
    print(f"üåå RESPOSTA CIENT√çFICA:")
    print("-" * 60)
    print(resposta)
    print("‚ïê"*60)

    print("\nüìö FONTES UTILIZADAS (Ancoragem):")
    for i, res in enumerate(results[:3]):

        print(f"   [{i+1}] Fonte: {res['source']}")
        print(f"       Trecho: \"{res['text'][:150]}...\"")
        print("-" * 30)

except torch.cuda.OutOfMemoryError:
    print("\n‚ùå ERRO DE MEM√ìRIA: A GPU esgotou. Tente reduzir o 'k' na fun√ß√£o retrieve.")
    torch.cuda.empty_cache()

except Exception as e:
    print(f"\n‚ùå Ocorreu um erro: {e}")

11 - metricas de desempenho

11.1 - indice de fidelidade semantica

A m√©trica de Fidelidade Sem√¢ntica serve para medir o grau de honestidade intelectual do seu assistente em rela√ß√£o aos documentos fornecidos, funcionando como um detector de mentiras que impede a intelig√™ncia artificial de ignorar os artigos cient√≠ficos para inventar respostas baseadas apenas em seu treinamento pr√©vio

In [None]:
query_text = pergunta 
answer_text = resposta
contexto_consolidado = " ".join([res['text'] for res in results])

print("Calculando vetores de fidelidade...")
ans_emb = model.encode([answer_text])
ctx_emb = model.encode([contexto_consolidado])

fidelidade_score = cosine_similarity(ans_emb, ctx_emb)[0][0]

print("\n" + "‚ïê"*50)
print(f"üî¨ RELAT√ìRIO DE VERIFICA√á√ÉO CIENT√çFICA")
print("-" * 50)
print(f"üìä Score de Fidelidade: {fidelidade_score:.4f}")

if fidelidade_score > 0.82:
    status = "‚úÖ EXCELENTE: Resposta totalmente ancorada nos artigos."
elif fidelidade_score > 0.65:
    status = "‚ö†Ô∏è ATEN√á√ÉO: A resposta √© relevante, mas pode conter infer√™ncias externas ao dataset."
else:
    status = "‚ùå ALERTA: Poss√≠vel alucina√ß√£o ou resposta baseada apenas no conhecimento pr√©vio do modelo."

print(f"Status: {status}")
print("‚ïê"*50)

q_emb = model.encode([query_text])
relevancia_pergunta = cosine_similarity(ans_emb, q_emb)[0][0]
print(f"üéØ Relev√¢ncia da Resposta para a Pergunta: {relevancia_pergunta:.4f}")

11.2 - metrica de alucina√ß√£o negativa

a m√©trica de Alucina√ß√£o Negativa, ou Gap Analysis, √© projetada para identificar se o modelo est√° de fato extraindo informa√ß√µes √∫teis dos textos ou se est√° apenas realizando um "enrolation" t√©cnico ao parafrasear a sua pergunta.

In [None]:
ans_emb = model.encode([resposta])
query_emb = model.encode([pergunta])

sim_pergunta = cosine_similarity(ans_emb, query_emb)[0][0]

hallucination_gap = fidelidade_score - sim_pergunta

print("\n" + "‚ïê"*50)
print(f"üìä M√âTRICA DE AGREGA√á√ÉO T√âCNICA (Gap Analysis)")
print("-" * 50)
print(f"üìà Fidelidade (Resposta-Contexto): {fidelidade_score:.4f}")
print(f"üîÑ Repeti√ß√£o (Resposta-Pergunta):  {sim_pergunta:.4f}")
print("-" * 30)
print(f"üéØ GAP DE CONHECIMENTO: {hallucination_gap:.4f}")

if hallucination_gap > 0.10:
    status = "‚úÖ SEGURO: O modelo extraiu e sintetizou informa√ß√µes novas dos artigos."
elif hallucination_gap > 0.0:
    status = "üü° NEUTRO: O modelo seguiu a pergunta, mas a contribui√ß√£o dos artigos foi moderada."
elif hallucination_gap > -0.10:
    status = "‚ö†Ô∏è ALERTA: A resposta est√° muito presa ao texto da pergunta (Parafraseamento)."
else:
    status = "‚ùå CR√çTICO: Poss√≠vel alucina√ß√£o ou resposta gen√©rica ignorando os fatos dos PDFs."

print(f"\nStatus: {status}")
print("‚ïê"*50)

11.3 - m√©trica de densidade de informa√ß√£o

a Densidade de Informa√ß√£o foca na qualidade estrutural e na sofistica√ß√£o do texto produzido, sendo fundamental para evitar que o modelo entre em ciclos de repeti√ß√£o ou utilize uma linguagem excessivamente gen√©rica e simplista.

In [None]:
palavras_limpas = re.findall(r'\w+', resposta.lower())
vocabulario_unico = set(palavras_limpas)

total_palavras = len(palavras_limpas)
total_unicas = len(vocabulario_unico)
densidade = total_unicas / total_palavras if total_palavras > 0 else 0

print("\n" + "‚ïê"*50)
print(f"üìä M√âTRICA DE RIQUEZA LEXICAL")
print("-" * 50)
print(f"Total de palavras na resposta: {total_palavras}")
print(f"Vocabul√°rio √∫nico:             {total_unicas}")
print("-" * 30)
print(f"√çndice de Densidade:           {densidade:.4f}")

if densidade > 0.65:
    status = "‚úÖ EXCELENTE: Texto denso, t√©cnico e sem repeti√ß√µes desnecess√°rias."
elif densidade > 0.45:
    status = "üü° NORMAL: Fluidez adequada para uma explica√ß√£o cient√≠fica."
else:
    status = "‚ö†Ô∏è REPETITIVO: O modelo pode estar 'preso' em um loop. Considere subir o 'repetition_penalty'."

print(f"\nStatus: {status}")
print("‚ïê"*50)

11.4 - m√©trica de precis√£o de recupera√ß√£o(analise sobre o BGE-large)

In [None]:
contextos_texto = [res['text'] for res in results]

query_embedding = model.encode([pergunta])

context_embeddings = model.encode(contextos_texto)

similaridades = cosine_similarity(query_embedding, context_embeddings)[0]

mean_similarity = np.mean(similaridades)
max_similarity = np.max(similaridades)

print("\n" + "‚ïê"*50)
print(f"üìä PERFORMANCE DO RETRIEVER (BGE-LARGE)")
print("-" * 50)
print(f"Similaridade M√°xima (Top 1):  {max_similarity:.4f}")
print(f"Similaridade M√©dia (Top {len(similaridades)}):   {mean_similarity:.4f}")
print("-" * 30)

if max_similarity > 0.75:
    status = "‚úÖ ALTA RELEV√ÇNCIA: O BGE encontrou trechos muito espec√≠ficos nos artigos."
elif max_similarity > 0.55:
    status = "üü° RELEV√ÇNCIA M√âDIA: O conte√∫do √© correlato, mas pode ser gen√©rico."
else:
    status = "‚ùå BAIXA RELEV√ÇNCIA: O banco de 1000 PDFs pode n√£o conter a resposta exata."

print(f"Status: {status}")
print("‚ïê"*50)