# Carregando Pacotes e Ajustando a GPU

In [3]:
from transformers import pipeline, AutoTokenizer, AutoModel
from sentence_transformers import SentenceTransformer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import torch
import pdfplumber

In [4]:
device = 0 if torch.cuda.is_available() else -1
print(f"üîß Dispositivo: {'GPU' if device == 0 else 'CPU'}")

üîß Dispositivo: GPU


# Variaveis Globais .

In [5]:
MODELO_EXTRATIVO = "pierreguillou/bert-large-cased-squad-v1.1-portuguese"
MODELO_SEMANTICO = "neuralmind/bert-base-portuguese-cased"
MODELO_GERATIVO = "facebook/bart-base"  # Modelo leve e est√°vel

In [6]:
# 3. Carregamento √† Prova de Erros
try:
    print("‚è≥ Carregando modelos...")
    
    # Extrativo (seu modelo original)
    qa_pipeline = pipeline(
        "question-answering",
        model=MODELO_EXTRATIVO,
        tokenizer=MODELO_EXTRATIVO,
        device=device
    )
    
    # Sem√¢ntico (para busca)
    model_embed = SentenceTransformer(MODELO_SEMANTICO)
    
    # Generativo (alternativa est√°vel)
    tokenizer_gen = AutoTokenizer.from_pretrained(MODELO_GERATIVO)
    model_gen = AutoModel.from_pretrained(MODELO_GERATIVO).to(device)
    
    print("‚úÖ Modelos carregados com sucesso!")
except Exception as e:
    print(f"‚ùå Falha cr√≠tica: {str(e)}")
    raise

‚è≥ Carregando modelos...


Device set to use cuda:0
No sentence-transformers model found with name neuralmind/bert-base-portuguese-cased. Creating a new one with mean pooling.


‚úÖ Modelos carregados com sucesso!


# Fun√ß√µes

In [7]:
def carregar_documento(caminho):
    """Mantido igual ao seu original"""
    with pdfplumber.open(caminho) as pdf:
        return " ".join(page.extract_text() for page in pdf.pages if page.extract_text())

In [8]:
def dividir_texto(texto, tamanho=400, sobreposicao=100):
    """Vers√£o otimizada da sua fun√ß√£o"""
    palavras = texto.split()
    return [
        " ".join(palavras[i:i + tamanho])
        for i in range(0, len(palavras), tamanho - sobreposicao)
    ]

In [9]:
def buscar_trechos(pergunta, trechos, top_k=3):
    """Busca sem√¢ntica simplificada"""
    emb_pergunta = model_embed.encode(pergunta)
    emb_trechos = model_embed.encode(trechos)
    simil = cosine_similarity([emb_pergunta], emb_trechos)[0]
    return [trechos[i] for i in np.argsort(simil)[-top_k:][::-1]]

In [10]:
def responder(pergunta, contexto):
    """Resposta direta sem gerador complexo"""
    resultado = qa_pipeline(question=pergunta, context=contexto)
    return {
        "resposta": resultado["answer"],
        "score": resultado["score"],
        "contexto": contexto[:200] + "..."  # Preview
    }

# Processando

In [11]:
print("\nüìÑ Processando documento...")
texto = carregar_documento("cabelos cacheados.pdf")
trechos = dividir_texto(texto)


üìÑ Processando documento...


CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox


In [15]:
pergunta = "Quantos s√£o os tipos de cabelos cacheados?"

In [16]:
relevantes = buscar_trechos(pergunta, trechos)
melhor = responder(pergunta, " ".join(relevantes))

In [17]:
print(f"\nüí° Resposta (score: {melhor['score']:.2f}):")
print(melhor["resposta"])
print(f"\nüìå Contexto: {melhor['contexto']}\n")
        


üí° Resposta (score: 0.43):
Tipo 2 (ondulado), Tipo 3

üìå Contexto: Defini√ß√£o e Tipos de Cachos Cabelos cacheados s√£o caracterizados por sua estrutura em espiral ou ondulada, resultante de fol√≠culos pilosos assim√©tricos. Essa forma se deve √† distribui√ß√£o desigual de q...

