## Imports e downloads

In [None]:
!pip install pymupdf
!pip install faiss-cpu

from google.colab import drive

import requests
import fitz  # PyMuPDF
from io import BytesIO

import re

from sentence_transformers import SentenceTransformer

import faiss

import numpy as np

from sklearn.preprocessing import normalize



##carregamento pdf do drive


In [None]:
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
PDF = "/content/drive/MyDrive/PDF INSTITUICAO.pdf"

## Criacao da funcao que vai extrair o texto do pdf PyMuPDF (fitz)


In [None]:
def extrair_texto_pdf(PDF):
    doc = fitz.open(PDF)
    textos = [pagina.get_text() for pagina in doc]
    texto_completo = "\n".join(textos)
    return texto_completo, doc  # retorna o texto e o doc

## primeiros testes


In [None]:
texto_completo, doc = extrair_texto_pdf(PDF)
# Ver quantas p√°ginas tem
print(f"O PDF tem {len(doc)} p√°ginas")

# Mostrar o conte√∫do da primeira p√°gina
print("\nConte√∫do da primeira p√°gina:\n")
print(doc[0].get_text())

O PDF tem 1 p√°ginas

Conte√∫do da primeira p√°gina:

1.‚Äã "O ato de se matricular pode ser realizado diretamente na CRA, com ou sem 
procura√ß√£o." 
 
2.‚Äã "A renova√ß√£o da matr√≠cula √© obrigat√≥ria para alunos em est√°gio 
supervisionado." 
 
3.‚Äã "O projeto est√° em desenvolvimento e depende de aprova√ß√£o do comit√™." 
 
4.‚Äã "A renova√ß√£o do contrato de presta√ß√£o de servi√ßos deve ser feita at√© o fim do 
semestre." 
 
5.‚Äã "Quem n√£o renovar a matr√≠cula ser√° automaticamente desligado do curso." 
 
6.‚Äã "Na modalidade EAD, a inscri√ß√£o √© feita por m√≥dulos, conforme regras 
espec√≠ficas da institui√ß√£o." 
 
7.‚Äã "Estudantes presenciais devem se inscrever em disciplinas, respeitando o 
plano pedag√≥gico do curso." 
 



##criacao dos chunks e testes

In [None]:
def dividir_chunks_por_aspas(texto):
    #Captura todo conte√∫do entre aspas duplas (inclusive quebra de linha)
    chunks = re.findall(r'"(.*?)"', texto, flags=re.DOTALL)
     #Remove espa√ßos extras e ignora strings vazias
    return [c.strip() for c in chunks if c.strip()]

chunks = dividir_chunks_por_aspas(texto_completo)

In [None]:
print(f"Total de chunks gerados: {len(chunks)}")

if len(chunks) == 0:
    print("‚ö†Ô∏è Nenhum chunk foi gerado. Verifique se o texto foi lido corretamente.")
else:
    for i in range(min(10, len(chunks))):
        print(f"üîπ \033[1m Chunk  {i+1}:\033[0m \n{chunks[i]}\n{'-'*80}")

Total de chunks gerados: 7
üîπ [1m Chunk  1:[0m 
O ato de se matricular pode ser realizado diretamente na CRA, com ou sem 
procura√ß√£o.
--------------------------------------------------------------------------------
üîπ [1m Chunk  2:[0m 
A renova√ß√£o da matr√≠cula √© obrigat√≥ria para alunos em est√°gio 
supervisionado.
--------------------------------------------------------------------------------
üîπ [1m Chunk  3:[0m 
O projeto est√° em desenvolvimento e depende de aprova√ß√£o do comit√™.
--------------------------------------------------------------------------------
üîπ [1m Chunk  4:[0m 
A renova√ß√£o do contrato de presta√ß√£o de servi√ßos deve ser feita at√© o fim do 
semestre.
--------------------------------------------------------------------------------
üîπ [1m Chunk  5:[0m 
Quem n√£o renovar a matr√≠cula ser√° automaticamente desligado do curso.
--------------------------------------------------------------------------------
üîπ [1m Chunk  6:[0m 
Na mod

## carregamento do modelo de embeddings como Sentence-BERT (SBERT). Ele converte tanto perguntas quanto textos em vetores num√©ricos que preservam similaridade sem√¢ntica.

In [None]:
model = SentenceTransformer('all-MiniLM-L6-v2')
vetores = model.encode(chunks).astype("float32")
vetores = normalize(vetores, axis=1, norm='l2')

In [None]:
index = faiss.IndexFlatIP(vetores.shape[1])
index.add(vetores)

In [None]:
def recuperar_top_k(pergunta, k=1):
    vetor_pergunta = model.encode([pergunta]).astype("float32")
    vetor_pergunta = vetor_pergunta / np.linalg.norm(vetor_pergunta, axis=1, keepdims=True)  # normaliza
    distancias, indices = index.search(vetor_pergunta, k)
    return [(chunks[i], distancias[0][j]) for j, i in enumerate(indices[0])]

## primeiros testes modelo


In [None]:
def imprimir_top_k_respostas(pergunta, k=1):
    vetor_pergunta = model.encode([pergunta]).astype("float32")
    vetor_pergunta = vetor_pergunta / np.linalg.norm(vetor_pergunta, axis=1, keepdims=True)
    distancias, indices = index.search(vetor_pergunta, k)

    print(f"\033[1müü• Pergunta:\033[0m {pergunta}\n")
    for i, (idx, dist) in enumerate(zip(indices[0], distancias[0])):
        print(f"\033[1müîπ Top {i+1} (Similaridade: {dist:.4f}):\033[0m")
        print(f"{chunks[idx]}\n")

In [None]:
perguntas = [
    "O que acontece se o aluno n√£o renovar a matr√≠cula?",
    "Onde posso renovar a matr√≠cula?",
    "O est√°gio √© obrigat√≥rio?",
    "O que diferencia um estudo EAD do estudante presencial?",
    "Quando deve ser feita a renova√ß√£o de matr√≠cula?"
]

In [None]:
print('='*80,"\033[1m\nIndice de Similaridade:\033[0m\n\n"
                                             "\033[1mQuanto mais proximo de -1:\033[0m Totalmente contrario\n"
                                             "\033[1mQuanto mais proximo de 0:\033[0m Sem Relacao\n"
                                             "\033[1mQuanto mais proximo de 1:\033[0m Similaridade total\n\n",'='*80)
#for pergunta in perguntas:
    #imprimir_top_k_respostas(pergunta, k=1)
    #print("\n")  # separa√ß√£o entre as perguntas

imprimir_top_k_respostas(perguntas[0], k=1)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[1], k=3)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[2], k=6)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[3], k=1)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[4], k=2)

Indice de Similaridade:[0m

[1mQuanto mais proximo de -1:[0m Totalmente contrario
[1mQuanto mais proximo de 0:[0m Sem Relacao
[1mQuanto mais proximo de 1:[0m Similaridade total

[1müü• Pergunta:[0m O que acontece se o aluno n√£o renovar a matr√≠cula?

[1müîπ Top 1 (Similaridade: 0.7677):[0m
Quem n√£o renovar a matr√≠cula ser√° automaticamente desligado do curso.


 --------------------------------------------------------------------------------
[1müü• Pergunta:[0m Onde posso renovar a matr√≠cula?

[1müîπ Top 1 (Similaridade: 0.7299):[0m
Quem n√£o renovar a matr√≠cula ser√° automaticamente desligado do curso.

[1müîπ Top 2 (Similaridade: 0.5186):[0m
A renova√ß√£o da matr√≠cula √© obrigat√≥ria para alunos em est√°gio 
supervisionado.

[1müîπ Top 3 (Similaridade: 0.4214):[0m
O ato de se matricular pode ser realizado diretamente na CRA, com ou sem 
procura√ß√£o.


 --------------------------------------------------------------------------------
[1müü• Pergunta:[

## teste com outro pdf maior para teste


In [None]:
PDF = "/content/drive/MyDrive/PDF INSTITUCIONAL 2.pdf"

In [None]:
texto_completo, doc = extrair_texto_pdf(PDF)
# Ver quantas p√°ginas tem
print(f"O PDF tem {len(doc)} p√°ginas")

# Mostrar o conte√∫do da primeira p√°gina
print("\nConte√∫do da primeira p√°gina:\n")
print(doc[0].get_text())

O PDF tem 2 p√°ginas

Conte√∫do da primeira p√°gina:

‚Äã
O modelo Salesforce/blip-vqa-base foi escolhido por se 
apresentar como uma solu√ß√£o eficiente, leve e de alto 
desempenho para tarefas de Visual Question Answering 
(VQA) ‚Äî ou seja, ele √© capaz de interpretar informa√ß√µes 
contidas em imagens e fornecer respostas em linguagem 
natural a partir dessas informa√ß√µes. Essa capacidade √© 
fundamental em aplica√ß√µes que exigem compreens√£o visual 
aliada ao processamento textual, como assistentes 
inteligentes, sistemas de acessibilidade e ferramentas de 
automa√ß√£o de an√°lise de imagens. Multimodalidade 
Avan√ßada O BLIP (Bootstrapped Language-Image 
Pretraining) representa uma arquitetura multimodal moderna, 
projetada especificamente para integrar as √°reas de vis√£o 
computacional e processamento de linguagem natural. Esse 
modelo foi treinado utilizando grandes volumes de dados que 
combinam imagens e textos, o que o torna capaz de 
compreender o conte√∫do visual em con

In [None]:
def dividir_chunks_por_ponto_final(texto):
    # Divide o texto por ponto final seguido de espa√ßo ou fim de linha
    chunks = re.split(r'\.\s*', texto)
    return [c.strip() for c in chunks if c.strip()]

In [None]:
chunks = dividir_chunks_por_ponto_final(texto_completo)

In [None]:
print(f"Total de chunks gerados: {len(chunks)}")

if len(chunks) == 0:
    print("‚ö†Ô∏è Nenhum chunk foi gerado. Verifique se o texto foi lido corretamente.")
else:
    for i in range(min(15, len(chunks))):
        print(f"üîπ \033[1m Chunk  {i+1}:\033[0m \n{chunks[i]}\n{'-'*80}")

Total de chunks gerados: 15
üîπ [1m Chunk  1:[0m 
‚Äã
O modelo Salesforce/blip-vqa-base foi escolhido por se 
apresentar como uma solu√ß√£o eficiente, leve e de alto 
desempenho para tarefas de Visual Question Answering 
(VQA) ‚Äî ou seja, ele √© capaz de interpretar informa√ß√µes 
contidas em imagens e fornecer respostas em linguagem 
natural a partir dessas informa√ß√µes
--------------------------------------------------------------------------------
üîπ [1m Chunk  2:[0m 
Essa capacidade √© 
fundamental em aplica√ß√µes que exigem compreens√£o visual 
aliada ao processamento textual, como assistentes 
inteligentes, sistemas de acessibilidade e ferramentas de 
automa√ß√£o de an√°lise de imagens
--------------------------------------------------------------------------------
üîπ [1m Chunk  3:[0m 
Multimodalidade 
Avan√ßada O BLIP (Bootstrapped Language-Image 
Pretraining) representa uma arquitetura multimodal moderna, 
projetada especificamente para integrar as √°reas de vis√£o

In [None]:
perguntas = [
    "O que significa o termo multimodal no BLIP?",
    "O blip-vqa-base √© a vers√£o compacta de qual fam√≠lia?",
    "Por que o modelo Salesforce/blip-vqa-base foi escolhido?",
    "Qual modelo de grande porte foi citado no texto como exemplo de alternativa mais robusta, por√©m mais pesada?",
]

In [None]:
print('='*80,"\033[1m\nIndice de Similaridade:\033[0m\n\n"
                                             "\033[1mQuanto mais proximo de -1:\033[0m Totalmente contrario\n"
                                             "\033[1mQuanto mais proximo de 0:\033[0m Sem Relacao\n"
                                             "\033[1mQuanto mais proximo de 1:\033[0m Similaridade total\n\n",'='*80)
#for pergunta in perguntas:
   # imprimir_top_k_respostas(pergunta, k=1)
   # print("\n")  # separa√ß√£o entre as perguntas

imprimir_top_k_respostas(perguntas[0], k=1)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[1], k=1)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[2], k=1)
print("\n",('-'*80))
imprimir_top_k_respostas(perguntas[3], k=1)

Indice de Similaridade:[0m

[1mQuanto mais proximo de -1:[0m Totalmente contrario
[1mQuanto mais proximo de 0:[0m Sem Relacao
[1mQuanto mais proximo de 1:[0m Similaridade total

[1müü• Pergunta:[0m O que significa o termo multimodal no BLIP?

[1müîπ Top 1 (Similaridade: 0.4598):[0m
Multimodalidade 
Avan√ßada O BLIP (Bootstrapped Language-Image 
Pretraining) representa uma arquitetura multimodal moderna, 
projetada especificamente para integrar as √°reas de vis√£o 
computacional e processamento de linguagem natural


 --------------------------------------------------------------------------------
[1müü• Pergunta:[0m O blip-vqa-base √© a vers√£o compacta de qual fam√≠lia?

[1müîπ Top 1 (Similaridade: 0.4179):[0m
‚Äã
 
‚Äã
Alto Desempenho com Custo Computacional Moderado O 
blip-vqa-base √© a vers√£o compacta da fam√≠lia BLIP


 --------------------------------------------------------------------------------
[1müü• Pergunta:[0m Por que o modelo Salesforce/blip-vqa-b