# Imports

In [2]:
import pdfplumber 
from PIL import Image
import pytesseract
import re
import json
import numpy as np
from sentence_transformers import SentenceTransformer
import faiss
from openai import OpenAI
import google.generativeai as genai


  from .autonotebook import tqdm as notebook_tqdm


# Extração de conteudo

In [24]:
# --- PDF Pipeline ---

#extrai o texto do PDF
def extract_text_from_pdf(file_path):
    text = ""
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages[:]:  
            text += page.extract_text() + "\n"
    return text

#limpa o texto extraído do PDF
def clean_text(text):
    text = text.replace('\n', ' ')
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    text = re.sub(r'[.,!?;:]+$', '', text) 
    return text.strip()

#extrai as seções do texto
def extract_sections(text):
    sections = {}
    matches = re.findall(r'(\d+\..*?)(?=\d+\.)', text)
    for i, match in enumerate(matches):
        sections[f'section_{i+1}'] = match.strip()
    return sections

# --- Tabela da Imagem Pipeline ---
#prepara a imagem para OCR
def preprocess_image(img_path):
    img = Image.open(img_path).convert("L")
    img = img.resize((img.width * 2, img.height * 2))
    img_np = np.array(img)
    img_np = (img_np > 180) * 255
    img = Image.fromarray(img_np.astype(np.uint8))
    return img

# extrai o texto da imagem usando OCR
def extract_table_rows(text):
    linhas = [linha for linha in text.split('\n') if linha.strip()]
    tabela = [re.split(r'\s{3,}|;', linha) for linha in linhas]
    return tabela



Script de extração

In [30]:
def extracao_conteudo(pdf_path, img_path):   
    """ Extrai texto de um PDF e uma imagem, limpa o texto e extrai seções e tabela""" 
    raw_text = extract_text_from_pdf(pdf_path)
    cleaned_text = clean_text(raw_text)
    sections = extract_sections(cleaned_text)

    img = preprocess_image(img_path)
    texto_tabela = pytesseract.image_to_string(img, lang='por', config='--psm 6')
    tabela_extraida = extract_table_rows(texto_tabela)
    tabela_cleaned = [list(map(str.strip, row)) for row in tabela_extraida if row]

    dados_unidos = {
        "sections": sections,
        "tabela": tabela_cleaned
    }
    sections_text = "\n".join(dados_unidos["sections"].values())
    tabela_text = "\n".join([", ".join(row) for row in dados_unidos["tabela"]])
    return sections_text + "\n\nTabela:\n" + tabela_text
    


# Indexação

In [None]:
#Chunkar o texto
def chunk_text(text, max_tokens=1000):
    # Simples chunking por número de palavras
    words = text.split()
    chunks = []
    for i in range(0, len(words), max_tokens):
        chunk = ' '.join(words[i:i+max_tokens])
        chunks.append(chunk)
    return chunks

#vectorizar os chunks
def semantic(chunks):
    """ Indexa os dados unidos para busca eficiente """
    model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
    chunk_vectors = model.encode(chunks)
    print(f"Formato dos vetores: {chunk_vectors.shape}")

    dimension = chunk_vectors.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(np.array(chunk_vectors))
    return index,model

script de indexação

In [7]:
def indexar(dados_unidos):
    chunk = chunk_text(dados_unidos)
    index,model=semantic(chunk)
    return chunk,index,model


# Recuperação e Geração

script de respotas

In [21]:
def question_answering(chunks, index, model):
    """ Usa o modelo Gemini para responder perguntas com base no contexto """
    genai.configure(api_key="AIzaSyBxnyqJkB_w-xkN-7reW-bRiiK5gL0X0l8")
    user_question = input("Digite sua pergunta: ")
    consulta_vec = model.encode([user_question])
    D, I = index.search(np.array(consulta_vec), k=5)  # busca os 5 mais relevantes

    # Junta os chunks e limita o tamanho total do contexto
    relevant_texts = [chunks[i] for i in I[0]]
    context = "\n\n".join(relevant_texts)
    context = context[:2000]  # máximo 1500 caracteres (ajuste conforme sua quota)

    prompt = f"""
    Baseado nos trechos extraídos da base de conhecimento:

    {context}

    Responda à seguinte pergunta de forma clara e objetiva:
    {user_question}
    """

    gemini_model = genai.GenerativeModel("models/gemini-2.5-flash")
    response = gemini_model.generate_content(prompt)
    print("pergunta:", user_question)
    print("resposta do modelo:")
    print(response.text)

# Run

Celula de inicialização do pipeline

In [31]:
pdf_path = "textos/codigo_de_obras.pdf"
img_path = "textos/tabela.webp"
dados_unidos = extracao_conteudo(pdf_path, img_path)
chunks,index,model = indexar(dados_unidos)

Formato dos vetores: (31, 384)


Perguntas e resposta com o modelo

In [32]:
question_answering(chunks, index, model)

pergunta: quais as regras de construção?
resposta do modelo:
Baseado nos trechos fornecidos, as regras de construção são:

1.  **Licença para Início da Obra:** A execução das obras somente pode ser iniciada após a concessão da licença para construção. O início é caracterizado pelo preparo do terreno, abertura de cavas para fundações ou início de execução das fundações.
2.  **Canteiro de Obras Fora do Lote:** A implantação do canteiro de obras fora dos limites do lote exige licença específica do órgão competente, mediante exame das condições de circulação, possíveis prejuízos a vizinhos e trânsito, e com a condição de que a cobertura vegetal preexistente seja restituída após o término da obra.
3.  **Proibição de Ocupação de Vias Públicas:** É proibida a permanência de qualquer material de construção em vias e logradouros públicos, bem como sua utilização como canteiro de obras ou depósito de entulhos. A não retirada autoriza a Prefeitura a remover o material, cobrar as despesas e aplica