In [None]:
!pip install pymupdf
!pip install pytesseract
!pip install pillow
!pip install sentence-transformers
!pip install langchain
!pip install qdrant-client
!pip install unidecode
!pip install tiktoken


Collecting pymupdf
  Downloading pymupdf-1.26.4-cp39-abi3-manylinux_2_28_x86_64.whl.metadata (3.4 kB)
Downloading pymupdf-1.26.4-cp39-abi3-manylinux_2_28_x86_64.whl (24.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.1/24.1 MB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymupdf
Successfully installed pymupdf-1.26.4
Collecting pytesseract
  Downloading pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Downloading pytesseract-0.3.13-py3-none-any.whl (14 kB)
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.13
Collecting qdrant-client
  Downloading qdrant_client-1.15.1-py3-none-any.whl.metadata (11 kB)
Collecting portalocker<4.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-3.2.0-py3-none-any.whl.metadata (8.7 kB)
Downloading qdrant_client-1.15.1-py3-none-any.whl (337 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m337.3/337.3 kB[0m [31m7.3 MB/s[0m eta [36m0:00:00

In [None]:
pip install PyMuPDF pytesseract Pillow sentence-transformers langchain-text-splitters qdrant-client Unidecode tiktoken



In [None]:
import fitz  # PyMuPDF
import pytesseract
from PIL import Image
from sentence_transformers import SentenceTransformer
from langchain.text_splitter import RecursiveCharacterTextSplitter
from qdrant_client import QdrantClient
from qdrant_client.http.exceptions import UnexpectedResponse # Importação corrigida
from qdrant_client.models import VectorParams, Distance, PointStruct
import re
import unidecode
import io
import os
from datetime import datetime, UTC
import tiktoken  # para contagem de tokens
import time

def extract_pdf_text_by_page(pdf_path):
    """
    Extrai texto de um PDF, página por página.
    Usa OCR (Tesseract) se o texto não for encontrado em uma página.
    """
    doc = fitz.open(pdf_path)
    pages = []

    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text()

        if not text.strip():
            image_list = page.get_images(full=True)
            for img in image_list:
                xref = img[0]
                base_image = doc.extract_image(xref)
                image_bytes = base_image["image"]
                image = Image.open(io.BytesIO(image_bytes))
                text += pytesseract.image_to_string(image, lang='por') # Adicionei o idioma português para o OCR

        pages.append((page_num + 1, text))

    return pages

def clean_text(text):
    """
    Limpa e normaliza o texto para melhor processamento.
    """
    text = re.sub(r'[\x00-\x1F\x7F-\x9F]', '', text)
    text = text.replace("", "")
    # Adiciona espaço entre letras e maiúsculas para corrigir falhas de extração
    text = re.sub(r'([a-z])([A-Z])', r'\1 \2', text)
    # Remove acentuação
    text = unidecode.unidecode(text)

    corrections = {
        "disponibilidadedoelementonosolo": "disponibilidade do elemento no solo",
        "freminAuencia devariosoutros": "frequencia de varios outros",
    }
    for wrong, correct in corrections.items():
        text = text.replace(wrong, correct)

    return text

def split_text_by_tables(text):
    """
    Separa o texto em blocos de parágrafos e tabelas.
    As tabelas são identificadas por "Tabela X." e seu conteúdo vai até o próximo ponto final.
    Retorna lista de tuplas (tipo, conteúdo), onde tipo é 'table' ou 'paragraph'.
    """
    parts = []
    table_pattern = re.compile(r'(Tabela\s+\d+\..*?\.)(?=\s*Tabela\s+\d+\.|\Z)', re.DOTALL)

    last_end = 0
    for match in table_pattern.finditer(text):
        if match.start() > last_end:
            paragraph_content = text[last_end:match.start()].strip()
            if paragraph_content:
                parts.append(('paragraph', paragraph_content))

        table_content = match.group(0).strip()
        parts.append(('table', table_content))
        last_end = match.end()

    if last_end < len(text):
        remaining_content = text[last_end:].strip()
        if remaining_content:
            parts.append(('paragraph', remaining_content))

    return parts

def count_tokens(text, encoding_name="cl100k_base"):
    """
    Conta o número de tokens em um texto usando a codificação do OpenAI.
    """
    encoding = tiktoken.get_encoding(encoding_name)
    return len(encoding.encode(text))

# --- Inicializações ---
print("Inicializando modelo de embedding...")
model = SentenceTransformer('all-MiniLM-L6-v2')
embedding_dim = model.get_sentence_embedding_dimension()

print(f"Dimensão do vetor do modelo: {embedding_dim}")

# Configuração do cliente Qdrant
client = QdrantClient(
    url="https://6a0fc4ef-705b-49c4-a183-a14bd938b5e0.us-west-2-0.aws.cloud.qdrant.io:6333",

    api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.IcL99F_UYsDmw1vj93Xp4aPfsOAO-LfX7WqCoOxo1tM"
)
collection_name = "chunkLuis"


try:
    print(f"Verificando se a coleção '{collection_name}' existe...")
    if client.collection_exists(collection_name):
        print("Coleção existente encontrada. Deletando para recriar com a dimensão correta.")
        client.delete_collection(collection_name=collection_name)
        time.sleep(1) # Pequena pausa para garantir que a exclusão foi processada
except UnexpectedResponse as e:
    print(f"Aviso ao tentar verificar a coleção: {e}. Prosseguindo...")

# Criar a coleção se ela não existir
print(f"Criando a coleção '{collection_name}' com dimensão {embedding_dim}...")
client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=embedding_dim, distance=Distance.COSINE)
)

pdf_path = "citros.pdf"
source_name = os.path.basename(pdf_path)
print(f"Extraindo texto do PDF: '{pdf_path}'")
pages = extract_pdf_text_by_page(pdf_path)

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=300)
timestamp_now = datetime.now(UTC).isoformat()

points = []
id_counter = 0

print("Processando e criando chunks...")
for page_num, raw_text in pages:
    cleaned_text = clean_text(raw_text)
    parts = split_text_by_tables(cleaned_text)

    for para_idx, (tipo, content) in enumerate(parts):
        chunks = text_splitter.split_text(content)

        for chunk in chunks:
            num_tokens = count_tokens(chunk)
            if num_tokens < 10:
                continue

            embedding = model.encode(chunk, convert_to_numpy=True)
            payload = {
                "content": chunk,
                "type": tipo,
                "page": page_num,
                "paragraph": para_idx + 1,
                "length": len(chunk),
                "tokens": num_tokens,
                "source": source_name,
                "timestamp": timestamp_now,
            }

            points.append(
                PointStruct(id=id_counter, vector=embedding.tolist(), payload=payload)
            )
            id_counter += 1

print(f"Indexando {len(points)} chunks no Qdrant...")
client.upsert(collection_name=collection_name, points=points)

print("\nChunks indexados com sucesso com parágrafo de origem e identificação de tabelas!")


Inicializando modelo de embedding...
Dimensão do vetor do modelo: 384
Verificando se a coleção 'chunkLuis' existe...
Coleção existente encontrada. Deletando para recriar com a dimensão correta.
Criando a coleção 'chunkLuis' com dimensão 384...
Extraindo texto do PDF: 'citros.pdf'
Processando e criando chunks...
Indexando 33 chunks no Qdrant...

Chunks indexados com sucesso com parágrafo de origem e identificação de tabelas!
