In [1]:
import chromadb
import fitz
from sentence_transformers import SentenceTransformer
from pprint import pprint
from pathlib import Path
import os

In [2]:
#Listando arquivos da pasta local "pdf_documents"

pdf_folder_path = "../pdf_documents"
pdf_files = [f for f in os.listdir(pdf_folder_path) if f.endswith(".pdf")]

print("Arquivos encontrados:")
for pdf in pdf_files:
    print(f"- {pdf}")

Arquivos encontrados:
- EIA_example1.pdf
- RIMA_example1.pdf
- RIMA_Example2.pdf
- RIMA_Example5.pdf
- RIMA_Example3.pdf
- EIA_Example2.pdf
- EIA_Example3.pdf
- EIA_Example4.pdf


In [3]:
#função para extrair o texto do arquivo pdf


def extract_text_from_pdf(pdf_path):
    try:
        with fitz.open(pdf_path) as doc:
            text = "\n".join([page.get_text("text") for page in doc])
            return text if text.strip() else None  # Retorna None se estiver vazio
    except Exception as e:
        print(f"Erro ao processar {pdf_path}: {e}")
        return None  # Retorna None para PDFs corrompidos
# Exemplo de funcionamento da função com o primeiro arquivo da pasta

if pdf_files:
    pdf_path = os.path.join(pdf_folder_path, pdf_files[0]) 
    pdf_text = extract_text_from_pdf(pdf_path)
    print ("Exemplo de texto extraído do primeiro arquivo da pasta")
    print (f"\n Nome do arquivo : {pdf_files[0]}\n")
    print (pdf_text)
else:
    print("Lista de pdf_files vazia")

Exemplo de texto extraído do primeiro arquivo da pasta

 Nome do arquivo : EIA_example1.pdf

GOVERNO DO ESTADO DE SÃO PAULO
COMPANHIA AMBIENTAL DO ESTADO DE SÃO PAULO
FOLHA LÍDER
NÚMERO DO PROCESSO: CETESB.090935/2024-97
INTERESSADO:
MG TRAFOS IMPORTAÇÃO E EXPORTAÇÃO LTDA
CLASSIFICAÇÃO:
039.01.01.007 - Processo de licenciamento ambiental de empreendimento ou atividade
DESCRIÇÃO DO ASSUNTO:
SERVIÇO SOLICITADO: LICENÇA PRÉVIA - LP (EIA)
EMPREENDIMENTO: MG TRAFOS IMPORTAÇÃO E EXPORTAÇÃO - URE -
Unidade de Recuperação de Energia
TIPOLOGIA: UTE/URE
MUNICÍPIO: PEDREIRA
LOCALIDADE: Pedreira - SP
DATA: 30/12/2024 às 11:22
UNIDADE ORIGEM: IARS - SETOR DE APOIO EM AVALIAÇÃO E GESTÃO DE RESÍDUOS SÓLIDOS
RESTRIÇÃO DE ACESSO: Público
CRISTIANE DOS SANTOS SOUZA
Página: 1
Peça do processo/documento CETESB.090935/2024-97, materializada por: R.F.M em 03/01/2025 07:09 CPF: 257.xxx.xxx-01

GOVERNO DO ESTADO DE SÃO PAULO
Secretaria de Meio Ambiente, Infraestrutura e Logística
[CETESB][DIRETORIA I] INCLUIR

In [4]:
#Extraindo o texto de todos os arquivos da pasta

pdf_texts = {}

for pdf_file in pdf_files:
    pdf_path = os.path.join(pdf_folder_path, pdf_file)

    print(f"Processando: {pdf_file}...")  # Mostra qual arquivo está sendo lido

    try:
        pdf_texts[pdf_file] = extract_text_from_pdf(pdf_path)
        print(f"Extração concluída: {pdf_file}\n")
    except Exception as e:
        print(f"Erro ao processar {pdf_file}: {e}\n")

print(f"\nOs textos de {len(pdf_texts)} documentos foram extraídos com sucesso.")


Processando: EIA_example1.pdf...
Extração concluída: EIA_example1.pdf

Processando: RIMA_example1.pdf...
Extração concluída: RIMA_example1.pdf

Processando: RIMA_Example2.pdf...
Extração concluída: RIMA_Example2.pdf

Processando: RIMA_Example5.pdf...
Extração concluída: RIMA_Example5.pdf

Processando: RIMA_Example3.pdf...
Extração concluída: RIMA_Example3.pdf

Processando: EIA_Example2.pdf...
MuPDF error: library error: zlib error: invalid distance too far back

Extração concluída: EIA_Example2.pdf

Processando: EIA_Example3.pdf...
Extração concluída: EIA_Example3.pdf

Processando: EIA_Example4.pdf...
Extração concluída: EIA_Example4.pdf


Os textos de 8 documentos foram extraídos com sucesso.


In [5]:
if pdf_files:
    pdf_path = os.path.join(pdf_folder_path, pdf_files[7]) 
    pdf_text = extract_text_from_pdf(pdf_path)
    print ("Exemplo de texto extraído do primeiro arquivo da pasta")
    print (f"\n Nome do arquivo : {pdf_files[7]}\n")
    print (pdf_text)
else:
    print("Lista de pdf_files vazia")

Exemplo de texto extraído do primeiro arquivo da pasta

 Nome do arquivo : EIA_Example4.pdf

None


In [6]:
#O erro "MuPDF error: library error: zlib error: invalid distance too far back" geralmente indica que há uma página em branco no documento,
#mas não impede a extração do texto, permitindo a continuação do processamento

#Agora será feita a divisão em chunks de texto em um formato otimizado para o chat-GPT

from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_text_into_chunks(text, chunk_size=512, chunk_overlap=50):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
    )
    
    chunks = splitter.split_text(text)
    return chunks

# Garantindo que pdf_texts já contém os textos extraídos
text_chunks = {}

for pdf_file, full_text in pdf_texts.items():
    if not isinstance(full_text, str):  
        print(f"⚠️ Aviso: O texto extraído de {pdf_file} não é uma string. Convertendo para string vazia.")
        full_text = ""
    
    text_chunks[pdf_file] = split_text_into_chunks(full_text)
    print(f"✅ Texto do arquivo {pdf_file} dividido em {len(text_chunks[pdf_file])} blocos.")

print(f"\n📌 Os textos de {len(pdf_texts)} documentos foram particionados em blocos.")


✅ Texto do arquivo EIA_example1.pdf dividido em 849 blocos.
✅ Texto do arquivo RIMA_example1.pdf dividido em 101 blocos.
✅ Texto do arquivo RIMA_Example2.pdf dividido em 278 blocos.
✅ Texto do arquivo RIMA_Example5.pdf dividido em 58 blocos.
✅ Texto do arquivo RIMA_Example3.pdf dividido em 162 blocos.
✅ Texto do arquivo EIA_Example2.pdf dividido em 3547 blocos.
✅ Texto do arquivo EIA_Example3.pdf dividido em 3444 blocos.
⚠️ Aviso: O texto extraído de EIA_Example4.pdf não é uma string. Convertendo para string vazia.
✅ Texto do arquivo EIA_Example4.pdf dividido em 0 blocos.

📌 Os textos de 8 documentos foram particionados em blocos.


In [7]:
print(os.getenv("OPENAI_API_KEY")) 

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


In [9]:
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain_openai import OpenAIEmbeddings

# Carregar a chave da API do ambiente
openai_api_key = os.getenv("OPENAI_API_KEY")

def split_text_into_chunks(text, chunk_size=512, chunk_overlap=50):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
    )
    
    chunks = splitter.split_text(text)
    return chunks

def generate_embeddings(chunks):
    embeddings_model = OpenAIEmbeddings(openai_api_key=openai_api_key)
    return embeddings_model.embed_documents(chunks)

# Garantindo que pdf_texts já contém os textos extraídos
text_chunks = {}
embeddings = {}

for pdf_file, full_text in pdf_texts.items():
    if not isinstance(full_text, str):  
        print(f"⚠️ Aviso: O texto extraído de {pdf_file} não é uma string. Convertendo para string vazia.")
        full_text = ""
    
    text_chunks[pdf_file] = split_text_into_chunks(full_text)
    embeddings[pdf_file] = generate_embeddings(text_chunks[pdf_file])
    print(f"✅ Texto do arquivo {pdf_file} dividido em {len(text_chunks[pdf_file])} blocos e embeddings gerados.")

print(f"\n📌 Os textos de {len(pdf_texts)} documentos foram particionados e processados em embeddings.")


✅ Texto do arquivo EIA_example1.pdf dividido em 849 blocos e embeddings gerados.
✅ Texto do arquivo RIMA_example1.pdf dividido em 101 blocos e embeddings gerados.
✅ Texto do arquivo RIMA_Example2.pdf dividido em 278 blocos e embeddings gerados.
✅ Texto do arquivo RIMA_Example5.pdf dividido em 58 blocos e embeddings gerados.
✅ Texto do arquivo RIMA_Example3.pdf dividido em 162 blocos e embeddings gerados.
✅ Texto do arquivo EIA_Example2.pdf dividido em 3547 blocos e embeddings gerados.
✅ Texto do arquivo EIA_Example3.pdf dividido em 3444 blocos e embeddings gerados.
⚠️ Aviso: O texto extraído de EIA_Example4.pdf não é uma string. Convertendo para string vazia.
✅ Texto do arquivo EIA_Example4.pdf dividido em 0 blocos e embeddings gerados.

📌 Os textos de 8 documentos foram particionados e processados em embeddings.


In [22]:
print(f"Nome dos arquivos processados para retirar os textos: {pdf_texts.keys()}")

Nome dos arquivos processados para retirar os textos: dict_keys(['EIA_example1.pdf', 'RIMA_example1.pdf', 'RIMA_Example2.pdf', 'RIMA_Example5.pdf', 'RIMA_Example3.pdf', 'EIA_Example2.pdf', 'EIA_Example3.pdf', 'EIA_Example4.pdf'])


In [21]:
import chromadb

# Configurando o ChromaDB com persistência
chroma_client = chromadb.PersistentClient(path="./chroma_db")

# Exclui a coleção se ela já existir (para garantir que a nova tenha a dimensão correta)
try:
    chroma_client.delete_collection(name="pdf_documents")
    print("🗑️ Coleção antiga excluída para recriação.")
except Exception:
    print("ℹ️ Nenhuma coleção anterior encontrada.")

# Criando a coleção corretamente
collection = chroma_client.get_or_create_collection(
    name="pdf_documents",
    metadata={"hnsw:space": "cosine"},  # Algoritmo de similaridade
    embedding_function=None  # Permite adicionar embeddings manualmente
)

# Adicionando os embeddings ao ChromaDB
doc_id = 1  # Contador único para IDs

for idx, embedding in enumerate(embeddings):  # 🔥 Aqui percorremos a lista diretamente
    chunk_id = f"chunk_{idx}"  # ID único para cada chunk
    collection.add(
        ids=[chunk_id],
        embeddings=[embedding],
        metadatas=[{"chunk_index": idx, "numeric_id": doc_id}]
    )
    doc_id += 1  # Incrementa o ID único
        
print(f"✅ {len(embeddings)} chunks armazenados no ChromaDB.")
print("\n📌 Todos os documentos foram salvos no banco ChromaDB.")


🗑️ Coleção antiga excluída para recriação.
✅ 849 chunks armazenados no ChromaDB.

📌 Todos os documentos foram salvos no banco ChromaDB.


In [24]:
print("ids dos documentos:\n")
print(collection.get()["ids"])

ids dos documentos:

['chunk_0', 'chunk_1', 'chunk_2', 'chunk_3', 'chunk_4', 'chunk_5', 'chunk_6', 'chunk_7', 'chunk_8', 'chunk_9', 'chunk_10', 'chunk_11', 'chunk_12', 'chunk_13', 'chunk_14', 'chunk_15', 'chunk_16', 'chunk_17', 'chunk_18', 'chunk_19', 'chunk_20', 'chunk_21', 'chunk_22', 'chunk_23', 'chunk_24', 'chunk_25', 'chunk_26', 'chunk_27', 'chunk_28', 'chunk_29', 'chunk_30', 'chunk_31', 'chunk_32', 'chunk_33', 'chunk_34', 'chunk_35', 'chunk_36', 'chunk_37', 'chunk_38', 'chunk_39', 'chunk_40', 'chunk_41', 'chunk_42', 'chunk_43', 'chunk_44', 'chunk_45', 'chunk_46', 'chunk_47', 'chunk_48', 'chunk_49', 'chunk_50', 'chunk_51', 'chunk_52', 'chunk_53', 'chunk_54', 'chunk_55', 'chunk_56', 'chunk_57', 'chunk_58', 'chunk_59', 'chunk_60', 'chunk_61', 'chunk_62', 'chunk_63', 'chunk_64', 'chunk_65', 'chunk_66', 'chunk_67', 'chunk_68', 'chunk_69', 'chunk_70', 'chunk_71', 'chunk_72', 'chunk_73', 'chunk_74', 'chunk_75', 'chunk_76', 'chunk_77', 'chunk_78', 'chunk_79', 'chunk_80', 'chunk_81', 'chu

In [25]:
#exemplo de consulta de documento por id numérico nos metadados

result = collection.get(where={"numeric_id": 5})  # Busca pelo ID numérico armazenado como metadado

print(result)


{'ids': ['chunk_4'], 'embeddings': None, 'documents': [None], 'uris': None, 'data': None, 'metadatas': [{'chunk_index': 4, 'numeric_id': 5}], 'included': [<IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [40]:
from langchain_openai import OpenAIEmbeddings

# 🔹 Criando novamente o gerador de embeddings
openai_embeddings = OpenAIEmbeddings()  # Garante que usa o mesmo modelo dos chunks

# 🔹 Definindo a query de busca
query = "Leopardus guttulus"
query_embedding = openai_embeddings.embed_query(query)  # Gera embedding para a query

# 🔹 Definindo o número de resultados desejados
n = 10

# 🔹 Buscando os N documentos mais relevantes no ChromaDB
results = collection.query(
    query_embeddings=[query_embedding],  
    n_results=n  
)

# 🔹 Exibindo os resultados
print("\n🔎 **Resultados da Busca:**")
for i, doc in enumerate(results["metadatas"][0]):
    print(f"{i+1}. Chunk {doc['chunk_index']} (Score: {results['distances'][0][i]})")



🔎 **Resultados da Busca:**
1. Chunk 527 (Score: 0.24633830785751343)
2. Chunk 657 (Score: 0.25338613986968994)
3. Chunk 542 (Score: 0.25616586208343506)
4. Chunk 828 (Score: 0.26043642146411217)
5. Chunk 269 (Score: 0.2622259259223938)
6. Chunk 265 (Score: 0.26313310861587524)
7. Chunk 658 (Score: 0.26559072732925415)
8. Chunk 154 (Score: 0.2676295042037964)
9. Chunk 270 (Score: 0.2697678804397583)
10. Chunk 541 (Score: 0.269778847694397)


In [35]:
# Exibir os primeiros metadados para conferir os índices armazenados
results = collection.get()
print(results["metadatas"][:10])  # Mostra os 10 primeiros registros


[{'chunk_index': 0, 'numeric_id': 1}, {'chunk_index': 1, 'numeric_id': 2}, {'chunk_index': 2, 'numeric_id': 3}, {'chunk_index': 3, 'numeric_id': 4}, {'chunk_index': 4, 'numeric_id': 5}, {'chunk_index': 5, 'numeric_id': 6}, {'chunk_index': 6, 'numeric_id': 7}, {'chunk_index': 7, 'numeric_id': 8}, {'chunk_index': 8, 'numeric_id': 9}, {'chunk_index': 9, 'numeric_id': 10}]


In [43]:
def get_chunk_text_by_index(chunk_index):
    results = collection.get(where={"chunk_index": chunk_index})

    if results and "metadatas" in results and results["metadatas"]:
        chunk_id = results["ids"][0]  # Obtém o ID do chunk

        # Buscar o texto diretamente nos chunks armazenados
        for chunks in text_chunks.values():  
            if chunk_index < len(chunks):  
                return chunks[chunk_index]  # Retorna o texto do chunk

    return "❌ Nenhum chunk encontrado com esse índice."

# 🔎 Teste a função
chunk_index = 542  # Escolha o índice do chunk que deseja visualizar
chunk_text = get_chunk_text_by_index(chunk_index)

print(f"📝 Texto do chunk {chunk_index}:\n{chunk_text}")


📝 Texto do chunk 542:
Em suma, a fauna de Pedreira é um reflexo da riqueza natural da região, com uma 
combinação de espécies que tornam o local um verdadeiro refúgio de biodiversidade. A 
preservação desses habitats é crucial para manter essa variedade e garantir um futuro 
sustentável para a fauna local. 
Página: 130
Peça do processo/documento CETESB.090935/2024-97, materializada por: R.F.M em 03/01/2025 07:09 CPF: 257.xxx.xxx-01
