# üìö **Ingest√£o Completa de PDFs Longos - Pipeline RAG Completo**

> *Do PDF bruto at√© o banco vetorial pronto para busca - tudo em um notebook!*

---

## üéØ **O que voc√™ vai aprender?**

Este notebook demonstra um **pipeline completo** para ingest√£o de PDFs longos, incluindo:

1. ‚úÖ **Extra√ß√£o de texto** de PDFs (m√∫ltiplos arquivos)
2. ‚úÖ **Cria√ß√£o de chunks** (sem√¢nticos e fixos)
3. ‚úÖ **Gera√ß√£o de embeddings** 
4. ‚úÖ **Armazenamento** em m√∫ltiplos bancos vetoriais:
   - üóÑÔ∏è **Chroma** (local, r√°pido)
   - üöÄ **FAISS** (local, escal√°vel)
   - üìä **LanceDB** (moderno, eficiente)

---

## üìã **Pr√©-requisitos**

- Python b√°sico
- Pasta `pdfs/` com seus PDFs para processar
- Paci√™ncia (processamento pode demorar para PDFs grandes)

---

**üñºÔ∏è Sugest√£o de imagem**: Um pipeline mostrando PDF ‚Üí Chunks ‚Üí Embeddings ‚Üí Vector Store

## üöÄ **Setup Inicial - Instalando Depend√™ncias**

In [None]:
# üöÄ SETUP GRATUITO PARA COLAB/LOCAL
# Execute esta c√©lula primeiro para configurar o ambiente!

# Instalando depend√™ncias (execute apenas se necess√°rio)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install pypdf>=3.15.0
!pip install huggingface_hub>=0.19.0
!pip install sentence-transformers>=2.2.0
!pip install chromadb>=0.4.0
!pip install faiss-cpu>=1.7.0
!pip install lancedb>=0.4.0
!pip install pyarrow>=12.0.0
!pip install numpy>=1.24.0
!pip install pandas>=2.0.0
!pip install tiktoken>=0.5.0

print("‚úÖ Depend√™ncias instaladas com sucesso!")
print("üöÄ Pronto para processar PDFs longos!")

## üì¶ **Importa√ß√µes Necess√°rias**

In [None]:
# üì¶ IMPORTA√á√ïES PARA INGEST√ÉO DE PDFs
import os
from pathlib import Path
from typing import List, Dict, Any, Optional
import time

# LangChain
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import TokenTextSplitter
from langchain.schema import Document
from langchain_community.embeddings import HuggingFaceEmbeddings

# Vector Stores
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores import FAISS
import lancedb
import pyarrow as pa

# Utilit√°rios
import numpy as np
import pandas as pd

print("‚úÖ Bibliotecas importadas com sucesso!")
print("üìö Pronto para processar PDFs!")

## üìÑ **Etapa 1: Extra√ß√£o de Texto de PDFs**

### **1.1: Carregando PDFs Individualmente**

In [None]:
# üìÑ ETAPA 1: EXTRA√á√ÉO DE TEXTO DE PDFs

def carregar_pdf(pdf_path: str) -> List[Document]:
    """
    Carrega um PDF e extrai o texto
    
    Args:
        pdf_path: Caminho para o arquivo PDF
    
    Returns:
        Lista de documentos do LangChain
    """
    try:
        print(f"üìñ Carregando PDF: {Path(pdf_path).name}")
        
        loader = PyPDFLoader(pdf_path)
        documents = loader.load()
        
        # Adicionar metadados √∫teis
        for i, doc in enumerate(documents):
            doc.metadata['source_file'] = Path(pdf_path).name
            doc.metadata['page_number'] = i + 1
            doc.metadata['total_pages'] = len(documents)
        
        print(f"‚úÖ Carregado: {len(documents)} p√°ginas")
        print(f"üìù Total de caracteres: {sum(len(d.page_content) for d in documents):,}")
        
        return documents
        
    except Exception as e:
        print(f"‚ùå Erro ao carregar {pdf_path}: {e}")
        return []

# Exemplo de uso
pdf_folder = Path("pdfs")

if pdf_folder.exists():
    pdf_files = list(pdf_folder.glob("*.pdf"))
    
    if pdf_files:
        print(f"üìö Encontrados {len(pdf_files)} arquivos PDF")
        print("\n" + "="*50)
        
        # Carregar primeiro PDF como exemplo
        primeiro_pdf = pdf_files[0]
        documentos_exemplo = carregar_pdf(str(primeiro_pdf))
        
        if documentos_exemplo:
            print("\nüìÑ Primeira p√°gina de exemplo:")
            print("-" * 50)
            print(documentos_exemplo[0].page_content[:500] + "...")
    else:
        print(f"‚ö†Ô∏è Nenhum PDF encontrado em {pdf_folder}")
        print("üí° Crie uma pasta 'pdfs' e coloque seus PDFs l√°!")
else:
    print(f"‚ö†Ô∏è Pasta {pdf_folder} n√£o existe")
    print("üí° Crie uma pasta 'pdfs' e coloque seus PDFs l√°!")

### **1.2: Carregando M√∫ltiplos PDFs**

In [None]:
# üìö CARREGANDO M√öLTIPLOS PDFs

def carregar_todos_pdfs(pdf_folder: str = "pdfs") -> List[Document]:
    """
    Carrega todos os PDFs de uma pasta
    
    Args:
        pdf_folder: Caminho para a pasta com PDFs
    
    Returns:
        Lista de todos os documentos
    """
    pdf_folder_path = Path(pdf_folder)
    
    if not pdf_folder_path.exists():
        print(f"‚ùå Pasta {pdf_folder} n√£o encontrada!")
        return []
    
    pdf_files = list(pdf_folder_path.glob("*.pdf"))
    
    if not pdf_files:
        print(f"‚ö†Ô∏è Nenhum PDF encontrado em {pdf_folder}")
        return []
    
    print(f"üìö Encontrados {len(pdf_files)} arquivos PDF")
    print("="*60)
    
    all_documents = []
    
    for pdf_file in pdf_files:
        print(f"\nüìñ Processando: {pdf_file.name}")
        
        documentos = carregar_pdf(str(pdf_file))
        
        if documentos:
            all_documents.extend(documentos)
            print(f"‚úÖ Adicionado: {len(documentos)} p√°ginas")
    
    print("\n" + "="*60)
    print(f"‚úÖ Total: {len(all_documents)} p√°ginas de {len(pdf_files)} PDFs")
    print(f"üìù Total de caracteres: {sum(len(d.page_content) for d in all_documents):,}")
    
    return all_documents

# Carregar todos os PDFs
todos_documentos = carregar_todos_pdfs("pdfs")

if todos_documentos:
    print("\nüéâ PDFs carregados com sucesso!")
    print(f"üìä Estat√≠sticas:")
    print(f"   - Total de p√°ginas: {len(todos_documentos)}")
    print(f"   - M√©dia de caracteres por p√°gina: {sum(len(d.page_content) for d in todos_documentos) // len(todos_documentos)}")
    print(f"   - Arquivos √∫nicos: {len(set(d.metadata.get('source_file', '') for d in todos_documentos))}")

## ‚úÇÔ∏è **Etapa 2: Cria√ß√£o de Chunks (Sem√¢nticos e Fixos)**

### **2.1: Chunks Fixos (Character-based)**

In [None]:
# ‚úÇÔ∏è ETAPA 2.1: CHUNKS FIXOS (CHARACTER-BASED)

def criar_chunks_fixos(documents: List[Document], 
                       chunk_size: int = 1000, 
                       chunk_overlap: int = 200) -> List[Document]:
    """
    Cria chunks de tamanho fixo (caracteres)
    
    Args:
        documents: Lista de documentos
        chunk_size: Tamanho m√°ximo de cada chunk (caracteres)
        chunk_overlap: Sobreposi√ß√£o entre chunks
    
    Returns:
        Lista de chunks
    """
    print(f"üî™ Criando chunks fixos (tamanho: {chunk_size}, overlap: {chunk_overlap})")
    
    splitter = CharacterTextSplitter(
        separator="\n\n",  # Separador preferencial
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len
    )
    
    chunks = splitter.split_documents(documents)
    
    print(f"‚úÖ Criados {len(chunks)} chunks")
    print(f"üìè Tamanho m√©dio: {sum(len(c.page_content) for c in chunks) // len(chunks)} caracteres")
    print(f"üìä Tamanho m√≠nimo: {min(len(c.page_content) for c in chunks)} caracteres")
    print(f"üìä Tamanho m√°ximo: {max(len(c.page_content) for c in chunks)} caracteres")
    
    return chunks

# Criar chunks fixos (se tiver documentos)
if todos_documentos:
    chunks_fixos = criar_chunks_fixos(
        todos_documentos,
        chunk_size=1000,
        chunk_overlap=200
    )
    
    print("\nüìÑ Exemplo de chunk fixo:")
    print("-" * 50)
    print(chunks_fixos[0].page_content[:300] + "...")
else:
    print("‚ö†Ô∏è Carregue PDFs primeiro!")

### **2.2: Chunks Sem√¢nticos (Recursive Character-based)**

In [None]:
# üß† ETAPA 2.2: CHUNKS SEM√ÇNTICOS (RECURSIVE CHARACTER-BASED)

def criar_chunks_semanticos(documents: List[Document], 
                            chunk_size: int = 1000, 
                            chunk_overlap: int = 200) -> List[Document]:
    """
    Cria chunks sem√¢nticos respeitando a estrutura do texto
    
    Args:
        documents: Lista de documentos
        chunk_size: Tamanho m√°ximo de cada chunk
        chunk_overlap: Sobreposi√ß√£o entre chunks
    
    Returns:
        Lista de chunks sem√¢nticos
    """
    print(f"üß† Criando chunks sem√¢nticos (tamanho: {chunk_size}, overlap: {chunk_overlap})")
    
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        # Ordem de prioridade para separadores
        separators=["\n\n", "\n", ". ", "! ", "? ", "; ", ", ", " ", ""]
    )
    
    chunks = splitter.split_documents(documents)
    
    print(f"‚úÖ Criados {len(chunks)} chunks sem√¢nticos")
    print(f"üìè Tamanho m√©dio: {sum(len(c.page_content) for c in chunks) // len(chunks)} caracteres")
    print(f"üìä Tamanho m√≠nimo: {min(len(c.page_content) for c in chunks)} caracteres")
    print(f"üìä Tamanho m√°ximo: {max(len(c.page_content) for c in chunks)} caracteres")
    
    return chunks

# Criar chunks sem√¢nticos (se tiver documentos)
if todos_documentos:
    chunks_semanticos = criar_chunks_semanticos(
        todos_documentos,
        chunk_size=1000,
        chunk_overlap=200
    )
    
    print("\nüìÑ Exemplo de chunk sem√¢ntico:")
    print("-" * 50)
    print(chunks_semanticos[0].page_content[:300] + "...")
    
    print("\nüìä Compara√ß√£o:")
    print(f"   - Chunks fixos: {len(chunks_fixos) if 'chunks_fixos' in locals() else 0}")
    print(f"   - Chunks sem√¢nticos: {len(chunks_semanticos)}")
else:
    print("‚ö†Ô∏è Carregue PDFs primeiro!")

### **2.3: Chunks Baseados em Tokens**

In [None]:
# üéØ ETAPA 2.3: CHUNKS BASEADOS EM TOKENS

def criar_chunks_tokens(documents: List[Document], 
                        chunk_size: int = 512, 
                        chunk_overlap: int = 50) -> List[Document]:
    """
    Cria chunks baseados em tokens (√∫til para modelos de linguagem)
    
    Args:
        documents: Lista de documentos
        chunk_size: N√∫mero m√°ximo de tokens por chunk
        chunk_overlap: Sobreposi√ß√£o de tokens
    
    Returns:
        Lista de chunks baseados em tokens
    """
    print(f"üéØ Criando chunks baseados em tokens (tamanho: {chunk_size}, overlap: {chunk_overlap})")
    
    try:
        splitter = TokenTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            encoding_name="cl100k_base"  # Encoding do GPT
        )
        
        chunks = splitter.split_documents(documents)
        
        print(f"‚úÖ Criados {len(chunks)} chunks baseados em tokens")
        print(f"üìè Tamanho m√©dio: {sum(len(c.page_content) for c in chunks) // len(chunks)} caracteres")
        
        return chunks
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao criar chunks baseados em tokens: {e}")
        print("üí° Usando chunks sem√¢nticos como alternativa")
        return criar_chunks_semanticos(documents, chunk_size=chunk_size*2, chunk_overlap=chunk_overlap*2)

# Criar chunks baseados em tokens (se tiver documentos)
if todos_documentos:
    chunks_tokens = criar_chunks_tokens(
        todos_documentos,
        chunk_size=512,
        chunk_overlap=50
    )
    
    print("\nüìÑ Exemplo de chunk baseado em tokens:")
    print("-" * 50)
    print(chunks_tokens[0].page_content[:300] + "...")
else:
    print("‚ö†Ô∏è Carregue PDFs primeiro!")

## üß† **Etapa 3: Gera√ß√£o de Embeddings**

In [None]:
# üß† ETAPA 3: GERA√á√ÉO DE EMBEDDINGS

def configurar_embeddings(modelo: str = "sentence-transformers/all-MiniLM-L6-v2"):
    """
    Configura o modelo de embeddings
    
    Args:
        modelo: Nome do modelo de embeddings
    
    Returns:
        Objeto de embeddings configurado
    """
    print(f"üîß Configurando embeddings: {modelo}")
    
    try:
        embeddings = HuggingFaceEmbeddings(
            model_name=modelo,
            model_kwargs={'device': 'cpu'},  # Use 'cuda' se tiver GPU
            encode_kwargs={'normalize_embeddings': True}
        )
        
        print(f"‚úÖ Embeddings configurados!")
        print(f"üìä Dimens√£o dos embeddings: 384 (para all-MiniLM-L6-v2)")
        
        return embeddings
        
    except Exception as e:
        print(f"‚ùå Erro ao configurar embeddings: {e}")
        return None

# Configurar embeddings
embeddings = configurar_embeddings()

# Testar embeddings (se tiver chunks)
if 'chunks_semanticos' in locals() and chunks_semanticos and embeddings:
    print("\nüß™ Testando gera√ß√£o de embeddings:")
    
    # Gerar embedding de um chunk de exemplo
    texto_teste = chunks_semanticos[0].page_content[:500]
    
    inicio = time.time()
    embedding_teste = embeddings.embed_query(texto_teste)
    tempo = time.time() - inicio
    
    print(f"‚úÖ Embedding gerado em {tempo:.3f}s")
    print(f"üìä Dimens√£o: {len(embedding_teste)}")
    print(f"üìä Valores de exemplo: {embedding_teste[:5]}")

## üóÑÔ∏è **Etapa 4: Armazenamento em Bancos Vetoriais**

### **4.1: Armazenamento no Chroma**

In [None]:
# üóÑÔ∏è ETAPA 4.1: ARMAZENAMENTO NO CHROMA

def armazenar_chroma(chunks: List[Document], 
                    embeddings: HuggingFaceEmbeddings,
                    collection_name: str = "pdfs_chroma",
                    persist_directory: str = "./chroma_db") -> Chroma:
    """
    Armazena chunks no Chroma
    
    Args:
        chunks: Lista de chunks
        embeddings: Modelo de embeddings
        collection_name: Nome da cole√ß√£o
        persist_directory: Diret√≥rio para persist√™ncia
    
    Returns:
        Objeto Chroma configurado
    """
    print(f"üóÑÔ∏è Armazenando {len(chunks)} chunks no Chroma...")
    
    inicio = time.time()
    
    try:
        vectorstore = Chroma.from_documents(
            documents=chunks,
            embedding=embeddings,
            collection_name=collection_name,
            persist_directory=persist_directory
        )
        
        tempo = time.time() - inicio
        
        print(f"‚úÖ Armazenado no Chroma em {tempo:.2f}s")
        print(f"üìä Cole√ß√£o: {collection_name}")
        print(f"üíæ Persistido em: {persist_directory}")
        
        return vectorstore
        
    except Exception as e:
        print(f"‚ùå Erro ao armazenar no Chroma: {e}")
        return None

# Armazenar no Chroma (se tiver chunks e embeddings)
if 'chunks_semanticos' in locals() and chunks_semanticos and embeddings:
    print("\n" + "="*60)
    vectorstore_chroma = armazenar_chroma(
        chunks_semanticos,
        embeddings,
        collection_name="pdfs_longos_chroma"
    )
    
    # Testar busca
    if vectorstore_chroma:
        print("\nüîç Testando busca no Chroma:")
        query_teste = "introdu√ß√£o"
        resultados = vectorstore_chroma.similarity_search(query_teste, k=3)
        print(f"‚úÖ Encontrados {len(resultados)} resultados para '{query_teste}'")
        print(f"\nüìÑ Primeiro resultado:")
        print("-" * 50)
        print(resultados[0].page_content[:200] + "...")
else:
    print("‚ö†Ô∏è Crie chunks e configure embeddings primeiro!")

### **4.2: Armazenamento no FAISS**

In [None]:
# üöÄ ETAPA 4.2: ARMAZENAMENTO NO FAISS

def armazenar_faiss(chunks: List[Document], 
                   embeddings: HuggingFaceEmbeddings,
                   index_path: str = "./faiss_index"):
    """
    Armazena chunks no FAISS
    
    Args:
        chunks: Lista de chunks
        embeddings: Modelo de embeddings
        index_path: Caminho para salvar o √≠ndice
    
    Returns:
        Objeto FAISS configurado
    """
    print(f"üöÄ Armazenando {len(chunks)} chunks no FAISS...")
    
    inicio = time.time()
    
    try:
        vectorstore = FAISS.from_documents(
            documents=chunks,
            embedding=embeddings
        )
        
        # Salvar √≠ndice
        vectorstore.save_local(index_path)
        
        tempo = time.time() - inicio
        
        print(f"‚úÖ Armazenado no FAISS em {tempo:.2f}s")
        print(f"üíæ √çndice salvo em: {index_path}")
        
        return vectorstore
        
    except Exception as e:
        print(f"‚ùå Erro ao armazenar no FAISS: {e}")
        return None

def carregar_faiss(index_path: str, embeddings: HuggingFaceEmbeddings):
    """
    Carrega um √≠ndice FAISS existente
    """
    try:
        vectorstore = FAISS.load_local(
            folder_path=index_path,
            embeddings=embeddings
        )
        print(f"‚úÖ FAISS carregado de {index_path}")
        return vectorstore
    except Exception as e:
        print(f"‚ùå Erro ao carregar FAISS: {e}")
        return None

# Armazenar no FAISS (se tiver chunks e embeddings)
if 'chunks_semanticos' in locals() and chunks_semanticos and embeddings:
    print("\n" + "="*60)
    vectorstore_faiss = armazenar_faiss(
        chunks_semanticos,
        embeddings,
        index_path="./faiss_index"
    )
    
    # Testar busca
    if vectorstore_faiss:
        print("\nüîç Testando busca no FAISS:")
        query_teste = "conceitos principais"
        resultados = vectorstore_faiss.similarity_search(query_teste, k=3)
        print(f"‚úÖ Encontrados {len(resultados)} resultados para '{query_teste}'")
        print(f"\nüìÑ Primeiro resultado:")
        print("-" * 50)
        print(resultados[0].page_content[:200] + "...")
else:
    print("‚ö†Ô∏è Crie chunks e configure embeddings primeiro!")

### **4.3: Armazenamento no LanceDB**

In [None]:
# üìä ETAPA 4.3: ARMAZENAMENTO NO LANCEDB

def armazenar_lancedb(chunks: List[Document], 
                     embeddings: HuggingFaceEmbeddings,
                     table_name: str = "pdfs_lancedb",
                     db_path: str = "./lancedb"):
    """
    Armazena chunks no LanceDB
    
    Args:
        chunks: Lista de chunks
        embeddings: Modelo de embeddings
        table_name: Nome da tabela
        db_path: Caminho do banco de dados
    
    Returns:
        Objeto LanceDB configurado
    """
    print(f"üìä Armazenando {len(chunks)} chunks no LanceDB...")
    
    inicio = time.time()
    
    try:
        # Conectar ao banco
        db = lancedb.connect(db_path)
        
        # Preparar dados
        dados = []
        
        print("üìù Gerando embeddings e preparando dados...")
        
        for i, chunk in enumerate(chunks):
            if i % 100 == 0:
                print(f"   Processando chunk {i+1}/{len(chunks)}")
            
            # Gerar embedding
            embedding = embeddings.embed_query(chunk.page_content)
            
            # Preparar dados
            dados.append({
                "vector": embedding,
                "text": chunk.page_content,
                "source": chunk.metadata.get('source_file', 'unknown'),
                "page": chunk.metadata.get('page_number', 0),
                "chunk_id": i
            })
        
        # Criar tabela
        print(f"üóÑÔ∏è Criando tabela '{table_name}'...")
        
        if table_name in db.table_names():
            table = db.open_table(table_name)
            table.add(dados)
        else:
            table = db.create_table(table_name, dados)
        
        tempo = time.time() - inicio
        
        print(f"‚úÖ Armazenado no LanceDB em {tempo:.2f}s")
        print(f"üìä Tabela: {table_name}")
        print(f"üíæ Banco salvo em: {db_path}")
        
        return db, table
        
    except Exception as e:
        print(f"‚ùå Erro ao armazenar no LanceDB: {e}")
        import traceback
        traceback.print_exc()
        return None, None

def buscar_lancedb(table, query: str, embeddings: HuggingFaceEmbeddings, k: int = 5):
    """
    Busca no LanceDB
    """
    query_embedding = embeddings.embed_query(query)
    
    resultados = table.search(query_embedding).limit(k).to_pandas()
    
    return resultados

# Armazenar no LanceDB (se tiver chunks e embeddings)
if 'chunks_semanticos' in locals() and chunks_semanticos and embeddings:
    print("\n" + "="*60)
    db_lancedb, table_lancedb = armazenar_lancedb(
        chunks_semanticos,
        embeddings,
        table_name="pdfs_longos_lancedb"
    )
    
    # Testar busca
    if table_lancedb:
        print("\nüîç Testando busca no LanceDB:")
        query_teste = "resumo"
        resultados = buscar_lancedb(table_lancedb, query_teste, embeddings, k=3)
        print(f"‚úÖ Encontrados {len(resultados)} resultados para '{query_teste}'")
        if len(resultados) > 0:
            print(f"\nüìÑ Primeiro resultado:")
            print("-" * 50)
            print(resultados.iloc[0]['text'][:200] + "...")
else:
    print("‚ö†Ô∏è Crie chunks e configure embeddings primeiro!")

## üéØ **Pipeline Completo - Fun√ß√£o √önica**

In [None]:
# üéØ PIPELINE COMPLETO - FUN√á√ÉO √öNICA

def pipeline_completo_ingestao_pdfs(
    pdf_folder: str = "pdfs",
    chunk_size: int = 1000,
    chunk_overlap: int = 200,
    chunk_type: str = "semantico",  # "fixo", "semantico", "token"
    embedding_model: str = "sentence-transformers/all-MiniLM-L6-v2",
    vector_stores: List[str] = ["chroma", "faiss", "lancedb"]
) -> Dict[str, Any]:
    """
    Pipeline completo de ingest√£o de PDFs
    
    Args:
        pdf_folder: Pasta com PDFs
        chunk_size: Tamanho dos chunks
        chunk_overlap: Sobreposi√ß√£o entre chunks
        chunk_type: Tipo de chunk ("fixo", "semantico", "token")
        embedding_model: Modelo de embeddings
        vector_stores: Lista de bancos vetoriais a usar
    
    Returns:
        Dicion√°rio com todos os vector stores criados
    """
    print("üöÄ INICIANDO PIPELINE COMPLETO DE INGEST√ÉO")
    print("="*60)
    
    resultado = {}
    
    # Etapa 1: Carregar PDFs
    print("\nüìÑ ETAPA 1: Carregando PDFs...")
    documentos = carregar_todos_pdfs(pdf_folder)
    
    if not documentos:
        print("‚ùå Nenhum documento encontrado!")
        return resultado
    
    # Etapa 2: Criar chunks
    print("\n‚úÇÔ∏è ETAPA 2: Criando chunks...")
    if chunk_type == "fixo":
        chunks = criar_chunks_fixos(documentos, chunk_size, chunk_overlap)
    elif chunk_type == "token":
        chunks = criar_chunks_tokens(documentos, chunk_size, chunk_overlap)
    else:  # semantico
        chunks = criar_chunks_semanticos(documentos, chunk_size, chunk_overlap)
    
    # Etapa 3: Configurar embeddings
    print("\nüß† ETAPA 3: Configurando embeddings...")
    embeddings = configurar_embeddings(embedding_model)
    
    if not embeddings:
        print("‚ùå Erro ao configurar embeddings!")
        return resultado
    
    # Etapa 4: Armazenar em vector stores
    print("\nüóÑÔ∏è ETAPA 4: Armazenando em vector stores...")
    
    if "chroma" in vector_stores:
        print("\n   üì¶ Armazenando no Chroma...")
        resultado["chroma"] = armazenar_chroma(chunks, embeddings)
    
    if "faiss" in vector_stores:
        print("\n   üì¶ Armazenando no FAISS...")
        resultado["faiss"] = armazenar_faiss(chunks, embeddings)
    
    if "lancedb" in vector_stores:
        print("\n   üì¶ Armazenando no LanceDB...")
        db, table = armazenar_lancedb(chunks, embeddings)
        resultado["lancedb"] = {"db": db, "table": table}
    
    print("\n" + "="*60)
    print("‚úÖ PIPELINE COMPLETO FINALIZADO!")
    print(f"üìä Estat√≠sticas:")
    print(f"   - PDFs processados: {len(set(d.metadata.get('source_file', '') for d in documentos))}")
    print(f"   - P√°ginas totais: {len(documentos)}")
    print(f"   - Chunks criados: {len(chunks)}")
    print(f"   - Vector stores: {len(resultado)}")
    
    return resultado

# Executar pipeline completo
print("üí° Para executar o pipeline completo, descomente a linha abaixo:")
print("# resultado_pipeline = pipeline_completo_ingestao_pdfs(")
print("#     pdf_folder='pdfs',")
print("#     chunk_size=1000,")
print("#     chunk_overlap=200,")
print("#     chunk_type='semantico',")
print("#     vector_stores=['chroma', 'faiss', 'lancedb']")
print("# )")

## üìä **Resumo e Pr√≥ximos Passos**

In [None]:
# üìä RESUMO DO QUE APRENDEMOS

print("üéì RESUMO DO PIPELINE DE INGEST√ÉO")
print("="*60)
print("")
print("‚úÖ Extra√ß√£o de texto de PDFs")
print("   - PyPDFLoader do LangChain")
print("   - Suporte para m√∫ltiplos PDFs")
print("   - Metadados preservados")
print("")
print("‚úÖ Cria√ß√£o de chunks")
print("   - Chunks fixos (Character-based)")
print("   - Chunks sem√¢nticos (Recursive)")
print("   - Chunks baseados em tokens")
print("")
print("‚úÖ Gera√ß√£o de embeddings")
print("   - HuggingFace Embeddings")
print("   - Modelos gratuitos")
print("")
print("‚úÖ Armazenamento em vector stores")
print("   - Chroma (local, r√°pido)")
print("   - FAISS (escal√°vel)")
print("   - LanceDB (moderno)")
print("")
print("üöÄ PR√ìXIMOS PASSOS:")
print("   1. Use o pipeline_completo_ingestao_pdfs()")
print("   2. Integre com seu sistema RAG")
print("   3. Configure busca sem√¢ntica")
print("   4. Deploy em produ√ß√£o")
print("")
print("üí° Dicas:")
print("   - Ajuste chunk_size e chunk_overlap conforme seu caso")
print("   - Use chunks sem√¢nticos para melhor qualidade")
print("   - Teste diferentes modelos de embeddings")
print("   - Escolha o vector store baseado em suas necessidades")