# Aula 4: Pipelines para Dados Complexos 🔄

## O que vamos aprender:
- Processar PDFs complexos que contêm texto e tabelas com a biblioteca `unstructured`.
- Aplicar estratégias de chunking inteligentes com `RecursiveCharacterTextSplitter`.
- Ingerir dados de um banco de dados SQL com `DuckDB` e transformá-los em `Documentos`.
- Enriquecer nossos `Documentos` com metadados estratégicos para potencializar as buscas.

### Por que pipelines de dados são essenciais para RAG?
- **Qualidade do Contexto**: A forma como você processa e divide seus dados (chunking) afeta diretamente o contexto que o LLM recebe, e, portanto, a qualidade da resposta.
- **Diversidade de Fontes**: Sistemas de RAG em produção se alimentam de múltiplas fontes: PDFs, bancos de dados, APIs, etc.
- **Metadados**: São a chave para buscas filtradas, rastreabilidade e controle de acesso, tornando seu RAG muito mais poderoso.

## 0. Configuração

Vamos instalar as bibliotecas necessárias. Note que a `unstructured` pode ter dependências adicionais para processar certos tipos de arquivo.

**Atenção:** A instalação de `unstructured` pode ser demorada.

In [1]:
!pip install langchain langchain-google-genai "unstructured[pdf]" duckdb pandas
!pip install langchain_community
!pip install chromadb

Collecting langchain-google-genai
  Downloading langchain_google_genai-2.1.8-py3-none-any.whl.metadata (7.0 kB)
Collecting unstructured[pdf]
  Downloading unstructured-0.18.11-py3-none-any.whl.metadata (24 kB)
Collecting filetype<2.0.0,>=1.2.0 (from langchain-google-genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting google-ai-generativelanguage<0.7.0,>=0.6.18 (from langchain-google-genai)
  Downloading google_ai_generativelanguage-0.6.18-py3-none-any.whl.metadata (9.8 kB)
Collecting python-magic (from unstructured[pdf])
  Downloading python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting emoji (from unstructured[pdf])
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting dataclasses-json (from unstructured[pdf])
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting python-iso639 (from unstructured[pdf])
  Downloading python_iso639-2025.2.18-py3-none-any.whl.metadata (14 kB)
Collecting langd

Collecting langchain_community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain_community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain_community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain_community)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 kB)
Downloading langchain_community-0.3.27-py3-none-any.whl (2.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m30.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpx_sse-0.4.1-py3-none-any.whl (8.1 kB)
Downloading pydantic_settings-2.10.1-py3-none-any.whl (45 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.2/45.2 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading python_dotenv-1.1.1-p

In [2]:
import os
import duckdb
import pandas as pd
from datetime import datetime

os.environ['GOOGLE_API_KEY'] = 'AIzaSyBDc4dXCuYxVb9bXWERnXNX95qmHtXaVxg'

## 1. Processando PDFs Complexos com `Unstructured`

Diferente do `PyPDFLoader`, o `UnstructuredPDFLoader` é projetado para entender a estrutura de um PDF, como títulos, parágrafos e, crucialmente, **tabelas**. Ele tenta extrair cada elemento de forma separada, o que é ótimo para chunking.

Vamos usar o `relatorio_vendas.pdf` que criamos, que contém texto e uma tabela.

In [3]:
from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("relatorio_vendas.pdf", mode="elements")

docs_unstructured = loader.load()

print(f"Total de elementos extraídos: {len(docs_unstructured)}\n")

for doc in docs_unstructured:
  print(f"---- TIPO DE ELEMENTO: {doc.metadata.get('category')} ---")
  print(doc.page_content)
  print("\n")

Total de elementos extraídos: 23

---- TIPO DE ELEMENTO: NarrativeText ---
Relatório Trimestral de Vendas - Q1 2024 Este relatório apresenta uma análise detalhada das vendas no primeiro trimestre de 2024. A performance geral foi positiva, com crescimento em todas as categorias de produtos. A seguir, uma tabela com os resultados por produto.


---- TIPO DE ELEMENTO: Title ---
ID Produto


---- TIPO DE ELEMENTO: Title ---
Nome do Produto


---- TIPO DE ELEMENTO: Title ---
Categoria Unidades Vendidas Receita (R$)


---- TIPO DE ELEMENTO: Title ---
PROD-001


---- TIPO DE ELEMENTO: Title ---
Laptop Pro X


---- TIPO DE ELEMENTO: Title ---
Eletrônicos


---- TIPO DE ELEMENTO: UncategorizedText ---
1500


---- TIPO DE ELEMENTO: UncategorizedText ---
7.500.000


---- TIPO DE ELEMENTO: Title ---
PROD-002 Cadeira Ergonômica Mobiliário


---- TIPO DE ELEMENTO: UncategorizedText ---
2500


---- TIPO DE ELEMENTO: UncategorizedText ---
1.250.000


---- TIPO DE ELEMENTO: Title ---
PROD-003


---- TI

### Adicionando Metadados Estratégicos na Carga

É uma boa prática adicionar metadados já no momento do carregamento dos dados.

In [5]:
from langchain.schema.document import Document

docs_com_metados = []

for doc in docs_unstructured:

  novos_metadados = doc.metadata.copy()

  novos_metadados['source'] = 'relatorio_vendas.pdf'
  novos_metadados['ingestion_date'] = datetime.now().strftime('%Y-%m-%d')
  novos_metadados['data_owner'] = 'Departamento de Vendas'

  docs_com_metados.append(
      Document(page_content=doc.page_content, metadata=novos_metadados)
  )

print(f"Total de documentos com metadados: {len(docs_com_metados)}\n")
print(docs_com_metados[-1])

Total de documentos com metadados: 23

page_content='A categoria de Eletrônicos continua a ser a mais lucrativa. A estratégia para o Q2 será focar em marketing para a Cadeira Ergonômica, que possui alto volume de vendas mas menor receita.' metadata={'source': 'relatorio_vendas.pdf', 'coordinates': {'points': ((78.0, 291.07), (78.0, 313.07), (502.6299999999997, 313.07), (502.6299999999997, 291.07)), 'system': 'PixelSpace', 'layout_width': 612.0, 'layout_height': 792.0}, 'filename': 'relatorio_vendas.pdf', 'last_modified': '2025-07-26T16:15:04', 'page_number': 1, 'languages': ['por'], 'filetype': 'application/pdf', 'parent_id': '3fdda247a3f19f65b3ae66bc22fd1944', 'category': 'NarrativeText', 'element_id': '70b91eb7a59a15529f34b3b93f6d9ff0', 'ingestion_date': '2025-07-26', 'data_owner': 'Departamento de Vendas'}


## 2. Chunking Inteligente com `RecursiveCharacterTextSplitter`

Agora que temos os elementos do PDF, precisamos dividi-los em chunks menores para o banco vetorial, garantindo que não ultrapassem o limite de contexto do modelo de embedding.

In [6]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
)

chunks = text_splitter.split_documents(docs_com_metados)

print(f"Numero de documentos original: {len(docs_com_metados)}")
print(f"Numero de chunks gerados: {len(chunks)}\n")

print(chunks[2])

Numero de documentos original: 23
Numero de chunks gerados: 23

page_content='Nome do Produto' metadata={'source': 'relatorio_vendas.pdf', 'coordinates': {'points': ((177.86, 171.07000000000005), (177.86, 181.07000000000005), (261.75, 181.07000000000005), (261.75, 171.07000000000005)), 'system': 'PixelSpace', 'layout_width': 612.0, 'layout_height': 792.0}, 'filename': 'relatorio_vendas.pdf', 'last_modified': '2025-07-26T16:15:04', 'page_number': 1, 'languages': ['por'], 'filetype': 'application/pdf', 'category': 'Title', 'element_id': '8db19212a1dd1d7912af3dad01463352', 'ingestion_date': '2025-07-26', 'data_owner': 'Departamento de Vendas'}


## 3. Ingestão de Dados de um Banco SQL com `DuckDB`

RAG não vive só de documentos não-estruturados. Ingerir dados de bancos de dados é fundamental para responder perguntas sobre clientes, produtos, vendas, etc.

Vamos usar o **DuckDB**, um banco de dados analítico super rápido que roda em memória.

### Cenário:
Temos um banco de dados de "Produtos" e queremos que nosso RAG possa responder perguntas sobre eles.

In [7]:
import duckdb
import pandas as pd

# Conectar ao DuckDB (ele cria o arquivo se não existir)
con = duckdb.connect(database=':memory:', read_only=False)

# Criar uma tabela de produtos
con.execute("""
CREATE TABLE produtos (
    id INTEGER,
    nome VARCHAR,
    categoria VARCHAR,
    preco FLOAT,
    estoque INTEGER,
    descricao VARCHAR
);
""")

# Inserir dados de exemplo
produtos_df = pd.DataFrame({
    'id': [101, 102, 103, 104],
    'nome': ['Laptop Gamer Z', 'Mouse Óptico Fast', 'Teclado Mecânico Pro', 'Monitor Curvo 34"'],
    'categoria': ['Eletrônicos', 'Acessórios', 'Acessórios', 'Eletrônicos'],
    'preco': [9500.00, 250.00, 800.00, 3200.00],
    'estoque': [15, 120, 60, 25],
    'descricao': [
        'Laptop de alta performance com placa de vídeo dedicada e 32GB RAM.',
        'Mouse com 16.000 DPI e design ergonômico para longas sessões.',
        'Teclado com switches mecânicos, RGB e layout ABNT2.',
        'Monitor ultrawide com alta taxa de atualização e cores vibrantes.'
    ]
})

con.register('produtos_df', produtos_df)
con.execute('INSERT INTO produtos SELECT * FROM produtos_df')

print("Tabela 'produtos' criada e populada no DuckDB.")

# Verificar os dados
print(con.execute("SELECT * FROM produtos;").fetchdf())


Tabela 'produtos' criada e populada no DuckDB.
    id                  nome    categoria   preco  estoque  \
0  101        Laptop Gamer Z  Eletrônicos  9500.0       15   
1  102     Mouse Óptico Fast   Acessórios   250.0      120   
2  103  Teclado Mecânico Pro   Acessórios   800.0       60   
3  104     Monitor Curvo 34"  Eletrônicos  3200.0       25   

                                           descricao  
0  Laptop de alta performance com placa de vídeo ...  
1  Mouse com 16.000 DPI e design ergonômico para ...  
2  Teclado com switches mecânicos, RGB e layout A...  
3  Monitor ultrawide com alta taxa de atualização...  


### Transformando Linhas SQL em `Documentos`

Agora, vamos ler os dados do DuckDB e transformar cada linha em um `Document` do LangChain, pronto para ser "embedado".

In [8]:
# Query para selecionar os dados
df_produtos = con.execute("SELECT * FROM produtos;").fetchdf()

# Lista para armazenar os documentos
docs_sql = []

for _, row in df_produtos.iterrows():
    # Criar um texto descritivo a partir da linha
    page_content = f"Produto: {row['nome']}. Categoria: {row['categoria']}. Preço: R${row['preco']:.2f}. Em estoque: {row['estoque']} unidades. Descrição: {row['descricao']}"

    # Criar metadados estratégicos
    metadata = {
        'source': 'tabela_produtos_duckdb',
        'produto_id': row['id'],
        'categoria': row['categoria'],
        'preco': row['preco'],
        'ingestion_date': datetime.now().strftime('%Y-%m-%d')
    }

    docs_sql.append(
        Document(page_content=page_content, metadata=metadata)
    )

# Fechar a conexão com o banco
con.close()

print(f"Total de documentos gerados a partir do SQL: {len(docs_sql)}\n")
print("Exemplo de documento gerado a partir de uma linha do banco de dados:")
print(docs_sql[0])


Total de documentos gerados a partir do SQL: 4

Exemplo de documento gerado a partir de uma linha do banco de dados:
page_content='Produto: Laptop Gamer Z. Categoria: Eletrônicos. Preço: R$9500.00. Em estoque: 15 unidades. Descrição: Laptop de alta performance com placa de vídeo dedicada e 32GB RAM.' metadata={'source': 'tabela_produtos_duckdb', 'produto_id': 101, 'categoria': 'Eletrônicos', 'preco': 9500.0, 'ingestion_date': '2025-07-26'}


## 4. Unindo os Pipelines e Enviando para o Vector Store

Agora temos `chunks` do PDF e `docs_sql` do banco de dados. O próximo passo seria uni-los e enviá-los para um banco de dados vetorial (como Chroma, FAISS ou Pinecone) para serem indexados.

In [11]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores.utils import filter_complex_metadata

documentos_finais = chunks + docs_sql

print(f"Total de documentos a serem indexados: {len(documentos_finais)}")

documentos_filtrados = filter_complex_metadata(documentos_finais)

print(f"Total de documentos filtrados: {len(documentos_filtrados)}")

embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

vector_store = Chroma.from_documents(
    documents=documentos_filtrados,
    embedding=embeddings
)


Total de documentos a serem indexados: 27
Total de documentos filtrados: 27


### Testando o Resultado Final

Vamos fazer uma busca para ver se nosso RAG consegue encontrar informações tanto do PDF quanto do banco de dados.

In [14]:
doc.metadata

{'last_modified': '2025-07-26T16:15:04',
 'ingestion_date': '2025-07-26',
 'page_number': 1,
 'filename': 'relatorio_vendas.pdf',
 'category': 'Title',
 'element_id': '3fdda247a3f19f65b3ae66bc22fd1944',
 'source': 'relatorio_vendas.pdf',
 'data_owner': 'Departamento de Vendas',
 'filetype': 'application/pdf'}

In [17]:
# Pergunta sobe o PDF
pergunta_pdf = "Qual foi a receita com laptops?"

resultados_pdf = vector_store.similarity_search(pergunta_pdf, k=2)

print(f"Pergunta: {pergunta_pdf}\n")

for doc in resultados_pdf:
  print(f"- Similaridade: {doc.page_content} ")
  print(f" (Fonte: {doc.metadata.get('source')}, Categoria: {doc.metadata.get('category')})")

print("-"*20)

# Pergunta sobre o Banco de Dados

pergunta_sql = "Me fale sobre o teclado mecânico"
resultado_sql = vector_store.similarity_search(pergunta_sql, k=2)

print(f"Pergunta: {pergunta_sql}\n")
for doc in resultado_sql:
  print(f"- Similaridade: {doc.page_content} ")
  print(f"    (Fonte: {doc.metadata.get('source')}, Categoria: {doc.metadata.get('category')})")


Pergunta: Qual foi a receita com laptops?

- Similaridade: Laptop Pro X 
 (Fonte: relatorio_vendas.pdf, Categoria: Title)
- Similaridade: Nome do Produto 
 (Fonte: relatorio_vendas.pdf, Categoria: Title)
--------------------
Pergunta: Me fale sobre o teclado mecânico

- Similaridade: Eletrônicos 
    (Fonte: relatorio_vendas.pdf, Categoria: Title)
- Similaridade: Eletrônicos 
    (Fonte: relatorio_vendas.pdf, Categoria: Title)


## 📚 Resumo Prático da Aula 4

- **Use a ferramenta certa**: `UnstructuredPDFLoader` é superior ao `PyPDFLoader` para documentos com estruturas complexas como tabelas.
- **Metadados são seu melhor amigo**: Enriquecer os documentos durante a ingestão com informações de fonte, datas e outros atributos é o que permite criar RAGs realmente úteis e confiáveis.
- **RAG não é só para texto**: Transformar dados estruturados (de SQL, CSVs, etc.) em documentos textuais expande enormemente o conhecimento do seu sistema.
- **Pipeline é um processo**: O fluxo `Load -> Transform (Add Metadata) -> Split -> Index` é um padrão robusto para a maioria das necessidades de ingestão de dados em RAG.