# Aula 4: Pipelines para Dados Complexos üîÑ

## O que vamos aprender:
- Processar PDFs complexos que cont√™m texto e tabelas com a biblioteca `unstructured`.
- Aplicar estrat√©gias de chunking inteligentes com `RecursiveCharacterTextSplitter`.
- Ingerir dados de um banco de dados SQL com `DuckDB` e transform√°-los em `Documentos`.
- Enriquecer nossos `Documentos` com metadados estrat√©gicos para potencializar as buscas.

### Por que pipelines de dados s√£o essenciais para RAG?
- **Qualidade do Contexto**: A forma como voc√™ processa e divide seus dados (chunking) afeta diretamente o contexto que o LLM recebe, e, portanto, a qualidade da resposta.
- **Diversidade de Fontes**: Sistemas de RAG em produ√ß√£o se alimentam de m√∫ltiplas fontes: PDFs, bancos de dados, APIs, etc.
- **Metadados**: S√£o a chave para buscas filtradas, rastreabilidade e controle de acesso, tornando seu RAG muito mais poderoso.

## 0. Configura√ß√£o

Vamos instalar as bibliotecas necess√°rias. Note que a `unstructured` pode ter depend√™ncias adicionais para processar certos tipos de arquivo.

**Aten√ß√£o:** A instala√ß√£o de `unstructured` pode ser demorada.

In [1]:
!pip install langchain langchain-google-genai "unstructured[pdf]" duckdb pandas
!pip install langchain_community
!pip install chromadb

Defaulting to user installation because normal site-packages is not writeable
Collecting duckdb
  Downloading duckdb-1.3.2-cp312-cp312-win_amd64.whl.metadata (7.2 kB)
Collecting unstructured[pdf]
  Downloading unstructured-0.18.13-py3-none-any.whl.metadata (24 kB)
Collecting python-magic (from unstructured[pdf])
  Downloading python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting nltk (from unstructured[pdf])
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting emoji (from unstructured[pdf])
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting python-iso639 (from unstructured[pdf])
  Downloading python_iso639-2025.2.18-py3-none-any.whl.metadata (14 kB)
Collecting langdetect (from unstructured[pdf])
  Downloading langdetect-1.0.9.tar.gz (981 kB)
     ---------------------------------------- 0.0/981.5 kB ? eta -:--:--
     ---------------------------------------- 981.5/981.5 kB 15.3 MB/s  0:00:00
  Installing build dependencies: starte

  You can safely remove it manually.
  You can safely remove it manually.


Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


In [3]:
import os
import duckdb
import pandas as pd
from datetime import datetime

os.environ['GOOGLE_API_KEY'] = 'AIzaSyAUx0wPEDlS-2NNVh9TGaWMvJ_HTUtiMGw'

## 1. Processando PDFs Complexos com `Unstructured`

Diferente do `PyPDFLoader`, o `UnstructuredPDFLoader` √© projetado para entender a estrutura de um PDF, como t√≠tulos, par√°grafos e, crucialmente, **tabelas**. Ele tenta extrair cada elemento de forma separada, o que √© √≥timo para chunking.

Vamos usar o `relatorio_vendas.pdf` que criamos, que cont√©m texto e uma tabela.

In [4]:
from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("relatorio_vendas.pdf", mode="elements")

docs_unstructured = loader.load()

print(f"Total de elementos extra√≠dos: {len(docs_unstructured)}\n")

for doc in docs_unstructured:
  print(f"---- TIPO DE ELEMENTO: {doc.metadata.get('category')} ---")
  print(doc.page_content)
  print("\n")

  from .autonotebook import tqdm as notebook_tqdm


Total de elementos extra√≠dos: 23

---- TIPO DE ELEMENTO: NarrativeText ---
Relat√≥rio Trimestral de Vendas - Q1 2024 Este relat√≥rio apresenta uma an√°lise detalhada das vendas no primeiro trimestre de 2024. A performance geral foi positiva, com crescimento em todas as categorias de produtos. A seguir, uma tabela com os resultados por produto.


---- TIPO DE ELEMENTO: Title ---
ID Produto


---- TIPO DE ELEMENTO: Title ---
Nome do Produto


---- TIPO DE ELEMENTO: Title ---
Categoria Unidades Vendidas Receita (R$)


---- TIPO DE ELEMENTO: Title ---
PROD-001


---- TIPO DE ELEMENTO: Title ---
Laptop Pro X


---- TIPO DE ELEMENTO: Title ---
Eletr√¥nicos


---- TIPO DE ELEMENTO: UncategorizedText ---
1500


---- TIPO DE ELEMENTO: UncategorizedText ---
7.500.000


---- TIPO DE ELEMENTO: Title ---
PROD-002 Cadeira Ergon√¥mica Mobili√°rio


---- TIPO DE ELEMENTO: UncategorizedText ---
2500


---- TIPO DE ELEMENTO: UncategorizedText ---
1.250.000


---- TIPO DE ELEMENTO: Title ---
PROD-003




### Adicionando Metadados Estrat√©gicos na Carga

√â uma boa pr√°tica adicionar metadados j√° no momento do carregamento dos dados.

In [5]:
from langchain.schema.document import Document

docs_com_metados = []

for doc in docs_unstructured:

  novos_metadados = doc.metadata.copy()

  novos_metadados['source'] = 'relatorio_vendas.pdf'
  novos_metadados['ingestion_date'] = datetime.now().strftime('%Y-%m-%d')
  novos_metadados['data_owner'] = 'Departamento de Vendas'

  docs_com_metados.append(
      Document(page_content=doc.page_content, metadata=novos_metadados)
  )

print(f"Total de documentos com metadados: {len(docs_com_metados)}\n")
print(docs_com_metados[-1])

Total de documentos com metadados: 23

page_content='A categoria de Eletr√¥nicos continua a ser a mais lucrativa. A estrat√©gia para o Q2 ser√° focar em marketing para a Cadeira Ergon√¥mica, que possui alto volume de vendas mas menor receita.' metadata={'source': 'relatorio_vendas.pdf', 'coordinates': {'points': ((78.0, 291.07), (78.0, 313.07), (502.6299999999997, 313.07), (502.6299999999997, 291.07)), 'system': 'PixelSpace', 'layout_width': 612.0, 'layout_height': 792.0}, 'filename': 'relatorio_vendas.pdf', 'last_modified': '2025-08-14T16:07:59', 'page_number': 1, 'languages': ['por'], 'filetype': 'application/pdf', 'parent_id': '3fdda247a3f19f65b3ae66bc22fd1944', 'category': 'NarrativeText', 'element_id': '70b91eb7a59a15529f34b3b93f6d9ff0', 'ingestion_date': '2025-08-15', 'data_owner': 'Departamento de Vendas'}


## 2. Chunking Inteligente com `RecursiveCharacterTextSplitter`

Agora que temos os elementos do PDF, precisamos dividi-los em chunks menores para o banco vetorial, garantindo que n√£o ultrapassem o limite de contexto do modelo de embedding.

In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
)

chunks = text_splitter.split_documents(docs_com_metados)

print(f"Numero de documentos original: {len(docs_com_metados)}")
print(f"Numero de chunks gerados: {len(chunks)}\n")

print(chunks[2])

Numero de documentos original: 23
Numero de chunks gerados: 23

page_content='Nome do Produto' metadata={'source': 'relatorio_vendas.pdf', 'coordinates': {'points': ((177.86, 171.07000000000005), (177.86, 181.07000000000005), (261.75, 181.07000000000005), (261.75, 171.07000000000005)), 'system': 'PixelSpace', 'layout_width': 612.0, 'layout_height': 792.0}, 'filename': 'relatorio_vendas.pdf', 'last_modified': '2025-08-14T16:07:59', 'page_number': 1, 'languages': ['por'], 'filetype': 'application/pdf', 'category': 'Title', 'element_id': '8db19212a1dd1d7912af3dad01463352', 'ingestion_date': '2025-08-15', 'data_owner': 'Departamento de Vendas'}


## 3. Ingest√£o de Dados de um Banco SQL com `DuckDB`

RAG n√£o vive s√≥ de documentos n√£o-estruturados. Ingerir dados de bancos de dados √© fundamental para responder perguntas sobre clientes, produtos, vendas, etc.

Vamos usar o **DuckDB**, um banco de dados anal√≠tico super r√°pido que roda em mem√≥ria.

### Cen√°rio:
Temos um banco de dados de "Produtos" e queremos que nosso RAG possa responder perguntas sobre eles.

In [9]:
import duckdb
import pandas as pd

# Conectar ao DuckDB (ele cria o arquivo se n√£o existir)
con = duckdb.connect(database=':memory:', read_only=False)

# Criar uma tabela de produtos
con.execute("""
CREATE TABLE produtos (
    id INTEGER,
    nome VARCHAR,
    categoria VARCHAR,
    preco FLOAT,
    estoque INTEGER,
    descricao VARCHAR
);
""")

# Inserir dados de exemplo
produtos_df = pd.DataFrame({
    'id': [101, 102, 103, 104],
    'nome': ['Laptop Gamer Z', 'Mouse √ìptico Fast', 'Teclado Mec√¢nico Pro', 'Monitor Curvo 34"'],
    'categoria': ['Eletr√¥nicos', 'Acess√≥rios', 'Acess√≥rios', 'Eletr√¥nicos'],
    'preco': [9500.00, 250.00, 800.00, 3200.00],
    'estoque': [15, 120, 60, 25],
    'descricao': [
        'Laptop de alta performance com placa de v√≠deo dedicada e 32GB RAM.',
        'Mouse com 16.000 DPI e design ergon√¥mico para longas sess√µes.',
        'Teclado com switches mec√¢nicos, RGB e layout ABNT2.',
        'Monitor ultrawide com alta taxa de atualiza√ß√£o e cores vibrantes.'
    ]
})

con.register('produtos_df', produtos_df)
con.execute('INSERT INTO produtos SELECT * FROM produtos_df')

print("Tabela 'produtos' criada e populada no DuckDB.")

# Verificar os dados
print(con.execute("SELECT * FROM produtos;").fetchdf())


Tabela 'produtos' criada e populada no DuckDB.
    id                  nome    categoria   preco  estoque  \
0  101        Laptop Gamer Z  Eletr√¥nicos  9500.0       15   
1  102     Mouse √ìptico Fast   Acess√≥rios   250.0      120   
2  103  Teclado Mec√¢nico Pro   Acess√≥rios   800.0       60   
3  104     Monitor Curvo 34"  Eletr√¥nicos  3200.0       25   

                                           descricao  
0  Laptop de alta performance com placa de v√≠deo ...  
1  Mouse com 16.000 DPI e design ergon√¥mico para ...  
2  Teclado com switches mec√¢nicos, RGB e layout A...  
3  Monitor ultrawide com alta taxa de atualiza√ß√£o...  


### Transformando Linhas SQL em `Documentos`

Agora, vamos ler os dados do DuckDB e transformar cada linha em um `Document` do LangChain, pronto para ser "embedado".

In [11]:
# Query para selecionar os dados
df_produtos = con.execute("SELECT * FROM produtos;").fetchdf()

# Lista para armazenar os documentos
docs_sql = []

for _, row in df_produtos.iterrows():
    # Criar um texto descritivo a partir da linha
    page_content = f"Produto: {row['nome']}. Categoria: {row['categoria']}. Pre√ßo: R${row['preco']:.2f}. Em estoque: {row['estoque']} unidades. Descri√ß√£o: {row['descricao']}"

    # Criar metadados estrat√©gicos
    metadata = {
        'source': 'tabela_produtos_duckdb',
        'produto_id': row['id'],
        'categoria': row['categoria'],
        'preco': row['preco'],
        'ingestion_date': datetime.now().strftime('%Y-%m-%d')
    }

    docs_sql.append(
        Document(page_content=page_content, metadata=metadata)
    )

# Fechar a conex√£o com o banco
con.close()

print(f"Total de documentos gerados a partir do SQL: {len(docs_sql)}\n")
print("Exemplo de documento gerado a partir de uma linha do banco de dados:")
print(docs_sql[0])


Total de documentos gerados a partir do SQL: 4

Exemplo de documento gerado a partir de uma linha do banco de dados:
page_content='Produto: Laptop Gamer Z. Categoria: Eletr√¥nicos. Pre√ßo: R$9500.00. Em estoque: 15 unidades. Descri√ß√£o: Laptop de alta performance com placa de v√≠deo dedicada e 32GB RAM.' metadata={'source': 'tabela_produtos_duckdb', 'produto_id': 101, 'categoria': 'Eletr√¥nicos', 'preco': 9500.0, 'ingestion_date': '2025-08-15'}


## 4. Unindo os Pipelines e Enviando para o Vector Store

Agora temos `chunks` do PDF e `docs_sql` do banco de dados. O pr√≥ximo passo seria uni-los e envi√°-los para um banco de dados vetorial (como Chroma, FAISS ou Pinecone) para serem indexados.

In [12]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores.utils import filter_complex_metadata

documentos_finais = chunks + docs_sql

print(f"Total de documentos a serem indexados: {len(documentos_finais)}")

documentos_filtrados = filter_complex_metadata(documentos_finais)

print(f"Total de documentos filtrados: {len(documentos_filtrados)}")

embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

vector_store = Chroma.from_documents(
    documents=documentos_filtrados,
    embedding=embeddings
)


Total de documentos a serem indexados: 27
Total de documentos filtrados: 27


### Testando o Resultado Final

Vamos fazer uma busca para ver se nosso RAG consegue encontrar informa√ß√µes tanto do PDF quanto do banco de dados.

In [14]:
doc.metadata

{'source': 'relatorio_vendas.pdf',
 'coordinates': {'points': ((78.0, 291.07),
   (78.0, 313.07),
   (502.6299999999997, 313.07),
   (502.6299999999997, 291.07)),
  'system': 'PixelSpace',
  'layout_width': 612.0,
  'layout_height': 792.0},
 'filename': 'relatorio_vendas.pdf',
 'last_modified': '2025-08-14T16:07:59',
 'page_number': 1,
 'languages': ['por'],
 'filetype': 'application/pdf',
 'parent_id': '3fdda247a3f19f65b3ae66bc22fd1944',
 'category': 'NarrativeText',
 'element_id': '70b91eb7a59a15529f34b3b93f6d9ff0'}

In [15]:
# Pergunta sobe o PDF
pergunta_pdf = "Qual foi a receita com laptops?"

resultados_pdf = vector_store.similarity_search(pergunta_pdf, k=2)

print(f"Pergunta: {pergunta_pdf}\n")

for doc in resultados_pdf:
  print(f"- Similaridade: {doc.page_content} ")
  print(f" (Fonte: {doc.metadata.get('source')}, Categoria: {doc.metadata.get('category')})")

print("-"*20)

# Pergunta sobre o Banco de Dados

pergunta_sql = "Me fale sobre o teclado mec√¢nico"
resultado_sql = vector_store.similarity_search(pergunta_sql, k=2)

print(f"Pergunta: {pergunta_sql}\n")
for doc in resultado_sql:
  print(f"- Similaridade: {doc.page_content} ")
  print(f"    (Fonte: {doc.metadata.get('source')}, Categoria: {doc.metadata.get('category')})")


Pergunta: Qual foi a receita com laptops?

- Similaridade: Laptop Pro X 
 (Fonte: relatorio_vendas.pdf, Categoria: Title)
- Similaridade: Nome do Produto 
 (Fonte: relatorio_vendas.pdf, Categoria: Title)
--------------------
Pergunta: Me fale sobre o teclado mec√¢nico

- Similaridade: Eletr√¥nicos 
    (Fonte: relatorio_vendas.pdf, Categoria: Title)
- Similaridade: Eletr√¥nicos 
    (Fonte: relatorio_vendas.pdf, Categoria: Title)


## üìö Resumo Pr√°tico da Aula 4

- **Use a ferramenta certa**: `UnstructuredPDFLoader` √© superior ao `PyPDFLoader` para documentos com estruturas complexas como tabelas.
- **Metadados s√£o seu melhor amigo**: Enriquecer os documentos durante a ingest√£o com informa√ß√µes de fonte, datas e outros atributos √© o que permite criar RAGs realmente √∫teis e confi√°veis.
- **RAG n√£o √© s√≥ para texto**: Transformar dados estruturados (de SQL, CSVs, etc.) em documentos textuais expande enormemente o conhecimento do seu sistema.
- **Pipeline √© um processo**: O fluxo `Load -> Transform (Add Metadata) -> Split -> Index` √© um padr√£o robusto para a maioria das necessidades de ingest√£o de dados em RAG.