# Tutorial 01: Document Loaders - Leitor de PDF Inteligente

**Objetivos de Aprendizagem:**
- Usar Document Loaders para carregar PDFs e outros documentos
- Implementar Text Splitters para dividir documentos em chunks
- Dominar estrat√©gias de chunking para otimizar processamento
- Construir sistemas de an√°lise de documentos com IA
- Criar sistemas de busca e filtros avan√ßados

**Pr√©-requisitos:**
- Tutorial 01-LLMs-Basicos: Introdu√ß√£o aos LLMs conclu√≠do
- Tutorial 02-Prompts: ChatPromptTemplate (recomendado)
- Compreens√£o b√°sica de Python e processamento de documentos

---

## Introdu√ß√£o

Este tutorial demonstra como usar Document Loaders e Text Splitters do LangChain para processar documentos PDF. Aprenderemos a carregar documentos, dividi-los em chunks otimizados e analis√°-los com IA.

### O que s√£o Document Loaders?

**Document Loaders** s√£o componentes do LangChain que carregam documentos de diferentes fontes e os convertem em objetos `Document` padronizados.

**Tipos de Loaders:**
- PyPDFLoader: Carrega documentos PDF
- DirectoryLoader: Carrega m√∫ltiplos arquivos
- TextLoader: Carrega arquivos de texto
- WebBaseLoader: Carrega conte√∫do de websites
- YouTubeLoader: Carrega transcri√ß√µes do YouTube


### Conceitos-Chave

**Document Loaders:**
- PyPDFLoader: Carrega documentos PDF
- DirectoryLoader: Carrega m√∫ltiplos arquivos
- TextLoader: Carrega arquivos de texto
- WebBaseLoader: Carrega conte√∫do de websites
- YouTubeLoader: Carrega transcri√ß√µes do YouTube

**Text Splitters:**
- RecursiveCharacterTextSplitter: Divisor mais inteligente
- CharacterTextSplitter: Divisor por caracteres
- TokenTextSplitter: Divisor por tokens
- Estrat√©gias de chunking otimizadas

**Estrat√©gias de Chunking:**
- chunk_size: Tamanho ideal dos chunks (1000-2000 caracteres)
- chunk_overlap: Sobreposi√ß√£o entre chunks (200-400 caracteres)
- separators: Caracteres para dividir o texto
- length_function: Fun√ß√£o para calcular tamanho

**An√°lise de Documentos com IA:**
- Resumo autom√°tico: Gerar resumos de chunks
- Extra√ß√£o de t√≥picos: Identificar temas principais
- Sistema de Q&A: Responder perguntas sobre o documento
- An√°lise de sentimento: Avaliar tom do conte√∫do


### Casos de Uso

**Aplica√ß√µes Reais:**
- Sistema de an√°lise de contratos e documentos legais
- Plataforma de pesquisa acad√™mica e cient√≠fica
- Sistema de suporte com base de conhecimento
- An√°lise de relat√≥rios financeiros e empresariais
- Sistema de busca em documentos corporativos

**Habilidades Desenvolvidas:**
- Processamento de documentos em larga escala
- Otimiza√ß√£o de chunks para melhor performance
- Integra√ß√£o com IA para an√°lise inteligente
- Sistemas de busca e filtros avan√ßados
- Exporta√ß√£o de dados em m√∫ltiplos formatos

In [None]:
# Configura√ß√£o inicial
import os
from pathlib import Path
from dotenv import load_dotenv
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Carregar vari√°veis de ambiente do arquivo .env
load_dotenv()

# Verificar se OPENAI_API_KEY est√° configurada
if not os.getenv('OPENAI_API_KEY'):
    print("‚ö†Ô∏è ATEN√á√ÉO: OPENAI_API_KEY n√£o encontrada no .env")
    print("   Configure a chave antes de continuar.")
else:
    print("‚úÖ Vari√°veis de ambiente carregadas com sucesso!")

In [None]:
# Verificar se existe um PDF para teste
pdf_path = Path("assets/contrato.pdf")
if pdf_path.exists():
    print(f"‚úÖ PDF encontrado: {pdf_path}")
else:
    print(f"‚ö†Ô∏è PDF n√£o encontrado: {pdf_path}")
    print("   Certifique-se de ter um PDF na pasta assets/ para testar")

‚úÖ API Key carregada com sucesso!
‚úÖ PDF encontrado: contrato.pdf


## Exemplo 1: Carregar PDF com PyPDFLoader

Vamos carregar um documento PDF usando PyPDFLoader. O loader converte cada p√°gina do PDF em um objeto `Document` do LangChain.

**Estrutura do Document:**
- `page_content`: Texto extra√≠do da p√°gina
- `metadata`: Metadados (source, page, etc.)

In [None]:
# Fun√ß√£o para carregar PDF
def carregar_pdf(caminho_pdf):
    """
    Carrega um PDF e retorna os documentos.
    
    Args:
        caminho_pdf: Caminho para o arquivo PDF
    
    Returns:
        Lista de objetos Document do LangChain
    """
    try:
        loader = PyPDFLoader(str(caminho_pdf))
        documentos = loader.load()
        print(f"‚úÖ PDF carregado: {len(documentos)} p√°ginas")
        return documentos
    except FileNotFoundError:
        print(f"‚ö†Ô∏è Arquivo {caminho_pdf} n√£o encontrado")
        # Criar documento de exemplo
        from langchain_core.documents import Document
        documento_exemplo = Document(
            page_content="Este √© um contrato de exemplo. Cont√©m cl√°usulas importantes sobre servi√ßos, pagamentos e responsabilidades. As partes concordam em cumprir todos os termos estabelecidos.",
            metadata={"source": "exemplo", "page": 1}
        )
        print("üìÑ Documento de exemplo criado")
        return [documento_exemplo]

# Testar o loader (se PDF existir)
if pdf_path.exists():
    documentos = carregar_pdf(pdf_path)
    print(f"\nPrimeira p√°gina (primeiros 200 caracteres):")
    print(documentos[0].page_content[:200] + "...")
    print(f"\nMetadados da primeira p√°gina:")
    print(documentos[0].metadata)
documentos = carregar_pdf(pdf_path)
print(f"üìö Documentos carregados: {len(documentos)}")

incorrect startxref pointer(1)
parsing for Object Streams


‚úÖ PDF carregado: 4 p√°ginas
üìö Documentos carregados: 4


## Por que dividir textos?

### Problemas com textos longos:
- Limite de tokens dos LLMs
- Perda de contexto espec√≠fico
- Dificuldade para an√°lise focada

### Solu√ß√£o: Chunking inteligente
- Divide em peda√ßos menores
- Mant√©m sobreposi√ß√£o para contexto
- Preserva estrutura sem√¢ntica

In [4]:
# 5. CONFIGURAR TEXT SPLITTER
def configurar_text_splitter(chunk_size=1000, chunk_overlap=200):
    """
    üß† O que faz: Divide textos grandes em peda√ßos menores (chunks)
    
    Por que precisamos disso?
    - LLMs t√™m limite de tokens
    - Chunks menores = melhor compreens√£o
    - Overlap = mant√©m contexto entre peda√ßos
    
    Par√¢metros:
    - chunk_size: Tamanho m√°ximo de cada peda√ßo
    - chunk_overlap: Sobreposi√ß√£o para manter contexto
    """
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        separators=["\n\n", "\n", " ", ""]  # Onde quebrar o texto
    )
    return text_splitter

# Testar o text splitter
text_splitter = configurar_text_splitter()
print("‚úÇÔ∏è Text splitter configurado!")
print(f"   - Chunk size: {text_splitter._chunk_size}")
print(f"   - Chunk overlap: {text_splitter._chunk_overlap}")


‚úÇÔ∏è Text splitter configurado!
   - Chunk size: 1000
   - Chunk overlap: 200


In [10]:
# 6. DIVIDIR DOCUMENTOS EM CHUNKS
def dividir_documentos(documentos, text_splitter):
    """
    üìÑ O que faz: Pega os documentos e divide em peda√ßos menores
    
    Por que isso √© importante?
    - Cada chunk pode ser processado separadamente
    - Facilita a busca e recupera√ß√£o de informa√ß√µes
    - Permite processar documentos muito grandes
    """
    chunks = []
    for doc in documentos:
        doc_chunks = text_splitter.split_documents([doc])
        chunks.extend(doc_chunks)
    
    print(f"ÔøΩÔøΩ Documento dividido em {len(chunks)} chunks")
    for i, chunk in enumerate(chunks[:3]):  # Mostrar primeiros 3 chunks
        print(f"\n--- Chunk {i+1} ---")
        print(f"Tamanho: {len(chunk.page_content)} caracteres")
        print(f"Conte√∫do: {chunk.page_content[:100]}...")
    
    return chunks

# Dividir documentos
chunks = dividir_documentos(documentos, text_splitter)


ÔøΩÔøΩ Documento dividido em 7 chunks

--- Chunk 1 ---
Tamanho: 941 caracteres
Conte√∫do: CONTRATO DE PRESTA√á√ÉO DE SERVI√áOS
 TECNOL√ìGICOS
CONTRATANTE:
TechCorp Solutions Ltda., pessoa jur√≠di...

--- Chunk 2 ---
Tamanho: 723 caracteres
Conte√∫do: e inscrita no CPF sob o n¬∫ 987.654.321-00.
OBJETO DO CONTRATO:
O presente contrato tem por objeto a ...

--- Chunk 3 ---
Tamanho: 940 caracteres
Conte√∫do: PRAZO DE EXECU√á√ÉO:
O prazo para execu√ß√£o total dos servi√ßos ser√° de 180 (cento e oitenta) dias corri...


## Estrat√©gia de An√°lise com IA

### Abordagem em camadas:
1. **Resumo de cada chunk**: Captura ideias principais
2. **Identifica√ß√£o de t√≥picos**: Extrai temas e conceitos
3. **Sistema de Q&A**: Permite perguntas espec√≠ficas

### Vantagens:
- An√°lise estruturada
- Foco em informa√ß√µes relevantes
- Facilita compreens√£o de documentos longos

In [11]:
# Configurar modelo de IA
chat_model = ChatOpenAI(
    temperature=0.1,  # Baixa temperatura para respostas consistentes
    model_name="gpt-3.5-turbo"
)

# Template para resumo
template_resumo = ChatPromptTemplate.from_messages([
    ("system", "Voc√™ √© um especialista em an√°lise de documentos. Forne√ßa resumos concisos e objetivos."),
    ("human", "Resuma o seguinte texto em 2-3 frases:\n\n{texto}")
])

# Template para an√°lise de t√≥picos
template_topicos = ChatPromptTemplate.from_messages([
    ("system", "Identifique os 3 principais t√≥picos deste texto."),
    ("human", "Texto:\n\n{texto}")
])

# Criar chains
chain_resumo = template_resumo | chat_model | StrOutputParser()
chain_topicos = template_topicos | chat_model | StrOutputParser()

print("ÔøΩÔøΩ Sistema de an√°lise configurado!")

ÔøΩÔøΩ Sistema de an√°lise configurado!


In [None]:
def analisar_chunks(chunks):
    """Analisa cada chunk com IA"""
    resultados = []
    
    for i, chunk in enumerate(chunks):
        print(f"\nÔøΩÔøΩ Analisando Chunk {i+1}...")
        
        # Resumo
        resumo = chain_resumo.invoke({"texto": chunk.page_content})
        print(f"üìù Resumo: {resumo}")
        
        # T√≥picos
        topicos = chain_topicos.invoke({"texto": chunk.page_content})
        print(f"ÔøΩÔøΩÔ∏è T√≥picos: {topicos}")
        
        resultados.append({
            "chunk_id": i+1,
            "resumo": resumo,
            "topicos": topicos,
            "tamanho": len(chunk.page_content)
        })
    
    return resultados

# Executar an√°lise
resultados_analise = analisar_chunks(chunks)


ÔøΩÔøΩ Analisando Chunk 1...
üìù Resumo: O contrato de presta√ß√£o de servi√ßos tecnol√≥gicos √© entre a TechCorp Solutions Ltda. e a Inova√ß√£o Digital Ltda., com o objetivo de desenvolvimento de servi√ßos tecnol√≥gicos. Os representantes legais de ambas as partes s√£o Jo√£o Silva Santos e Maria Oliveira Costa, respectivamente.
ÔøΩÔøΩÔ∏è T√≥picos: 1. Contrato de presta√ß√£o de servi√ßos tecnol√≥gicos
2. Partes envolvidas no contrato (Contratante e Contratada)
3. Objeto do contrato (servi√ßos de desenvolvimento tecnol√≥gico)

ÔøΩÔøΩ Analisando Chunk 2...
üìù Resumo: O contrato tem como objetivo a presta√ß√£o de servi√ßos de desenvolvimento de software personalizado para gest√£o empresarial, utilizando tecnologias como Python, JavaScript, Django, React, PostgreSQL e AWS. O sistema incluir√° m√≥dulos para gest√£o de clientes, controle de estoque, faturamento, relat√≥rios gerenciais e integra√ß√£o com sistemas externos.
ÔøΩÔøΩÔ∏è T√≥picos: 1. Objeto do contrato: presta√ß√£o de servi√ßo

In [13]:
# Template para Q&A
template_qa = ChatPromptTemplate.from_messages([
    ("system", "Voc√™ √© um assistente especialista em documentos. Responda baseado apenas no contexto fornecido."),
    ("human", "Contexto:\n{contexto}\n\nPergunta: {pergunta}")
])

# Chain para Q&A
chain_qa = template_qa | chat_model | StrOutputParser()

def responder_pergunta(pergunta, chunks):
    """Responde perguntas baseado no conte√∫do dos chunks"""
    # Concatenar conte√∫do relevante
    contexto = "\n\n".join([chunk.page_content for chunk in chunks])
    
    # Gerar resposta
    resposta = chain_qa.invoke({
        "contexto": contexto,
        "pergunta": pergunta
    })
    
    return resposta

# Testar sistema de Q&A
perguntas_teste = [
    "Quais s√£o os principais t√≥picos deste documento?",
    "H√° alguma cl√°usula importante mencionada?",
    "Qual √© o objetivo geral deste documento?"
]

print("‚ùì Testando sistema de perguntas e respostas:")
for pergunta in perguntas_teste:
    print(f"\n‚ùì Pergunta: {pergunta}")
    resposta = responder_pergunta(pergunta, chunks)
    print(f"üí° Resposta: {resposta}")

‚ùì Testando sistema de perguntas e respostas:

‚ùì Pergunta: Quais s√£o os principais t√≥picos deste documento?
üí° Resposta: Os principais t√≥picos deste documento s√£o:

1. Identifica√ß√£o das partes envolvidas (Contratante e Contratada).
2. Objeto do contrato: presta√ß√£o de servi√ßos de desenvolvimento de software personalizado.
3. Especifica√ß√µes t√©cnicas do sistema a ser desenvolvido.
4. Prazo de execu√ß√£o dos servi√ßos.
5. Valor e forma de pagamento.
6. Responsabilidades da Contratada.
7. Responsabilidades da Contratante.
8. Confidencialidade das informa√ß√µes trocadas durante a execu√ß√£o do contrato.
9. Propriedade intelectual dos materiais desenvolvidos.
10. Rescis√£o do contrato.
11. Foro para resolu√ß√£o de d√∫vidas ou lit√≠gios.
12. Assinatura das partes e testemunhas.

‚ùì Pergunta: H√° alguma cl√°usula importante mencionada?
üí° Resposta: Sim, h√° v√°rias cl√°usulas importantes mencionadas no contrato de presta√ß√£o de servi√ßos tecnol√≥gicos, tais como:

1. Objeto

## üéØ Desafios para Praticar

### Desafio 1: Diferentes Tipos de PDF
- Teste com PDFs de diferentes tamanhos
- Compare resultados com contratos, relat√≥rios, artigos


In [None]:
def comparar_configuracoes_chunks(documentos):
    """Compara diferentes configura√ß√µes de chunking"""
    configs = [
        (500, 50),   # Chunks pequenos, pouca sobreposi√ß√£o
        (1000, 200), # Configura√ß√£o padr√£o
        (2000, 400), # Chunks grandes, muita sobreposi√ß√£o
        (500, 200),  # Chunks pequenos, muita sobreposi√ß√£o
    ]
    
    resultados = []
    
    for chunk_size, chunk_overlap in configs:
        print(f"\nüîß Testando: chunk_size={chunk_size}, chunk_overlap={chunk_overlap}")
        
        # Configurar splitter
        splitter = configurar_text_splitter(chunk_size, chunk_overlap)
        
        # Dividir documentos
        chunks = dividir_documentos(documentos, splitter)
        
        # An√°lise r√°pida
        resumo_geral = chain_resumo.invoke({
            "texto": "\n".join([chunk.page_content for chunk in chunks])
        })
        
        resultados.append({
            "config": (chunk_size, chunk_overlap),
            "num_chunks": len(chunks),
            "resumo": resumo_geral
        })
        
        print(f"   üìä N√∫mero de chunks: {len(chunks)}")
        print(f"   üìù Resumo: {resumo_geral}")
    
    return resultados

# Executar compara√ß√£o
resultados_comparacao = comparar_configuracoes_chunks(documentos)


üîß Testando: chunk_size=500, chunk_overlap=50
ÔøΩÔøΩ Documento dividido em 13 chunks

--- Chunk 1 ---
Tamanho: 451 caracteres
Conte√∫do: CONTRATO DE PRESTA√á√ÉO DE SERVI√áOS
 TECNOL√ìGICOS
CONTRATANTE:
TechCorp Solutions Ltda., pessoa jur√≠di...

--- Chunk 2 ---
Tamanho: 420 caracteres
Conte√∫do: CONTRATADA:
Inova√ß√£o Digital Ltda., pessoa jur√≠dica de direito privado, inscrita no CNPJ sob o n¬∫
98...

--- Chunk 3 ---
Tamanho: 453 caracteres
Conte√∫do: OBJETO DO CONTRATO:
O presente contrato tem por objeto a presta√ß√£o de servi√ßos de desenvolvimento de...
   üìä N√∫mero de chunks: 13
   üìù Resumo: O contrato de presta√ß√£o de servi√ßos tecnol√≥gicos entre TechCorp Solutions Ltda. e Inova√ß√£o Digital Ltda. tem como objeto o desenvolvimento de um sistema de gest√£o empresarial, com prazo de execu√ß√£o de 180 dias e valor total de R$ 150.000,00, dividido em tr√™s parcelas. Ambas as partes se comprometem a manter a confidencialidade das informa√ß√µes trocadas, com a propriedade i


### Desafio 2: Otimiza√ß√£o de Chunks
- Teste diferentes valores de chunk_size e chunk_overlap
- Encontre a configura√ß√£o ideal para seu tipo de documento


In [None]:
import json
import csv
from datetime import datetime

def exportar_resultados(resultados_analise, resultados_comparacao, filename_prefix="analise_pdf"):
    """Exporta resultados em diferentes formatos"""
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    # Preparar dados para exporta√ß√£o
    dados_export = {
        "timestamp": timestamp,
        "analise_chunks": resultados_analise,
        "comparacao_configs": resultados_comparacao
    }
    
    # 1. JSON
    json_filename = f"{filename_prefix}_{timestamp}.json"
    with open(json_filename, 'w', encoding='utf-8') as f:
        json.dump(dados_export, f, ensure_ascii=False, indent=2)
    print(f"üíæ JSON salvo: {json_filename}")
    
    # 2. CSV para an√°lise de chunks
    csv_filename = f"{filename_prefix}_chunks_{timestamp}.csv"
    with open(csv_filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=['chunk_id', 'resumo', 'topicos', 'tamanho'])
        writer.writeheader()
        for resultado in resultados_analise:
            writer.writerow(resultado)
    print(f"üíæ CSV salvo: {csv_filename}")
    
    # 3. Markdown
    md_filename = f"{filename_prefix}_{timestamp}.md"
    with open(md_filename, 'w', encoding='utf-8') as f:
        f.write(f"# An√°lise de PDF - {timestamp}\n\n")
        
        f.write("## An√°lise por Chunks\n\n")
        for resultado in resultados_analise:
            f.write(f"### Chunk {resultado['chunk_id']}\n")
            f.write(f"- **Resumo**: {resultado['resumo']}\n")
            f.write(f"- **T√≥picos**: {resultado['topicos']}\n")
            f.write(f"- **Tamanho**: {resultado['tamanho']} caracteres\n\n")
        
        f.write("## Compara√ß√£o de Configura√ß√µes\n\n")
        for resultado in resultados_comparacao:
            chunk_size, chunk_overlap = resultado['config']
            f.write(f"### Configura√ß√£o: {chunk_size}/{chunk_overlap}\n")
            f.write(f"- **Chunks**: {resultado['num_chunks']}\n")
            f.write(f"- **Resumo**: {resultado['resumo']}\n\n")
    
    print(f"üíæ Markdown salvo: {md_filename}")
    print("‚úÖ Exporta√ß√£o conclu√≠da em 3 formatos!")

# Executar exporta√ß√£o
exportar_resultados(resultados_analise, resultados_comparacao)

üíæ JSON salvo: analise_pdf_20250904_181253.json
üíæ CSV salvo: analise_pdf_chunks_20250904_181253.csv
üíæ Markdown salvo: analise_pdf_20250904_181253.md
‚úÖ Exporta√ß√£o conclu√≠da em 3 formatos!



### Desafio 3: Sistema de Busca
- Implemente busca por palavras-chave nos chunks
- Crie filtros por metadados


In [22]:
# Desafio 3: Sistema de Busca
def buscar_palavras_chave(chunks, palavra_chave, metadados_filtro=None):
    """
    Busca por palavras-chave nos chunks com filtros opcionais
    
    Args:
        chunks: Lista de chunks para buscar
        palavra_chave: Palavra-chave para buscar
        metadados_filtro: Dicion√°rio com filtros de metadados (ex: {'source': 'arquivo.pdf'})
    
    Returns:
        Lista de chunks que cont√™m a palavra-chave
    """
    resultados = []
    
    for chunk in chunks:
        # Verifica se a palavra-chave est√° no conte√∫do
        if palavra_chave.lower() in chunk.page_content.lower():
            # Aplica filtros de metadados se fornecidos
            if metadados_filtro:
                chunk_metadados = chunk.metadata
                filtro_ok = True
                
                for chave, valor in metadados_filtro.items():
                    if chave not in chunk_metadados or chunk_metadados[chave] != valor:
                        filtro_ok = False
                        break
                
                if filtro_ok:
                    resultados.append(chunk)
            else:
                resultados.append(chunk)
    
    return resultados

def buscar_por_topicos(chunks, topico):
    """
    Busca chunks relacionados a um t√≥pico espec√≠fico
    
    Args:
        chunks: Lista de chunks para buscar
        topico: T√≥pico para buscar
    
    Returns:
        Lista de chunks relacionados ao t√≥pico
    """
    output_parser = StrOutputParser()
    
    # Cria um prompt para identificar se o chunk √© relacionado ao t√≥pico
    prompt_topicos = ChatPromptTemplate.from_messages([
        ("system", "Voc√™ √© um especialista em an√°lise de conte√∫do. Determine se o texto fornecido est√° relacionado ao t√≥pico especificado. Responda apenas 'SIM' ou 'N√ÉO'."),
        ("human", "T√≥pico: {topico}\n\nTexto: {texto}")
    ])
    
    chain_topicos = prompt_topicos | chat_model | output_parser
    resultados = []
    
    for chunk in chunks:
        resposta = chain_topicos.invoke({"topico": topico, "texto": chunk.page_content})
        if resposta.upper() == "SIM":
            resultados.append(chunk)
    
    return resultados

def criar_indice_busca(chunks):
    """
    Cria um √≠ndice de busca para facilitar consultas
    
    Args:
        chunks: Lista de chunks para indexar
    
    Returns:
        Dicion√°rio com √≠ndice de busca
    """
    indice = {
        'por_palavra': {},
        'por_tamanho': {},
        'por_fonte': {},
        'por_pagina': {}
    }
    
    for i, chunk in enumerate(chunks):
        # √çndice por palavra-chave
        palavras = chunk.page_content.lower().split()
        for palavra in palavras:
            if palavra not in indice['por_palavra']:
                indice['por_palavra'][palavra] = []
            indice['por_palavra'][palavra].append(i)
        
        # √çndice por tamanho
        tamanho = len(chunk.page_content)
        if tamanho not in indice['por_tamanho']:
            indice['por_tamanho'][tamanho] = []
        indice['por_tamanho'][tamanho].append(i)
        
        # √çndice por fonte
        fonte = chunk.metadata.get('source', 'desconhecida')
        if fonte not in indice['por_fonte']:
            indice['por_fonte'][fonte] = []
        indice['por_fonte'][fonte].append(i)
        
        # √çndice por p√°gina
        pagina = chunk.metadata.get('page', 0)
        if pagina not in indice['por_pagina']:
            indice['por_pagina'][pagina] = []
        indice['por_pagina'][pagina].append(i)
    
    return indice

def buscar_com_indice(indice, chunks, palavra_chave=None, tamanho_min=None, fonte=None, pagina=None):
    """
    Busca usando o √≠ndice criado
    
    Args:
        indice: √çndice de busca
        chunks: Lista de chunks
        palavra_chave: Palavra-chave para buscar
        tamanho_min: Tamanho m√≠nimo do chunk
        fonte: Fonte espec√≠fica
        pagina: P√°gina espec√≠fica
    
    Returns:
        Lista de chunks que atendem aos crit√©rios
    """
    indices_encontrados = set(range(len(chunks)))
    
    # Filtro por palavra-chave
    if palavra_chave:
        palavra_lower = palavra_chave.lower()
        if palavra_lower in indice['por_palavra']:
            indices_encontrados = indices_encontrados.intersection(set(indice['por_palavra'][palavra_lower]))
        else:
            return []  # Palavra n√£o encontrada
    
    # Filtro por tamanho m√≠nimo
    if tamanho_min:
        indices_tamanho = []
        for tamanho, indices in indice['por_tamanho'].items():
            if tamanho >= tamanho_min:
                indices_tamanho.extend(indices)
        indices_encontrados = indices_encontrados.intersection(set(indices_tamanho))
    
    # Filtro por fonte
    if fonte:
        if fonte in indice['por_fonte']:
            indices_encontrados = indices_encontrados.intersection(set(indice['por_fonte'][fonte]))
        else:
            return []  # Fonte n√£o encontrada
    
    # Filtro por p√°gina
    if pagina is not None:
        if pagina in indice['por_pagina']:
            indices_encontrados = indices_encontrados.intersection(set(indice['por_pagina'][pagina]))
        else:
            return []  # P√°gina n√£o encontrada
    
    return [chunks[i] for i in indices_encontrados]

# Teste do sistema de busca
print("üîç TESTANDO SISTEMA DE BUSCA")
print("=" * 50)

# Carrega o PDF de exemplo
documento = carregar_pdf("contrato.pdf")
text_splitter = configurar_text_splitter(chunk_size=1000, chunk_overlap=200)
chunks = dividir_documentos(documento, text_splitter)

# Cria √≠ndice de busca
indice = criar_indice_busca(chunks)
print(f"‚úÖ √çndice criado com {len(chunks)} chunks")

# Busca por palavra-chave
resultados_palavra = buscar_palavras_chave(chunks, "intelig√™ncia")
print(f"üîç Encontrados {len(resultados_palavra)} chunks com 'intelig√™ncia'")

# Busca por t√≥pico
resultados_topico = buscar_por_topicos(chunks, "machine learning")
print(f"üìö Encontrados {len(resultados_topico)} chunks sobre 'machine learning'")

# Busca com filtros
resultados_filtrados = buscar_com_indice(indice, chunks, palavra_chave="dados", tamanho_min=500)
print(f"üéØ Encontrados {len(resultados_filtrados)} chunks com 'dados' e tamanho >= 500")

print("\n‚úÖ Sistema de busca implementado com sucesso!")

incorrect startxref pointer(1)
parsing for Object Streams


üîç TESTANDO SISTEMA DE BUSCA
‚úÖ PDF carregado: 4 p√°ginas
ÔøΩÔøΩ Documento dividido em 7 chunks

--- Chunk 1 ---
Tamanho: 941 caracteres
Conte√∫do: CONTRATO DE PRESTA√á√ÉO DE SERVI√áOS
 TECNOL√ìGICOS
CONTRATANTE:
TechCorp Solutions Ltda., pessoa jur√≠di...

--- Chunk 2 ---
Tamanho: 723 caracteres
Conte√∫do: e inscrita no CPF sob o n¬∫ 987.654.321-00.
OBJETO DO CONTRATO:
O presente contrato tem por objeto a ...

--- Chunk 3 ---
Tamanho: 940 caracteres
Conte√∫do: PRAZO DE EXECU√á√ÉO:
O prazo para execu√ß√£o total dos servi√ßos ser√° de 180 (cento e oitenta) dias corri...
‚úÖ √çndice criado com 7 chunks
üîç Encontrados 0 chunks com 'intelig√™ncia'
üìö Encontrados 0 chunks sobre 'machine learning'
üéØ Encontrados 2 chunks com 'dados' e tamanho >= 500

‚úÖ Sistema de busca implementado com sucesso!



### Desafio 4: Exporta√ß√£o de Resultados
- Salve an√°lises em diferentes formatos (JSON, CSV, Markdown)
- Crie relat√≥rios estruturados

In [23]:
import json
import csv
from datetime import datetime
import os

def exportar_analise_json(resultados_analise, filename="analise_pdf.json"):
    """
    Exporta resultados da an√°lise em formato JSON
    
    Args:
        resultados_analise: Dicion√°rio com resultados da an√°lise
        filename: Nome do arquivo para salvar
    """
    # Prepara dados para exporta√ß√£o
    dados_export = {
        "metadata": {
            "timestamp": datetime.now().isoformat(),
            "total_chunks": len(resultados_analise),
            "versao": "1.0"
        },
        "resultados": []
    }
    
    for i, resultado in enumerate(resultados_analise):
        dados_export["resultados"].append({
            "chunk_id": i,
            "resumo": resultado["resumo"],
            "topicos": resultado["topicos"],
            "tamanho": resultado["tamanho"],
            "pagina": resultado["pagina"],
            "fonte": resultado["fonte"]
        })
    
    # Salva arquivo JSON
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(dados_export, f, ensure_ascii=False, indent=2)
    
    print(f"‚úÖ An√°lise exportada para {filename}")

def exportar_analise_csv(resultados_analise, filename="analise_pdf.csv"):
    """
    Exporta resultados da an√°lise em formato CSV
    
    Args:
        resultados_analise: Dicion√°rio com resultados da an√°lise
        filename: Nome do arquivo para salvar
    """
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        
        # Cabe√ßalho
        writer.writerow(['Chunk ID', 'Resumo', 'T√≥picos', 'Tamanho', 'P√°gina', 'Fonte'])
        
        # Dados
        for i, resultado in enumerate(resultados_analise):
            writer.writerow([
                i,
                resultado["resumo"],
                ", ".join(resultado["topicos"]),
                resultado["tamanho"],
                resultado["pagina"],
                resultado["fonte"]
            ])
    
    print(f"‚úÖ An√°lise exportada para {filename}")

def exportar_analise_markdown(resultados_analise, filename="analise_pdf.md"):
    """
    Exporta resultados da an√°lise em formato Markdown
    
    Args:
        resultados_analise: Dicion√°rio com resultados da an√°lise
        filename: Nome do arquivo para salvar
    """
    with open(filename, 'w', encoding='utf-8') as f:
        f.write("# An√°lise de PDF com IA\n\n")
        f.write(f"**Data:** {datetime.now().strftime('%d/%m/%Y %H:%M')}\n")
        f.write(f"**Total de Chunks:** {len(resultados_analise)}\n\n")
        
        f.write("## Resumo Executivo\n\n")
        f.write("Este documento cont√©m a an√°lise autom√°tica de um PDF utilizando t√©cnicas de IA.\n\n")
        
        f.write("## Resultados por Chunk\n\n")
        
        for i, resultado in enumerate(resultados_analise):
            f.write(f"### Chunk {i+1}\n\n")
            f.write(f"**P√°gina:** {resultado['pagina']}\n")
            f.write(f"**Fonte:** {resultado['fonte']}\n")
            f.write(f"**Tamanho:** {resultado['tamanho']} caracteres\n\n")
            
            f.write("**Resumo:**\n")
            f.write(f"{resultado['resumo']}\n\n")
            
            f.write("**T√≥picos Identificados:**\n")
            for topico in resultado['topicos']:
                f.write(f"- {topico}\n")
            f.write("\n---\n\n")
    
    print(f"‚úÖ An√°lise exportada para {filename}")

def exportar_relatorio_completo(resultados_analise, resultados_busca=None, filename_prefix="relatorio_pdf"):
    """
    Exporta relat√≥rio completo em m√∫ltiplos formatos
    
    Args:
        resultados_analise: Resultados da an√°lise
        resultados_busca: Resultados de buscas (opcional)
        filename_prefix: Prefixo para os arquivos
    """
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    # Exporta em diferentes formatos
    exportar_analise_json(resultados_analise, f"{filename_prefix}_{timestamp}.json")
    exportar_analise_csv(resultados_analise, f"{filename_prefix}_{timestamp}.csv")
    exportar_analise_markdown(resultados_analise, f"{filename_prefix}_{timestamp}.md")
    
    # Cria relat√≥rio executivo
    relatorio_executivo = f"{filename_prefix}_executivo_{timestamp}.md"
    with open(relatorio_executivo, 'w', encoding='utf-8') as f:
        f.write("# Relat√≥rio Executivo - An√°lise de PDF\n\n")
        f.write(f"**Data:** {datetime.now().strftime('%d/%m/%Y %H:%M')}\n\n")
        
        f.write("## Estat√≠sticas Gerais\n\n")
        f.write(f"- **Total de Chunks:** {len(resultados_analise)}\n")
        f.write(f"- **P√°ginas Analisadas:** {len(set(r['pagina'] for r in resultados_analise))}\n")
        f.write(f"- **Tamanho M√©dio dos Chunks:** {sum(r['tamanho'] for r in resultados_analise) // len(resultados_analise)} caracteres\n\n")
        
        f.write("## T√≥picos Mais Frequentes\n\n")
        todos_topicos = []
        for resultado in resultados_analise:
            todos_topicos.extend(resultado['topicos'])
        
        from collections import Counter
        topicos_frequentes = Counter(todos_topicos).most_common(10)
        
        for topico, frequencia in topicos_frequentes:
            f.write(f"- **{topico}:** {frequencia} ocorr√™ncias\n")
        
        f.write("\n## Recomenda√ß√µes\n\n")
        f.write("1. **Foco em T√≥picos Principais:** Concentre-se nos t√≥picos mais frequentes\n")
        f.write("2. **An√°lise Detalhada:** Use os chunks maiores para an√°lise aprofundada\n")
        f.write("3. **Busca Estrat√©gica:** Utilize o sistema de busca para encontrar informa√ß√µes espec√≠ficas\n")
        f.write("4. **Monitoramento:** Acompanhe a evolu√ß√£o dos t√≥picos ao longo do documento\n")
    
    print(f"‚úÖ Relat√≥rio executivo exportado para {relatorio_executivo}")
    print(f"‚úÖ Relat√≥rio completo exportado com prefixo: {filename_prefix}_{timestamp}")

def exportar_resultados_busca(resultados_busca, filename="resultados_busca.json"):
    """
    Exporta resultados de busca em formato JSON
    
    Args:
        resultados_busca: Dicion√°rio com resultados de busca
        filename: Nome do arquivo para salvar
    """
    dados_export = {
        "metadata": {
            "timestamp": datetime.now().isoformat(),
            "total_resultados": len(resultados_busca),
            "versao": "1.0"
        },
        "resultados": []
    }
    
    for resultado in resultados_busca:
        dados_export["resultados"].append({
            "conteudo": resultado.page_content,
            "metadados": resultado.metadata,
            "tamanho": len(resultado.page_content)
        })
    
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(dados_export, f, ensure_ascii=False, indent=2)
    
    print(f"‚úÖ Resultados de busca exportados para {filename}")

# Teste da exporta√ß√£o
print("üìä TESTANDO EXPORTA√á√ÉO DE RESULTADOS")
print("=" * 50)

# Simula resultados de an√°lise para teste
resultados_teste = [
    {
        "resumo": "Introdu√ß√£o aos conceitos de IA",
        "topicos": ["intelig√™ncia artificial", "machine learning", "introdu√ß√£o"],
        "tamanho": 500,
        "pagina": 1,
        "fonte": "exemplo.pdf"
    },
    {
        "resumo": "Aplica√ß√µes pr√°ticas de ML",
        "topicos": ["aplica√ß√µes", "pr√°tica", "machine learning"],
        "tamanho": 750,
        "pagina": 2,
        "fonte": "exemplo.pdf"
    }
]

# Exporta em diferentes formatos
exportar_analise_json(resultados_teste, "teste_analise.json")
exportar_analise_csv(resultados_teste, "teste_analise.csv")
exportar_analise_markdown(resultados_teste, "teste_analise.md")
exportar_relatorio_completo(resultados_teste, filename_prefix="teste_relatorio")

print("\n‚úÖ Sistema de exporta√ß√£o implementado com sucesso!")
print("üìÅ Verifique os arquivos gerados no diret√≥rio atual")

üìä TESTANDO EXPORTA√á√ÉO DE RESULTADOS
‚úÖ An√°lise exportada para teste_analise.json
‚úÖ An√°lise exportada para teste_analise.csv
‚úÖ An√°lise exportada para teste_analise.md
‚úÖ An√°lise exportada para teste_relatorio_20250904_190726.json
‚úÖ An√°lise exportada para teste_relatorio_20250904_190726.csv
‚úÖ An√°lise exportada para teste_relatorio_20250904_190726.md
‚úÖ Relat√≥rio executivo exportado para teste_relatorio_executivo_20250904_190726.md
‚úÖ Relat√≥rio completo exportado com prefixo: teste_relatorio_20250904_190726

‚úÖ Sistema de exporta√ß√£o implementado com sucesso!
üìÅ Verifique os arquivos gerados no diret√≥rio atual
