# üìö Document Loading e Splitters - Preparando Dados para RAG

![](https://s3.us-east-1.amazonaws.com/turing.education/books/imagens/langchain-modulo-08_img_01.png)

**M√≥dulo 8 de 17 - LangChain v0.3**

Fala pessoal! T√¥ aqui de novo com voc√™s pra mais um m√≥dulo do nosso curso de LangChain! üöÄ

T√°, mas o que diabos √© Document Loading e Splitters? Imagina que voc√™ tem uma biblioteca gigante e precisa encontrar uma informa√ß√£o espec√≠fica. Voc√™ n√£o vai ler todos os livros n√©? Voc√™ vai direto no √≠ndice, nas p√°ginas certas!

√â exatamente isso que fazemos com documentos em IA. Pegamos textos enormes e dividimos em pedacinhos menores que fazem sentido. √â tipo picar uma pizza - cada peda√ßo tem que ter tudo que precisa pra ser saboroso! üçï

**Por que isso √© importante?**
- Nos pr√≥ximos m√≥dulos vamos implementar RAG (Retrieval Augmented Generation)
- RAG precisa de documentos bem organizados e divididos
- √â a base para sistemas de busca inteligente

Bora come√ßar!

## üõ†Ô∏è Setup Inicial - Instalando as Depend√™ncias

Antes de come√ßar, vamos instalar tudo que precisamos. √â tipo preparar os ingredientes antes de cozinhar!

In [None]:
# Instalando as bibliotecas necess√°rias
!pip install langchain langchain-community python-docx pypdf pymupdf beautifulsoup4 requests

# Imports b√°sicos
import os
from langchain.document_loaders import TextLoader, PyPDFLoader, WebBaseLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.schema import Document
import requests
from bs4 import BeautifulSoup

## üìñ O que s√£o Document Loaders?

T√°, mas o que s√£o esses Document Loaders? Simples!

Imagina que voc√™ tem documentos em v√°rios formatos:
- PDF (tipo aquele manual chato da TV)
- TXT (arquivo simples de texto)
- P√°ginas web (sites, blogs)
- Word, Excel, PowerPoint

Cada formato tem sua "linguagem" pr√≥pria. Os Document Loaders s√£o tipo tradutores universais que pegam qualquer formato e transformam em algo que o LangChain entende!

### Estrutura de um Document no LangChain

Todo documento no LangChain tem duas partes principais:
- **page_content**: O texto em si
- **metadata**: Informa√ß√µes sobre o documento (t√≠tulo, fonte, p√°gina, etc.)

√â tipo um envelope: tem a carta (conte√∫do) e as informa√ß√µes do envelope (metadados)!

**Dica!** Sempre guarde metadados! Eles s√£o super √∫teis para rastrear de onde veio cada peda√ßo de informa√ß√£o.

In [None]:
# Vamos criar um documento simples para entender a estrutura
from langchain.schema import Document

# Criando um documento b√°sico
documento_exemplo = Document(
    page_content="Este √© o conte√∫do do meu documento sobre IA. A intelig√™ncia artificial est√° revolucionando o mundo!",
    metadata={
        "titulo": "Introdu√ß√£o √† IA",
        "autor": "Pedro Guth",
        "data": "2024-01-15",
        "categoria": "tecnologia"
    }
)

print("Conte√∫do do documento:")
print(documento_exemplo.page_content)
print("\nMetadados:")
print(documento_exemplo.metadata)

## üìÑ Carregando Diferentes Tipos de Documentos

Agora vamos ver como carregar documentos de diferentes fontes. √â tipo ter chaves para abrir diferentes tipos de portas!

In [None]:
# 1. Carregando arquivo de texto simples
# Primeiro vamos criar um arquivo de exemplo
texto_exemplo = """
LangChain √© uma biblioteca incr√≠vel para desenvolvimento de aplica√ß√µes com IA.
Ela facilita muito a integra√ß√£o com diferentes modelos de linguagem.
Nos m√≥dulos anteriores, aprendemos sobre ChatModels, Prompts e Chains.
Agora estamos preparando dados para implementar RAG nos pr√≥ximos m√≥dulos.
O RAG (Retrieval Augmented Generation) √© uma t√©cnica poderosa que combina busca e gera√ß√£o.
"""

# Salvando o arquivo
with open("exemplo.txt", "w", encoding="utf-8") as f:
    f.write(texto_exemplo)

# Carregando com TextLoader
from langchain.document_loaders import TextLoader

loader_texto = TextLoader("exemplo.txt", encoding="utf-8")
documentos_texto = loader_texto.load()

print("Documento carregado do arquivo TXT:")
print(f"N√∫mero de documentos: {len(documentos_texto)}")
print(f"Conte√∫do: {documentos_texto[0].page_content[:100]}...")
print(f"Metadados: {documentos_texto[0].metadata}")

In [None]:
# 2. Carregando conte√∫do de p√°ginas web
from langchain.document_loaders import WebBaseLoader

# Carregando uma p√°gina web (vamos usar uma p√°gina simples)
try:
    loader_web = WebBaseLoader("https://httpbin.org/html")
    documentos_web = loader_web.load()
    
    print("\nDocumento carregado da web:")
    print(f"N√∫mero de documentos: {len(documentos_web)}")
    print(f"Conte√∫do (primeiros 200 chars): {documentos_web[0].page_content[:200]}...")
    print(f"Metadados: {documentos_web[0].metadata}")
    
except Exception as e:
    print(f"Erro ao carregar p√°gina web: {e}")
    print("Sem problemas! Vamos criar um documento web simulado:")
    
    # Simulando conte√∫do web
    documento_web_simulado = Document(
        page_content="Este √© o conte√∫do de uma p√°gina web sobre LangChain. A p√°gina cont√©m informa√ß√µes sobre como usar document loaders para processar diferentes tipos de arquivo.",
        metadata={"source": "https://exemplo.com/langchain", "title": "Guia LangChain"}
    )
    print(f"Conte√∫do simulado: {documento_web_simulado.page_content}")

## ‚úÇÔ∏è Text Splitters - Dividindo para Conquistar

Agora vem a parte mais importante! T√°, mas por que dividir os textos?

Imagina que voc√™ tem um livro de 500 p√°ginas e quer encontrar informa√ß√£o sobre "como fazer brigadeiro". Voc√™ n√£o vai dar o livro inteiro para algu√©m ler n√©? Voc√™ vai direto no cap√≠tulo de doces!

√â exatamente isso que os Text Splitters fazem:
- Dividem textos grandes em peda√ßos menores
- Mant√™m o contexto (n√£o cortam no meio de uma frase)
- Facilitam a busca e processamento

![](https://s3.us-east-1.amazonaws.com/turing.education/books/imagens/langchain-modulo-08_img_02.png)

### Por que isso √© importante para RAG?

Lembra que nos pr√≥ximos m√≥dulos vamos implementar RAG? Ent√£o:
- RAG precisa encontrar informa√ß√µes relevantes rapidamente
- Textos muito grandes s√£o dif√≠ceis de processar
- Peda√ßos pequenos s√£o mais f√°ceis de buscar e comparar

**Dica!** O tamanho ideal dos chunks (peda√ßos) depende do seu caso de uso. Para perguntas e respostas: 200-500 caracteres. Para an√°lise profunda: 1000-2000 caracteres.

In [None]:
# Vamos criar um texto mais longo para demonstrar os splitters
texto_longo = """
O LangChain √© uma biblioteca poderosa que facilita o desenvolvimento de aplica√ß√µes com IA. 
Ela oferece uma abstra√ß√£o elegante para trabalhar com diferentes modelos de linguagem.

Nos m√≥dulos anteriores, aprendemos sobre ChatModels que nos permitem conversar com IAs como GPT e Gemini.
Tamb√©m vimos Prompt Templates que padronizam nossas conversas com a IA.
As Chains nos ajudam a criar fluxos complexos de processamento.

Agora estamos preparando dados para RAG (Retrieval Augmented Generation).
O RAG √© uma t√©cnica que combina busca em documentos com gera√ß√£o de texto.
√â muito √∫til para criar assistentes que podem responder baseados em documentos espec√≠ficos.

Para implementar RAG, precisamos:
1. Carregar documentos de diferentes fontes
2. Dividir os textos em peda√ßos menores
3. Criar embeddings (vamos ver no pr√≥ximo m√≥dulo)
4. Armazenar em um vector store
5. Implementar a busca e gera√ß√£o

Os Document Loaders e Text Splitters s√£o o primeiro passo desta jornada.
Eles preparam nossos dados para os pr√≥ximos passos do processo RAG.
"""

# Criando um documento com este texto
documento_longo = Document(
    page_content=texto_longo,
    metadata={"fonte": "curso_langchain", "modulo": 8}
)

print(f"Texto original tem {len(texto_longo)} caracteres")
print(f"Vamos dividir este texto em peda√ßos menores!")

## üîß CharacterTextSplitter - O Divisor Simples

O CharacterTextSplitter √© o mais b√°sico. Ele divide o texto baseado em um caractere espec√≠fico (tipo \n para quebra de linha).

√â tipo cortar uma pizza com uma r√©gua - funciona, mas n√£o √© o mais inteligente!

In [None]:
# Usando CharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter

# Configurando o splitter
splitter_simples = CharacterTextSplitter(
    chunk_size=300,      # Tamanho m√°ximo de cada peda√ßo
    chunk_overlap=50,    # Sobreposi√ß√£o entre peda√ßos (importante para manter contexto!)
    separator="\n\n"      # Divide onde tem duas quebras de linha
)

# Dividindo o documento
chunks_simples = splitter_simples.split_documents([documento_longo])

print(f"Documento dividido em {len(chunks_simples)} peda√ßos:")
print()

# Mostrando cada peda√ßo
for i, chunk in enumerate(chunks_simples):
    print(f"--- Peda√ßo {i+1} ({len(chunk.page_content)} chars) ---")
    print(chunk.page_content[:200] + "..." if len(chunk.page_content) > 200 else chunk.page_content)
    print(f"Metadados: {chunk.metadata}")
    print()

## üß† RecursiveCharacterTextSplitter - O Inteligente

Agora sim! Este √© o splitter mais usado e inteligente. Por qu√™?

Ele tenta dividir o texto seguindo uma hierarquia:
1. Primeiro tenta dividir por par√°grafos (\n\n)
2. Se ainda estiver grande, divide por frases (.)
3. Se ainda estiver grande, divide por palavras ( )
4. Por √∫ltimo, divide por caracteres

√â tipo um chef experiente cortando ingredientes - ele sabe onde cortar para n√£o estragar o sabor!

**Dica!** Este √© o splitter que voc√™ vai usar 90% das vezes. Ele √© inteligente o suficiente para manter o contexto.

In [None]:
# Usando RecursiveCharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Configurando o splitter inteligente
splitter_inteligente = RecursiveCharacterTextSplitter(
    chunk_size=400,        # Tamanho m√°ximo de cada peda√ßo
    chunk_overlap=100,     # Sobreposi√ß√£o entre peda√ßos
    length_function=len,   # Fun√ß√£o para medir o tamanho
    separators=["\n\n", "\n", ".", " ", ""]  # Hierarquia de separadores
)

# Dividindo o documento
chunks_inteligentes = splitter_inteligente.split_documents([documento_longo])

print(f"Documento dividido em {len(chunks_inteligentes)} peda√ßos com RecursiveCharacterTextSplitter:")
print()

# Mostrando cada peda√ßo
for i, chunk in enumerate(chunks_inteligentes):
    print(f"--- Peda√ßo Inteligente {i+1} ({len(chunk.page_content)} chars) ---")
    print(chunk.page_content)
    print(f"Metadados: {chunk.metadata}")
    print("-" * 50)

## üìä Visualizando a Diferen√ßa entre Splitters

Vamos criar um gr√°fico para visualizar como cada splitter se comporta. √â sempre bom ver os dados!

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Coletando dados dos splitters
tamanhos_simples = [len(chunk.page_content) for chunk in chunks_simples]
tamanhos_inteligentes = [len(chunk.page_content) for chunk in chunks_inteligentes]

# Criando o gr√°fico
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Compara√ß√£o de tamanhos
ax1.bar(range(len(tamanhos_simples)), tamanhos_simples, 
        alpha=0.7, label='Character Splitter', color='skyblue')
ax1.bar(range(len(tamanhos_inteligentes)), tamanhos_inteligentes, 
        alpha=0.7, label='Recursive Splitter', color='lightcoral')
ax1.set_xlabel('N√∫mero do Chunk')
ax1.set_ylabel('Tamanho (caracteres)')
ax1.set_title('Compara√ß√£o de Tamanhos dos Chunks')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gr√°fico 2: Distribui√ß√£o de tamanhos
ax2.hist(tamanhos_simples, bins=5, alpha=0.7, label='Character Splitter', color='skyblue')
ax2.hist(tamanhos_inteligentes, bins=5, alpha=0.7, label='Recursive Splitter', color='lightcoral')
ax2.set_xlabel('Tamanho do Chunk (caracteres)')
ax2.set_ylabel('Frequ√™ncia')
ax2.set_title('Distribui√ß√£o dos Tamanhos')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nEstat√≠sticas:")
print(f"Character Splitter: {len(chunks_simples)} chunks, tamanho m√©dio: {np.mean(tamanhos_simples):.1f}")
print(f"Recursive Splitter: {len(chunks_inteligentes)} chunks, tamanho m√©dio: {np.mean(tamanhos_inteligentes):.1f}")

## üéØ Par√¢metros Importantes dos Splitters

T√°, mas quais s√£o os par√¢metros mais importantes? Vamos entender cada um:

### chunk_size
- Tamanho m√°ximo de cada peda√ßo
- **Pequeno (100-300)**: Boa precis√£o, mas pode perder contexto
- **M√©dio (300-800)**: Equil√≠brio entre precis√£o e contexto ‚≠ê
- **Grande (800+)**: Muito contexto, mas busca menos precisa

### chunk_overlap
- Quantos caracteres se repetem entre chunks
- **Importante**: Evita que informa√ß√µes sejam cortadas no meio
- **Recomenda√ß√£o**: 10-20% do chunk_size

### separators
- Define onde o texto pode ser cortado
- **Padr√£o**: ["\n\n", "\n", ".", " ", ""]
- **Para c√≥digo**: ["\n\n", "\n", ";", "{", "}", " "]

**Dica!** Para RAG, comece com chunk_size=500 e chunk_overlap=100. Depois ajuste baseado nos seus testes!

In [None]:
# Testando diferentes configura√ß√µes
configura√ß√µes = [
    {"nome": "Pequenos", "chunk_size": 200, "chunk_overlap": 50},
    {"nome": "M√©dios", "chunk_size": 400, "chunk_overlap": 80},
    {"nome": "Grandes", "chunk_size": 800, "chunk_overlap": 150}
]

resultados = []

for config in configura√ß√µes:
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=config["chunk_size"],
        chunk_overlap=config["chunk_overlap"]
    )
    
    chunks = splitter.split_documents([documento_longo])
    
    resultado = {
        "nome": config["nome"],
        "num_chunks": len(chunks),
        "tamanho_medio": np.mean([len(chunk.page_content) for chunk in chunks]),
        "chunk_size_config": config["chunk_size"]
    }
    
    resultados.append(resultado)
    
    print(f"{config['nome']}: {len(chunks)} chunks, tamanho m√©dio: {resultado['tamanho_medio']:.1f}")

print("\nQual configura√ß√£o escolher?")
print("üìç Pequenos: √ìtimo para busca precisa")
print("üéØ M√©dios: Equilibrio ideal para a maioria dos casos")
print("üìö Grandes: Bom quando voc√™ precisa de muito contexto")

## üåê Exemplo Pr√°tico - Processando Conte√∫do Web

Vamos fazer um exemplo mais pr√≥ximo da realidade: carregar conte√∫do de uma p√°gina web e preparar para RAG!

In [None]:
# Simulando conte√∫do de um blog sobre IA
conteudo_blog = """
# Intelig√™ncia Artificial no Brasil: O Futuro √© Agora

A intelig√™ncia artificial est√° transformando o mercado brasileiro de forma acelerada. 
Empresas de todos os tamanhos est√£o adotando solu√ß√µes de IA para melhorar seus processos.

## Principais Aplica√ß√µes

### Atendimento ao Cliente
Chatbots inteligentes est√£o revolucionando o atendimento. Eles conseguem resolver 80% dos problemas sem interven√ß√£o humana.
Empresas como Magazine Luiza e Bradesco j√° implementaram solu√ß√µes avan√ßadas.

### An√°lise de Dados
Machine Learning est√° sendo usado para analisar padr√µes de consumo e prever tend√™ncias.
O setor financeiro √© pioneiro nesta √°rea, usando IA para detectar fraudes e avaliar riscos.

### Automa√ß√£o de Processos
RPA (Robotic Process Automation) combinado com IA est√° automatizando tarefas repetitivas.
Isso libera funcion√°rios para atividades mais estrat√©gicas e criativas.

## Desafios e Oportunidades

O maior desafio √© a capacita√ß√£o profissional. O mercado demanda profissionais qualificados em IA.
Por outro lado, isso cria oportunidades enormes para quem se especializar na √°rea.

## Conclus√£o

A IA n√£o √© mais coisa do futuro - √© realidade do presente.
Empresas que n√£o se adaptarem ficar√£o para tr√°s na competi√ß√£o.
"""

# Criando documento simulando conte√∫do web
documento_blog = Document(
    page_content=conteudo_blog,
    metadata={
        "source": "https://blog-ia-brasil.com/futuro-agora",
        "title": "IA no Brasil: O Futuro √© Agora",
        "author": "Tech Blog Brasil",
        "date": "2024-01-15",
        "category": "tecnologia"
    }
)

print("Documento do blog carregado!")
print(f"Tamanho: {len(conteudo_blog)} caracteres")

In [None]:
# Processando o conte√∫do do blog para RAG
splitter_blog = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " ", ""]
)

chunks_blog = splitter_blog.split_documents([documento_blog])

print(f"Blog dividido em {len(chunks_blog)} chunks para RAG:")
print("\n" + "="*60)

for i, chunk in enumerate(chunks_blog):
    print(f"\nChunk {i+1} ({len(chunk.page_content)} chars):")
    print("-" * 30)
    print(chunk.page_content.strip())
    print(f"Metadados: {chunk.metadata}")

print("\n" + "="*60)
print("Liiindo! Agora temos os dados prontos para o pr√≥ximo m√≥dulo (Vector Store)!")

## üîÑ Fluxo Completo - Da Fonte ao Chunk

Vamos visualizar todo o processo que acabamos de aprender:

```mermaid
graph TD
    A[Documento Original] --> B[Document Loader]
    B --> C[Document Object]
    C --> D[Text Splitter]
    D --> E[Chunks Menores]
    E --> F[Prontos para Vector Store]
    
    B1[PDF] --> B
    B2[TXT] --> B
    B3[Web] --> B
    B4[Word] --> B
    
    D1[CharacterTextSplitter] --> D
    D2[RecursiveCharacterTextSplitter] --> D
```

![](https://s3.us-east-1.amazonaws.com/turing.education/books/imagens/langchain-modulo-08_img_03.png)

## üí° Dicas Avan√ßadas e Boas Pr√°ticas

Agora que voc√™ j√° sabe o b√°sico, vou compartilhar algumas dicas de quem j√° quebrou a cabe√ßa com isso:

### 1. Preservando Metadados Importantes
- Sempre mantenha informa√ß√µes de fonte
- Adicione timestamps quando relevante
- Use metadados para filtrar buscas

### 2. Tamanho dos Chunks para Diferentes Casos
- **FAQ/Q&A**: 100-300 caracteres
- **Documenta√ß√£o t√©cnica**: 400-800 caracteres
- **Artigos longos**: 600-1200 caracteres
- **C√≥digo**: 200-500 caracteres

### 3. Overlap Estrat√©gico
- Para textos t√©cnicos: 20% do chunk_size
- Para narrativas: 15% do chunk_size
- Para listas/FAQ: 10% do chunk_size

**Dica!** No pr√≥ximo m√≥dulo (Vector Store), vamos ver como esses chunks s√£o transformados em embeddings para busca sem√¢ntica. √â a√≠ que a m√°gica do RAG realmente acontece!

In [None]:
# Exemplo de preserva√ß√£o de metadados estrat√©gicos
def processar_documento_completo(conteudo, fonte, categoria):
    """Fun√ß√£o para processar documento mantendo metadados importantes"""
    
    # Criando documento com metadados ricos
    documento = Document(
        page_content=conteudo,
        metadata={
            "fonte": fonte,
            "categoria": categoria,
            "tamanho_original": len(conteudo),
            "processado_em": "2024-01-15",
            "versao_langchain": "0.3"
        }
    )
    
    # Configurando splitter otimizado
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=400,
        chunk_overlap=80,
        separators=["\n\n", "\n", ".", "!", "?", ";", " ", ""]
    )
    
    # Dividindo e enriquecendo metadados
    chunks = splitter.split_documents([documento])
    
    # Adicionando n√∫mero do chunk nos metadados
    for i, chunk in enumerate(chunks):
        chunk.metadata["chunk_id"] = i
        chunk.metadata["total_chunks"] = len(chunks)
        chunk.metadata["chunk_size"] = len(chunk.page_content)
    
    return chunks

# Testando a fun√ß√£o
chunks_processados = processar_documento_completo(
    conteudo=conteudo_blog,
    fonte="blog_ia_brasil",
    categoria="tecnologia"
)

print(f"Processamento completo: {len(chunks_processados)} chunks gerados")
print(f"\nExemplo de metadados enriquecidos:")
print(chunks_processados[0].metadata)

## üéØ Exerc√≠cios Pr√°ticos

Agora √© sua vez de praticar! Bora colocar a m√£o na massa!

### Exerc√≠cio 1: Processando Diferentes Tipos de Conte√∫do

Crie uma fun√ß√£o que processe diferentes tipos de documentos e encontre a configura√ß√£o ideal de chunk para cada tipo.

In [None]:
# EXERC√çCIO 1: Complete o c√≥digo abaixo

# Documentos de exemplo de diferentes tipos
doc_faq = """
P: Como instalar o LangChain?
R: Use pip install langchain

P: O que √© um Document Loader?
R: √â uma ferramenta para carregar documentos de diferentes fontes

P: Qual a diferen√ßa entre splitters?
R: RecursiveCharacterTextSplitter √© mais inteligente que CharacterTextSplitter
"""

doc_tecnico = """
A arquitetura do LangChain √© baseada em componentes modulares que permitem flexibilidade m√°xima.
Os Document Loaders s√£o respons√°veis por converter diferentes formatos em objetos Document padronizados.
Este processo de normaliza√ß√£o √© fundamental para o funcionamento correto dos Text Splitters.
Os Text Splitters implementam algoritmos sofisticados para dividir texto mantendo contexto sem√¢ntico.
"""

# TODO: Complete a fun√ß√£o abaixo
def encontrar_melhor_config(documento, tipo_doc):
    """Encontra a melhor configura√ß√£o de chunk para cada tipo de documento"""
    
    configs = {
        "faq": {"chunk_size": 150, "chunk_overlap": 20},
        "tecnico": {"chunk_size": 400, "chunk_overlap": 80}
    }
    
    # TODO: Implemente a l√≥gica aqui
    # 1. Pegar a config do tipo de documento
    # 2. Criar o splitter
    # 3. Processar o documento
    # 4. Retornar os chunks
    
    config = configs.get(tipo_doc, {"chunk_size": 300, "chunk_overlap": 50})
    
    # Seu c√≥digo aqui...
    
    return chunks  # Remova esta linha e implemente!

# Teste sua fun√ß√£o
# chunks_faq = encontrar_melhor_config(doc_faq, "faq")
# chunks_tecnico = encontrar_melhor_config(doc_tecnico, "tecnico")

print("üí° Dica: Pense em como cada tipo de documento deve ser dividido!")
print("FAQ: peda√ßos pequenos, uma pergunta por chunk")
print("T√©cnico: peda√ßos maiores, mantendo contexto completo")

### Exerc√≠cio 2: An√°lise de Qualidade dos Chunks

Crie uma fun√ß√£o que analise a qualidade dos chunks gerados e sugira melhorias.

In [None]:
# EXERC√çCIO 2: Complete a fun√ß√£o de an√°lise

def analisar_qualidade_chunks(chunks):
    """Analisa a qualidade dos chunks e sugere melhorias"""
    
    # TODO: Implemente as an√°lises abaixo
    
    # 1. Calcular estat√≠sticas b√°sicas
    tamanhos = [len(chunk.page_content) for chunk in chunks]
    
    # 2. Verificar chunks muito pequenos (< 50 chars)
    chunks_pequenos = 0  # TODO: contar chunks pequenos
    
    # 3. Verificar chunks muito grandes (> 1000 chars)  
    chunks_grandes = 0   # TODO: contar chunks grandes
    
    # 4. Verificar chunks que terminam no meio de palavra
    chunks_mal_cortados = 0  # TODO: contar chunks mal cortados
    
    # Seu c√≥digo aqui...
    
    # Relat√≥rio
    print("üìä An√°lise de Qualidade dos Chunks:")
    print(f"Total de chunks: {len(chunks)}")
    print(f"Tamanho m√©dio: {np.mean(tamanhos):.1f} caracteres")
    print(f"Chunks muito pequenos: {chunks_pequenos}")
    print(f"Chunks muito grandes: {chunks_grandes}")
    print(f"Chunks mal cortados: {chunks_mal_cortados}")
    
    # TODO: Adicionar sugest√µes de melhoria
    print("\nüí° Sugest√µes:")
    if chunks_pequenos > 0:
        print(f"- Considere aumentar chunk_size (muitos chunks pequenos)")
    # Adicione mais sugest√µes...

# Teste com os chunks que criamos
print("An√°lise dos chunks do blog:")
analisar_qualidade_chunks(chunks_blog)

## üìà Preparando para os Pr√≥ximos M√≥dulos

Liiindo! Voc√™ chegou at√© aqui e j√° sabe como:
- Carregar documentos de diferentes fontes
- Dividir textos de forma inteligente
- Configurar splitters para diferentes casos de uso
- Manter metadados importantes

### O que vem pela frente?

**M√≥dulo 9 - Vector Store e Embeddings**:
- Vamos transformar nossos chunks em embeddings (vetores)
- Aprender sobre diferentes vector stores
- Implementar busca sem√¢ntica

**M√≥dulo 10 - RAG Implementation**:
- Juntar tudo: chunks + embeddings + LLM
- Criar um sistema de pergunta e resposta
- Otimizar a recupera√ß√£o de informa√ß√µes

![](https://s3.us-east-1.amazonaws.com/turing.education/books/imagens/langchain-modulo-08_img_04.png)

**Dica!** Guarde bem os conceitos deste m√≥dulo! Eles s√£o a base de tudo que vem pela frente no RAG.

## üéâ Resumo do M√≥dulo

Cara, que jornada incr√≠vel! Vamos recapitular o que aprendemos:

### üîë Conceitos Principais

1. **Document Loaders**: Carregam documentos de qualquer formato
2. **Text Splitters**: Dividem textos mantendo contexto
3. **Chunks**: Peda√ßos pequenos e contextualizados de texto
4. **Metadados**: Informa√ß√µes sobre os documentos

### üõ†Ô∏è Ferramentas que Dominamos

- `TextLoader`: Para arquivos de texto
- `WebBaseLoader`: Para p√°ginas web
- `CharacterTextSplitter`: Divis√£o simples
- `RecursiveCharacterTextSplitter`: Divis√£o inteligente ‚≠ê

### üìè Configura√ß√µes Importantes

- **chunk_size**: 300-500 para a maioria dos casos
- **chunk_overlap**: 10-20% do chunk_size
- **separators**: Use a hierarquia padr√£o

### üöÄ Pr√≥ximos Passos

Agora que nossos dados est√£o prontos, vamos transform√°-los em embeddings e implementar RAG!

**Exerc√≠cio para casa**: Pense em um documento que voc√™ gostaria de processar (PDF, site, arquivo). No pr√≥ximo m√≥dulo vamos transformar ele em um sistema de busca inteligente!

Nos vemos no M√≥dulo 9! Bora para Vector Stores! üöÄ

In [None]:
# C√≥digo final - Limpeza dos arquivos criados
import os

# Removendo arquivo tempor√°rio
if os.path.exists("exemplo.txt"):
    os.remove("exemplo.txt")
    print("‚úÖ Arquivo tempor√°rio removido")

print("\nüéØ M√≥dulo 8 completo!")
print("üìö Voc√™ agora sabe preparar dados para RAG")
print("üöÄ Pr√≥ximo m√≥dulo: Vector Store e Embeddings")
print("\n" + "="*50)
print("Pedro Guth - LangChain v0.3 Course")
print("M√≥dulo 8/17: Document Loading e Splitters")
print("="*50)