In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader
import textwrap

In [2]:
def demonstrate_text_splitting():
    # 1. Primeiro, vamos criar um texto de exemplo longo
    long_text = """
    O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial
    que se concentra na interação entre computadores e linguagem humana. É uma
    disciplina que combina elementos de linguística, ciência da computação e
    aprendizado de máquina para permitir que computadores entendam, interpretem
    e gerem texto em linguagem humana.

    Algumas aplicações comuns de PLN incluem:
    1. Tradução automática
    2. Análise de sentimentos
    3. Reconhecimento de fala
    4. Geração de texto
    5. Chatbots e assistentes virtuais

    Os modelos de linguagem, como o GPT, BERT e outros, são exemplos de sistemas
    que utilizam técnicas avançadas de PLN. Estes modelos são treinados em
    grandes quantidades de texto e podem realizar tarefas complexas como responder
    perguntas, resumir textos e gerar conteúdo original.

    O processo de desenvolvimento em PLN geralmente envolve várias etapas:
    - Pré-processamento do texto
    - Tokenização
    - Análise sintática
    - Análise semântica
    - Geração de saída

    Cada uma dessas etapas é crucial para o sucesso do sistema final. Por exemplo,
    o pré-processamento pode envolver a remoção de pontuação, conversão para
    minúsculas e remoção de palavras comuns (stopwords). A tokenização divide o
    texto em unidades menores como palavras ou subpalavras.
    """

    # 2. Criar o text splitter com os parâmetros especificados
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
        add_start_index=True,
    )

    # 3. Dividir o texto em chunks
    splits = text_splitter.create_documents([long_text])

    # 4. Demonstrar os resultados
    print(f"Número total de chunks gerados: {len(splits)}\n")
    
    for i, doc in enumerate(splits):
        print(f"\n=== Chunk {i+1} ===")
        print(f"Tamanho: {len(doc.page_content)} caracteres")
        print(f"Índice inicial: {doc.metadata.get('start_index')}")
        print("\nConteúdo:")
        # Usar textwrap para formatar a saída de forma mais legível
        wrapped_text = textwrap.fill(doc.page_content.strip(), width=70)
        print(wrapped_text)
        print("\n" + "="*50)

In [3]:
def visualize_overlap():
    """
    Demonstração visual da sobreposição entre chunks
    """
    # Texto menor para demonstração clara da sobreposição
    sample_text = "ABCDEFGHIJKLMNOPQRSTUVWXYZ" * 4  # 104 caracteres

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=50,  # Chunks menores para demonstração
        chunk_overlap=20,
        length_function=len,
    )

    splits = text_splitter.create_documents([sample_text])

    print("\nDemonstração Visual da Sobreposição:")
    print("="*70)
    for i, doc in enumerate(splits):
        start_index = doc.metadata.get('start_index', 0)
        print(f"\nChunk {i+1} (começa no índice {start_index}):")
        print(doc.page_content)
        if i > 0:  # Mostrar a sobreposição com o chunk anterior
            overlap_text = doc.page_content[:20]
            print(f"Sobreposição com chunk anterior: '{overlap_text}'")

In [5]:
print("=== Demonstração de Divisão de Texto ===")
demonstrate_text_splitting()


=== Demonstração de Divisão de Texto ===
Número total de chunks gerados: 2


=== Chunk 1 ===
Tamanho: 849 caracteres
Índice inicial: 5

Conteúdo:
O Processamento de Linguagem Natural (PLN) é uma área da inteligência
artificial     que se concentra na interação entre computadores e
linguagem humana. É uma     disciplina que combina elementos de
linguística, ciência da computação e     aprendizado de máquina para
permitir que computadores entendam, interpretem     e gerem texto em
linguagem humana.      Algumas aplicações comuns de PLN incluem:
1. Tradução automática     2. Análise de sentimentos     3.
Reconhecimento de fala     4. Geração de texto     5. Chatbots e
assistentes virtuais      Os modelos de linguagem, como o GPT, BERT e
outros, são exemplos de sistemas     que utilizam técnicas avançadas
de PLN. Estes modelos são treinados em     grandes quantidades de
texto e podem realizar tarefas complexas como responder     perguntas,
resumir textos e gerar conteúdo original.


=== Ch

In [7]:
visualize_overlap()


Demonstração Visual da Sobreposição:

Chunk 1 (começa no índice 0):
ABCDEFGHIJKLMNOPQRSTUVWXYZABCDEFGHIJKLMNOPQRSTUVWX

Chunk 2 (começa no índice 0):
EFGHIJKLMNOPQRSTUVWXYZABCDEFGHIJKLMNOPQRSTUVWXYZAB
Sobreposição com chunk anterior: 'EFGHIJKLMNOPQRSTUVWX'

Chunk 3 (começa no índice 0):
IJKLMNOPQRSTUVWXYZABCDEFGHIJKLMNOPQRSTUVWXYZ
Sobreposição com chunk anterior: 'IJKLMNOPQRSTUVWXYZAB'


In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Vamos usar um texto pequeno e simples para exemplo
texto = """
A Maria tem um cachorro chamado Bob.
Bob adora brincar no parque.
Ele corre atrás da bola e late muito feliz.
Todo dia eles vão passear juntos.
Maria e Bob são muito amigos.
"""

# Configurar o divisor de texto
# chunk_size: quantidade máxima de caracteres em cada pedaço
# chunk_overlap: quantidade de caracteres que se repetem entre os pedaços
divisor = RecursiveCharacterTextSplitter(
    chunk_size=50,  # cada pedaço terá no máximo 50 caracteres
    chunk_overlap=10  # 10 caracteres se repetem entre os pedaços
)

# Dividir o texto em pedaços
pedacos = divisor.create_documents([texto])

# Mostrar cada pedaço
print(f"O texto foi dividido em {len(pedacos)} pedaços:\n")

for i, pedaco in enumerate(pedacos, 1):
    print(f"Pedaço {i}:")
    print(f'"{pedaco.page_content.strip()}"')
    print("-" * 50)

O texto foi dividido em 5 pedaços:

Pedaço 1:
"A Maria tem um cachorro chamado Bob."
--------------------------------------------------
Pedaço 2:
"Bob adora brincar no parque."
--------------------------------------------------
Pedaço 3:
"Ele corre atrás da bola e late muito feliz."
--------------------------------------------------
Pedaço 4:
"Todo dia eles vão passear juntos."
--------------------------------------------------
Pedaço 5:
"Maria e Bob são muito amigos."
--------------------------------------------------
