### Chunk e text split basico

In [6]:
from langchain.text_splitter import CharacterTextSplitter

text = """A inteligência artificial (IA) é uma área da ciência da computação que se concentra na criação de sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana. Estas tarefas incluem reconhecimento de fala, aprendizado, planejamento e resolução de problemas.

Desde a década de 1950, quando o termo foi cunhado por John McCarthy, a IA evoluiu significativamente. Inicialmente restrita a ambientes acadêmicos, ela agora permeia diversos aspectos da vida cotidiana, desde assistentes pessoais como a Siri e Alexa, até recomendações de filmes na Netflix.

Uma subárea importante da IA é o aprendizado de máquina, onde os algoritmos permitem que os sistemas aprendam com dados e melhorem seu desempenho ao longo do tempo sem serem explicitamente programados para isso. Técnicas como redes neurais profundas têm revolucionado campos como o processamento de linguagem natural e a visão computacional.

Apesar dos avanços, a IA também levanta questões éticas, como o viés algorítmico, a privacidade dos dados e o impacto no mercado de trabalho. Muitos especialistas defendem a criação de regulamentações que garantam o uso responsável e transparente dessas tecnologias.

No futuro, espera-se que a IA desempenhe um papel ainda maior em áreas como saúde, educação e transporte, oferecendo soluções mais personalizadas e eficientes. No entanto, é crucial que o desenvolvimento da IA seja acompanhado de uma reflexão crítica sobre suas implicações sociais e éticas."""

splitter = CharacterTextSplitter(
    chunk_size=300,  # Tamanho de cada pedaço
    chunk_overlap=50,  # Quanto um pedaço sobrepõe o outro, usado para não perder contexto
)

chunks = splitter.split_text(text)

print(f"Esse é o tamanho do chunk {len(chunks)}")

print(chunks)
# for i, chunk in enumerate(chunks):
#     print(f"Chunk {i+1}:\n{chunk}\n")

Created a chunk of size 341, which is longer than the specified 300


Esse é o tamanho do chunk 5
['A inteligência artificial (IA) é uma área da ciência da computação que se concentra na criação de sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana. Estas tarefas incluem reconhecimento de fala, aprendizado, planejamento e resolução de problemas.', 'Desde a década de 1950, quando o termo foi cunhado por John McCarthy, a IA evoluiu significativamente. Inicialmente restrita a ambientes acadêmicos, ela agora permeia diversos aspectos da vida cotidiana, desde assistentes pessoais como a Siri e Alexa, até recomendações de filmes na Netflix.', 'Uma subárea importante da IA é o aprendizado de máquina, onde os algoritmos permitem que os sistemas aprendam com dados e melhorem seu desempenho ao longo do tempo sem serem explicitamente programados para isso. Técnicas como redes neurais profundas têm revolucionado campos como o processamento de linguagem natural e a visão computacional.', 'Apesar dos avanços, a IA também levanta questõe

### Text Split recursivo

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,  # Tamanho de cada pedaço
    chunk_overlap=5,  # Quanto um pedaço sobrepõe o outro, usado para não perder contexto
)

chunks = splitter.split_text(text=text)

print(chunks)
print(len(chunks))

['A inteligência artificial (IA) é uma área da ciência da computação que se concentra na criação de sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana. Estas tarefas incluem reconhecimento de fala, aprendizado, planejamento e resolução de problemas', '.\n\nDesde a década de 1950, quando o termo foi cunhado por John McCarthy, a IA evoluiu significativamente. Inicialmente restrita a ambientes acadêmicos, ela agora permeia diversos aspectos da vida cotidiana, desde assistentes pessoais como a Siri e Alexa, até recomendações de filmes na Netflix', '.\n\nUma subárea importante da IA é o aprendizado de máquina, onde os algoritmos permitem que os sistemas aprendam com dados e melhorem seu desempenho ao longo do tempo sem serem explicitamente programados para isso', '. Técnicas como redes neurais profundas têm revolucionado campos como o processamento de linguagem natural e a visão computacional.\n\nApesar dos avanços, a IA também levanta questões éticas, como o

### Token Text Split


In [11]:
from langchain_text_splitters import TokenTextSplitter


splitter = TokenTextSplitter(
    chunk_size=50,  # Tamanho de cada pedaço
    chunk_overlap=5,  # Quanto um pedaço sobrepõe o outro, usado para não perder contexto
)

split = splitter.split_text(text)

### Aplicando isso em textos de PDF

In [None]:
from langchain_community.document_loaders.pdf import PyPDFLoader


from langchain_community.document_loaders import PyPDFLoader

## Maneira de ler documento
file = "files/apostila.pdf"

loader = PyPDFLoader(file)

files = loader.load()

print(files)
files[0]

[Document(page_content=' \n  \n \n \n \n \n \n \n \n \nINTRODUÇÃO À PROGRAMAÇÃO \nCOM PYTHON  \n \n \n \n \n \n \n \nPrograma de Educação Tutorial  \nGrupo PET - ADS    \nIFSP -  Câmpus São Carlos  \n \n \n \n \n \n  ', metadata={'source': 'files/apostila.pdf', 'page': 0}), Document(page_content=' \n  \nSumário  \nPREFÁCIO  ................................ ................................ ................................ ........................  1 \n1. INTRODUÇÃO  ................................ ................................ ................................ ..............  2 \n1.1 Característi cas da linguagem Python  ................................ ................................ ..... 2 \n1.2 Instalação do interpretador Python  ................................ ................................ .......  2 \n2. VARIÁVEIS  ................................ ................................ ................................ ...................  4 \n3. STRINGS  ........................

Document(page_content=' \n  \n \n \n \n \n \n \n \n \nINTRODUÇÃO À PROGRAMAÇÃO \nCOM PYTHON  \n \n \n \n \n \n \n \nPrograma de Educação Tutorial  \nGrupo PET - ADS    \nIFSP -  Câmpus São Carlos  \n \n \n \n \n \n  ', metadata={'source': 'files/apostila.pdf', 'page': 0})

In [26]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document

import re


# Função de normalização
def normalize_text(text):
    # Remove sequências de pontos com ou sem espaço, deixando só um ponto
    text = re.sub(r"(\s*\.\s*){2,}", ".", text)
    # Remove sequências de traços com ou sem espaço, deixando só um traço
    text = re.sub(r"(\s*-\s*){2,}", "-", text)
    # Remove espaços duplicados
    text = re.sub(r"\s{2,}", " ", text)
    # Remove linhas vazias em excesso
    text = re.sub(r"\n{2,}", "\n", text)
    return text.strip()


# Carregar PDF
file = "files/apostila.pdf"
loader = PyPDFLoader(file)
files = loader.load()

# Aplica a normalização em cada página
normalized_files = [
    Document(page_content=normalize_text(doc.page_content), metadata=doc.metadata)
    for doc in files
]

# Agora sim, split dos documentos normalizados
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
)

chunks = splitter.split_documents(normalized_files)

# Visualizar primeiros chunks
for i, chunk in enumerate(chunks[:5]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")
    print("---")

Chunk 1:
INTRODUÇÃO À PROGRAMAÇÃO COM PYTHON Programa de Educação Tutorial Grupo PET - ADS IFSP - Câmpus São Carlos

---
Chunk 2:
Sumário PREFÁCIO.1 1. INTRODUÇÃO.2 1.1 Característi cas da linguagem Python.2 1.2 Instalação do interpretador Python.2 2. VARIÁVEIS.4 3. STRINGS.6 3.1 Concatenação d e strings.6 3.2 Manipulação de strings.7 3.3 Fatiamento de strings.8 3.4 Exercícios: strings.8 4. NÚMEROS.9 4.1 Operadores numéricos.9 4.2 Exercícios: números.9 5. LISTAS.10 5.1 Funções para manipulação de listas.10 5.2 Operações com listas.11 5.3 Fatiamento de listas.11 5.4 Criação de listas com range ( ).12 5.5 Exercícios:

---
Chunk 3:
de listas com range ( ).12 5.5 Exercícios: listas.12 6. TUPLAS.13 7. DICIONÁRIOS.13 7.1 Operações em dicionários.14 7.2 Exercícios: dicionários.14 8. BIBLIOTECAS.15 9. ESTRUTURAS DE DECISÃO.15 9.1 Estrutura if.16 9.2 Estrutura if.else.16 9.3 Comando if.elif.else.16 9.4 Exercícios: estruturas de decisão.17

---
Chunk 4:
10. ESTRUTURAS DE REPETIÇÃO.17 10.1 Laço w