### Character Text Splitter

In [1]:
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf")
pages = loader.load_and_split()

In [2]:
pages

[Document(page_content='THE ONE     PAGE LINUX MANUALA summary of useful Linux commands\nVersion 3.0 May 1999 squadron@powerup.com.au\nStarting & Stopping\nshutdown -h now Shutdown the system now and do not\nreboot\nhalt Stop all processes - same as above\nshutdown -r 5 Shutdown the system in 5 minutes and\nreboot\nshutdown -r now Shutdown the system now and reboot\nreboot Stop all processes and then reboot - same\nas above\nstartx Start the X system\nAccessing & mounting file systems\nmount -t iso9660 /dev/cdrom\n/mnt/cdromMount the device cdrom\nand call it cdrom under the\n/mnt directory\nmount -t msdos /dev/hdd\n/mnt/ddriveMount hard disk “d” as a\nmsdos file system and call\nit ddrive under the /mnt\ndirectory\nmount -t vfat /dev/hda1\n/mnt/cdriveMount hard disk “a” as a\nVFAT file system and call it\ncdrive under the /mnt\ndirectory\numount /mnt/cdrom Unmount the cdrom\nFinding files and text within files\nfind / -name  fname Starting with the root directory, look\nfor the file c

In [3]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=20)
texts = text_splitter.split_documents(pages)

print(texts[0])

print (f"You have {len(texts)} documents")
print ("Preview:")
print (texts[0].page_content)

page_content='THE ONE     PAGE LINUX MANUALA summary of useful Linux commands\nVersion 3.0 May 1999 squadron@powerup.com.au\nStarting & Stopping\nshutdown -h now Shutdown the system now and do not\nreboot\nhalt Stop all processes - same as above\nshutdown -r 5 Shutdown the system in 5 minutes and\nreboot\nshutdown -r now Shutdown the system now and reboot\nreboot Stop all processes and then reboot - same\nas above\nstartx Start the X system\nAccessing & mounting file systems\nmount -t iso9660 /dev/cdrom\n/mnt/cdromMount the device cdrom\nand call it cdrom under the\n/mnt directory\nmount -t msdos /dev/hdd\n/mnt/ddriveMount hard disk “d” as a\nmsdos file system and call\nit ddrive under the /mnt\ndirectory\nmount -t vfat /dev/hda1\n/mnt/cdriveMount hard disk “a” as a\nVFAT file system and call it\ncdrive under the /mnt\ndirectory\numount /mnt/cdrom Unmount the cdrom\nFinding files and text within files\nfind / -name  fname Starting with the root directory, look\nfor the file called fnam

### Recursive Character Text Splitter

- Chia văn bản thành các đoạn dựa trên danh sách ký tự được cung cấp
- Danh sách ký tự mặc định: ["\n\n", "\n", " ", "]

- chunk_size : The maximum size of the chunks, as measured by the length_function (default is 100).

- chunk_overlap: The maximum overlap between chunks to maintain continuity between them (default is 20).

- length_function: Tham số được sử dụng để tính toán độ dài của chunks. Mặc định nó nó được set là **len** (là số lượng character trong 1 chunk)

Việc sử dụng token thay vì charactor mang lại 1 số lợi ích khi làm việc với language model giới hạn token.

Ví dụ: OpenAI's GPT-3 limit 4096 tokens mỗi request

In [4]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = PyPDFLoader("data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf")
pages = loader.load_and_split()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,
    chunk_overlap=10,
    length_function=len,
)

docs = text_splitter.split_documents(pages)
for doc in docs:
    print(doc)

page_content='THE ONE     PAGE LINUX MANUALA summary of useful' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='of useful Linux commands' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='Version 3.0 May 1999 squadron@powerup.com.au' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='Starting & Stopping' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='shutdown -h now Shutdown the system now and do' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='and do not' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='reboot\nhalt Stop all processes - same as above' metadata={'source': 'data/d3bbdb7c-5122-4066-800c-f44e043ecf43.pdf', 'page': 0}
page_content='shutdown -r 5 Shutdown the system in 5 minutes' metadata={'source': 'data/d3

**The output**

- Tạo 1 instance của class RecursiveCharacterTextSplitter

- Văn bản đầu tiên được bởi two new-line character (\n\n). Sau đó, vì các đoạn vẫn lớn hơn kích thước đoạn mong muốn (50), nên lớp này sẽ cố gắng tách kết quả đầu ra thành một ký tự dòng mới (\n).

- Trong ví dụ này, văn bản được tải từ một tệp và RecursiveCharacterTextSplitter được sử dụng để chia văn bản thành các phần có kích thước tối đa là 50 ký tự và chồng lên nhau là 10 ký tự. Đầu ra sẽ là list các tài liệu chứa văn bản được tách

- Để sử dụng bộ đếm token,  có thể tạo một hàm tính toán số lượng token trong một văn bản nhất định và chuyển nó dưới dạng tham số length_function. Điều này sẽ đảm bảo rằng bộ tách văn bản của bạn tính toán độ dài của các đoạn dựa trên số lượng token thay vì số lượng character. Việc khám phá khái niệm này sẽ là một phần trong bài học sắp tới.

### NLTK Text Splitter

- NLTKTextSplitter sử dụng Natural Language Toolkit (NLTK) library để tách văn bản dựa trên tokenizers

- Mục tiêu là tách các văn bản thành các chunk nhỏ hơn mà không phá vỡ cấu trúc của câu và đoạn

In [None]:
!pip install -q nltk

In [None]:
from langchain.text_splitter import NLTKTextSplitter

# Load a long document
with open('/home/cloudsuperadmin/scrape-chain/langchain/LLM.txt', encoding= 'unicode_escape') as f:
    sample_text = f.read()

text_splitter = NLTKTextSplitter(chunk_size=500)
texts = text_splitter.split_text(sample_text)
print(texts)

Tuy nhiên, NLTKTextSplitter không được thiết kế đặc biệt để xử lý phân đoạn từ trong câu tiếng Anh không có dấu cách. Với mục đích này, bạn có thể sử dụng các thư viện thay thế như pyenchant hoặc  word segment.

### SpacyTextSplitter

- SpacyTextSplitter chia văn bản thành các chunks nhỏ hơn dựa trên size (number of characters) được chỉ định 

In [None]:
from langchain.text_splitter import SpacyTextSplitter

# Load a long document
with open('/home/cloudsuperadmin/scrape-chain/langchain/LLM.txt', encoding= 'unicode_escape') as f:
    sample_text = f.read()

# Instantiate the SpacyTextSplitter with the desired chunk size
text_splitter = SpacyTextSplitter(chunk_size=500, chunk_overlap=20)

# Split the text using SpacyTextSplitter
texts = text_splitter.split_text(sample_text)

# Print the first chunk
print(texts[0])

### MarkdownTextSplitter

In [None]:
from langchain.text_splitter import MarkdownTextSplitter

markdown_text = """
# 

# Welcome to My Blog!

## Introduction
Hello everyone! My name is **John Doe** and I am a _software developer_. I specialize in Python, Java, and JavaScript.

Here's a list of my favorite programming languages:

1. Python
2. JavaScript
3. Java

You can check out some of my projects on [GitHub](https://github.com).

## About this Blog
In this blog, I will share my journey as a software developer. I'll post tutorials, my thoughts on the latest technology trends, and occasional book reviews.

Here's a small piece of Python code to say hello:

\``` python
def say_hello(name):
    print(f"Hello, {name}!")

say_hello("John")
\```

Stay tuned for more updates!

## Contact Me
Feel free to reach out to me on [Twitter](https://twitter.com) or send me an email at johndoe@email.com.

"""

markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)
docs = markdown_splitter.create_documents([markdown_text])

print(docs)

### TokenTextSplitter

In [None]:
!pip install -q tiktoken

In [None]:
from langchain.text_splitter import TokenTextSplitter

# Load a long document
with open('/home/cloudsuperadmin/scrape-chain/langchain/LLM.txt', encoding= 'unicode_escape') as f:
    sample_text = f.read()

# Initialize the TokenTextSplitter with desired chunk size and overlap
text_splitter = TokenTextSplitter(chunk_size=100, chunk_overlap=50)

# Split into smaller chunks
texts = text_splitter.split_text(sample_text)
print(texts[0])