# 02. RecursiveCharacterTextSplitter


Hướng dẫn này giải thích cách sử dụng `RecursiveCharacterTextSplitter`, phương pháp được khuyến nghị để tách văn bản trong LangChain.

`RecursiveCharacterTextSplitter` hoạt động bằng cách lấy một danh sách các ký tự và cố gắng chia văn bản thành các phần nhỏ hơn dựa trên danh sách đó. Nó tiếp tục chia cho đến khi các phần đủ nhỏ.

Theo mặc định, danh sách ký tự là **['\\n\\n', '\\n', ' ', '']**, có nghĩa là nó chia đệ quy theo thứ tự sau: **paragraph** -> **sentence** -> **word**. Điều này ưu tiên giữ các đoạn văn, sau đó là câu, sau đó là từ cùng nhau càng nhiều càng tốt, vì chúng được coi là các đơn vị liên quan về mặt ngữ nghĩa nhất.

Dưới đây là tóm tắt cách thức hoạt động của nó:

1.  Việc tách được thực hiện bởi một danh sách các ký tự (**['\\n\\n', '\\n', ' ', '']**).
2.  Kích thước chunk được đo bằng số lượng ký tự.


## Example Usage of RecursiveCharacterTextSplitter

This example demonstrates how to use the `RecursiveCharacterTextSplitter` to split text into smaller chunks.
1. Open the text file `appendix-keywords.txt` and read its contents and store this text in a variable named `file`.

In [1]:
# Open the appendix-keywords.txt file to create a file object named f.
with open("./data/appendix-keywords.txt") as f:
    file = f.read()  # Reads the contents of the file and stores them in the file variable.

2. Display some of the content read from the `file`.

In [2]:
# Output the top 500 characters read from the file.
print(file[:500])

Semantic Search

Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user’s query to return relevant results.
Example: If a user searches for “planets in the solar system,” the system might return information about related planets such as “Jupiter” or “Mars.”
Related Keywords: Natural Language Processing, Search Algorithms, Data Mining

Embedding

Definition: Embedding is the process of converting textual data, such as words


3. Now, create a `RecursiveCharacterTextSplitter` with the following parameters:

- `chunk_size` = 250 (limits each chunk to 250 characters)
- `chunk_overlap` = 50 (allows 50 characters of overlap between chunks)
- `length_function` = `len()` (specifies that built-in `len()` function for length calculation)
- `is_separator_regex` = `False` (disables regular expression separators).

In [3]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    # Set the chunk size to very small. These settings are for illustrative purposes only.
    chunk_size=250,
    # Sets the number of overlapping characters between chunks.
    chunk_overlap=50,
    # Specifies a function to calculate the length of the string.
    length_function=len,
    # Sets whether to use regular expressions as delimiters.
    is_separator_regex=False,
)

4. Use the `text_splitter` to split the text stored in the `file` variable into a list of `Document` objects. This list will be stored in a variable called `texts`.
5. Print the first and second documents using `print(texts[0])` and `print(texts[1])`.

In [4]:
# Split the file text into documents using text_splitter.
texts = text_splitter.create_documents([file])
print(texts[0])  # Outputs the first document in the split document.
print("===" * 20)
print(texts[1])  # Output the second document of the split document.

page_content='Semantic Search'
page_content='Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user’s query to return relevant results.'


Alternatively, you can also use the `text_splitter.split_text()` function to split the `file` text.

In [5]:
# Splits the text and returns the first two elements of the split text.
text_splitter.split_text(file)[:2]

['Semantic Search',
 'Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user’s query to return relevant results.']