# Рекурсивная нарезка текста на чанки с использованием LangChain

В данном Jupyter-блокноте мы исследуем метод рекурсивной нарезки текста с помощью класса RecursiveCharacterTextSplitter из библиотеки LangChain. Этот метод позволяет эффективно разделить текст на смысловые единицы, такие как абзацы и предложения, сохраняя при этом их семантическую целостность. Рекурсивная нарезка особенно полезна в случаях, когда необходимо максимально учитывать контекстуальные и структурные границы текста для последующих задач обработки естественного языка.

## Базовый пример рекурсивной нарезки текста

В данном примере используется текст Конституции Российской Федерации.

In [6]:
file_path = 'constitutionrf.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    text = file.read()

Создадим объект класса `RecursiveCharacterTextSplitter` и далее передадим на вход метода create_documents массив из текстовых документов, после чего отобразим статистическую информацию. 

In [7]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False,
)

chunks = text_splitter.create_documents([text])

print(f"Всего чанков: {len(chunks)}")
print("Первые N чанков:")
chunks[:10]

Всего чанков: 998
Первые N чанков:


[Document(page_content='\ufeffКОНСТИТУЦИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ'),
 Document(page_content='Мы, многонациональный народ Российской Федерации,\nсоединенные общей судьбой на своей земле,\nутверждая права и свободы человека, гражданский мир и согласие,'),
 Document(page_content='сохраняя исторически сложившееся государственное единство,\nисходя из общепризнанных принципов равноправия и самоопределения народов,'),
 Document(page_content='чтя память предков, передавших нам любовь и уважение к Отечеству, веру в добро и справедливость,\nвозрождая суверенную государственность России и утверждая незыблемость ее демократической основы,'),
 Document(page_content='стремясь обеспечить благополучие и процветание России,\nисходя из ответственности за свою Родину перед нынешним и будущими поколениями,\nсознавая себя частью мирового сообщества,'),
 Document(page_content='принимаем КОНСТИТУЦИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ.'),
 Document(page_content='РАЗДЕЛ ПЕРВЫЙ\n\nГЛАВА 1.\nОСНОВЫ КОНСТИТУЦИОННОГО СТРОЯ\n\nСтат

## Нарезка текста состоящего из иероглифов

А в данном примере мы через параметр `separators` заменим разделители текста по умолчанию на CJK разделители. 

In [8]:
text_splitter = RecursiveCharacterTextSplitter(
    separators=[
        "\n\n", "\n", " ", ".", ",",
        "\u200b",  # Zero-width space
        "\uff0c",  # Fullwidth comma
        "\u3001",  # Ideographic comma
        "\uff0e",  # Fullwidth full stop
        "\u3002",  # Ideographic full stop
        ""  # Последний элемент в списке пытается делить текст на максимально маленькие части
    ],
    chunk_size=200,
    chunk_overlap=20
)

chunks = text_splitter.create_documents([text])

print(f"Всего чанков: {len(chunks)}")
print("Первые N чанков:")
chunks[:10]

Всего чанков: 998
Первые N чанков:


[Document(page_content='\ufeffКОНСТИТУЦИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ'),
 Document(page_content='Мы, многонациональный народ Российской Федерации,\nсоединенные общей судьбой на своей земле,\nутверждая права и свободы человека, гражданский мир и согласие,'),
 Document(page_content='сохраняя исторически сложившееся государственное единство,\nисходя из общепризнанных принципов равноправия и самоопределения народов,'),
 Document(page_content='чтя память предков, передавших нам любовь и уважение к Отечеству, веру в добро и справедливость,\nвозрождая суверенную государственность России и утверждая незыблемость ее демократической основы,'),
 Document(page_content='стремясь обеспечить благополучие и процветание России,\nисходя из ответственности за свою Родину перед нынешним и будущими поколениями,\nсознавая себя частью мирового сообщества,'),
 Document(page_content='принимаем КОНСТИТУЦИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ.'),
 Document(page_content='РАЗДЕЛ ПЕРВЫЙ\n\nГЛАВА 1.\nОСНОВЫ КОНСТИТУЦИОННОГО СТРОЯ\n\nСтат

## Рекурсивная нарезка JSON документов

В данном примере мы нарежем JSON-файл имеющий структуру описанную стандартом OpenAPI.

In [9]:
import requests

json_url = "https://raw.githubusercontent.com/OAI/OpenAPI-Specification/main/examples/v3.0/uspto.json"
json_data = requests.get(json_url).json()

In [10]:
from langchain_text_splitters import RecursiveJsonSplitter

json_splitter = RecursiveJsonSplitter(max_chunk_size=300)
json_chunks = json_splitter.split_json(json_data=json_data)

print(f"Всего чанков: {len(json_chunks)}")
print("Первые N чанков:")
chunks[:10]

Всего чанков: 58
Первые N чанков:


[Document(page_content='\ufeffКОНСТИТУЦИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ'),
 Document(page_content='Мы, многонациональный народ Российской Федерации,\nсоединенные общей судьбой на своей земле,\nутверждая права и свободы человека, гражданский мир и согласие,'),
 Document(page_content='сохраняя исторически сложившееся государственное единство,\nисходя из общепризнанных принципов равноправия и самоопределения народов,'),
 Document(page_content='чтя память предков, передавших нам любовь и уважение к Отечеству, веру в добро и справедливость,\nвозрождая суверенную государственность России и утверждая незыблемость ее демократической основы,'),
 Document(page_content='стремясь обеспечить благополучие и процветание России,\nисходя из ответственности за свою Родину перед нынешним и будущими поколениями,\nсознавая себя частью мирового сообщества,'),
 Document(page_content='принимаем КОНСТИТУЦИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ.'),
 Document(page_content='РАЗДЕЛ ПЕРВЫЙ\n\nГЛАВА 1.\nОСНОВЫ КОНСТИТУЦИОННОГО СТРОЯ\n\nСтат