# Нарезка HTML и Markdown документов по главам и подглавам

В данном юпитер-блокноте мы рассмотрим как можно при помощи библиотеки LangChain нарежать на чанки документы пришедшие к нам в формате HTML и Markdown. 

## Нарезка HTML-документов

В качестве примера возъмём следующего вида HTML-документ:

In [5]:
html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>Foo</h1>
        <p>Some intro text about Foo.</p>
        <div>
            <h2>Bar main section</h2>
            <p>Some intro text about Bar.</p>
            <h3>Bar subsection 1</h3>
            <p>Some text about the first subtopic of Bar.</p>
            <h3>Bar subsection 2</h3>
            <p>Some text about the second subtopic of Bar.</p>
        </div>
        <div>
            <h2>Baz</h2>
            <p>Some text about Baz</p>
        </div>
        <br>
        <p>Some concluding text about Foo</p>
    </div>
</body>
</html>
"""

Используя следующие код нарежем документ на секции поменьше:

In [6]:
from langchain_text_splitters import HTMLHeaderTextSplitter

headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2"), ("h3", "Header 3")]
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
chunks = html_splitter.split_text(html_string)

print(f"Всего чанков: {len(chunks)}")
print("Первые N чанков:")
chunks[:10]

Всего чанков: 8
Первые N чанков:


[Document(page_content='Foo'),
 Document(page_content='Some intro text about Foo.  \nBar main section Bar subsection 1 Bar subsection 2', metadata={'Header 1': 'Foo'}),
 Document(page_content='Some intro text about Bar.', metadata={'Header 1': 'Foo', 'Header 2': 'Bar main section'}),
 Document(page_content='Some text about the first subtopic of Bar.', metadata={'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 1'}),
 Document(page_content='Some text about the second subtopic of Bar.', metadata={'Header 1': 'Foo', 'Header 2': 'Bar main section', 'Header 3': 'Bar subsection 2'}),
 Document(page_content='Baz', metadata={'Header 1': 'Foo'}),
 Document(page_content='Some text about Baz', metadata={'Header 1': 'Foo', 'Header 2': 'Baz'}),
 Document(page_content='Some concluding text about Foo', metadata={'Header 1': 'Foo'})]

## Нарезка Markdown-документа

Следующий пример похож на предыдущий, но тут мы уже будем нарезать на чанки Markdown-документ:

In [7]:
markdown_string = """
# Foo
## Bar
Hi this is Jim
Hi this is Joe

### Boo
Hi this is Lance

## Baz
Hi this is Molly
"""

Код нарезки выглдяти следующим образом:

In [8]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [("#", "Header 1"), ("##", "Header 2"), ("###", "Header 3")]
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
chunks = markdown_splitter.split_text(markdown_string)

print(f"Всего чанков: {len(chunks)}")
print("Первые N чанков:")
chunks[:10]

Всего чанков: 3
Первые N чанков:


[Document(page_content='Hi this is Jim\nHi this is Joe', metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}),
 Document(page_content='Hi this is Lance', metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}),
 Document(page_content='Hi this is Molly', metadata={'Header 1': 'Foo', 'Header 2': 'Baz'})]

Как видно из результата работы класс, нарезка Markdown более совершенна чем нарезка HTML, так как не создаются дубликаты, именно поэтому Markdown этом формат который я предпочитаю при создании RAG систем.