# MarkdownHeaderTextSplitter

마크다운 파일은 매우 텍스트가 매우 구조화 되어 있는 형태임.

따라서 마크다운 파일의 특정 부분, 특히 헤더별로 내용을 나누고 싶을 때 사용. 예를 들어, 문서 내에서 각각의 헤더 아래에 있는 내용을 기반으로 서로 연관된 정보 덩어리, 즉 '청크'를 만들고 싶은 경우. 이는 텍스트의 공통된 맥락을 유지하면서도, 문서의 구조적 요소를 효과적으로 활용 할 수 있음

`MarkdownHeaderTextSplitter` 도구는 문서를 지정된 헤더 집합에 따라 분할하여, 각 헤더 그룹 아래의 내용을 별도의 청크로 관리할 수 있게 함. 이 방법을 통해, 문서의 전반적인 구조를 유지하면서도 내용을 더 세밀하게 다룰 수 있게 되며, 이는 다양한 처리 과정에서 유용하게 활용될 수 있음.


`MarkdownHeaderTextSplitter`를 사용하여 마크다운 형식의 텍스트를 헤더 단위로 분할한다.

- 마크다운 문서의 헤더(`#`, `##`, `###` 등)를 기준으로 텍스트를 분할하는 역할을 함.


- `markdown_document` : 마크다운 형식의 문서.
- `headers_to_split_on` : 마크다운 헤더 레벨과 해당 레벨의 이름이 튜플 형태로 정의.
- `MarkdownHeaderTextSplitter` 클래스를 사용하여 `markdown_splitter` 객체를 생성, `headers_to_split_on` 매개변수로 분할 기준이 되는 헤더 레벨을 전달.
- `split_text` 메서드를 호출하여 `markdown_document`를 헤더 레벨에 따라 분할.


In [18]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

# 마크다운 형식의 문서를 문자열로 정의합니다.
file_path = './data/argus-bitumen.md'
with open(file_path, 'r', encoding='utf-8') as file:
    markdown_document = file.read()
print(markdown_document)

유럽, 아프리카, 중동 및 아시아-태평양 가격 및 논평Argus 아스팔트 보고서 포함

요약

비투멘 가격이 유럽 대부분에서 상승했으며, 북부에서 공급이 긴축되고 연료유 가격이 상승했습니다. 반면 아시아에서는 수요 약세가 시장에 계속 영향을 미치고 있으며, 싱가포르와 한국의 가격 모두 주간 하락했습니다.

프랑스의 두 정유소에서의 중단이 북서 유럽의 비투멘 공급을 계속 압박하고 있으며, 이는 로테르담과 발트해 화물의 차이를 로테르담 고황 함유 연료유(HSFO) 바지선의 fob 로테르담 가격으로 끌어올리는 데 도움을 주고 있습니다.

지중해 아스팔트 시장 활동과 수요 수준은 많은 유럽 시장에서 따뜻한 날씨와 함께 상승하기 시작했으며, 이는 지역 HSFO 가격 상승과 함께 일부 시장에서 국내 트럭 가격을 끌어올리는 요인이 되었습니다.

대부분의 사하라 이남 아프리카 시장의 가격 수준은 대체로 안정적이었으나, 서아프리카 터미널로의 화물 가치는 급격히 상승했으며, 동아프리카로의 컨테이너 운송에 대한 운임은 일부 하락했습니다.

싱가포르 아스팔트 가격이 하락세를 보였으며, 동남아시아 시장은 수요처 부족이 계속되고 있어 4월 선적 화물을 찾는 구매자가 제한적이었다. 여러 대형 석유 회사들은 여전히 판매되지 않은 4월 선적 물량을 보유하고 있었고, 일부는 구매자를 찾기 위해 Argus Open Markets (AOM) 플랫폼에 나타났다.

# 아르구스 비투멘

문제 24-12 | 금요일 2024년 3월 22일

가격

![](/Users/teddy/Dev/github/teddynote-parser-v2/data/images/table/ARGUS-BITUMEN_TABLE_Page_0_Index_10.png)

| Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen price

In [13]:
headers_to_split_on = [
    (
        "#",
        "Header 1",
    ),  # 헤더 레벨 1은 '#'로 표시되며, 'Header 1'이라는 이름을 가집니다.
    (
        "##",
        "Header 2",
    ),  # 헤더 레벨 2는 '##'로 표시되며, 'Header 2'라는 이름을 가집니다.
    (
        "###",
        "Header 3",
    ),  # 헤더 레벨 3은 '###'로 표시되며, 'Header 3'이라는 이름을 가집니다.
]

# 마크다운 헤더를 기준으로 텍스트를 분할하는 MarkdownHeaderTextSplitter 객체를 생성
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
# markdown_document를 헤더를 기준으로 분할 후 md_header_splits에 저장
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n\n\n====================================================================================================================================\n\n\n")

유럽, 아프리카, 중동 및 아시아-태평양 가격 및 논평Argus 아스팔트 보고서 포함  
요약  
비투멘 가격이 유럽 대부분에서 상승했으며, 북부에서 공급이 긴축되고 연료유 가격이 상승했습니다. 반면 아시아에서는 수요 약세가 시장에 계속 영향을 미치고 있으며, 싱가포르와 한국의 가격 모두 주간 하락했습니다.  
프랑스의 두 정유소에서의 중단이 북서 유럽의 비투멘 공급을 계속 압박하고 있으며, 이는 로테르담과 발트해 화물의 차이를 로테르담 고황 함유 연료유(HSFO) 바지선의 fob 로테르담 가격으로 끌어올리는 데 도움을 주고 있습니다.  
지중해 아스팔트 시장 활동과 수요 수준은 많은 유럽 시장에서 따뜻한 날씨와 함께 상승하기 시작했으며, 이는 지역 HSFO 가격 상승과 함께 일부 시장에서 국내 트럭 가격을 끌어올리는 요인이 되었습니다.  
대부분의 사하라 이남 아프리카 시장의 가격 수준은 대체로 안정적이었으나, 서아프리카 터미널로의 화물 가치는 급격히 상승했으며, 동아프리카로의 컨테이너 운송에 대한 운임은 일부 하락했습니다.  
싱가포르 아스팔트 가격이 하락세를 보였으며, 동남아시아 시장은 수요처 부족이 계속되고 있어 4월 선적 화물을 찾는 구매자가 제한적이었다. 여러 대형 석유 회사들은 여전히 판매되지 않은 4월 선적 물량을 보유하고 있었고, 일부는 구매자를 찾기 위해 Argus Open Markets (AOM) 플랫폼에 나타났다.
{}




문제 24-12 | 금요일 2024년 3월 22일  
가격  
![](/Users/teddy/Dev/github/teddynote-parser-v2/data/images/table/ARGUS-BITUMEN_TABLE_Page_0_Index_10.png)  
| Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen pr

기본적으로 `MarkdownHeaderTextSplitter`는 분할되는 헤더를 출력 청크의 내용에서 제거되는데 `strip_headers = False`로 설정하여 비활성화할 수 있음.


In [19]:
markdown_splitter = MarkdownHeaderTextSplitter(
    # 분할할 헤더를 지정합니다.
    headers_to_split_on=headers_to_split_on,
    # 헤더를 제거하지 않도록 설정합니다.
    strip_headers=False,
)
# 마크다운 문서를 헤더를 기준으로 분할합니다.
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력합니다.
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n\n\n====================================================================================================================================\n\n\n")

유럽, 아프리카, 중동 및 아시아-태평양 가격 및 논평Argus 아스팔트 보고서 포함  
요약  
비투멘 가격이 유럽 대부분에서 상승했으며, 북부에서 공급이 긴축되고 연료유 가격이 상승했습니다. 반면 아시아에서는 수요 약세가 시장에 계속 영향을 미치고 있으며, 싱가포르와 한국의 가격 모두 주간 하락했습니다.  
프랑스의 두 정유소에서의 중단이 북서 유럽의 비투멘 공급을 계속 압박하고 있으며, 이는 로테르담과 발트해 화물의 차이를 로테르담 고황 함유 연료유(HSFO) 바지선의 fob 로테르담 가격으로 끌어올리는 데 도움을 주고 있습니다.  
지중해 아스팔트 시장 활동과 수요 수준은 많은 유럽 시장에서 따뜻한 날씨와 함께 상승하기 시작했으며, 이는 지역 HSFO 가격 상승과 함께 일부 시장에서 국내 트럭 가격을 끌어올리는 요인이 되었습니다.  
대부분의 사하라 이남 아프리카 시장의 가격 수준은 대체로 안정적이었으나, 서아프리카 터미널로의 화물 가치는 급격히 상승했으며, 동아프리카로의 컨테이너 운송에 대한 운임은 일부 하락했습니다.  
싱가포르 아스팔트 가격이 하락세를 보였으며, 동남아시아 시장은 수요처 부족이 계속되고 있어 4월 선적 화물을 찾는 구매자가 제한적이었다. 여러 대형 석유 회사들은 여전히 판매되지 않은 4월 선적 물량을 보유하고 있었고, 일부는 구매자를 찾기 위해 Argus Open Markets (AOM) 플랫폼에 나타났다.
{}




# 아르구스 비투멘  
문제 24-12 | 금요일 2024년 3월 22일  
가격  
![](/Users/teddy/Dev/github/teddynote-parser-v2/data/images/table/ARGUS-BITUMEN_TABLE_Page_0_Index_10.png)  
| Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar

각 마크다운 그룹 내에서는 원하는 텍스트 분할기(text splitter)를 적용할 수 있습니다.


In [20]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

markdown_document = "# Intro \n\n## History \n\nMarkdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9] \n\nMarkdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files. \n\n## Rise and divergence \n\nAs Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for \n\nadditional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks. \n\n#### Standardization \n\nFrom 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort. \n\n# Implementations \n\nImplementations of Markdown are available for over a dozen programming languages."
print(markdown_document)

# Intro 

## History 

Markdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9] 

Markdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files. 

## Rise and divergence 

As Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for 

additional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks. 

#### Standardization 

From 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort. 

# Implementations 

Implementations of Markdown are available for over a dozen programming languages.


먼저, `MarkdownHeaderTextSplitter` 사용하여 마크다운 문서를 헤더를 기준으로 분할합니다.


In [21]:
headers_to_split_on = [
    ("#", "Header 1"),  # 분할할 헤더 레벨과 해당 레벨의 이름을 지정합니다.
    # ("##", "Header 2"),
]

# Markdown 문서를 헤더 레벨에 따라 분할합니다.
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on, strip_headers=False
)
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력합니다.
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n\n\n====================================================================================================================================\n\n\n")

# Intro  
## History  
Markdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9]  
Markdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files.  
## Rise and divergence  
As Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for  
additional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks.  
#### Standardization  
From 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort.
{'Header 1': 'Intro'}




# Implementations  
Implementations of Markdown are available for over a dozen programming languages.
{'Header 1': 'Implementations'}






이전의 `MarkdownHeaderTextSplitter` 로 분할된 결과를 다시 `RecursiveCharacterTextSplitter` 로 분할.


In [22]:
chunk_size = 300  # 분할된 청크의 크기를 지정합니다.
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# 문서를 문자 단위로 분할합니다.
splits = text_splitter.split_documents(md_header_splits)
# 분할된 결과를 출력합니다.
for header in splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n\n\n====================================================================================================================================\n\n\n")

# Intro  
## History  
Markdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9]
{'Header 1': 'Intro'}




Markdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files.  
## Rise and divergence  
As Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for
{'Header 1': 'Intro'}




additional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks.  
#### Standardization  
From 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort.
{'Header 1': 'Intro'}




# Implementations  
Implementations of Markdown are available for over a dozen programming languages.
{'Header 1': 'Implementations'}






`separators` 매개변수를 사용하여 원하는 구분자를 설정하여 분할 할 수 있음.

In [17]:
# 테이블

유럽, 아프리카, 중동 및 아시아-태평양 가격 및 논평Argus 아스팔트 보고서 포함

요약

비투멘 가격이 유럽 대부분에서 상승했으며, 북부에서 공급이 긴축되고 연료유 가격이 상승했습니다. 반면 아시아에서는 수요 약세가 시장에 계속 영향을 미치고 있으며, 싱가포르와 한국의 가격 모두 주간 하락했습니다.

프랑스의 두 정유소에서의 중단이 북서 유럽의 비투멘 공급을 계속 압박하고 있으며, 이는 로테르담과 발트해 화물의 차이를 로테르담 고황 함유 연료유(HSFO) 바지선의 fob 로테르담 가격으로 끌어올리는 데 도움을 주고 있습니다.

지중해 아스팔트 시장 활동과 수요 수준은 많은 유럽 시장에서 따뜻한 날씨와 함께 상승하기 시작했으며, 이는 지역 HSFO 가격 상승과 함께 일부 시장에서 국내 트럭 가격을 끌어올리는 요인이 되었습니다.

대부분의 사하라 이남 아프리카 시장의 가격 수준은 대체로 안정적이었으나, 서아프리카 터미널로의 화물 가치는 급격히 상승했으며, 동아프리카로의 컨테이너 운송에 대한 운임은 일부 하락했습니다.

싱가포르 아스팔트 가격이 하락세를 보였으며, 동남아시아 시장은 수요처 부족이 계속되고 있어 4월 선적 화물을 찾는 구매자가 제한적이었다. 여러 대형 석유 회사들은 여전히 판매되지 않은 4월 선적 물량을 보유하고 있었고, 일부는 구매자를 찾기 위해 Argus Open Markets (AOM) 플랫폼에 나타났다.

# 아르구스 비투멘

문제 24-12 | 금요일 2024년 3월 22일

가격

![](/Users/teddy/Dev/github/teddynote-parser-v2/data/images/table/ARGUS-BITUMEN_TABLE_Page_0_Index_10.png)

| Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar | Bitumen prices at key locations, 16-22 Mar




| Bitumen p