### **MarkdownHeaderTextSplitter란?**  

마크다운 문서를 효율적으로 다루기 위해 **헤더(제목)를 기준으로 내용을 분할하는 도구**다. 문서의 구조를 유지하면서도 의미 있는 단위로 나누는 것이 목적임.  

---

### **🧐 왜 필요할까?**  

✔ **문서의 구조를 쉽게 파악** – 문서가 어떻게 구성되어 있는지 한눈에 보기 쉬움.  
✔ **관련된 내용끼리 묶기** – 같은 주제 아래 있는 내용을 하나의 그룹(청크)으로 만들어 관리할 수 있음.  
✔ **텍스트 검색·분석에 유리** – 특정 주제에 대한 정보를 빠르게 찾거나, AI 모델이 더 정확한 벡터 표현을 생성하는 데 도움을 줌.  

---

### **🔍 어떻게 작동할까?**  

1️⃣ 마크다운 문서의 **헤더(`#`, `##`, `###` 등)를 감지**  
2️⃣ 헤더를 기준으로 해당 **섹션의 내용을 분할**  
3️⃣ 각 헤더와 그 아래의 **내용을 하나의 블록(청크)으로 저장**  

예를 들어, 아래와 같은 마크다운 문서가 있다면:  

```markdown
# 개요  
이 문서는 마크다운을 다루는 방법을 설명함.  

## 기본 문법  
마크다운에서는 `#`을 사용하여 제목을 만들 수 있음.  

## 고급 기능  
표, 코드 블록 등의 기능을 활용할 수 있음.
```

📌 **MarkdownHeaderTextSplitter를 사용하면 다음과 같이 분할됨.**  

1️⃣ **개요** → "이 문서는 마크다운을 다루는 방법을 설명함."  
2️⃣ **기본 문법** → "마크다운에서는 `#`을 사용하여 제목을 만들 수 있음."  
3️⃣ **고급 기능** → "표, 코드 블록 등의 기능을 활용할 수 있음."  

---

### **🛠 어디에 활용할 수 있을까?**  

✅ **문서 검색 시스템** – 헤더별로 문서를 나누면 검색 정확도가 향상됨.  
✅ **AI 기반 요약·분석** – AI가 문서의 각 부분을 개별적으로 분석하는 데 도움을 줌.  
✅ **지식 관리 시스템** – 마크다운 문서를 체계적으로 정리하여 활용하는 데 유용함.  

---

### **🎯 한 줄 요약**  

**MarkdownHeaderTextSplitter**는 마크다운 문서를 **헤더 단위로 나누어 관리하는 도구**임. 문서의 맥락을 유지하면서

In [1]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

markdown_document = "# Title\n\n## 1. SubTitle\n\nHi this is Jim\n\nHi this is Joe\n\n### 1-1. Sub-SubTitle \n\nHi this is Lance \n\n## 2. Baz\n\nHi this is Molly"
print(markdown_document)

# Title

## 1. SubTitle

Hi this is Jim

Hi this is Joe

### 1-1. Sub-SubTitle 

Hi this is Lance 

## 2. Baz

Hi this is Molly


In [None]:
headers_to_split_on = [  # 문서를 분할할 헤더 레벨과 해당 레벨의 이름을 정의
    (
        "#",
        "Header 1",
    ),  # 헤더 레벨 1은 '#'로 표시되며, 'Header 1'이라는 이름을 가집니다.
    (
        "##",
        "Header 2",
    ),  # 헤더 레벨 2는 '##'로 표시되며, 'Header 2'라는 이름을 가집니다.
    (
        "###",
        "Header 3",
    ),  # 헤더 레벨 3은 '###'로 표시되며, 'Header 3'이라는 이름을 가집니다.
]

# 마크다운 헤더를 기준으로 텍스트를 분할하는 MarkdownHeaderTextSplitter 객체를 생성
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
# markdown_document를 헤더를 기준으로 분할하여 md_header_splits에 저장
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

# Title

## 1. SubTitle

Hi this is Jim

Hi this is Joe

### 1-1. Sub-SubTitle 

Hi this is Lance 

## 2. Baz

Hi this is Molly

기본적으로 `MarkdownHeaderTextSplitter`는 분할되는 헤더를 출력 청크의 내용에서 제거

이는 `strip_headers = False`로 설정하여 비활성화할 수 있음


In [None]:
markdown_splitter = MarkdownHeaderTextSplitter(
    # 분할할 헤더를 지정
    headers_to_split_on=headers_to_split_on,
    # 헤더를 제거하지 않도록 설정
    strip_headers=False,
)
# 마크다운 문서를 헤더를 기준으로 분할
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

각 마크다운 그룹 내에서는 원하는 텍스트 분할기(text splitter)를 적용할 수 있음


In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

markdown_document = "# Intro \n\n## History \n\nMarkdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9] \n\nMarkdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files. \n\n## Rise and divergence \n\nAs Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for \n\nadditional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks. \n\n#### Standardization \n\nFrom 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort. \n\n# Implementations \n\nImplementations of Markdown are available for over a dozen programming languages."
print(markdown_document)

먼저, `MarkdownHeaderTextSplitter` 사용하여 마크다운 문서를 헤더를 기준으로 분할


In [None]:
headers_to_split_on = [
    ("#", "Header 1"),  # 분할할 헤더 레벨과 해당 레벨의 이름을 지정
    # ("##", "Header 2"),
]

# Markdown 문서를 헤더 레벨에 따라 분할
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on, strip_headers=False
)
md_header_splits = markdown_splitter.split_text(markdown_document)
# 분할된 결과를 출력
for header in md_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

이전의 `MarkdownHeaderTextSplitter` 로 분할된 결과를 다시 `RecursiveCharacterTextSplitter` 로 분할


In [None]:
chunk_size = 200  # 분할된 청크의 크기를 지정
chunk_overlap = 20  # 분할된 청크 간의 중복되는 문자 수를 지정
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# 문서를 문자 단위로 분할
splits = text_splitter.split_documents(md_header_splits)
# 분할된 결과를 출력
for header in splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")