### **HTMLHeaderTextSplitter란?**  

`HTMLHeaderTextSplitter`는 HTML 문서를 요소 수준에서 분할하고, 각 헤더에 대한 메타데이터를 추가하는 **구조 인식 청크 생성기**임. 문서의 구조를 유지하면서 의미 있는 단위로 나누는 것이 목적임.  

---

### **🧐 왜 필요할까?**  

✔ **관련된 텍스트 그룹화** – 의미론적으로 유사한 내용을 하나의 청크로 묶음.  
✔ **문서 구조 유지** – HTML의 계층적 정보를 보존하여 문맥을 유지함.  
✔ **검색 및 분석 최적화** – 메타데이터를 활용하여 문서 탐색을 효율적으로 수행함.  

---

### **🔍 어떻게 작동할까?**  

1️⃣ **헤더 요소(`<h1>`, `<h2>` 등)를 기준으로 텍스트 분할**  
2️⃣ **각 헤더 아래 내용을 하나의 청크로 구성**  
3️⃣ **메타데이터를 추가하여 문맥 정보 유지**  

예를 들어, 아래와 같은 HTML이 있다면:  

```html
<h1>개요</h1>
<p>HTML 문서를 분할하는 방법을 설명함.</p>

<h2>기본 원리</h2>
<p>헤더 태그를 기준으로 텍스트를 분리함.</p>
```

📌 **HTMLHeaderTextSplitter를 사용하면 다음과 같이 분할됨.**  

1️⃣ **개요** → "HTML 문서를 분할하는 방법을 설명함."  
2️⃣ **기본 원리** → "헤더 태그를 기준으로 텍스트를 분리함."  

---

### **🛠 어디에 활용할 수 있을까?**  

✅ **웹 문서 검색 및 분석** – 문서 구조를 유지하며 검색 효율성을 높임.  
✅ **AI 기반 요약** – 헤더 단위로 내용을 나누어 분석하는 데 유용함.  
✅ **지식 관리 시스템** – HTML 문서를 체계적으로 정리하는 데 도움을 줌.  

---

### **🎯 한 줄 요약**  

**HTMLHeaderTextSplitter**는 HTML 문서를 **헤더 단위로 나누고 메타데이터를 추가하는 도구**임. 문서의 구조를 유지하면서도 검색·분석·관리할 수 있도록 도움을 줌. 🚀

In [None]:
from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>헤더1</h1>
        <p>헤더1 에 포함된 본문</p>
        <div>
            <h2>헤더2-1 제목</h2>
            <p>헤더2-1 에 포함된 본문</p>
            <h3>헤더3-1 제목</h3>
            <p>헤더3-1 에 포함된 본문</p>
            <h3>헤더3-2 제목</h3>
            <p>헤더3-2 에 포함된 본문</p>
        </div>
        <div>
            <h2>헤더2-2 제목2</h2>
            <p>헤더2-2 에 포함된 본문</p>
        </div>
        <br>
        <p>마지막 내용</p>
    </div>
</body>
</html>
"""

headers_to_split_on = [
    ("h1", "Header 1"),  # 분할할 헤더 태그와 해당 헤더의 이름을 지정함
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

# 지정된 헤더를 기준으로 HTML 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성함
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
# HTML 문자열을 분할하여 결과를 html_header_splits 변수에 저장함
html_header_splits = html_splitter.split_text(html_string)
# 분할된 결과를 출력함
for header in html_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

## 다른 splitter와 파이프라인으로 연결하고, 웹 URL에서 HTML을 로드하는 경우

이 예시에서는 웹 URL로부터 HTML 콘텐츠를 로드한 후, 이를 다른 splitter와 파이프라인으로 연결하여 처리하는 과정


In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

url = "https://plato.stanford.edu/entries/goedel/"  # 분할할 텍스트의 URL을 지정함

headers_to_split_on = [  # 분할할 HTML 헤더 태그와 해당 헤더의 이름을 지정함
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
]

# HTML 헤더를 기준으로 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성함
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# URL에서 텍스트를 가져와 HTML 헤더를 기준으로 분할함
html_header_splits = html_splitter.split_text_from_url(url)

chunk_size = 500  # 텍스트를 분할할 청크의 크기를 지정함
chunk_overlap = 30  # 분할된 청크 간의 중복되는 문자 수를 지정함
text_splitter = RecursiveCharacterTextSplitter(  # 텍스트를 재귀적으로 분할하는 RecursiveCharacterTextSplitter 객체를 생성함
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# HTML 헤더로 분할된 텍스트를 다시 청크 크기에 맞게 분할함
splits = text_splitter.split_documents(html_header_splits)

# 분할된 텍스트 중 80번째부터 85번째까지의 청크를 출력함
for header in splits[80:85]:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

## 한계

HTMLHeaderTextSplitter는 HTML 문서 간의 구조적 차이를 처리하려고 시도하지만, 때로는 특정 헤더를 누락할 수 있음

예를 들어, 이 알고리즘은 헤더가 항상 관련 텍스트보다 "위"에 있는 노드, 즉 이전 형제 노드, 조상 노드 및 이들의 조합에 위치한다고 가정함

다음 뉴스 기사(이 문서 작성 시점 기준)에서는 최상위 헤드라인의 텍스트가 "h1"으로 태그되어 있지만, 우리가 예상하는 텍스트 요소와는 **별개의 하위 트리** 에 있는 것을 볼 수 있음

따라서 "h1" 요소와 관련 텍스트는 청크 메타데이터에 나타나지 않지만, 해당되는 경우 "h2"와 관련 텍스트는 볼 수 있음


In [None]:
# 분할할 HTML 페이지의 URL을 지정함
url = "https://www.cnn.com/2023/09/25/weather/el-nino-winter-us-climate/index.html"

headers_to_split_on = [
    ("h1", "Header 1"),  # 분할할 헤더 태그와 해당 헤더의 이름을 지정함
    ("h2", "Header 2"),  # 분할할 헤더 태그와 해당 헤더의 이름을 지정함
]

# 지정된 헤더를 기준으로 HTML 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성함
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# 지정된 URL의 HTML 페이지를 분할하여 결과를 html_header_splits 변수에 저장함
html_header_splits = html_splitter.split_text_from_url(url)

# 분할된 결과를 출력함
for header in html_header_splits:
    print(f"{header.page_content[:100]}")
    print(f"{header.metadata}", end="\n=====================\n")