# HTMLHeaderTextSplitter

In [1]:
from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """
<!DOCTYPE html>
  <html lang='en'>
  <head>
    <meta charset='UTF-8'>
    <meta name='viewport' content='width=device-width, initial-scale=1.0'>
    <title>Fancy Example HTML Page</title>
  </head>
  <body>
    <h1>Main Title</h1>
    <p>This is an introductory paragraph with some basic content.</p>

    <h2>Section 1: Introduction</h2>
    <p>This section introduces the topic. Below is a list:</p>
    <ul>
      <li>First item</li>
      <li>Second item</li>
      <li>Third item with <strong>bold text</strong> and <a href='#'>a link</a></li>
    </ul>

    <h3>Subsection 1.1: Details</h3>
    <p>This subsection provides additional details. Here's a table:</p>
    <table border='1'>
      <thead>
        <tr>
          <th>Header 1</th>
          <th>Header 2</th>
          <th>Header 3</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Row 1, Cell 1</td>
          <td>Row 1, Cell 2</td>
          <td>Row 1, Cell 3</td>
        </tr>
        <tr>
          <td>Row 2, Cell 1</td>
          <td>Row 2, Cell 2</td>
          <td>Row 2, Cell 3</td>
        </tr>
      </tbody>
    </table>

    <h2>Section 2: Media Content</h2>
    <p>This section contains an image and a video:</p>
      <img src='example_image_link.mp4' alt='Example Image'>
      <video controls width='250' src='example_video_link.mp4' type='video/mp4'>
      Your browser does not support the video tag.
    </video>

    <h2>Section 3: Code Example</h2>
    <p>This section contains a code block:</p>
    <pre><code data-lang="html">
    &lt;div&gt;
      &lt;p&gt;This is a paragraph inside a div.&lt;/p&gt;
    &lt;/div&gt;
    </code></pre>

    <h2>Conclusion</h2>
    <p>This is the conclusion of the document.</p>
  </body>
  </html>
"""

In [2]:
headers_to_split_on = [
    ("h1", "Header 1"),  # 분할할 헤더 태그와 해당 헤더의 이름을 지정합니다.
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

In [3]:
# 지정된 헤더를 기준으로 HTML 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성합니다.
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

In [4]:
# HTML 문자열을 분할하여 결과를 html_header_splits 변수에 저장합니다.
html_header_splits = html_splitter.split_text(html_string)

In [5]:
# 분할된 결과를 출력합니다.
for header in html_header_splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

This is an introductory paragraph with some basic content.
{'Header 1': 'Main Title'}
This section introduces the topic. Below is a list:  
First item Second item Third item with bold text and a link
{'Header 1': 'Main Title', 'Header 2': 'Section 1: Introduction'}
This subsection provides additional details. Here's a table:
{'Header 1': 'Main Title', 'Header 2': 'Section 1: Introduction', 'Header 3': 'Subsection 1.1: Details'}
This section contains an image and a video:
{'Header 1': 'Main Title', 'Header 2': 'Section 2: Media Content'}
This section contains a code block:
{'Header 1': 'Main Title', 'Header 2': 'Section 3: Code Example'}
This is the conclusion of the document.
{'Header 1': 'Main Title', 'Header 2': 'Conclusion'}


# WEP URL 연결

In [6]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

url = "https://plato.stanford.edu/entries/goedel/"  # 분할할 텍스트의 URL을 지정합니다.

headers_to_split_on = [  # 분할할 HTML 헤더 태그와 해당 헤더의 이름을 지정합니다.
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
]

# HTML 헤더를 기준으로 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성합니다.
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# URL에서 텍스트를 가져와 HTML 헤더를 기준으로 분할합니다.
html_header_splits = html_splitter.split_text_from_url(url)

chunk_size = 500  # 텍스트를 분할할 청크의 크기를 지정합니다.
chunk_overlap = 30  # 분할된 청크 간의 중복되는 문자 수를 지정합니다.
text_splitter = RecursiveCharacterTextSplitter(  # 텍스트를 재귀적으로 분할하는 RecursiveCharacterTextSplitter 객체를 생성합니다.
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

In [7]:
# HTML 헤더로 분할된 텍스트를 다시 청크 크기에 맞게 분할합니다.
splits = text_splitter.split_documents(html_header_splits)

In [8]:
# 분할된 텍스트 중 80번째부터 85번째까지의 청크를 출력합니다.
for header in splits[80:85]:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")

We see that Gödel first tried to reduce the consistency problem for analysis to that of arithmetic. This seemed to require a truth definition for arithmetic, which in turn led to paradoxes, such as the Liar paradox (“This sentence is false”) and Berry’s paradox (“The least number not defined by an expression consisting of just fourteen English words”). Gödel then noticed that such paradoxes would not necessarily arise if truth were replaced by provability. But this means that arithmetic truth
{'Header 1': 'Kurt Gödel', 'Header 2': '2. Gödel’s Mathematical Work', 'Header 3': '2.2 The Incompleteness Theorems', 'Header 4': '2.2.1 The First Incompleteness Theorem'}
means that arithmetic truth and arithmetic provability are not co-extensive — whence the First Incompleteness Theorem.
{'Header 1': 'Kurt Gödel', 'Header 2': '2. Gödel’s Mathematical Work', 'Header 3': '2.2 The Incompleteness Theorems', 'Header 4': '2.2.1 The First Incompleteness Theorem'}
This account of Gödel’s discovery was t

In [13]:
with open('/content/이력서.html') as f:
  file = f.read()

file

'<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><title>데이터 이력서 템플릿 2</title><style>\n/* cspell:disable-file */\n/* webkit printing magic: print all background colors */\nhtml {\n\t-webkit-print-color-adjust: exact;\n}\n* {\n\tbox-sizing: border-box;\n\t-webkit-print-color-adjust: exact;\n}\n\nhtml,\nbody {\n\tmargin: 0;\n\tpadding: 0;\n}\n@media only screen {\n\tbody {\n\t\tmargin: 2em auto;\n\t\tmax-width: 900px;\n\t\tcolor: rgb(55, 53, 47);\n\t}\n}\n\nbody {\n\tline-height: 1.5;\n\twhite-space: pre-wrap;\n}\n\na,\na.visited {\n\tcolor: inherit;\n\ttext-decoration: underline;\n}\n\n.pdf-relative-link-path {\n\tfont-size: 80%;\n\tcolor: #444;\n}\n\nh1,\nh2,\nh3 {\n\tletter-spacing: -0.01em;\n\tline-height: 1.2;\n\tfont-weight: 600;\n\tmargin-bottom: 0;\n}\n\n.page-title {\n\tfont-size: 2.5rem;\n\tfont-weight: 700;\n\tmargin-top: 0;\n\tmargin-bottom: 0.75em;\n}\n\nh1 {\n\tfont-size: 1.875rem;\n\tmargin-top: 1.875rem;\n}\n\nh2 {\n\tfont-size: 1.5rem;\n\tm

In [14]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

headers_to_split_on = [  # 분할할 HTML 헤더 태그와 해당 헤더의 이름을 지정합니다.
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

# HTML 헤더를 기준으로 텍스트를 분할하는 HTMLHeaderTextSplitter 객체를 생성합니다.
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# URL에서 텍스트를 가져와 HTML 헤더를 기준으로 분할합니다.
html_header_splits = html_splitter.split_text(file)

chunk_size = 500  # 텍스트를 분할할 청크의 크기를 지정합니다.
chunk_overlap = 30  # 분할된 청크 간의 중복되는 문자 수를 지정합니다.
text_splitter = RecursiveCharacterTextSplitter(  # 텍스트를 재귀적으로 분할하는 RecursiveCharacterTextSplitter 객체를 생성합니다.
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

In [15]:
# HTML 헤더로 분할된 텍스트를 다시 청크 크기에 맞게 분할합니다.
splits = text_splitter.split_documents(html_header_splits)

In [21]:
output = []
for header in splits:
    print(f"{header.page_content}")
    print(f"{header.metadata}", end="\n=====================\n")
    content = f"{header.page_content}"
    metadata = f"{header.metadata}"
    output.append(f"{content}\n{metadata}\n")

# 파일로 저장
with open("sub/result/htmlheadertextsplittet_result.txt", "w", encoding="utf-8") as file:
    file.write("\n".join(output))

print("결과물이 sub\result\htmlheadertextsplittet_result.txt에 저장되었습니다.")

이력서 템플릿 무료 버전 2  
순서 (Table of Contents)  
프로필 (Profile)  
프로필 (Profile)  
약력 (About Me)  
직무 및 이력 (Experiences)  
보유 스킬 (Skill)  
프로젝트 (Project)  
학력 (Education)  
전주 대학교  
학위  
소셜 미디어 & 블로그 (Social & Blog)  
커피챗 (Coffee Chat)  
[준비 중] 템플릿을 pdf 형태로 바꾸는 법→  
프로필 (Profile)프로필 사진  
프로필 (Profile)
{'Header 1': '데이터 이력서 템플릿 2'}
[프로필]을 작성할 때 다음과 같은 사항을 고려하여 작성해주세요.  
- 한 줄 소개는 보는 사람이 다음 내용을 궁금하게 하는 첫번째 후킹(Hooking) 포인트입니다. - 한 줄 소개 파트 뒤에 등장하는 경력과 학력, 프로젝트는 모두 뒷받침하는 내용이 되어야 합니다.[00]에 경험을 가진 [0]년차 [직무 타이틀]입니다.예시) 태블로 대시보드 제작 경험이 있는 3년차 데이터 분석가입니다.  
연락처  
010-4903-7391  
이메일  
joyospe339@naver.com  
포트폴리오  
없음
{'Header 1': '데이터 이력서 템플릿 2', 'Header 2': '프로필 (Profile)'}
약력 (About Me)
{'Header 1': '데이터 이력서 템플릿 2'}
[약력]를 작성할 때 다음과 같은 사항을 고려하여 작성해주세요.  
- 간략하고 명확하게 자신을 ‘관련 직무 경험자’로 소개하세요.- 직무와 관련된 특별한 역량이나 경험 ‘키워드’를 강조하세요.- 관련된 직무의 특별한 ‘도메인’과 ‘스킬’을 동시에 언급하는 것이 중요합니다.  
예시) 물류 데이터 분석 및 시각화에 대한 경험을 가진 데이터 분석가입니다. 각 지역별 물류 최적화에 대한 비즈니스 인사이트를 태블로(Tablaeu)로 제공한 경험을 보유하고 있습니다.
{'Header 1': '데이터 이력서 템플릿 2'