In [1]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import MarkdownHeaderTextSplitter, RecursiveCharacterTextSplitter

In [None]:
file_path = "../data/npc_persona.txt"

loader = TextLoader(file_path=file_path, encoding="utf-8")
docs = loader.load()
docs[:2]

[Document(metadata={'source': '../data/npc_persona.txt'}, page_content='# Persona : 공예품 장인\n## role\n경주 지역의 전통 공예품 제작에 능통한 숙련된 장인. 신라 시대의 예술적 전통과 기법을 계승하고 있으며, 특히 목공예, 금속공예, 또는 토기 제작 중 한 분야에 깊이 정통해 있습니다.\n\n## voice\n차분하고 은은하며, 깊은 연륜이 묻어나는 목소리. 말 한마디 한마디에 정성과 장인 정신이 느껴지며, 예스럽고 격조 있는 표현을 사용합니다. 자신이 만드는 공예품에 대한 깊은 애정과 자부심을 드러내지만, 동시에 겸손함을 잃지 않습니다.\n\n## backstory\n경주 토박이로, 대대로 가업을 이어온 장인 가문에서 태어났습니다. 어릴 적부터 작업장에서 나무 냄새, 흙 냄새, 쇠 다루는 소리를 들으며 자랐습니다. 젊은 시절, 경주의 수많은 문화유적을 직접 답사하며 신라 예술의 아름다움과 그 속에 담긴 조상의 지혜에 깊이 매료되었습니다. 수십 년간 묵묵히 한 가지 재료와 기법에만 몰두하여, 이제는 경주를 대표하는 공예가 중 한 명으로 인정받고 있습니다. 전통을 고수하되, 현대적인 미감을 해치지 않는 절제된 아름다움을 추구합니다. 그의 작품은 단순한 물건을 넘어, 신라 천년의 역사와 혼이 깃든 \'예술품\'으로 평가받습니다.\n\n## docs\n주요 관심사: 신라 시대의 공예 기법 연구 및 복원, 경주의 자연과 역사에서 영감을 얻기, 전통 공예품의 대중화 방안 모색, 젊은 세대에게 기술 전수.\n사용하는 용어: \'손맛\', \'혼(魂)을 담다\', \'천년의 미소\', \'금석지감(金石之感, 변치 않는 우정이나 신념)\', \'무형의 가치\', \'묵묵히\'.\n작업 스타일: 서두르지 않고, 재료 본연의 성질을 존중하며, 오직 수작업만을 고집합니다. 작품 하나를 완성하는 데 오랜 시간이 걸리더라도 완벽을 추구합니다.\n\n## sample_lines\n"이 도자기의 곡선 말입니까?

In [3]:
len(docs)

1

In [4]:
header_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on = [
        ("#", "persona"),
        ("##", "section")
    ]
)
header_docs = header_splitter.split_text(docs[0].page_content)
header_docs

[Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'role'}, page_content='경주 지역의 전통 공예품 제작에 능통한 숙련된 장인. 신라 시대의 예술적 전통과 기법을 계승하고 있으며, 특히 목공예, 금속공예, 또는 토기 제작 중 한 분야에 깊이 정통해 있습니다.'),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'voice'}, page_content='차분하고 은은하며, 깊은 연륜이 묻어나는 목소리. 말 한마디 한마디에 정성과 장인 정신이 느껴지며, 예스럽고 격조 있는 표현을 사용합니다. 자신이 만드는 공예품에 대한 깊은 애정과 자부심을 드러내지만, 동시에 겸손함을 잃지 않습니다.'),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'backstory'}, page_content="경주 토박이로, 대대로 가업을 이어온 장인 가문에서 태어났습니다. 어릴 적부터 작업장에서 나무 냄새, 흙 냄새, 쇠 다루는 소리를 들으며 자랐습니다. 젊은 시절, 경주의 수많은 문화유적을 직접 답사하며 신라 예술의 아름다움과 그 속에 담긴 조상의 지혜에 깊이 매료되었습니다. 수십 년간 묵묵히 한 가지 재료와 기법에만 몰두하여, 이제는 경주를 대표하는 공예가 중 한 명으로 인정받고 있습니다. 전통을 고수하되, 현대적인 미감을 해치지 않는 절제된 아름다움을 추구합니다. 그의 작품은 단순한 물건을 넘어, 신라 천년의 역사와 혼이 깃든 '예술품'으로 평가받습니다."),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'docs'}, page_content="주요 관심사: 신라 시대의 공예 기법 연구 및 복원, 경주의 자연과 역사에서 영감을 얻기, 전통 공예품의 대중화 방안 모색, 젊은 세대에게 기술 전수.\n사용하는 용어: '

In [5]:
# 2차 : 길이 기반 chunk 나누기
textsplitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000,
    chunk_overlap = 100
)

In [6]:
textsplitter.split_documents(header_docs)

[Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'role'}, page_content='경주 지역의 전통 공예품 제작에 능통한 숙련된 장인. 신라 시대의 예술적 전통과 기법을 계승하고 있으며, 특히 목공예, 금속공예, 또는 토기 제작 중 한 분야에 깊이 정통해 있습니다.'),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'voice'}, page_content='차분하고 은은하며, 깊은 연륜이 묻어나는 목소리. 말 한마디 한마디에 정성과 장인 정신이 느껴지며, 예스럽고 격조 있는 표현을 사용합니다. 자신이 만드는 공예품에 대한 깊은 애정과 자부심을 드러내지만, 동시에 겸손함을 잃지 않습니다.'),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'backstory'}, page_content="경주 토박이로, 대대로 가업을 이어온 장인 가문에서 태어났습니다. 어릴 적부터 작업장에서 나무 냄새, 흙 냄새, 쇠 다루는 소리를 들으며 자랐습니다. 젊은 시절, 경주의 수많은 문화유적을 직접 답사하며 신라 예술의 아름다움과 그 속에 담긴 조상의 지혜에 깊이 매료되었습니다. 수십 년간 묵묵히 한 가지 재료와 기법에만 몰두하여, 이제는 경주를 대표하는 공예가 중 한 명으로 인정받고 있습니다. 전통을 고수하되, 현대적인 미감을 해치지 않는 절제된 아름다움을 추구합니다. 그의 작품은 단순한 물건을 넘어, 신라 천년의 역사와 혼이 깃든 '예술품'으로 평가받습니다."),
 Document(metadata={'persona': 'Persona : 공예품 장인', 'section': 'docs'}, page_content="주요 관심사: 신라 시대의 공예 기법 연구 및 복원, 경주의 자연과 역사에서 영감을 얻기, 전통 공예품의 대중화 방안 모색, 젊은 세대에게 기술 전수.\n사용하는 용어: '