In [1]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [
    ("#", "title"),    
    ("##", "chapter"),    
    ("###", "section"),   
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

In [None]:
from dotenv import load_dotenv
from langchain_pinecone import PineconeVectorStore
from langchain_openai import OpenAIEmbeddings

load_dotenv()
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
index_name = "inhouse-python-index"

vector_store = PineconeVectorStore(
    index_name=index_name,
    embedding=embeddings,
)

  from .autonotebook import tqdm as notebook_tqdm


In [7]:
import os
input_dir = './output'

for filename in os.listdir(input_dir):
    if filename.endswith('.md'):
        md_path = os.path.join(input_dir, filename)
        with open(md_path, 'r', encoding='utf-8') as f:
            markdown_text = f.read()
            
        docs = markdown_splitter.split_text(markdown_text)
        for doc in docs:
            doc.metadata['source'] = filename.replace('.md', '')
            print(doc)
    vector_store.add_documents(docs)
        
        

page_content='- **A:** 연차 휴가는 본인 승인을 통해 자유롭게 사용할 수 있으며, 사내 HR 시스템에서 신청 가능합니다.' metadata={'title': '직원 복리후생 및 복지 FAQ', 'chapter': '1. 연차 유급 휴가 관련', 'section': 'Q1: 연차 휴가는 어떻게 사용하나요?', 'source': 'employee_benefits_and_welfare_faq'}
page_content='- **A:** 근속 연수에 따라 차등 지급되며, 1년 미만은 월 1일, 1~3년은 15일, 10년 이상은 20일입니다.' metadata={'title': '직원 복리후생 및 복지 FAQ', 'chapter': '1. 연차 유급 휴가 관련', 'section': 'Q2: 연차는 어떻게 계산되나요?', 'source': 'employee_benefits_and_welfare_faq'}
page_content='- **A:** 연차는 해당 연도에 사용해야 하며, 이월은 불가합니다.  
---' metadata={'title': '직원 복리후생 및 복지 FAQ', 'chapter': '1. 연차 유급 휴가 관련', 'section': 'Q3: 미사용 연차는 어떻게 처리되나요?', 'source': 'employee_benefits_and_welfare_faq'}
page_content='- **A:** 출산 예정일 전후로 자유롭게 사용할 수 있으며, 최대 20일 유급으로 제공됩니다.' metadata={'title': '직원 복리후생 및 복지 FAQ', 'chapter': '2. 출산 및 육아 휴가 관련', 'section': 'Q4: 출산 휴가는 언제부터 사용할 수 있나요?', 'source': 'employee_benefits_and_welfare_faq'}
page_content='- **A:** 모든 직원이 신청할 수 있으며, 최대 1년까지 사용할 수 있으며, 첫 3개월은 급여의 50%가 지급됩니다.  
---' metadata

In [8]:
retriever = vector_store.as_retriever()

In [10]:
retriever.invoke("본인 결혼식 경조휴가는 얼마인가요?")

[Document(id='b9667743-913f-4410-998b-c0057fb10ef9', metadata={'chapter': '제 7조 (경조 휴가)', 'source': 'employee_benefits_and_welfare_guide', 'title': '직원 복리후생 및 복지 가이드'}, page_content='- 다음의 경조사 사유에 대해 휴가를 부여한다:  \n| 경조 사유      | 휴가 일수 |\n| -------------- | --------- |\n| 본인 결혼      | 5일       |\n| 자녀 결혼      | 2일       |\n| 부모 사망      | 5일       |\n| 배우자 사망    | 7일       |\n| 조부모 사망    | 3일       |\n| 자녀 출생      | 3일       |\n| 본인 생일      | 1일       |\n| 결혼 기념일    | 1일       |'),
 Document(id='2d154525-7dfd-4519-a991-f37cdbf520fa', metadata={'chapter': '3. 경조 휴가 및 지원', 'section': 'Q6: 경조 휴가는 어떤 경우에 사용할 수 있나요?', 'source': 'employee_benefits_and_welfare_faq', 'title': '직원 복리후생 및 복지 FAQ'}, page_content='- **A:** 본인 결혼, 자녀 출생, 부모/배우자 사망 등 경조사 사유에 따라 휴가가 부여됩니다.'),
 Document(id='56dd7b7d-8415-4361-b277-8a0abc82dc5e', metadata={'chapter': '제 10조 (온라인 교육 플랫폼 지원)', 'section': '제 6장 경조사 지원', 'source': 'employee_benefits_and_welfare_guide', 'title': '제 4장 교육 지원'}, page_content='#### 제 13조 (경조사 지원금