# 메타데이터 추출: 더 나은 문서 색인화 및 이해를 위한 메타데이터 실행


많은 경우, 특히 긴 문서의 경우 텍스트 덩어리에는 다른 유사한 텍스트 덩어리와 해당 덩어리를 구분하는 데 필요한 컨텍스트가 부족할 수 있습니다.    
이 문제를 해결하는 한 가지 방법은 데이터 세트 또는 지식 기반의 각 청크에 수동으로 레이블을 지정하는 것입니다.   
그러나 문서 수가 많거나 지속적으로 업데이트되는 문서 세트의 경우 이는 노동 집약적이고 시간 소모적일 수 있습니다.

이 문제를 해결하기 위해 우리는 LLM을 사용하여외부검색 및 언어 모델이 유사해 보이는 구절을 명확하게 구분하는 데 도움이 되도록 문서와 관련된 특정 문맥 정보를 작동합니다.

In [2]:
import nest_asyncio
nest_asyncio.apply()

from dotenv import load_dotenv
load_dotenv()

True

In [3]:
from llama_index.core import SimpleDirectoryReader
from llama_index.readers.file import PyMuPDFReader


root_path = "../../../Documents"
visa_pdf_file_path = f"{root_path}/E-9 Visa Guide_한국어.pdf"

visa_docs = PyMuPDFReader().load_data(file_path=visa_pdf_file_path, metadata=True)

In [4]:
len(visa_docs)

21

In [5]:
for doc in visa_docs:
    print(doc.metadata)
    print(doc.text[:50] + "\n\n\n")

{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '1'}
E-9 Visa Guide - 한국어
고용허가제
고용허가제해당자와활동범위
고용허가제해당자의



{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '2'}
고용허가제
●
｢외국인근로자의고용등에관한법률｣에의거, 사업주에게외국인근로자의
고용을허가하고



{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '3'}
고용허가제해당자와활동범위
●
활동범위
○
외국인근로자의고용등에관한법률의규정에의한국내취업
●



{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '4'}
고용허가제해당자의사증발급후1회체류기간의상한
●
3년




{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '5'}
고용허가제해당자의사증발급허용업종및체류자격약호(기호): E-9 근로자를채용할수있는
업종과범위



{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '6'}
고용허가제해당자는사증발급인정서를받아야만E-9 사증을
발급받을수있음
●
비전문취업(E-9) 



{'total_pages': 21, 'file_path': '../../../Documents/E-9 Visa Guide_한국어.pdf', 'source': '7'}
고용허가제해당자는2012.8.1부터범죄경력증명서및
건강상태확인서제출
●
범죄경력확인

#### Metadata: document_title 지정하기

In [6]:
visa_docs[0].metadata["document_title"] = "E-9 Visa Guide: 목차"
visa_docs[1].metadata["document_title"] = "고용허가제 법률적 개요와 고용허가제 선정국가"
visa_docs[2].metadata["document_title"] = "고용허가제 해당자와 활동범위"
visa_docs[3].metadata["document_title"] = "고용허가제 해당자의 사증발급 후 1회 체류기간의 상한"
visa_docs[4].metadata["document_title"] = "고용허가제 해당자의 사증발급 허용업종 및 체류자격 약호(기호): E-9 근로자를 채용할 수 있는 업종과 범위"
visa_docs[5].metadata["document_title"] = "고용허가제 해당자는 사증발급인정서를 받아야만 E-9 사증을 발급받을 수 있음"
visa_docs[6].metadata["document_title"] = "고용허가제 해당자는 2012.8.1부터 범죄경력증명서 및 건강상태확인서 제출"
visa_docs[7].metadata["document_title"] = "고용허가제 비전문취업(E-9) 자격 사증발급인정서 발급 절차"
visa_docs[8].metadata["document_title"] = "고용허가제 해당자의 재입국특례 제도(구 성실근로자 제도)"
visa_docs[9].metadata["document_title"] = "재입국특례자에 대한 사증 신청 및 발급 방법"
visa_docs[10].metadata["document_title"] = "고용허가제 해당자의 재입국특례자에 대한 우대 내용"
visa_docs[11].metadata["document_title"] = "고용허가제 해당자의 체류자격 외 활동"
visa_docs[12].metadata["document_title"] = "고용허가제 해당자의 근무처(직장)의 변경"
visa_docs[13].metadata["document_title"] = "고용허가제 해당자가 근무처(직장)를 변경할 수 있는 조건"
visa_docs[14].metadata["document_title"] = "고용허가제 해당자가 근무처(직장)를 변경하는 절차 및 제출 서류"
visa_docs[15].metadata["document_title"] = "고용허가제 농업 분야 외국인근로자의 근무처(직장) 추가"
visa_docs[16].metadata["document_title"] = "고용허가제 해당자의 체류자격 변경허가 - 사증 변경"
visa_docs[17].metadata["document_title"] = "고용허가제 해당자의 체류기간 연장 허가 - 사증 연장"
visa_docs[18].metadata["document_title"] = "고용허가제 해당자의 재입국허가"
visa_docs[19].metadata["document_title"] = "고용허가제 해당자의 외국인등록"
visa_docs[20].metadata["document_title"] = "고용허가제 해당자의 고용변동 신고"

In [7]:
from llama_index.core.extractors import (
    SummaryExtractor,
    QuestionsAnsweredExtractor,
    TitleExtractor,
    KeywordExtractor,
)
from llama_index.core.ingestion import IngestionPipeline

In [8]:
from llama_index.llms.openai import OpenAI

llm = OpenAI(model="gpt-4-0613")

#### Extraction Metadata

1. Question

2. Summary
3. Keyword

In [9]:
qna_template = """\
Here is the context:
{context_str}

Given the contextual information, \
generate {num_questions} questions this context can provide \
specific answers to which are unlikely to be found elsewhere.

Higher-level summaries of surrounding context may be provided \
as well. Try using these summaries to generate better questions \
that this context can answer.

You MUST response in Korean.
"""

summary_template = """\
Here is the content of the section:
{context_str}

Summarize the key topics and entities of the section. \
You MUST response in Korean.

Summary:"""

transformations = [
    # TitleExtractor(
    #     nodes=1, 
    #     node_template=DEFAULT_TITLE_NODE_TEMPLATE, 
    #     combine_template=DEFAULT_TITLE_COMBINE_TEMPLATE, 
    #     llm=llm
    # ),
    QuestionsAnsweredExtractor(questions=2, llm=llm, prompt_template=qna_template),
    SummaryExtractor(summaries=["prev", "self"], llm=llm, prompt_template=summary_template),
    KeywordExtractor(keywords=5, llm=llm),
]

pipeline = IngestionPipeline(transformations=transformations)

documents = pipeline.run(documents=visa_docs[:2])

  0%|          | 0/2 [00:00<?, ?it/s]

100%|██████████| 2/2 [00:04<00:00,  2.50s/it]
100%|██████████| 2/2 [00:19<00:00,  9.72s/it]
100%|██████████| 2/2 [00:03<00:00,  1.53s/it]


In [23]:
for doc in documents:
    print(f"Questions:\n{doc.metadata['questions_this_excerpt_can_answer']}")
    print()
    print(f"Keywords: {doc.metadata['excerpt_keywords']}")
    print()
    print(f"Summary: {doc.metadata['section_summary']}")
    print("--------------------------------------------------------------------------")

Questions:
1. E-9 비자를 발급받기 위해 고용허가제 해당자가 제출해야 하는 서류는 무엇인가요?
2. 고용허가제 해당자가 근무처를 변경하려면 어떤 절차를 거쳐야 하고, 어떤 서류를 제출해야 하나요?

Keywords: E-9 비자, 고용허가제, 사증 발급, 근무처 변경, 체류 자격 변경

Summary: 이 문서는 E-9 비자 가이드에 대한 내용을 담고 있습니다. 고용허가제 해당자와 그들의 활동 범위, 사증 발급 후 체류 기간, 허용 업종 및 체류 자격, 사증 발급 인정서 발급 절차 등에 대해 설명하고 있습니다. 또한, 고용허가제 해당자가 범죄 경력 증명서와 건강 상태 확인서를 제출해야 하는 점, 비전문 취업(E-9) 자격 사증 발급 인정서 발급 절차, 재입국 특례 제도, 사증 신청 및 발급 방법, 우대 내용 등에 대해 다루고 있습니다. 그 외에도 근무처 변경에 대한 조건과 절차, 농업 분야 외국인 근로자의 근무처 추가, 체류 자격 변경 허가, 체류 기간 연장 허가, 재입국 허가, 외국인 등록, 고용 변동 신고 등에 대한 정보도 포함하고 있습니다.
--------------------------------------------------------------------------
Questions:
1. 고용허가제에 따라 외국인 근로자가 한국에서 최장으로 취업할 수 있는 기간은 얼마인가요?
2. 고용허가제 선정국가는 총 몇 개국이며, 그 중 몇 개의 국가를 예시로 들 수 있나요?

Keywords: 고용허가제, 외국인 근로자, 최장 취업 기간, MOU, 선정국가

Summary: 이 문서는 한국의 고용허가제에 대해 설명하고 있습니다. 고용허가제는 외국인 근로자의 고용을 허가하는 인력제도로, 사업주에게 외국인 근로자의 고용을 허가하고, 외국인 근로자에게는 해당 사업주에게 고용되는 조건으로 최장 4년 10개월간 취업을 허용합니다. 이 제도는 2004년 8월부터 시행되어 왔으며, 현재까지 16개국과 MOU를 체결하였습니다. 고용허가제 선정국가로는 태국, 