## 랭체인(LangChain) MultiVector Retriever
### Reference : https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/multi_vector/

- **문서당 여러 벡터를 저장하는 것**은 종종 유익할 수 있습니다. 
- LangChain에는 이러한 설정을 쉽게 쿼리할 수 있는 기본 **MultiVectorRetriever**가 있습니다. 
- 문서당 여러 벡터를 생성하는 방법에는 여러가지 복잡성들이 존재합니다. 
- 이러한 벡터를 생성하고 MultiVectorRetriever를 사용하는 일반적인 방법입니다.








문서당 여러 벡터를 생성하는 방법에는 일반적으로 아래 3가지가 있습니다.

1. **더 작은 청크(Smaller chunks)**: 문서를 더 작은 청크로 나누고, 그것들을 임베딩합니다 (이것은 ParentDocumentRetriever입니다).
2. **요약(Summary)**: 각 문서에 대한 요약을 생성하고, 그것을 문서와 함께(또는 문서 대신) 임베딩합니다.
3. **가상 질문(Hypothetical questions)**: 각 문서가 적절하게 답변할 수 있는 가상 질문(hypothetical questions)을 생성하고, 그것들을 문서와 함께(또는 문서 대신) 임베딩합니다.


# LangChain 라이브러리 설치

In [74]:
%pip install langchain openai chromadb tiktoken pypdf unstructured sentence-transformers langchain-openai langchain_chroma

Note: you may need to restart the kernel to use updated packages.


# OpenAI API Key 설정

In [92]:
from config import OPENAI_API_KEY
OPENAI_KEY = OPENAI_API_KEY
print(OPENAI_KEY)

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


In [93]:
%pip install langchain-community --upgrade

Note: you may need to restart the kernel to use updated packages.


In [77]:
from langchain_community.document_loaders import PyPDFLoader

In [78]:
from langchain.retrievers.multi_vector import MultiVectorRetriever

In [79]:
from langchain.storage import InMemoryByteStore
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [94]:
loaders = [
    PyPDFLoader("https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf")
]
docs = []
for loader in loaders:
    docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
docs = text_splitter.split_documents(docs)

In [81]:
docs

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative Income \nHypothesis)에 의하면, 부부가 충분한 자원을 가지고 있지 못한 경\n우 출산을 주저하게 되는데, 기대되는 상대적인 소득과 자원에 따라 \n출산율은 0명까지 감소할 가능성을 배제할 수 없다. 베커의 신가정경\n제출산력모형(New Home Economics Model of Fertility)에 따르면, \n자녀에 대한 만족은 자녀의 수가 아닌 자녀의 질을 통해 추구하는데 \n자녀  양육에는 보다 많은 시간 투입이 요구된다. 인적자본이 중시되\n는 현대사회에서 개인은 시간가치를 증가시키기 위해 자녀 양육보다 \n시간이 덜 소요되는 것들을 선호하게 된다. \n한국 초저출산의 원인구조\n한국에서 재생산 위기는 ‘결혼’에서부터 시작된다. 한국은 세계 경제 \n10위권, IT(Information Technology) 강국 등으로

In [82]:
len(docs)

5

# Smaller chunks
![image.png](attachment:image.png)
- 전체 PDF 
- 부모 청크 10000글자 * 5개
- 자식 청크 400글자 * 47개

종종 **더 큰 정보 청크를 검색하되, 더 작은 청크를 임베딩하는 것이 유용**할 수 있습니다.
이렇게 하면 임베딩이 의미(Semantic meaning)를 가능한 한 정확하게 포착할 수 있지만, 가능한 많은 컨텍스트를 하위 처리 단계로 전달할 수 있습니다. 
이것이 바로 ParentDocumentRetriever가 하는 일입니다. 

In [95]:
# 자식 청크를 인덱싱하는 데 사용할 벡터 스토어
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings(openai_api_key=OPENAI_KEY)
)
# 부모 문서의 저장 계층
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)

Doc ID 5개 생성(매핑용)

In [96]:
import uuid

doc_ids = [str(uuid.uuid4()) for _ in docs]
doc_ids

['3872804c-aa5f-4331-a324-364cc38f2974',
 '524ee2bd-bd52-45ce-a538-85091253270d',
 'f16710d9-cbe8-471d-bba3-5a5da2bfd0da',
 'aadf7257-8ab7-42a1-bee6-82d7b10608ad',
 '855304aa-9517-4f4d-86c5-f02a68331247']

In [97]:
# The splitter to use to create smaller chunks
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

In [98]:
sub_docs = []
for i, doc in enumerate(docs):
    _id = doc_ids[i]
    _sub_docs = child_text_splitter.split_documents([doc])
    for _doc in _sub_docs:
        _doc.metadata[id_key] = _id # 매핑용
    sub_docs.extend(_sub_docs)

In [99]:
sub_docs

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0, 'doc_id': '3872804c-aa5f-4331-a324-364cc38f2974'}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으'),
 Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0, 'doc_id': '3872804c-aa5f-4331-a324-364cc38f2974'}, page_content='으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative I

In [88]:
len(sub_docs)

47

In [100]:
print(OPENAI_API_KEY)
retriever.vectorstore.add_documents(sub_docs) # 47개의 청크
retriever.docstore.mset(list(zip(doc_ids, docs))) # 5개의 청크와 doc_ids값까지 같이 매칭

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


In [102]:
# 벡터스토어 단독으로 자식 청크를 검색합니다
retriever.vectorstore.similarity_search("한국 저출산의 원인이 뭐야?")[0]

Document(metadata={'doc_id': '524ee2bd-bd52-45ce-a538-85091253270d', 'page': 1, 'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf'}, page_content='야 한다. 사실 한국 사회에서 만연하는 저출산 원인들은 다소 차이가 \n있을지라도 OECD 국가나 동유럽 국가들 일부도 직면하고 있다. 그\n럼에도 불구하고, 유독 한국 사회에서 합계출산율이 0명대로 치닫고 \n있는 점은 직접적인 저출산 원인들 이외의 요소가 작동하고 있는 것\n으로 설명할 수 있다. 대표적으로 단기간에 이룩하였던 고도 경제성\n장의 후유증으로 삶의 목표가 성공이나 물질적인 것을 추구하는 데 \n집중되었으며, 이를 위해 어린 시절부터 무한 경쟁사회 속에서 살아\n가면서 여유 없이 쫓기고 있다. 이로 인해 자녀 양육은 무한 경쟁의 \n연속선상에서 막대한 비용을 들여야 한다는 강박관념 때문에 행복보\n다는 부담으로 인식되고 있다. 따라서 노동 개혁을 통해 그간 관행으')

In [104]:
# 리트리버는 더 부모 청크를 반환합니다
larger_chunks = retriever.invoke("한국 저출산의 원인이 뭐야?")[0].page_content
larger_chunks

'세계를 잇다, 미래를 빚다!\n2\n전통적인 가부장적 유교문화의 영향이 지속되고 있어 법률에 따르지 \n않는 가족 형성은 인정되지 않고 있다. 따라서 출산은 법률혼을 전제\n로 발생한다. 그런데 한국 사회에서 결혼은 각종 조건을 충족시킬 때 \n가능하다. 학력, 학벌, 안정적 직장, 주거 등이 갖추어져야 결혼을 할 \n수 있고, 결혼 후에도 안정적인 가족생활이 가능하다. 그만큼 청년들\n은 ‘출산’에 앞서 ‘결혼’의 어려움을 직면하고 있다. 결혼의 관문을 통\n과하기 어려워지면서 만혼 경향이 증가하고, 결혼 자체를 기피하는 \n비혼도 증가하고 있다. \n과거와 달리 결혼과 출산 간 연계도 점차 약화되고 있다. 결혼이 반\n드시 출산으로 이어지지 않고 있는 것이다. 딩크족(Double Income \nNot Kids)과 같이 결혼생활이 자녀 중심에서 부부 중심으로 변화하\n는 경향도 있지만, 무엇보다도 자녀 양육에 비용이 발생하여 큰 부담\n으로 인식되고 있기 때문이다. 자녀 양육 비용은 의료·보육·(사)교육 \n등에 관한 서비스를 구매하기 위한 경제적 비용, 돌봄, 일-가정 양립 \n등을 위한 시간 비용, 출산·양육으로 인한 고용 등에서 기회비용 등\n을 포함한다. 이러한 미시적인 원인들은 개인 또는 부부가 출산을 결\n정하는 데 직접적인 영향을 미친다. 출산은 미시적인 원인들 뿐 아니\n라 거시적인 사회구조에 의해서도 영향을 받는다. 일자리 부족과 고\n용 불안정, 높은 주거비용, 과도한 교육 경쟁(학력주의와 학벌주의 만\n연), 양성 불평등, 사회규범 및 가치관의 변화 등이 출산에 영향을 미\n치는 거시적인 요소들이다. 미시적인 요인들 대부분 거시적 요인들\n에 의해 영향을 받는다. 예를 들어, 고용에서 학력주의와 학벌주의 만\n연은 사교육비를 증가시켜 자녀 양육의 경제적 부담을 높이고 있다. \n출산율 회복에 성공한 국가로부터의 교훈\n이와 같이 저출산의 원인들이 명백하게 규명되고 있다는 점에서 저\n출산은 극복이 가능한 현상으로 간주할 수 있다. 실례

In [105]:
len(larger_chunks)

1947

# Summary

- 요약(summary)은 청크의 내용을 더 정확하게 요약하여 더 나은 검색 결과를 얻을 수 있습니다. 
- 여기에서는 요약을 생성하고 이를 임베딩하는 방법을 보여줍니다.

In [106]:
import uuid

from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

In [107]:
chain = (
    {"doc": lambda x: x.page_content}
    | ChatPromptTemplate.from_template("아래 문서를 요약하세요.:\n\n{doc}")
    | ChatOpenAI(max_retries=0, openai_api_key=OPENAI_KEY)
    | StrOutputParser()
)

In [108]:
docs

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative Income \nHypothesis)에 의하면, 부부가 충분한 자원을 가지고 있지 못한 경\n우 출산을 주저하게 되는데, 기대되는 상대적인 소득과 자원에 따라 \n출산율은 0명까지 감소할 가능성을 배제할 수 없다. 베커의 신가정경\n제출산력모형(New Home Economics Model of Fertility)에 따르면, \n자녀에 대한 만족은 자녀의 수가 아닌 자녀의 질을 통해 추구하는데 \n자녀  양육에는 보다 많은 시간 투입이 요구된다. 인적자본이 중시되\n는 현대사회에서 개인은 시간가치를 증가시키기 위해 자녀 양육보다 \n시간이 덜 소요되는 것들을 선호하게 된다. \n한국 초저출산의 원인구조\n한국에서 재생산 위기는 ‘결혼’에서부터 시작된다. 한국은 세계 경제 \n10위권, IT(Information Technology) 강국 등으로

In [109]:
summaries = chain.batch(docs, {"max_concurrency": 5})
summaries

['한국의 합계출산율이 0.78명으로 매우 낮은 수준에 있어 인구의 지속가능성에 위협을 끼치고 있다. 재생산 위기는 결혼에서부터 시작되며, 여러 이론들에 따르면 출산율이 0명에 이를 수도 있다. 이를 해결하기 위해서는 복합적인 대책이 필요하며, 출산율 회복과 인구구조 변화에 대한 대응이 필요하다. 현재 상황은 양자택일이 아닌 동시에 추구해야 할 사회 목표들인 것이다.',
 '한국 사회에서 결혼과 출산은 점차 연계가 약화되고 있으며, 결혼을 위한 조건들이 많아지면서 결혼과 출산에 대한 부담이 커지고 있다. 이로 인해 만혼과 비혼이 증가하고 있으며, 출산에 대한 경제적, 시간적 부담이 크게 인식되고 있다. 저출산 문제는 다양한 복합적인 원인으로 인해 발생하며, 이를 해결하기 위해 노동시장 개혁과 정책적인 노력이 필요하다. 저출산 대책에는 반드시 필요한 정책들이 누락되거나 부족한 부분이 있으며, 초저출산 현상을 막기 위해 근본적인 노력이 필요하다.',
 '서울대학교 아시아센터는 학력, 학벌, 젠더, 출신 지역에 따른 차별을 없애고, 자녀 양육과 노후대비를 도와주는 사회구조와 관행을 개선해야 한다고 주장하고 있다. 또한 동거 커플을 위한 법령을 제정하여 사회적 보호를 강화하고, 미시적인 정책들을 도입해 자녀 양육을 지원해야 한다고 말하고 있다. 부모의 시간에 대한 지원을 확대하고, 육아휴직 등을 더욱 다양하게 제공하여 부모들이 자유롭게 선택할 수 있도록 해야 한다고 강조하고 있다.',
 '으로는 노동력 부족 문제를 해결하여 노동시장에 더 많은 인력을 활용하는 것이 중요하다. 노동력 부족에 대한 대응책으로는 출산율 증가를 위한 정책 강화, 여성 고용률 상승을 통한 잠재 인력 활용, 고령인구의 노동시장 유지를 위한 정년 연장 등이 필요하다. 또한 외국인 노동자 유입을 통해 노동력 부족을 해결할 수 있지만, 장기적으로는 인구구조 및 사회통합에 부정적인 영향을 미칠 수 있으므로 신중한 대응이 필요하다.생산가능인구의 감소와 노인인구의 증가로 인한 사회보장 부담 증가 문제도 중

In [110]:
len(summaries)

5

In [111]:
# 자식 청크를 인덱싱하는 데 사용할 벡터 스토어
vectorstore = Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings(openai_api_key=OPENAI_KEY))
# 부모 문서의 저장 계층
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)

In [112]:
doc_ids = [str(uuid.uuid4()) for _ in docs]
doc_ids

['b880aec0-7888-4fb3-9138-92342ea04106',
 'b4f1a62c-73ab-49c2-bf49-94c2044f46aa',
 '810704e2-589b-4046-821e-ac8ce9227afd',
 '6c81e8b1-8d22-45d0-843e-99f17b33fbcb',
 'c5d34c7c-4242-477f-8153-7ae90ee0ef71']

In [113]:
summary_docs = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(summaries)
]

In [114]:
summary_docs

[Document(metadata={'doc_id': 'b880aec0-7888-4fb3-9138-92342ea04106'}, page_content='한국의 합계출산율이 0.78명으로 매우 낮은 수준에 있어 인구의 지속가능성에 위협을 끼치고 있다. 재생산 위기는 결혼에서부터 시작되며, 여러 이론들에 따르면 출산율이 0명에 이를 수도 있다. 이를 해결하기 위해서는 복합적인 대책이 필요하며, 출산율 회복과 인구구조 변화에 대한 대응이 필요하다. 현재 상황은 양자택일이 아닌 동시에 추구해야 할 사회 목표들인 것이다.'),
 Document(metadata={'doc_id': 'b4f1a62c-73ab-49c2-bf49-94c2044f46aa'}, page_content='한국 사회에서 결혼과 출산은 점차 연계가 약화되고 있으며, 결혼을 위한 조건들이 많아지면서 결혼과 출산에 대한 부담이 커지고 있다. 이로 인해 만혼과 비혼이 증가하고 있으며, 출산에 대한 경제적, 시간적 부담이 크게 인식되고 있다. 저출산 문제는 다양한 복합적인 원인으로 인해 발생하며, 이를 해결하기 위해 노동시장 개혁과 정책적인 노력이 필요하다. 저출산 대책에는 반드시 필요한 정책들이 누락되거나 부족한 부분이 있으며, 초저출산 현상을 막기 위해 근본적인 노력이 필요하다.'),
 Document(metadata={'doc_id': '810704e2-589b-4046-821e-ac8ce9227afd'}, page_content='서울대학교 아시아센터는 학력, 학벌, 젠더, 출신 지역에 따른 차별을 없애고, 자녀 양육과 노후대비를 도와주는 사회구조와 관행을 개선해야 한다고 주장하고 있다. 또한 동거 커플을 위한 법령을 제정하여 사회적 보호를 강화하고, 미시적인 정책들을 도입해 자녀 양육을 지원해야 한다고 말하고 있다. 부모의 시간에 대한 지원을 확대하고, 육아휴직 등을 더욱 다양하게 제공하여 부모들이 자유롭게 선택할 수 있도록 해야 한다고 강조하고 있다.'),
 Document(metadata={'d

In [115]:
retriever.vectorstore.add_documents(summary_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [None]:
# # We can also add the original chunks to the vectorstore if we so want
# for i, doc in enumerate(docs):
#     doc.metadata[id_key] = doc_ids[i]
# retriever.vectorstore.add_documents(docs)

In [116]:
sub_docs = vectorstore.similarity_search("한국 저출산의 원인이 뭐야?")
sub_docs

[Document(metadata={'doc_id': 'b4f1a62c-73ab-49c2-bf49-94c2044f46aa'}, page_content='한국 사회에서 결혼과 출산은 점차 연계가 약화되고 있으며, 결혼을 위한 조건들이 많아지면서 결혼과 출산에 대한 부담이 커지고 있다. 이로 인해 만혼과 비혼이 증가하고 있으며, 출산에 대한 경제적, 시간적 부담이 크게 인식되고 있다. 저출산 문제는 다양한 복합적인 원인으로 인해 발생하며, 이를 해결하기 위해 노동시장 개혁과 정책적인 노력이 필요하다. 저출산 대책에는 반드시 필요한 정책들이 누락되거나 부족한 부분이 있으며, 초저출산 현상을 막기 위해 근본적인 노력이 필요하다.'),
 Document(metadata={'doc_id': 'b880aec0-7888-4fb3-9138-92342ea04106'}, page_content='한국의 합계출산율이 0.78명으로 매우 낮은 수준에 있어 인구의 지속가능성에 위협을 끼치고 있다. 재생산 위기는 결혼에서부터 시작되며, 여러 이론들에 따르면 출산율이 0명에 이를 수도 있다. 이를 해결하기 위해서는 복합적인 대책이 필요하며, 출산율 회복과 인구구조 변화에 대한 대응이 필요하다. 현재 상황은 양자택일이 아닌 동시에 추구해야 할 사회 목표들인 것이다.'),
 Document(metadata={'doc_id': 'c5d34c7c-4242-477f-8153-7ae90ee0ef71'}, page_content='서울대학교 아시아연구소에서 발행한 아시아 브리프는 아시아의 현안을 분석하고 정책적 함의를 제시하며, 한국의 아시아 진출 전략과 메가 아시아 건설에 대한 공론장을 제공합니다. 최근 연구자료에는 저출산과 고령화에 대한 대응방안이 소개되어 있으며, 이삼식 교수의 연구와 논문을 통해 인구고령화에 대한 중장기 정책 방향과 인구정책의 변화에 대해 다루고 있습니다. 또한, 출산율 회복과 인구구조 변화 대응이 중요하며, 양자택일이 아닌 양자병행 과제로 접근해야 한다는 내용이 포함되어 있습

In [117]:
sub_docs[0]

Document(metadata={'doc_id': 'b4f1a62c-73ab-49c2-bf49-94c2044f46aa'}, page_content='한국 사회에서 결혼과 출산은 점차 연계가 약화되고 있으며, 결혼을 위한 조건들이 많아지면서 결혼과 출산에 대한 부담이 커지고 있다. 이로 인해 만혼과 비혼이 증가하고 있으며, 출산에 대한 경제적, 시간적 부담이 크게 인식되고 있다. 저출산 문제는 다양한 복합적인 원인으로 인해 발생하며, 이를 해결하기 위해 노동시장 개혁과 정책적인 노력이 필요하다. 저출산 대책에는 반드시 필요한 정책들이 누락되거나 부족한 부분이 있으며, 초저출산 현상을 막기 위해 근본적인 노력이 필요하다.')

In [118]:
larger_chunks = retriever.invoke("한국 저출산의 원인이 뭐야?")
larger_chunks

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 1}, page_content='세계를 잇다, 미래를 빚다!\n2\n전통적인 가부장적 유교문화의 영향이 지속되고 있어 법률에 따르지 \n않는 가족 형성은 인정되지 않고 있다. 따라서 출산은 법률혼을 전제\n로 발생한다. 그런데 한국 사회에서 결혼은 각종 조건을 충족시킬 때 \n가능하다. 학력, 학벌, 안정적 직장, 주거 등이 갖추어져야 결혼을 할 \n수 있고, 결혼 후에도 안정적인 가족생활이 가능하다. 그만큼 청년들\n은 ‘출산’에 앞서 ‘결혼’의 어려움을 직면하고 있다. 결혼의 관문을 통\n과하기 어려워지면서 만혼 경향이 증가하고, 결혼 자체를 기피하는 \n비혼도 증가하고 있다. \n과거와 달리 결혼과 출산 간 연계도 점차 약화되고 있다. 결혼이 반\n드시 출산으로 이어지지 않고 있는 것이다. 딩크족(Double Income \nNot Kids)과 같이 결혼생활이 자녀 중심에서 부부 중심으로 변화하\n는 경향도 있지만, 무엇보다도 자녀 양육에 비용이 발생하여 큰 부담\n으로 인식되고 있기 때문이다. 자녀 양육 비용은 의료·보육·(사)교육 \n등에 관한 서비스를 구매하기 위한 경제적 비용, 돌봄, 일-가정 양립 \n등을 위한 시간 비용, 출산·양육으로 인한 고용 등에서 기회비용 등\n을 포함한다. 이러한 미시적인 원인들은 개인 또는 부부가 출산을 결\n정하는 데 직접적인 영향을 미친다. 출산은 미시적인 원인들 뿐 아니\n라 거시적인 사회구조에 의해서도 영향을 받는다. 일자리 부족과 고\n용 불안정, 높은 주거비용, 과도한 교육 경쟁(학력주의와 학벌주의 만\n연), 양성 불평등, 사회규범 및 가치관의 변화 등이 출산에 영향을 미\n치는 거시적인 요소들이다. 미시적인 요인들 대부분 거시적 요인들\n에 의해 영향을 받는다. 예를 들어, 고용에서 학력주

In [119]:
len(larger_chunks[0].page_content)

1947

# Hypothetical Queries

- LLM을 사용하여 특정 문서에 대해 물어볼 수 있는 **가상 질문 목록(hypothetical questions)**을 생성할 수도 있습니다. 
- 이러한 질문들은 임베딩될 수 있습니다.

In [120]:
functions = [
    {
        "name": "hypothetical_questions",
        "description": "Generate hypothetical questions",
        "parameters": {
            "type": "object",
            "properties": {
                "questions": {
                    "type": "array",
                    "items": {"type": "string"},
                },
            },
            "required": ["questions"],
        },
    }
]

In [121]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = (
    {"doc": lambda x: x.page_content}
    # 세 가지 가상 질문만 요청하지만 이는 조정할 수 있습니다
    | ChatPromptTemplate.from_template(
        "다음 문서가 답할 수 있는 가상 질문 3개를 생성하십시오:\n\n{doc}"
    )
    | ChatOpenAI(max_retries=0, model="gpt-4", openai_api_key=OPENAI_KEY).bind(
        functions=functions, function_call={"name": "hypothetical_questions"}
    )
    | JsonKeyOutputFunctionsParser(key_name="questions")
)

In [122]:
docs[0]

Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative Income \nHypothesis)에 의하면, 부부가 충분한 자원을 가지고 있지 못한 경\n우 출산을 주저하게 되는데, 기대되는 상대적인 소득과 자원에 따라 \n출산율은 0명까지 감소할 가능성을 배제할 수 없다. 베커의 신가정경\n제출산력모형(New Home Economics Model of Fertility)에 따르면, \n자녀에 대한 만족은 자녀의 수가 아닌 자녀의 질을 통해 추구하는데 \n자녀  양육에는 보다 많은 시간 투입이 요구된다. 인적자본이 중시되\n는 현대사회에서 개인은 시간가치를 증가시키기 위해 자녀 양육보다 \n시간이 덜 소요되는 것들을 선호하게 된다. \n한국 초저출산의 원인구조\n한국에서 재생산 위기는 ‘결혼’에서부터 시작된다. 한국은 세계 경제 \n10위권, IT(Information Technology) 강국 등으로 

In [123]:
chain.invoke(docs[0])

['2022년 대한민국의 합계출산율은 얼마인가요?',
 '안정 인구를 유지하기 위해 출산율이 유지되어야 하는 수준은 얼마인가요?',
 '한국의 출산율 감소는 어떤 이론에 의해 설명될 수 있나요?']

In [124]:
docs

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative Income \nHypothesis)에 의하면, 부부가 충분한 자원을 가지고 있지 못한 경\n우 출산을 주저하게 되는데, 기대되는 상대적인 소득과 자원에 따라 \n출산율은 0명까지 감소할 가능성을 배제할 수 없다. 베커의 신가정경\n제출산력모형(New Home Economics Model of Fertility)에 따르면, \n자녀에 대한 만족은 자녀의 수가 아닌 자녀의 질을 통해 추구하는데 \n자녀  양육에는 보다 많은 시간 투입이 요구된다. 인적자본이 중시되\n는 현대사회에서 개인은 시간가치를 증가시키기 위해 자녀 양육보다 \n시간이 덜 소요되는 것들을 선호하게 된다. \n한국 초저출산의 원인구조\n한국에서 재생산 위기는 ‘결혼’에서부터 시작된다. 한국은 세계 경제 \n10위권, IT(Information Technology) 강국 등으로

In [125]:
len(docs)

5

In [126]:
hypothetical_questions = chain.batch(docs, {"max_concurrency": 1})
hypothetical_questions

[['대한민국의 2022년 합계출산율은 얼마인가요?',
  '안정적인 인구를 유지하기 위해 필요한 합계출산율은 얼마인가요?',
  '저출산의 원인 중 하나로 언급된 이스터린의 상대적 소득가설은 무엇인가요?'],
 ['한국 사회에서 결혼을 하기 위해 충족시켜야 하는 조건은 무엇인가요?',
  '자녀 양육 비용에는 어떤 것들이 포함되나요?',
  '저출산 현상을 극복한 국가들은 어떤 나라들인가요?'],
 ['서울대 아시아 센터에서는 어떤 방식으로 학력, 학벌, 젠더, 출신 지역 등에 따른 차별을 없애려고 하는가?',
  '자녀 양육과 노후 대비가 충돌하지 않도록 하기 위한 제안은 무엇인가?',
  '어떤 전략을 사용하여 미혼 기간이 길어지는 문제를 해결하려고 하는가?',
  '현재의 일-가정 양립 지원 정책의 문제점은 무엇이며, 이를 개선하기 위한 방안은 무엇인가?',
  '자녀 양육을 지원하기 위한 새로운 정책 제안은 무엇인가?'],
 ['우리나라는 저출산 현상을 어떻게 대응해야 하나요?',
  '학령인구 감소가 초등학교, 중학교, 고등학교 및 대학교에 어떤 영향을 미치나요?',
  '노동력 부족 문제를 해결하기 위한 방안은 무엇인가요?'],
 ['서울대학교 아시아연구소의 연락처는 무엇인가요?',
  '이삼식 교수는 어떤 학회의 회장을 맡고 있나요?',
  '아시아 브리프의 목표는 무엇인가요?']]

In [127]:
# 자식 청크를 인덱싱하는 데 사용할 벡터 스토어
vectorstore = Chroma(
    collection_name="hypo-questions", embedding_function=OpenAIEmbeddings(openai_api_key=OPENAI_KEY)
)
# 부모 문서의 저장 계층
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)

In [128]:
doc_ids = [str(uuid.uuid4()) for _ in docs]
doc_ids

['4d27ac82-a4b7-4547-ba92-d8f4911aebd2',
 'e45cff3d-f5fd-409c-91c3-baeae9d9d621',
 '34c8225a-8b5d-4716-8ed6-011475729d17',
 'cfe989a9-e742-4eeb-b394-7f047234bb7d',
 '5b25d0b6-fdd8-4136-9c12-b4e7c63723d8']

In [129]:
docs[3]

Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 3}, page_content='세계를 잇다, 미래를 빚다!\n4\n지대를 없애도록 한다. 무엇보다도 출산과 양육에 친화적인 직장문\n화를 조성하여야 한다. \n인구구조 변화에 대응해야\n우리나라는 이미 20년 이상 동안 초저출산현상(합계출산율 1.3명 \n이하)을 겪고 있다. 적어도 당분간 ‘저출산의 덫’에서 빠져나올 수 있\n을 것으로 기대하기 어렵다. 저출산 대책들이 실효성을 거두기 시작\n할지라도 언제부터 얼마나 빠른 속도로 어느 수준까지 출산율이 높\n아질 것으로 예상하기도 어렵다. 결국 우리나라 인구는 급속하게 감\n소하고, 고령화될 것이다. 따라서 저출산 대책을 더욱 강화하는 동시\n에 인구감소 및 고령화에 대해서도 철저하게 대응하여야 한다. 인구\n감소 및 고령화가 사회에 미치는 파장은 크게 학교 붕괴, 병력자원 부\n족, 노동력 부족, 사회보장 부담 증가 등을 들 수 있다. \n학령인구 감소에 따른 학생 수 감소는 초등학교, 중학교, 고등학교 및 \n대학교에까지 영향을 미치고 있다. 과거 고출산 시기에 태어난 세대\n를 위해 건립하였던 학교 시설과 교사 양성 인프라(교육대학 등)는 과\n잉 시설이 되면서 통폐합이 진행되고 있다. 폐교는 단순하게 잉여 시\n설의 처분만을 의미하지 않는다. 폐교로 아동이 있는 가족은 그 지역\n으로 이주해오지 않을 것이며, 아동들을 상대로 하는 가게나 시설 역\n시 폐쇄하거나 다른 지역으로 떠날 수밖에 없다. 이와 같이 폐교는 지\n방소멸을 유발하고 가속화시키는 주요한 요인이 된다. 학생들의 사\n회성 발달, 교육행정 효율성 등에 불리한 학생희소학교의 문제를 최\n소화하기 위해 초·중 또는 중·고 통합학교나 학교 간 통합수업을 활\n성화해야 한다. 지방대학의 경쟁력을 확보하기 위해 교육부의 권한\n을 

In [130]:
question_docs = []
for i, question_list in enumerate(hypothetical_questions):
    question_docs.extend(
        [Document(page_content=s, metadata={id_key: doc_ids[i]}) for s in question_list]
    )

In [131]:
question_docs

[Document(metadata={'doc_id': '4d27ac82-a4b7-4547-ba92-d8f4911aebd2'}, page_content='대한민국의 2022년 합계출산율은 얼마인가요?'),
 Document(metadata={'doc_id': '4d27ac82-a4b7-4547-ba92-d8f4911aebd2'}, page_content='안정적인 인구를 유지하기 위해 필요한 합계출산율은 얼마인가요?'),
 Document(metadata={'doc_id': '4d27ac82-a4b7-4547-ba92-d8f4911aebd2'}, page_content='저출산의 원인 중 하나로 언급된 이스터린의 상대적 소득가설은 무엇인가요?'),
 Document(metadata={'doc_id': 'e45cff3d-f5fd-409c-91c3-baeae9d9d621'}, page_content='한국 사회에서 결혼을 하기 위해 충족시켜야 하는 조건은 무엇인가요?'),
 Document(metadata={'doc_id': 'e45cff3d-f5fd-409c-91c3-baeae9d9d621'}, page_content='자녀 양육 비용에는 어떤 것들이 포함되나요?'),
 Document(metadata={'doc_id': 'e45cff3d-f5fd-409c-91c3-baeae9d9d621'}, page_content='저출산 현상을 극복한 국가들은 어떤 나라들인가요?'),
 Document(metadata={'doc_id': '34c8225a-8b5d-4716-8ed6-011475729d17'}, page_content='서울대 아시아 센터에서는 어떤 방식으로 학력, 학벌, 젠더, 출신 지역 등에 따른 차별을 없애려고 하는가?'),
 Document(metadata={'doc_id': '34c8225a-8b5d-4716-8ed6-011475729d17'}, page_content='자녀 양육과 노후 대비가 충돌하지 않도록 하기 위한 제안은 무엇인가?'),
 Doc

In [132]:
retriever.vectorstore.add_documents(question_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [133]:
sub_docs = vectorstore.similarity_search("한국 저출산의 원인이 뭐야?")

In [134]:
sub_docs

[Document(metadata={'doc_id': '4d27ac82-a4b7-4547-ba92-d8f4911aebd2'}, page_content='저출산의 원인 중 하나로 언급된 이스터린의 상대적 소득가설은 무엇인가요?'),
 Document(metadata={'doc_id': 'e45cff3d-f5fd-409c-91c3-baeae9d9d621'}, page_content='저출산 현상을 극복한 국가들은 어떤 나라들인가요?'),
 Document(metadata={'doc_id': 'cfe989a9-e742-4eeb-b394-7f047234bb7d'}, page_content='우리나라는 저출산 현상을 어떻게 대응해야 하나요?'),
 Document(metadata={'doc_id': 'e45cff3d-f5fd-409c-91c3-baeae9d9d621'}, page_content='한국 사회에서 결혼을 하기 위해 충족시켜야 하는 조건은 무엇인가요?')]

In [135]:
larger_chunks = retriever.invoke("한국 저출산의 원인이 뭐야?")
larger_chunks

[Document(metadata={'source': 'https://snuac.snu.ac.kr/2015_snuac/wp-content/uploads/2015/07/asiabrief_3-26.pdf', 'page': 0}, page_content='Seoul National University Asia Center\n1\n2023년 5월 22일, 3권 26호 (통권 116호)\n한국의 출산율은 어디가 바닥인가? \n0.78명! 2022년 대한민국의 합계출산율이다. 인구가 증가나 감소하\n지 않고 고령화도 되지 않는 이른바 안정인구(Stable Population)를 \n보유하기 위해서는 합계출산율이 인구대체수준인 2.1명에서 장기적\n으로 유지되어야 한다. 그런데 1/3 정도만 인구를 대체할 수 있는 출\n산율이 장기적으로 지속된다면 그만큼 우리나라 인구는 급속하게 감\n소하고 고령화될 것이다. \n이와 같은 인구학적 재생산(Reproduction) 붕괴는 저절로 회복되지 \n않는다. 이론들에 따르면 출산율이 0명에 이를 수도 있다. 대표적으\n로 이스터린(Easterlin, 1978)의 상대적 소득가설(Relative Income \nHypothesis)에 의하면, 부부가 충분한 자원을 가지고 있지 못한 경\n우 출산을 주저하게 되는데, 기대되는 상대적인 소득과 자원에 따라 \n출산율은 0명까지 감소할 가능성을 배제할 수 없다. 베커의 신가정경\n제출산력모형(New Home Economics Model of Fertility)에 따르면, \n자녀에 대한 만족은 자녀의 수가 아닌 자녀의 질을 통해 추구하는데 \n자녀  양육에는 보다 많은 시간 투입이 요구된다. 인적자본이 중시되\n는 현대사회에서 개인은 시간가치를 증가시키기 위해 자녀 양육보다 \n시간이 덜 소요되는 것들을 선호하게 된다. \n한국 초저출산의 원인구조\n한국에서 재생산 위기는 ‘결혼’에서부터 시작된다. 한국은 세계 경제 \n10위권, IT(Information Technology) 강국 등으로

In [136]:
len(larger_chunks[0].page_content)

1178

In [137]:
sub_docs = vectorstore.similarity_search("저출산으로 인한 노동력 부족에 대응하기 위해 어떤 전략들이 필요해?")
sub_docs

[Document(metadata={'doc_id': 'cfe989a9-e742-4eeb-b394-7f047234bb7d'}, page_content='노동력 부족 문제를 해결하기 위한 방안은 무엇인가요?'),
 Document(metadata={'doc_id': 'cfe989a9-e742-4eeb-b394-7f047234bb7d'}, page_content='우리나라는 저출산 현상을 어떻게 대응해야 하나요?'),
 Document(metadata={'doc_id': '34c8225a-8b5d-4716-8ed6-011475729d17'}, page_content='어떤 전략을 사용하여 미혼 기간이 길어지는 문제를 해결하려고 하는가?'),
 Document(metadata={'doc_id': '34c8225a-8b5d-4716-8ed6-011475729d17'}, page_content='현재의 일-가정 양립 지원 정책의 문제점은 무엇이며, 이를 개선하기 위한 방안은 무엇인가?')]

In [138]:
larger_chunks = retriever.invoke("저출산으로 인한 노동력 부족에 대응하기 위해 어떤 전략들이 필요해?")
larger_chunks[0].page_content

'세계를 잇다, 미래를 빚다!\n4\n지대를 없애도록 한다. 무엇보다도 출산과 양육에 친화적인 직장문\n화를 조성하여야 한다. \n인구구조 변화에 대응해야\n우리나라는 이미 20년 이상 동안 초저출산현상(합계출산율 1.3명 \n이하)을 겪고 있다. 적어도 당분간 ‘저출산의 덫’에서 빠져나올 수 있\n을 것으로 기대하기 어렵다. 저출산 대책들이 실효성을 거두기 시작\n할지라도 언제부터 얼마나 빠른 속도로 어느 수준까지 출산율이 높\n아질 것으로 예상하기도 어렵다. 결국 우리나라 인구는 급속하게 감\n소하고, 고령화될 것이다. 따라서 저출산 대책을 더욱 강화하는 동시\n에 인구감소 및 고령화에 대해서도 철저하게 대응하여야 한다. 인구\n감소 및 고령화가 사회에 미치는 파장은 크게 학교 붕괴, 병력자원 부\n족, 노동력 부족, 사회보장 부담 증가 등을 들 수 있다. \n학령인구 감소에 따른 학생 수 감소는 초등학교, 중학교, 고등학교 및 \n대학교에까지 영향을 미치고 있다. 과거 고출산 시기에 태어난 세대\n를 위해 건립하였던 학교 시설과 교사 양성 인프라(교육대학 등)는 과\n잉 시설이 되면서 통폐합이 진행되고 있다. 폐교는 단순하게 잉여 시\n설의 처분만을 의미하지 않는다. 폐교로 아동이 있는 가족은 그 지역\n으로 이주해오지 않을 것이며, 아동들을 상대로 하는 가게나 시설 역\n시 폐쇄하거나 다른 지역으로 떠날 수밖에 없다. 이와 같이 폐교는 지\n방소멸을 유발하고 가속화시키는 주요한 요인이 된다. 학생들의 사\n회성 발달, 교육행정 효율성 등에 불리한 학생희소학교의 문제를 최\n소화하기 위해 초·중 또는 중·고 통합학교나 학교 간 통합수업을 활\n성화해야 한다. 지방대학의 경쟁력을 확보하기 위해 교육부의 권한\n을 지자체에 이양하는 동시에 중앙정부 차원에서 지방대학과 산업 \n간 연계를 강화하기 위한 투자를 과감하게 늘릴 필요가 있다. 종합대\n학이 보편적인 대학 체계를 일부 단과대학 중심의 특성화 대학으로 \n전환하여 학생 수가 적으나 강한 대학들이 지역적