# 3. 멀티모달 RAG

PDF 분할 작업을 위해 `unstructured`를 사용합니다. `unstructured` 를 위해 다음과 도구의 설치가 필요합니다:

- `tesseract` : 광학 문자 인식(OCR)을 위해 사용
- `poppler` : PDF 렌더링 및 처리

[poppler 설치 방법](https://pdf2image.readthedocs.io/en/latest/installation.html)과 [tesseract 설치 방법](https://tesseract-ocr.github.io/tessdoc/Installation.html)을 참고하여 설치해주세요.

In [8]:
%%capture --no-stderr
!sudo apt install tesseract-ocr
!sudo apt install libtesseract-dev
!sudo apt-get install poppler-utils

In [22]:
%%capture --no-stderr
! pip install -U langchain openai chromadb langchain-experimental langchain_openai nltk "unstructured[all-docs]" pillow pydantic lxml pillow matplotlib chromadb tiktoken

In [10]:
# 파일 경로
fpath = 'multimodal_rag/'
fname = "sample.pdf"

In [11]:
import getpass
import os


def _set_env(var: str):
    if not os.environ.get(var):
        os.environ[var] = getpass.getpass(f"{var}: ")

_set_env("OPENAI_API_KEY")

In [12]:
from unstructured.partition.pdf import partition_pdf


# PDF에서 요소 추출
raw_pdf_elements = partition_pdf(
    filename=os.path.join(fpath, fname),
    extract_images_in_pdf=True,
    infer_table_structure=True,
    chunking_strategy="by_title",
    max_characters=4000,
    new_after_n_chars=3800,
    combine_text_under_n_chars=2000,
    extract_image_block_output_dir=fpath,
)

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/115M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/46.8M [00:00<?, ?B/s]

In [13]:
# 텍스트, 테이블 추출
tables = []
texts = []
for element in raw_pdf_elements:
    if "unstructured.documents.elements.Table" in str(type(element)):
        tables.append(str(element))  # 테이블 요소 추가
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        texts.append(str(element))  # 텍스트 요소 추가

In [14]:
tables[0]

'2023년 2022년 2024년 42주 2021년 2020년 747 294 420 전체 385 665 356 274 630 382 673 국내발생 74 20 35 29 38 해외유입'

In [15]:
texts[0]

'42주차 (10.13.~10.19.) \n\nEe ee\n\n1주~42주 665명  630명  35명  말라리아  환자  발생  현황  ’24년  1주부터  42주까지  말라리아  환자는  총  665명(인구  10만  명당  발생률  1.3명)이며,  42주에   10명  신규  발생함  전체  665명  중  국내발생  630명(94.7%),  해외유입  35명(5.3%)으로  해외유입  국가는  주로   아프리카  대륙에  속함  전년  726명  대비  61명(8.4%)  감소  국내  발생  현황  (국내  총  630명)  (성별)  남자  526명(83.5%),  여자  104명(16.5%)  (연령) 전체 평균 연령 40.7세(범위 2~97세)이며, 20대 209명(33.2%)으로 가장 많았고, 50대   99명(15.7%), 40대 96명(15.2%), 30대 90명(14.3%), 60대 73명(11.6%) 순으로 발생  (신분)  민간인  479명(76.0%),  현역군인  85명(13.5%),  제대군인  66명(10.5%)  순으로  발생  (지역)  경기 356명(56.5%), 인천 120명(19.0%), 서울 84명(13.3%), 강원 25명(4.0%), 대구 10명(1.6%),   충남 7명(1.1%), 전남 6명(1.0%), 경북 4명(0.6%), 대전, 전북 각 3명(0.5%), 부산, 울산, 광주, 충북,   경남 각 2명(0.3%), 세종, 제주 각 1명(0.2%) 순으로 발생 역학조사 결과 확인된 추정감염지역은   경기  382명(60.6%),  인천  135명(21.4%),  강원  53명(8.4%),  서울  28명(4.4%)  순으로  발생  말라리아  매개모기  감시  현황  (41주)  (매개모기지수)  평균  0.1개체  [평년  0.2  대비  0.1개체  감소  및  전년  0.1  대비  동일]  (원충보유조사)  총  17  pool  (모두  음성) \n\n©\n\n©\n\n©\n\n©\n\nO\n\n©

In [16]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain.chat_models import ChatOpenAI

# 프롬프트 설정
prompt_text = """당신은 표와 텍스트를 요약하여 검색할 수 있도록 돕는 역할을 맡은 어시스턴트입니다.
이 요약은 임베딩되어 원본 텍스트나 표 요소를 검색하는 데 사용될 것입니다.
표 또는 텍스트에 대한 간결한 요약을 제공하여 검색에 최적화된 형태로 만들어 주세요. 표 또는 텍스트: {element} """
prompt = ChatPromptTemplate.from_template(prompt_text)

# 텍스트 요약 체인
model = ChatOpenAI(temperature=0, model="gpt-4")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

# 제공된 텍스트에 대해 요약을 할 경우
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})
# 요약을 원치 않을 경우
# text_summaries = texts

# 제공된 테이블에 적용
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

  model = ChatOpenAI(temperature=0, model="gpt-4")


In [17]:
table_summaries[0]

'이 텍스트는 특정 연도별로 국내발생과 해외유입 사례의 수를 나타내는 통계 데이터로 보입니다. 각 연도별로 국내발생과 해외유입 사례의 수가 다르며, 이를 통해 각 연도별로 발생한 사례의 수를 파악할 수 있습니다.'

In [18]:
text_summaries[0]

'2024년 42주차(10.13.~10.19.) 말라리아 환자 발생 현황 요약: 총 665명의 말라리아 환자가 발생하였으며, 이 중 630명(94.7%)이 국내에서 발생하고 35명(5.3%)이 해외에서 유입되었다. 주요 유입 국가는 아프리카 대륙이었다. 전년도 대비 61명(8.4%) 감소하였다. 성별로는 남성이 526명(83.5%), 여성이 104명(16.5%)이었고, 연령대로는 20대가 가장 많았다. 또한, 민간인이 479명(76.0%)으로 가장 많았고, 지역별로는 경기도에서 가장 많은 환자가 발생하였다. 말라리아 매개모기 감시 현황은 평균 0.1개체로, 평년 대비 감소하였다.'

In [19]:
import base64


def encode_image(image_path) -> str:
    # 이미지 base64 인코딩
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


# 이미지의 base64 인코딩을 저장하는 리스트
img_base64_list = []

# 이미지를 읽어 base64 인코딩 후 저장
for img_file in sorted(os.listdir(fpath)):
    if img_file.endswith('.jpg'):
        img_path = os.path.join(fpath, img_file)
        base64_image = encode_image(img_path)
        img_base64_list.append(base64_image)

In [20]:
len(img_base64_list)

42

In [23]:
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI


def image_summarize(img_base64: str) -> str:
    # 이미지 요약
    chat = ChatOpenAI(model="gpt-4o", max_tokens=1024)
    prompt = """
    당신은 이미지를 요약하여 검색을 위해 사용할 수 있도록 돕는 어시스턴트입니다.
    이 요약은 임베딩되어 원본 이미지를 검색하는 데 사용됩니다.
    이미지 검색에 최적화된 간결한 요약을 작성하세요.
    """
    msg = chat.invoke(
        [
            HumanMessage(
                content=[
                    {"type": "text", "text": prompt},
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": f"data:image/jpeg;base64,{img_base64}"
                        },
                    },
                ]
            )
        ]
    )
    return msg.content


# 이미지 요약을 저장하는 리스트
image_summaries = []

for img_base64 in img_base64_list:
    image_summary = image_summarize(img_base64)
    image_summaries.append(image_summary)


In [24]:
image_summaries[0]

'질병관리청 2024년 말라리아 주간소식지, 42주차(10.13~10.19) 보고서 표지.'

In [25]:
from langchain.retrievers import MultiVectorRetriever
from langchain_core.stores import InMemoryStore
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 분할한 텍스트들을 색인할 벡터 저장소
vectorstore = Chroma(collection_name="multi_modal_rag",
                     embedding_function=OpenAIEmbeddings())

# 원본문서 저장을 위한 저장소 선언
docstore = InMemoryStore()
id_key = "doc_id"

# 검색기
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    id_key=id_key,
)

  vectorstore = Chroma(collection_name="multi_modal_rag",


In [26]:
import uuid

# 원본 텍스트 데이터 저장
doc_ids = [str(uuid.uuid4()) for _ in texts]
retriever.docstore.mset(list(zip(doc_ids, texts)))

# 원본 테이블 데이터 저장
table_ids = [str(uuid.uuid4()) for _ in tables]
retriever.docstore.mset(list(zip(table_ids, tables)))

# 원본 이미지(base64) 데이터 저장
img_ids = [str(uuid.uuid4()) for _ in img_base64_list]
retriever.docstore.mset(list(zip(img_ids, img_base64_list)))

In [27]:
from langchain.schema.document import Document

# 텍스트 요약 벡터 저장
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)

# 테이블 요약 벡터 저장
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)

# 이미지 요약 벡터 저장

summary_img = [
    Document(page_content=s, metadata={id_key: img_ids[i]})
    for i, s in enumerate(image_summaries)
]
retriever.vectorstore.add_documents(summary_img)

['170076e2-c13b-42b2-abbe-37844b71786b',
 '90b205d0-f2d3-4780-ae52-7c552de30d9b',
 '8d85f04c-0f18-4d9e-87dc-9bdd3e8c26aa',
 '8a89311d-03ec-4273-85f6-f0c8fdf2c031',
 'd7641a18-b5e7-41ba-b2d5-f91688bef638',
 '1831ce05-a444-4dd9-8a18-78ba0d5879cd',
 '4c8ed3ca-9cd3-483b-b582-086ca99235d5',
 '8aa7211a-579d-46a4-8086-03cfe1d7d501',
 '561b0922-d983-4d2a-9f99-382fb2ac6119',
 '23927ee2-c4ca-43f0-8e98-f3f918292482',
 'b4c485fc-f905-4181-91fb-2d47c9e9a65f',
 '017f172a-d917-4aae-8890-8953ebd1753b',
 '92834086-157a-40eb-a4f1-deff0378bbd1',
 'd6a6b634-48f1-40f5-9a89-b74ec3820503',
 'a01a7537-ba87-44dd-8908-6d3c933dca03',
 '46a7c3bf-4deb-4ffd-80b3-40e78c2ece2e',
 '2fe6cb3f-6ca4-4dad-997e-93e384ddfb74',
 '07a8c2b3-c5ba-49d4-8ec2-88001d5d0ca5',
 '1d819a84-7418-46d9-8f70-0826ea383fce',
 'e91952c2-9701-4759-bd92-312dd29b520a',
 '0f72ee8d-57a0-45a9-a600-ecb218b82466',
 '4f3aeb51-7bfe-4eec-a23a-f850e4d693ca',
 '30fa0c80-d5e8-4eb8-bd9a-98a34e7325f2',
 'efed8571-05a1-4bcc-bcb7-9c6cd0e0a6d5',
 '8e8d7585-6129-

In [28]:
docs = retriever.invoke(
    "말라리아 군집 사례는 어떤가요? "
)

In [29]:
len(docs)

4

In [30]:
from base64 import b64decode

def split_image_text_types(docs):
    # 이미지와 텍스트 데이터를 분리
    b64 = []
    text = []
    for doc in docs:
        try:
            b64decode(doc)
            b64.append(doc)
        except Exception as e:
            text.append(doc)
    return {
        "images": b64,
        "texts": text
    }

docs_by_type = split_image_text_types(docs)

In [31]:
len(docs_by_type["images"])

3

In [32]:
len(docs_by_type["texts"])

1

In [33]:
docs_by_type["images"]

['/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjL/wAARCABtBRkDASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwD3yiiiqAKrXd/a2KBriZUz0HUn8Kz77WmE5tNOVJphxI7Z2x/4mqcOnorGad/tFwxy0j/0HStI0+siZStsTSa3e3JK2NmFTtLMe3qBULLqc4zJqboD2iQL+tWsdPapEhlf7qE1p7sdkZ3bKAs7nvqV4T/11NKIL+PJi1W457

In [34]:
docs_by_type["texts"]

['인천\n\n서울\n\n1\n\n(0.00)\n\n1\n\n(10개)\n\n5\n\n42주차  (10.13.~10.19.)  3  말라리아  군집사례  현황          -  (누적)  4개  시도(경기,  서울,  인천,  강원),  총  46건의  군집사례*  확인                *  군집사례  :  위험지역  내에서  2명  이상의  환자가  증상  발생  간격이  14일  이내,  환자  거주지  거리가   1Km  이내인  경우     표6 군집사례  발생  현황   시군구  발생(군집사례건수)  시·도  사례건수(환자수)  4개  시도  46건(114명)  합계  ▸5명  군집(1)  :  양천구,  강서구(1)   서울  1건(5명)  ▸2명  군집(5)  :  서구(2),  강화군(1),  연수구(1),  중구(1)  5건(10명)  인천  ▸6명  군집(1)  :  파주시(1)  ▸4명  군집(3)  :  파주시(2),  김포시(1),   ▸3명  군집(6)  :  파주시(4),  김포시(1),  일산서구(1)   39건(94명)  경기  ▸2명  군집(29)  :  파주시(15),  김포시(10),  일산동구(2),  일산서구(1),   연천군(1)  ▸5명  군집(1)  :  철원군(1)  1건(5명)  강원  그림  6.  군집사례  6 \n\n3  말라리아  군집사례  현황 ']

In [35]:

from IPython.display import display, HTML

def plt_img_base64(img_base64):
    # base64 이미지로 html 태그를 작성합니다
    image_html = f'<img src="data:image/jpeg;base64,{img_base64}" />'

    # html 태그를 기반으로 이미지를 표기합니다
    display(HTML(image_html))

plt_img_base64(docs_by_type["images"][0])

In [36]:
docs_by_type["texts"][0]

'인천\n\n서울\n\n1\n\n(0.00)\n\n1\n\n(10개)\n\n5\n\n42주차  (10.13.~10.19.)  3  말라리아  군집사례  현황          -  (누적)  4개  시도(경기,  서울,  인천,  강원),  총  46건의  군집사례*  확인                *  군집사례  :  위험지역  내에서  2명  이상의  환자가  증상  발생  간격이  14일  이내,  환자  거주지  거리가   1Km  이내인  경우     표6 군집사례  발생  현황   시군구  발생(군집사례건수)  시·도  사례건수(환자수)  4개  시도  46건(114명)  합계  ▸5명  군집(1)  :  양천구,  강서구(1)   서울  1건(5명)  ▸2명  군집(5)  :  서구(2),  강화군(1),  연수구(1),  중구(1)  5건(10명)  인천  ▸6명  군집(1)  :  파주시(1)  ▸4명  군집(3)  :  파주시(2),  김포시(1),   ▸3명  군집(6)  :  파주시(4),  김포시(1),  일산서구(1)   39건(94명)  경기  ▸2명  군집(29)  :  파주시(15),  김포시(10),  일산동구(2),  일산서구(1),   연천군(1)  ▸5명  군집(1)  :  철원군(1)  1건(5명)  강원  그림  6.  군집사례  6 \n\n3  말라리아  군집사례  현황 '

In [37]:
from operator import itemgetter
from langchain.schema.runnable import RunnablePassthrough, RunnableLambda

def prompt_func(dict):
    format_texts = "\n".join(dict["context"]["texts"])
    text = f"""
    다음 문맥에만 기반하여 질문에 답하세요. 문맥에는 텍스트, 표, 그리고 아래 이미지가 포함될 수 있습니다:
    질문: {dict["question"]}

    텍스트와 표:
    {format_texts}
    """

    prompt = [
        HumanMessage(
            content=[
                {"type": "text", "text": text},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{dict['context']['images'][0]}"}},
            ]
        )
    ]

    return prompt


model = ChatOpenAI(temperature=0, model="gpt-4o", max_tokens=1024)

# RAG 파이프라인
chain = (
        {"context": retriever | RunnableLambda(split_image_text_types), "question": RunnablePassthrough()}
        | RunnableLambda(prompt_func)
        | model
        | StrOutputParser()
)

In [38]:
chain.invoke(
    "말라리아 군집 사례는 어떤가요?"
)

'말라리아 군집 사례는 인천에서 총 5건이 발생했으며, 10명의 환자가 확인되었습니다. 군집 사례는 서구에서 2건, 강화군에서 1건, 연수구에서 1건, 중구에서 1건 발생했습니다.'