# 3. 멀티모달 RAG

PDF 분할 작업을 위해 `unstructured`를 사용합니다. `unstructured` 를 위해 다음과 도구의 설치가 필요합니다:

- `tesseract` : 광학 문자 인식(OCR)을 위해 사용
- `poppler` : PDF 렌더링 및 처리

[poppler 설치 방법](https://pdf2image.readthedocs.io/en/latest/installation.html)과 [tesseract 설치 방법](https://tesseract-ocr.github.io/tessdoc/Installation.html)을 참고하여 설치해주세요.

In [1]:
%%capture --no-stderr
!sudo apt install tesseract-ocr
!sudo apt install libtesseract-dev
!sudo apt-get install poppler-utils

In [2]:
%%capture --no-stderr
! pip install -U "unstructured[all-docs]" langchain openai chromadb langchain-experimental langchain_openai nltk pillow pydantic lxml pillow matplotlib chromadb tiktoken

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv("/content/.env")

True

In [5]:
import nltk

nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [6]:
# 파일 경로
fpath = '/content/drive/MyDrive/langchain-tutorial/Ch03. MultiModal RAG'
fname = "sample.pdf"

In [7]:
from unstructured.partition.pdf import partition_pdf
import os

# PDF에서 요소 추출
raw_pdf_elements = partition_pdf(
    filename=os.path.join(fpath, fname),
    extract_images_in_pdf=True,
    extract_image_block_types=["Image", "Table"],
    chunking_strategy="by_title",
    extract_image_block_output_dir=fpath,
)



yolox_l0.05.onnx:   0%|          | 0.00/217M [00:00<?, ?B/s]



In [9]:
# 텍스트, 테이블 추출
tables = []
texts = []
for element in raw_pdf_elements:
    if "unstructured.documents.elements.Table" in str(type(element)):
        tables.append(str(element))  # 테이블 요소 추가
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        texts.append(str(element))  # 텍스트 요소 추가

In [10]:
tables[0]

'전년 대비(42주) 2023년 구분 2023년 증감 2024년 (1. 1.∼12. 31.) (%) (1. 1.∼10. 19.) (1. 1.∼10. 21.) 630 (100.0) 673 (100) 전체 663 (100.0) △5.0% 남자 성별 569 (84.5) 526 (83.5) 560 (84.5) △6.1% 1.0% 104 (15.5) 여자 103 (15.5) 104 (16.5) △60.0% 2 ( 0.3) 5 ( 0.7) 5 ( 0.8) 연령 0-9세 20 ( 3.2) 31 ( 4.6) 30 ( 4.5) 10-19세 △33.3% 20-29세 200 (30.2) 209 (33.2) 4.5% 201 (29.9) 30-39세 △18.2% 110 (16.6) 111 (16.5) 90 (14.3) △7.7% 104 (15.7) 96 (15.2) 107 (15.9) 40-49세 118 (17.5) 115 (17.3) △13.9% 50-59세 99 (15.7) 73 (11.6) 60-69세'

In [11]:
texts[0]

'42주차 (10.13.~10.19.)\n\nEe ee\n\n주차\n\n국내발생 해외유입\n\n전체'

In [13]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# 프롬프트 설정
prompt_text = """당신은 표와 텍스트를 요약하여 검색할 수 있도록 돕는 역할을 맡은 어시스턴트입니다.
이 요약은 임베딩되어 원본 텍스트나 표 요소를 검색하는 데 사용될 것입니다.
표 또는 텍스트에 대한 간결한 요약을 제공하여 검색에 최적화된 형태로 만들어 주세요. 표 또는 텍스트: {element} """
prompt = ChatPromptTemplate.from_template(prompt_text)

# 텍스트 요약 체인
model = ChatOpenAI(temperature=0, model="gpt-4o")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

# 제공된 텍스트에 대해 요약을 할 경우
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})
# 요약을 원치 않을 경우
# text_summaries = texts

# 제공된 테이블에 적용
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

  model = ChatOpenAI(temperature=0, model="gpt-4o")


In [14]:
table_summaries[0]

'2023년과 2024년의 성별 및 연령별 데이터 비교: 전체적으로 2023년 대비 2024년은 5.0% 감소. 남성은 6.1% 감소, 여성은 1.0% 증가. 연령별로는 0-9세와 10-19세에서 각각 60.0%와 33.3% 감소. 20-29세는 4.5% 증가, 30-39세는 18.2% 감소. 40-49세는 7.7% 감소, 50-59세는 13.9% 감소, 60-69세는 15.7% 감소.'

In [15]:
text_summaries[0]

'2023년 42주차(10월 13일~10월 19일) 동안의 국내 발생 및 해외 유입 사례 요약.'

In [16]:
import base64


def encode_image(image_path) -> str:
    # 이미지 base64 인코딩
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


# 이미지의 base64 인코딩을 저장하는 리스트
img_base64_list = []

# 이미지를 읽어 base64 인코딩 후 저장
for img_file in sorted(os.listdir(fpath)):
    if img_file.endswith('.jpg'):
        img_path = os.path.join(fpath, img_file)
        base64_image = encode_image(img_path)
        img_base64_list.append(base64_image)

In [17]:
len(img_base64_list)

49

In [18]:
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI


def image_summarize(img_base64: str) -> str:
    # 이미지 요약
    chat = ChatOpenAI(model="gpt-4o", max_tokens=1024)
    prompt = """
    당신은 이미지를 요약하여 검색을 위해 사용할 수 있도록 돕는 어시스턴트입니다.
    이 요약은 임베딩되어 원본 이미지를 검색하는 데 사용됩니다.
    이미지 검색에 최적화된 간결한 요약을 작성하세요.
    """
    msg = chat.invoke(
        [
            HumanMessage(
                content=[
                    {"type": "text", "text": prompt},
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": f"data:image/jpeg;base64,{img_base64}"
                        },
                    },
                ]
            )
        ]
    )
    return msg.content


# 이미지 요약을 저장하는 리스트
image_summaries = []

for img_base64 in img_base64_list:
    image_summary = image_summarize(img_base64)
    image_summaries.append(image_summary)


In [19]:
image_summaries[0]

'2024년 질병관리청 주간 말라리아 소식지, 42주차(10.13~10.19), KDCA 로고 포함.'

In [20]:
from langchain.retrievers import MultiVectorRetriever
from langchain_core.stores import InMemoryStore
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 분할한 텍스트들을 색인할 벡터 저장소
vectorstore = Chroma(collection_name="multi_modal_rag",
                     embedding_function=OpenAIEmbeddings())

# 원본문서 저장을 위한 저장소 선언
docstore = InMemoryStore()
id_key = "doc_id"

# 검색기
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    id_key=id_key,
)

  vectorstore = Chroma(collection_name="multi_modal_rag",


In [21]:
import uuid

# 원본 텍스트 데이터 저장
doc_ids = [str(uuid.uuid4()) for _ in texts]
retriever.docstore.mset(list(zip(doc_ids, texts)))

# 원본 테이블 데이터 저장
table_ids = [str(uuid.uuid4()) for _ in tables]
retriever.docstore.mset(list(zip(table_ids, tables)))

# 원본 이미지(base64) 데이터 저장
img_ids = [str(uuid.uuid4()) for _ in img_base64_list]
retriever.docstore.mset(list(zip(img_ids, img_base64_list)))

In [22]:
from langchain.schema.document import Document

# 텍스트 요약 벡터 저장
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)

# 테이블 요약 벡터 저장
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)

# 이미지 요약 벡터 저장

summary_img = [
    Document(page_content=s, metadata={id_key: img_ids[i]})
    for i, s in enumerate(image_summaries)
]
retriever.vectorstore.add_documents(summary_img)

['5a7e82eb-74c2-4af0-bba7-6caca8ee4ba4',
 'abf20bd3-29bf-4287-aba6-5fa7f07443d4',
 'ca04f9b7-3bc7-470f-a28c-d056aa347d82',
 'a85b3c82-2e9d-467c-b859-f180a772b98f',
 'c324c81b-6fce-4ac3-b6aa-cb8d7f242ae3',
 'eb7d35b1-96b8-4a80-8547-2f6613aa48e3',
 '7d411ad8-689e-4a42-9dbb-6ceabe64a271',
 'cee3042e-92e0-4884-9654-cc5e1ea89bff',
 '9144709a-5933-44e2-b550-9a0b8edcceff',
 '4150bafe-244c-4b40-bf3f-df43158397e6',
 '3192d14f-60db-4912-8455-6dbc0bbf8e24',
 'feec8f52-35b0-47a0-a4a3-ed962298caf1',
 '5954d901-6cfb-40ab-876f-b84477aa29d6',
 '41ccf43c-5245-4ae7-aba8-a9bb6b05963f',
 'f63caa65-5298-47ab-aa97-92d91c1183d9',
 'e8dfccc4-5a0e-4351-a548-15933a4310cd',
 'ca4ada09-e702-4ea3-b805-78c4958f0df5',
 '7b838895-9b6b-48f2-9fb3-126119ad0993',
 'cd02b97b-ee30-451a-ad03-b0f7773fb977',
 '35369168-2bd2-44f4-bcd1-9c50012a3d58',
 'b5a40cb5-8ad9-4cd7-a4a0-93f1175dbcb6',
 '5164fb19-1a56-464c-8e91-47137ea80939',
 '1884b97a-ccfc-484a-8247-21b416bcb247',
 '39e9ba93-9152-4114-bd33-b8fa8a992954',
 'edb58aa3-a7c7-

In [23]:
docs = retriever.invoke(
    "말라리아 군집 사례는 어떤가요? "
)

In [24]:
len(docs)

4

In [25]:
from base64 import b64decode

def split_image_text_types(docs):
    # 이미지와 텍스트 데이터를 분리
    b64 = []
    text = []
    for doc in docs:
        try:
            b64decode(doc)
            b64.append(doc)
        except Exception as e:
            text.append(doc)
    return {
        "images": b64,
        "texts": text
    }

docs_by_type = split_image_text_types(docs)

In [26]:
len(docs_by_type["images"])

2

In [27]:
len(docs_by_type["texts"])

2

In [28]:
docs_by_type["images"][0][:100]

'/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAx'

In [29]:
docs_by_type["texts"]

['42주차 (10.13.~10.19.)\n\n3 말라리아 군집사례 현황\n\n* 군집사례 : 위험지역 내에서 2명 이상의 환자가 증상 발생 간격이 14일 이내, 환자 거주지 거리가 1Km 이내인 경우\n\n사례건수(환자수) 시·도 시군구 발생(군집사례건수) 4개 시도 46건(114명) 합계 ▸5명 군집(1) : 양천구, 강서구(1) 1건(5명) 서울 ▸2명 군집(5) : 서구(2), 강화군(1), 연수구(1), 중구(1) 인천 5건(10명) ▸6명 군집(1) : 파주시(1) ▸4명 군집(3) : 파주시(2), 김포시(1), ▸3명 군집(6) : 파주시(4), 김포시(1), 일산서구(1) 경기 39건(94명) ▸2명 군집(29) : 파주시(15), 김포시(10), 일산동구(2), 일산서구(1), 연천군(1) ▸5명 군집(1) : 철원군(1) 1건(5명) 강원\n\n그림 6. 군집사례',
 '42주차 (10.13.~10.19.) 3 말라리아 군집사례 현황 - (누적) 4개 시도(경기, 서울, 인천, 강원), 총 46건의 군집사례* 확인 * 군집사례 : 위험지역 내에서 2명 이상의 환자가 증상 발생 간격이 14일 이내, 환자 거주지 거리가 1Km 이내인 경우 표6 군집사례 발생 현황 사례건수(환자수) 시·도 시군구 발생(군집사례건수) 4개 시도 46건(114명) 합계 ▸5명 군집(1) : 양천구, 강서구(1) 1건(5명) 서울 ▸2명 군집(5) : 서구(2), 강화군(1), 연수구(1), 중구(1) 인천 5건(10명) ▸6명 군집(1) : 파주시(1) ▸4명 군집(3) : 파주시(2), 김포시(1), ▸3명 군집(6) : 파주시(4), 김포시(1), 일산서구(1) 경기 39건(94명) ▸2명 군집(29) : 파주시(15), 김포시(10), 일산동구(2), 일산서구(1), 연천군(1) ▸5명 군집(1) : 철원군(1) 1건(5명) 강원 그림 6. 군집사례 6']

In [30]:

from IPython.display import display, HTML

def plt_img_base64(img_base64):
    # base64 이미지로 html 태그를 작성합니다
    image_html = f'<img src="data:image/jpeg;base64,{img_base64}" />'

    # html 태그를 기반으로 이미지를 표기합니다
    display(HTML(image_html))

plt_img_base64(docs_by_type["images"][0])

In [31]:
docs_by_type["texts"][0]

'42주차 (10.13.~10.19.)\n\n3 말라리아 군집사례 현황\n\n* 군집사례 : 위험지역 내에서 2명 이상의 환자가 증상 발생 간격이 14일 이내, 환자 거주지 거리가 1Km 이내인 경우\n\n사례건수(환자수) 시·도 시군구 발생(군집사례건수) 4개 시도 46건(114명) 합계 ▸5명 군집(1) : 양천구, 강서구(1) 1건(5명) 서울 ▸2명 군집(5) : 서구(2), 강화군(1), 연수구(1), 중구(1) 인천 5건(10명) ▸6명 군집(1) : 파주시(1) ▸4명 군집(3) : 파주시(2), 김포시(1), ▸3명 군집(6) : 파주시(4), 김포시(1), 일산서구(1) 경기 39건(94명) ▸2명 군집(29) : 파주시(15), 김포시(10), 일산동구(2), 일산서구(1), 연천군(1) ▸5명 군집(1) : 철원군(1) 1건(5명) 강원\n\n그림 6. 군집사례'

In [32]:
from operator import itemgetter
from langchain.schema.runnable import RunnablePassthrough, RunnableLambda

def prompt_func(dict):
    format_texts = "\n".join(dict["context"]["texts"])
    text = f"""
    다음 문맥에만 기반하여 질문에 답하세요. 문맥에는 텍스트, 표, 그리고 아래 이미지가 포함될 수 있습니다:
    질문: {dict["question"]}

    텍스트와 표:
    {format_texts}
    """

    prompt = [
        HumanMessage(
            content=[
                {"type": "text", "text": text},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{dict['context']['images'][0]}"}},
            ]
        )
    ]

    return prompt


model = ChatOpenAI(temperature=0, model="gpt-4o", max_tokens=1024)

# RAG 파이프라인
chain = (
        {"context": retriever | RunnableLambda(split_image_text_types), "question": RunnablePassthrough()}
        | RunnableLambda(prompt_func)
        | model
        | StrOutputParser()
)

In [33]:
chain.invoke(
    "말라리아 군집 사례는 어떤가요?"
)

'말라리아 군집 사례는 42주차(10.13.~10.19.) 동안 4개 시도(경기, 서울, 인천, 강원)에서 총 46건이 확인되었습니다. 총 환자 수는 114명입니다. \n\n- 서울에서는 1건(5명)의 군집 사례가 발생했습니다.\n- 인천에서는 5건(10명)의 군집 사례가 발생했습니다.\n- 경기도에서는 39건(94명)의 군집 사례가 발생했습니다.\n- 강원도에서는 1건(5명)의 군집 사례가 발생했습니다.\n\n군집 사례는 위험 지역 내에서 2명 이상의 환자가 증상 발생 간격이 14일 이내이고, 환자 거주지 거리가 1Km 이내인 경우를 말합니다.'