 PDF 분할 작업을 위해 `unstructured`를 사용한다`unstructured` 를 위해 다음과 도구의 설치가 필요하다

  - tesseract : 광학 문자 인식(OCR)을 위해 사용
  - poppler : PDF 렌더링 및 처리

  [poppler 설치 방법](https://pdf2image.readthedocs.io/en/latest/installation.html)과 [tesseract 설치 방법](https://tesseract-ocr.github.io/tessdoc/Installation.html)을 참고

# **라이브러리 설치**

In [None]:
%%capture --no-stderr
!sudo apt install tesseract-ocr
!sudo apt install libtesseract-dev
!sudo apt-get install poppler-utils

In [None]:
%%capture --no-stderr
! pip install -U langchain openai chromadb langchain-experimental langchain_openai nltk pydantic lxml matplotlib chromadb tiktoken
! pip install pillow == 11.1.0
! pip install "unstructured[all-docs]" == 0.17.2

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv("/content/.env")

# **PDF 데이터 전처리**

In [None]:
# 파일 경로
fpath = 'pdf 파일이 저장된 디렉토리 경로'
fname = "sample.pdf"

In [None]:
import nltk

# nltk 필요 데이터 다운로드
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

In [None]:
from unstructured.partition.pdf import partition_pdf
import os

# PDF에서 요소 추출
raw_pdf_elements = partition_pdf(
    filename=os.path.join(fpath, fname),
    extract_images_in_pdf=True,
    infer_table_structure=True,
    chunking_strategy="by_title",
    extract_image_block_output_dir=fpath,
)

In [None]:
# 텍스트, 테이블 추출
tables = []
texts = []

for element in raw_pdf_elements:
  if "unstructured.documents.elements.Table" in str(type(element)):
    # 테이블 요소 추가
    tables.append(str(element))
  elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
    # 텍스트 요소 추가
    texts.append(str(element))

In [None]:
tables[0]
texts[0]

# **텍스트 및 테이블 요약**

In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# 프롬프트 설정
prompt_text = """당신은 표와 텍스트를 요약하여 검색할 수 있도록 돕는 역할을 맡은 어시스턴트입니다.
이 요약은 임베딩되어 원본 텍스트나 표 요소를 검색하는 데 사용될 것입니다.
표 또는 텍스트에 대한 간결한 요약을 제공하여 검색에 최적화된 형태로 만들어 주세요. 표 또는 텍스트: {element} """

prompt = ChatPromptTemplate.from_template(prompt_text)

# 텍스트 요약 체인
model = ChatOpenAI(temperature=0, model="gpt-4")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

# 제공된 텍스트에 대해 요약을 할 경우
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

# 요약을 원치 않을 경우
# text_summaries = texts

# 제공된 테이블에 적용
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

In [None]:
table_summaries[0]
text_summaries[0]

# **base64 인코딩 전달**

In [None]:
import base64

# -> str = 타입 힌트, 반환값
def encode_image(image_path) -> str:
  # 이미지 base64 인코딩
  # rb = 바이너리 읽기 모드
  with open(image_path, "rb") as image_file:
    # .decode('utf-8') = 바이트를 문자열로 변환
    return base64.b64encode(image_file.read()).decode('utf-8')

# 이미지의 base64 인코딩을 저장하는 리스트
img_base64_list = []

# 이미지를 읽어 bese64 인코딩 후 저장
# os.listdir(fpath) = 해당 경로에 있는 파일 목록 불러오기
for img_file in sorted(os.listdir(fpath)):
  if img_file.endswith('.jpg')
    img_path = os.path.join(fpath, img_file)
    base64_image = encode_image(img_path)
    img_base64_list.append(base64_image)

# **이미지 요약문 생성**

In [None]:
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI

def image_summarize(img_base64: str) -> str:
  # 이미지 요약
  chat = ChatOpenAI(model="gpt-4o", max_tokens=1024)
  prompt = """
  당신은 이미지를 요약하여 검색을 위해 사용할 수 있도록 돕는 어시스턴트입니다.
  이 요약은 임베딩되어 원본 이미지를 검색하는 데 사용됩니다.
  이미지 검색에 최적화된 간결한 요약을 작성하세요.
  """
  msg = chat.invoke(
      [
          HumanMessage(
              content=[
                  {"type": "text", "text": prompt},
                  {
                      "type": "image_url",
                      "image_url": {
                          "url": f"data:image/jpeg;base64,{img_base64}"
                      }
                  }
              ]
          )
      ]
  )

  return msg.content

# 이미지 요약을 저장하는 리스트
image_summaries = []

for img_base64 in img_base64_list:
  image_summary = image_summarize(img_base64)

In [None]:
image_summaries[0]

# **벡터 저장소**

In [None]:
from langchain.retrievers import MultiVectorRetriever
from langchain_core.stores import InMemoryStore
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 분할한 텍스트들을 색인할 벡터 저장소
vectorstore = Chroma(collection_name="multi_modal_rag", embedding_function=OpenAIEmbeddings())

# 원본 문서 저장을 위한 저장소 선언
# docstore는 실제 텍스트나 원본 자료(요약 전 문장, 이미지 정보 등) 를 저장하는 역할
docstore = InMemoryStore()
id_key = "doc_id"

# 검색기
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    id_key=id_key,
)

# **벡터 저장소 저장**

In [None]:
import uuid

# 원본 텍스트 데이터 저장
doc_ids = [str(uuid.uuid4()) for _ in texts]
retriever.docstore.mset(list(zip(doc_ids, texts)))

# 원본 테이블 데이터 저장
table_ids = [str(uuid.uuid4()) for _ in tables]
retriever.docstore.mset(list(zip(table_ids, tables)))

# 원본 이미지(base64) 데이터 저장
img_ids = [str(uuid.uuid4()) for _ in img_base64_list]
retriever.docstore.mset(list(zip(img_ids, img_base64_list)))

In [None]:
from langchain.schema.document import Document

# 텍스트 요약 벡터 저장
summary_texts = [
    # LangChain의 Document는 텍스트 + 메타데이터를 함께 담는 기본 단위
    # 각 루프마다 Document 객체가 만들어지고 i와 s는 text_summaries를 순회하면서 추출
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    # i는 순회 인덱스, s는 컨텐츠
    for i, s in enumerate(text_summaries)
]

# 즉 인덱스 리스트와 원본, 요약 벡터 데이터의 순서가 같아서 id값과 벡터 데이터를 맞추며 저장하느 ㄴ과정

retriever.vecterstore.add_documents(summary_texts)

# 테이블 요약 벡터 저장
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})
    for i, s in enumerate(table_summaries)
]

retriever.vectorstore.add_documents(summary_table)

# 이미지 요약 벡터 저장
summary_img = [
    Document(page_content=s, metadata={id_key: img_ids[i]})
    for i, s in enumerate(image_summaries)
]

retriever.vectorstore.add_documents(summary_img)

# **검색 결과 확인**

In [None]:
docs = retriever.invoke(
    "말라리아 군집 사례는 어떤가요?"
)

len(docs)

# 4
# 4개의 검색 결과

In [None]:
from base64 import b64decode

def split_image_text_types(docs):
  # 이미지와 텍스트 데이터를 분리
  b64 = []
  text = []

  for doc in docs:
    try:
      b64decode(doc)
      b64.append(doc)
    except Exception as e:
      text.append(doc)

  return {
      "images": b64,
      "texts": text
  }

docs_by_type = split_image_text_types(docs)

len(docs_by_type["images"])
# 3

len(docs_by_type["texts"])
# 1

In [None]:
frp, IPython.display import display, HTML

def plt_img_base64(img_base64):
  # base64 이미지로 html 태그를 작성
  image_html = f'<img src="data:image/jpeg;base64,{img_base64}" />'

  # html 태그를 기반으로 이미지를 표기
  display(HTML(image_html))

plt_img_base64(docs_by_type["images"][0])

In [None]:
docs_by_type["texts"][0]

# **답변 생성**

In [None]:
from operator import itemgetter
# RunnablePassthrough(): 입력을 그대로 다음 단계로 넘겨주는 역할(일종의 식별자/포맷 보존)
# RunnableLambda(fn): 사용자가 제공한 함수 fn을 래핑해서 runnable로 만든다. 실행 시 해당 함수를 호출합니다.
from langchain.schema.runnable import RunnablePassthrough, RunnableLambda

def prompt_func(dict):
  # 문맥 텍스트 리스트를 줄바꿈으로 연결해 하나의 긴 텍스트로 만든다
  # 검색 결과들 합침
  format_texts = "\n".join(dict["context"]["texts"])
  text = f"""
  다음 문맥에만 기반하여 질문에 답하세요. 문맥에는 텍스트, 표, 그리고 아래 이미지가 포함될 수 있습니다:
  질문: {dict["question"]}

  텍스트와 표:
  {format_texts}
  """

  prompt = [
      HumanMessage(
          content=[
              # 벡터 DB의 텍스트형 데이터는 질문과 같이 전달
              {"type": "text", "text": text},
              # 이미지 하나만 전달
              {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{dict['context']['images'][0]}"}},
          ]
      )
  ]

  return prompt

model = ChatOpenAI(temperature=0, model="gpt-4o", max_tokens=1024)

# RAG 파이프라인
# 1. 질문을 retriever에 넘겨 rag 검색
# 2. 그 결과를 split_image_text_types에 넘겨 검색 결과의 텍스트와 이미지를 분리
# 3. 결과가 context에 저장, 사용자의 질문인 question은 그냥 다음 단계로 넘김
# 4. 맨위 {}안에서 일어난 일들로 context, question dict이 만들어지고 prompt_func에 넘겨짐
# 최종 결과 예상
# {
#   "context": {
#     "texts": ["문맥 텍스트1", "문맥 텍스트2", ...],
#     "images": ["base64-이미지-문자열", ...]
#   },
#   "question": "사용자 질문"
# }
chain = (
    {"context": retriever | RunnableLambda(split_image_text_types), "question": RunnablePassthrough()}
    # 프롬프트 생성
    | RunnableLambda(prompt_func)
    # 모델 전달
    | model
    # 결과 처리
    | StrOutputParser()
)

In [None]:
chain.invoke(
    "말라리아 군집 사례는 어떤가요?"
)

# **텍스트 및 테이블 요약**

In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# 프롬프트 설정
prompt_text = """당신은 표와 텍스트를 요약하여 검색할 수 있도록 돕는 역할을 맡은 어시스턴트입니다.
이 요약은 임베딩되어 원본 텍스트나 표 요소를 검색하는 데 사용될 것입니다.
표 또는 텍스트에 대한 간결한 요약을 제공하여 검색에 최적화된 형태로 만들어 주세요. 표 또는 텍스트: {element} """

prompt = ChatPromptTemplate.from_template(prompt_text)

# 텍스트 요약 체인
model = ChatOpenAI(temperature=0, model="gpt-4")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

# 제공된 텍스트에 대해 요약을 할 경우
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

# 요약을 원치 않을 경우
# text_summaries = texts

# 제공된 테이블에 적용
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

In [None]:
table_summaries[0]
text_summaries[0]

# **base64 인코딩 전달**

In [None]:
import base64

# -> str = 타입 힌트, 반환값
def encode_image(image_path) -> str:
  # 이미지 base64 인코딩
  # rb = 바이너리 읽기 모드
  with open(image_path, "rb") as image_file:
    # .decode('utf-8') = 바이트를 문자열로 변환
    return base64.b64encode(image_file.read()).decode('utf-8')

# 이미지의 base64 인코딩을 저장하는 리스트
img_base64_list = []

# 이미지를 읽어 bese64 인코딩 후 저장
# os.listdir(fpath) = 해당 경로에 있는 파일 목록 불러오기
for img_file in sorted(os.listdir(fpath)):
  if img_file.endswith('.jpg')
    img_path = os.path.join(fpath, img_file)
    base64_image = encode_image(img_path)
    img_base64_list.append(base64_image)

# **이미지 요약문 생성**

In [None]:
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI

def image_summarize(img_base64: str) -> str:
  # 이미지 요약
  chat = ChatOpenAI(model="gpt-4o", max_tokens=1024)
  prompt = """
  당신은 이미지를 요약하여 검색을 위해 사용할 수 있도록 돕는 어시스턴트입니다.
  이 요약은 임베딩되어 원본 이미지를 검색하는 데 사용됩니다.
  이미지 검색에 최적화된 간결한 요약을 작성하세요.
  """
  msg = chat.invoke(
      [
          HumanMessage(
              content=[
                  {"type": "text", "text": prompt},
                  {
                      "type": "image_url",
                      "image_url": {
                          "url": f"data:image/jpeg;base64,{img_base64}"
                      }
                  }
              ]
          )
      ]
  )

  return msg.content

# 이미지 요약을 저장하는 리스트
image_summaries = []

for img_base64 in img_base64_list:
  image_summary = image_summarize(img_base64)

In [None]:
image_summaries[0]

# **벡터 저장소**

In [None]:
from langchain.retrievers import MultiVectorRetriever
from langchain_core.stores import InMemoryStore
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 분할한 텍스트들을 색인할 벡터 저장소
vectorstore = Chroma(collection_name="multi_modal_rag", embedding_function=OpenAIEmbeddings())

# 원본 문서 저장을 위한 저장소 선언
# docstore는 실제 텍스트나 원본 자료(요약 전 문장, 이미지 정보 등) 를 저장하는 역할
docstore = InMemoryStore()
id_key = "doc_id"

# 검색기
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    id_key=id_key,
)

# **벡터 저장소 저장**

In [None]:
import uuid

# 원본 텍스트 데이터 저장
doc_ids = [str(uuid.uuid4()) for _ in texts]
retriever.docstore.mset(list(zip(doc_ids, texts)))

# 원본 테이블 데이터 저장
table_ids = [str(uuid.uuid4()) for _ in tables]
retriever.docstore.mset(list(zip(table_ids, tables)))

# 원본 이미지(base64) 데이터 저장
img_ids = [str(uuid.uuid4()) for _ in img_base64_list]
retriever.docstore.mset(list(zip(img_ids, img_base64_list)))

In [None]:
from langchain.schema.document import Document

# 텍스트 요약 벡터 저장
summary_texts = [
    # LangChain의 Document는 텍스트 + 메타데이터를 함께 담는 기본 단위
    # 각 루프마다 Document 객체가 만들어지고 i와 s는 text_summaries를 순회하면서 추출
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    # i는 순회 인덱스, s는 컨텐츠
    for i, s in enumerate(text_summaries)
]

# 즉 인덱스 리스트와 원본, 요약 벡터 데이터의 순서가 같아서 id값과 벡터 데이터를 맞추며 저장하느 ㄴ과정

retriever.vecterstore.add_documents(summary_texts)

# 테이블 요약 벡터 저장
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})
    for i, s in enumerate(table_summaries)
]

retriever.vectorstore.add_documents(summary_table)

# 이미지 요약 벡터 저장
summary_img = [
    Document(page_content=s, metadata={id_key: img_ids[i]})
    for i, s in enumerate(image_summaries)
]

retriever.vectorstore.add_documents(summary_img)

# **검색 결과 확인**

In [None]:
docs = retriever.invoke(
    "말라리아 군집 사례는 어떤가요?"
)

len(docs)

# 4
# 4개의 검색 결과

In [None]:
from base64 import b64decode

def split_image_text_types(docs):
  # 이미지와 텍스트 데이터를 분리
  b64 = []
  text = []

  for doc in docs:
    try:
      b64decode(doc)
      b64.append(doc)
    except Exception as e:
      text.append(doc)

  return {
      "images": b64,
      "texts": text
  }

docs_by_type = split_image_text_types(docs)

len(docs_by_type["images"])
# 3

len(docs_by_type["texts"])
# 1

In [None]:
frp, IPython.display import display, HTML

def plt_img_base64(img_base64):
  # base64 이미지로 html 태그를 작성
  image_html = f'<img src="data:image/jpeg;base64,{img_base64}" />'

  # html 태그를 기반으로 이미지를 표기
  display(HTML(image_html))

plt_img_base64(docs_by_type["images"][0])

In [None]:
docs_by_type["texts"][0]

# **답변 생성**

In [None]:
from operator import itemgetter
# RunnablePassthrough(): 입력을 그대로 다음 단계로 넘겨주는 역할(일종의 식별자/포맷 보존)
# RunnableLambda(fn): 사용자가 제공한 함수 fn을 래핑해서 runnable로 만든다. 실행 시 해당 함수를 호출합니다.
from langchain.schema.runnable import RunnablePassthrough, RunnableLambda

def prompt_func(dict):
  # 문맥 텍스트 리스트를 줄바꿈으로 연결해 하나의 긴 텍스트로 만든다
  # 검색 결과들 합침
  format_texts = "\n".join(dict["context"]["texts"])
  text = f"""
  다음 문맥에만 기반하여 질문에 답하세요. 문맥에는 텍스트, 표, 그리고 아래 이미지가 포함될 수 있습니다:
  질문: {dict["question"]}

  텍스트와 표:
  {format_texts}
  """

  prompt = [
      HumanMessage(
          content=[
              # 벡터 DB의 텍스트형 데이터는 질문과 같이 전달
              {"type": "text", "text": text},
              # 이미지 하나만 전달
              {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{dict['context']['images'][0]}"}},
          ]
      )
  ]

  return prompt

model = ChatOpenAI(temperature=0, model="gpt-4o", max_tokens=1024)

# RAG 파이프라인
# 1. 질문을 retriever에 넘겨 rag 검색
# 2. 그 결과를 split_image_text_types에 넘겨 검색 결과의 텍스트와 이미지를 분리
# 3. 결과가 context에 저장, 사용자의 질문인 question은 그냥 다음 단계로 넘김
# 4. 맨위 {}안에서 일어난 일들로 context, question dict이 만들어지고 prompt_func에 넘겨짐
# 최종 결과 예상
# {
#   "context": {
#     "texts": ["문맥 텍스트1", "문맥 텍스트2", ...],
#     "images": ["base64-이미지-문자열", ...]
#   },
#   "question": "사용자 질문"
# }
chain = (
    {"context": retriever | RunnableLambda(split_image_text_types), "question": RunnablePassthrough()}
    # 프롬프트 생성
    | RunnableLambda(prompt_func)
    # 모델 전달
    | model
    # 결과 처리
    | StrOutputParser()
)

In [None]:
chain.invoke(
    "말라리아 군집 사례는 어떤가요?"
)