# Chroma

1. CSVLoader() 로 csv 파일 로드
2. xml document 생성
3. TextSplitter로 분할 : chunk_size=600, 
4. chroma db 생성(우선 10개만)
   - splited text로 db 생성
   - embedding : OpenAIEmbedding()
5. query 테스트

In [None]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

In [None]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH09-VectorStores")

In [None]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 파일 경로
loader = CSVLoader(
    file_path="./data/announcement.csv",
    csv_args={
        "delimiter": ",",  # 구분자
        "quotechar": '"',  # 인용 부호 문자
        "fieldnames": [
            "Sequence",  # 순번
            "Registration number",  # 공고번호
            "Announcement name",  # 공고명
            "Support areas",  # 지원분야
            "Region",  # 지역
            "Target",  # 지원대상
            "Target age",  # 대상연령
            "Application period",  # 접수기간
            "Entrepreneurial history",  # 업력
            "Institution name",  # 기관명
            "Organization classification",  # 기관구분 : 공공, 민간, 교육
            "Department in charge",  # 담당부서
            "Announcement number",  # 공고 제 호
            "Announcement contents",  # 공고내용
            "Registration date",  # 공고등록일
            "Announcement registrar name",  # 공고 기업명
            "How to apply work-in",  # 신청방법 : 방문
            "How to apply By mail",  # 신청방법 : 우편
            "How to apply By Fax",  # 신청방법 : FAX
            "How to apply By email",  # 신청방법 : email
            "How to apply online",  # 신청방법 : 온라인
            "How to apply other",  # 신청방법 : 기타
            "Who to apply for",  # 신청대상
            "Excluded from application",  # 제외대상
            "Summary",  # 공고명 + 공고내용
        ],  # 필드 이름
    },
)

# 데이터 로드
docs = loader.load()

# 데이터 출력
print(docs[1].page_content)

In [None]:
# XML 변환
xml_docs = []
for doc in docs[1:]:
    row = doc.page_content.split("\n")
    row_str = "<row>"
    for element in row:
        splitted_element = element.split(":")
        value = splitted_element[-1]
        col = ":".join(splitted_element[:-1])
        row_str += f"<{col}>{value.strip()}</{col}>"
    row_str += "</row>"
    xml_docs.append(row_str)

In [None]:
# 리스트를 텍스트 파일에 저장
with open("./xml_doc.txt", "w") as f:
    for item in xml_docs:
        f.write(f"{item}\n")

In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma

In [16]:
# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1025, chunk_overlap=50)

loader1 = TextLoader("./xml_doc.txt")

# 문서 분할
split_doc = loader1.load_and_split(text_splitter)

# 문서 개수 확인
len(split_doc)

6847

In [18]:
split_doc[:10]

[Document(metadata={'source': './xml_doc.txt'}, page_content='<row><Sequence>1</Sequence><Registration number>167234</Registration number><Announcement name>[인천대학교 창업지원단] 2024년 예비창업패키지 대비 INU 스타트업 아카데미 교육생 모집</Announcement name><Support areas>사업화</Support areas><Region>전국</Region><Target>전체</Target><Target age>전체</Target age><Application period: 2023-12-26 ~ 2024-01-15 23>59</Application period: 2023-12-26 ~ 2024-01-15 23><Entrepreneurial history>예비창업자</Entrepreneurial history><Institution name>국립대학법인 인천대학교</Institution name><Organization classification>교육기관</Organization classification><Department in charge>창업지원단</Department in charge><Announcement number>공고 제231222호</Announcement number><Announcement contents>2024년 예비창업패키지를 준비하는 예비창업자를 발굴하고 지원하고자 참여를 희망하는 예비창업자는 안내에 따라 신청하기 바랍니다.</Announcement contents><Registration date>2023년 12월 26일</Registration date><Announcement registrar name>인천대학교 창업지원단</Announcement registrar name><How to apply work-in></How to apply work-in><How to apply By 

In [None]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
faiss_vectorstore = FAISS.from_documents(documents=split_doc, embedding=embeddings)


In [None]:
# FAISS index 저장
faiss_vectorstore.save_local("./faisss_index")

In [27]:
# FAISS index 불러오기
faiss_index_path="./faisss_index"
faiss_db = FAISS.load_local(faiss_index_path, embeddings, allow_dangerous_deserialization=True)

In [None]:
query1 = "나는 서울에 살고있어.. 창업을 할려고 하는데 어떤 지원을 받을 수 있을까"
query2 = "예비창업패키지에 대해 설명해줘"
#result = faiss_vectorstore.similarity_search(query1, k=3)
result = faiss_db.similarity_search(query2, k=3)
print(result)

In [None]:
# DB 생성
db = Chroma.from_documents(
    documents=split_doc,
    embedding=OpenAIEmbeddings(model="text-embedding-3-small"),
    collection_name="my_db",
)

In [None]:
# 저장할 경로 지정
DB_PATH = "./chroma_db"

# 문서를 디스크에 저장합니다. 저장시 persist_directory에 저장할 경로를 지정합니다.
persist_db = Chroma.from_documents(
    split_doc,
    OpenAIEmbeddings(model="text-embedding-3-small"),
    persist_directory=DB_PATH,
    collection_name="my_db",
)

In [None]:
# db에 저장된 데이터 불러오기
persist_db = Chroma(
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small"),
    collection_name="my_db",
    persist_directory="./chroma_db",
)

print(f"데이터베이스 크기: {persist_db._collection.count()}")

In [None]:
persist_db.get()

In [None]:
persist_db.similarity_search(
    "나는 서울에 살고있어.. 창업을 할려고 하는데 어떤 지원을 받을 수 있을까"
)

`k` 값에 검색 결과의 개수를 지정할 수 있습니다.

In [None]:
persist_db.similarity_search("예비창업패키지 공고 알려줘", k=2)

`filter` 에 `metadata` 정보를 활용하여 검색 결과를 필터링 할 수 있습니다.

In [None]:
# filter 사용
db.similarity_search(
    "TF IDF 에 대하여 알려줘", filter={"source": "data/nlp-keywords.txt"}, k=2
)

다음은 `filter` 에서 다른 `source` 를 사용하여 검색한 결과를 확인합니다.

In [None]:
# filter 사용
db.similarity_search(
    "TF IDF 에 대하여 알려줘", filter={"source": "data/finance-keywords.txt"}, k=2
)

### 벡터 저장소에 문서 추가

`add_documents` 메서드는 벡터 저장소에 문서를 추가하거나 업데이트합니다.

**매개변수**

- `documents` (List[Document]): 벡터 저장소에 추가할 문서 리스트
- `**kwargs`: 추가 키워드 인자
  - `ids`: 문서 ID 리스트 (제공 시 문서의 ID보다 우선함)

**참고**

- `add_texts` 메서드가 구현되어 있어야 합니다.
- 문서의 `page_content`는 텍스트로, `metadata`는 메타데이터로 사용됩니다.
- 문서에 ID가 있고 `kwargs`에 ID가 제공되지 않으면 문서의 ID가 사용됩니다.
- `kwargs`의 ID와 문서 수가 일치하지 않으면 ValueError가 발생합니다.

**반환값**

- `List[str]`: 추가된 텍스트의 ID 리스트

**예외**

- `NotImplementedError`: `add_texts` 메서드가 구현되지 않은 경우 발생

In [None]:
from langchain_core.documents import Document

# page_content, metadata, id 지정
db.add_documents(
    [
        Document(
            page_content="안녕하세요! 이번엔 도큐먼트를 새로 추가해 볼께요",
            metadata={"source": "mydata.txt"},
            id="1",
        )
    ]
)

In [None]:
# id=1 로 문서 조회
db.get("1")

`add_texts` 메서드는 텍스트를 임베딩하고 벡터 저장소에 추가합니다.

**매개변수**

- `texts` (Iterable[str]): 벡터 저장소에 추가할 텍스트 리스트
- `metadatas` (Optional[List[dict]]): 메타데이터 리스트. 기본값은 None
- `ids` (Optional[List[str]]): 문서 ID 리스트. 기본값은 None

**참고**

- `ids`가 제공되지 않으면 UUID를 사용하여 자동으로 생성됩니다.
- 임베딩 함수가 설정되어 있으면 텍스트를 임베딩합니다.
- 메타데이터가 제공된 경우:
  - 메타데이터가 있는 텍스트와 없는 텍스트를 분리하여 처리합니다.
  - 메타데이터가 없는 텍스트의 경우 빈 딕셔너리로 채웁니다.
- 컬렉션에 upsert 작업을 수행하여 텍스트, 임베딩, 메타데이터를 추가합니다.

**반환값**

- `List[str]`: 추가된 텍스트의 ID 리스트

**예외**

- `ValueError`: 복잡한 메타데이터로 인한 오류 발생 시, 필터링 방법 안내 메시지와 함께 발생

기존의 아이디에 추가하는 경우 `upsert` 가 수행되며, 기존의 문서는 대체됩니다.

In [None]:
# 신규 데이터를 추가합니다. 이때 기존의 id=1 의 데이터는 덮어쓰게 됩니다.
db.add_texts(
    ["이전에 추가한 Document 를 덮어쓰겠습니다.", "덮어쓴 결과가 어떤가요?"],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["1", "2"],
)

In [None]:
# id=1 조회
db.get(["1"])

### 벡터 저장소에서 문서 삭제

`delete` 메서드는 벡터 저장소에서 지정된 ID의 문서를 삭제합니다.

**매개변수**

- `ids` (Optional[List[str]]): 삭제할 문서의 ID 리스트. 기본값은 None

**참고**

- 이 메서드는 내부적으로 컬렉션의 `delete` 메서드를 호출합니다.
- `ids`가 None이면 아무 작업도 수행하지 않습니다.

**반환값**

- None

In [None]:
# id 1 삭제
db.delete(ids=["1"])

In [None]:
# 문서 조회
db.get(["1", "2"])

In [None]:
# where 조건으로 metadata 조회
db.get(where={"source": "mydata.txt"})

### 초기화(reset_collection)

`reset_collection` 메서드는 벡터 저장소의 컬렉션을 초기화합니다.


In [None]:
# 컬렉션 초기화
db.reset_collection()

In [None]:
# 초기화 후 문서 조회
db.get()

### 벡터 저장소를 검색기(Retriever)로 변환

`as_retriever` 메서드는 벡터 저장소를 기반으로 VectorStoreRetriever를 생성합니다.

**매개변수**

- `**kwargs`: 검색 함수에 전달할 키워드 인자
  - `search_type` (Optional[str]): 검색 유형 (`"similarity"`, `"mmr"`, `"similarity_score_threshold"`)
  - `search_kwargs` (Optional[Dict]): 검색 함수에 전달할 추가 인자
    - `k`: 반환할 문서 수 (기본값: 4)
    - `score_threshold`: 최소 유사도 임계값
    - `fetch_k`: MMR 알고리즘에 전달할 문서 수 (기본값: 20)
    - `lambda_mult`: MMR 결과의 다양성 조절 (0~1, 기본값: 0.5)
    - `filter`: 문서 메타데이터 필터링

**반환값**

- `VectorStoreRetriever`: 벡터 저장소 기반 검색기 인스턴스

`DB` 를 생성합니다.

In [None]:
# DB 생성
db = Chroma.from_documents(
    documents=split_doc1 + split_doc2,
    embedding=OpenAIEmbeddings(),
    collection_name="nlp",
)

기본 값으로 설정된 4개 문서를 유사도 검색을 수행하여 조회합니다.

In [None]:
retriever = db.as_retriever()
retriever.invoke("Word2Vec 에 대하여 알려줘")

다양성이 높은 더 많은 문서 검색

- `k`: 반환할 문서 수 (기본값: 4)
- `fetch_k`: MMR 알고리즘에 전달할 문서 수 (기본값: 20)
- `lambda_mult`: MMR 결과의 다양성 조절 (0~1, 기본값: 0.5, 0: 유사도 점수만 고려, 1: 다양성만 고려)

In [None]:
retriever = db.as_retriever(
    search_type="mmr", search_kwargs={"k": 6, "lambda_mult": 0.25, "fetch_k": 10}
)
retriever.invoke("Word2Vec 에 대하여 알려줘")

MMR 알고리즘을 위해 더 많은 문서를 가져오되 상위 2개만 반환

In [None]:
retriever = db.as_retriever(search_type="mmr", search_kwargs={"k": 2, "fetch_k": 10})
retriever.invoke("Word2Vec 에 대하여 알려줘")

특정 임계값 이상의 유사도를 가진 문서만 검색

In [None]:
retriever = db.as_retriever(
    search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.8}
)

retriever.invoke("Word2Vec 에 대하여 알려줘")

가장 유사한 단일 문서만 검색

In [None]:
retriever = db.as_retriever(search_kwargs={"k": 1})

retriever.invoke("Word2Vec 에 대하여 알려줘")

특정 메타데이터 필터 적용

In [None]:
retriever = db.as_retriever(
    search_kwargs={"filter": {"source": "data/finance-keywords.txt"}, "k": 2}
)
retriever.invoke("ESG 에 대하여 알려줘")

## 멀티모달 검색

Chroma는 멀티모달 컬렉션, 즉 여러 양식의 데이터를 포함하고 쿼리할 수 있는 컬렉션을 지원합니다.

## 데이터 세트

허깅페이스에서 호스팅되는 [coco object detection dataset](https://huggingface.co/datasets/detection-datasets/coco)의 작은 하위 집합을 사용합니다.

데이터 세트의 모든 이미지 중 일부만 로컬로 다운로드하고 이를 사용하여 멀티모달 컬렉션을 생성합니다.

In [None]:
import os
from datasets import load_dataset
from matplotlib import pyplot as plt

# COCO 데이터셋 로드
dataset = load_dataset(
    path="detection-datasets/coco", name="default", split="train", streaming=True
)

# 이미지 저장 폴더와 이미지 개수 설정
IMAGE_FOLDER = "tmp"
N_IMAGES = 20

# 그래프 플로팅을 위한 설정
plot_cols = 5
plot_rows = N_IMAGES // plot_cols
fig, axes = plt.subplots(plot_rows, plot_cols, figsize=(plot_rows * 2, plot_cols * 2))
axes = axes.flatten()

# 이미지를 폴더에 저장하고 그래프에 표시
dataset_iter = iter(dataset)
os.makedirs(IMAGE_FOLDER, exist_ok=True)
for i in range(N_IMAGES):
    # 데이터셋에서 이미지와 레이블 추출
    data = next(dataset_iter)
    image = data["image"]
    label = data["objects"]["category"][0]  # 첫 번째 객체의 카테고리를 레이블로 사용

    # 그래프에 이미지 표시 및 레이블 추가
    axes[i].imshow(image)
    axes[i].set_title(label, fontsize=8)
    axes[i].axis("off")

    # 이미지 파일로 저장
    image.save(f"{IMAGE_FOLDER}/{i}.jpg")

# 그래프 레이아웃 조정 및 표시
plt.tight_layout()
plt.show()

![](./images/chroma-01.png)

### Multimodal Embeddings

Multimodal Embeddings 을 활용하여 이미지, 텍스트에 대한 Embedding 을 생성합니다.

이번 튜토리얼에서는 OpenClipEmbeddingFunction 을 사용하여 이미지를 임베딩합니다.

- [OpenCLIP](https://github.com/mlfoundations/open_clip/tree/main)

### Model 벤치마크

| Model                              | Training data  | Resolution | # of samples seen | ImageNet zero-shot acc. |
|------------------------------------|----------------|------------|-------------------|-------------------------|
| ConvNext-Base                       | LAION-2B       | 256px      | 13B               | 71.5%                   |
| ConvNext-Large                      | LAION-2B       | 320px      | 29B               | 76.9%                   |
| ConvNext-XXLarge                    | LAION-2B       | 256px      | 34B               | 79.5%                   |
| ViT-B/32                            | DataComp-1B    | 256px      | 34B               | 72.8%                   |
| ViT-B/16                            | DataComp-1B    | 224px      | 13B               | 73.5%                   |
| ViT-L/14                            | LAION-2B       | 224px      | 32B               | 75.3%                   |
| ViT-H/14                            | LAION-2B       | 224px      | 32B               | 78.0%                   |
| ViT-L/14                            | DataComp-1B    | 224px      | 13B               | 79.2%                   |
| ViT-G/14                            | LAION-2B       | 224px      | 34B               | 80.1%                   |
| ViT-L/14 ([Original CLIP](https://openai.com/research/clip)) | WIT            | 224px      | 13B               | 75.5%                   |
| ViT-SO400M/14 ([SigLIP](https://github.com/mlfoundations/open_clip)) | WebLI | 224px | 45B | 82.0% |
| ViT-SO400M-14-SigLIP-384 ([SigLIP](https://github.com/mlfoundations/open_clip)) | WebLI | 384px | 45B | 83.1% |
| ViT-H/14-quickgelu ([DFN](https://www.deeplearning.ai/glossary/neural-networks/)) | DFN-5B | 224px | 39B | 83.4% |
| ViT-H-14-378-quickgelu ([DFN](https://www.deeplearning.ai/glossary/neural-networks/)) | DFN-5B | 378px | 44B | 84.4% |


아래의 예시에서 `model_name` 과 `checkpoint` 를 설정하여 사용합니다.

- `model_name`: OpenCLIP 모델명
- `checkpoint`: OpenCLIP 모델의 `Training data` 에 해당하는 이름

In [None]:
import open_clip
import pandas as pd

# 사용 가능한 모델/Checkpoint 를 출력
pd.DataFrame(open_clip.list_pretrained(), columns=["model_name", "checkpoint"]).head(10)

In [None]:
from langchain_experimental.open_clip import OpenCLIPEmbeddings

# OpenCLIP 임베딩 함수 객체 생성
image_embedding_function = OpenCLIPEmbeddings(
    model_name="ViT-H-14-378-quickgelu", checkpoint="dfn5b"
)

이미지의 경로를 list 로 저장합니다.

In [None]:
# 이미지의 경로를 리스트로 저장
image_uris = sorted(
    [
        os.path.join("tmp", image_name)
        for image_name in os.listdir("tmp")
        if image_name.endswith(".jpg")
    ]
)

image_uris

In [None]:
from langchain_teddynote.models import MultiModal
from langchain_openai import ChatOpenAI

# ChatOpenAI 모델 초기화
llm = ChatOpenAI(model="gpt-4o-mini")

# MultiModal 모델 설정
model = MultiModal(
    model=llm,
    system_prompt="Your mission is to describe the image in detail",  # 시스템 프롬프트: 이미지를 상세히 설명하도록 지시
    user_prompt="Description should be written in one sentence(less than 60 characters)",  # 사용자 프롬프트: 60자 이내의 한 문장으로 설명 요청
)

image 에 대한 description 을 생성합니다.

In [None]:
# 이미지 설명 생성
model.invoke(image_uris[0])

![](./images/chroma-02.png)

In [None]:
# 이미지 설명
descriptions = dict()

for image_uri in image_uris:
    descriptions[image_uri] = model.invoke(image_uri, display_image=False)

# 생성된 결과물 출력
descriptions

In [None]:
import os
from PIL import Image
import matplotlib.pyplot as plt

# 원본 이미지, 처리된 이미지, 텍스트 설명을 저장할 리스트 초기화
original_images = []
images = []
texts = []

# 그래프 크기 설정 (20x10 인치)
plt.figure(figsize=(20, 10))

# 'tmp' 디렉토리에 저장된 이미지 파일들을 처리
for i, image_uri in enumerate(image_uris):
    # 이미지 파일 열기 및 RGB 모드로 변환
    image = Image.open(image_uri).convert("RGB")

    # 4x5 그리드의 서브플롯 생성
    plt.subplot(4, 5, i + 1)

    # 이미지 표시
    plt.imshow(image)

    # 이미지 파일명과 설명을 제목으로 설정
    plt.title(f"{os.path.basename(image_uri)}\n{descriptions[image_uri]}", fontsize=8)

    # x축과 y축의 눈금 제거
    plt.xticks([])
    plt.yticks([])

    # 원본 이미지, 처리된 이미지, 텍스트 설명을 각 리스트에 추가
    original_images.append(image)
    images.append(image)
    texts.append(descriptions[image_uri])

# 서브플롯 간 간격 조정
plt.tight_layout()

![](./images/chroma-03.png)

아래는 생성한 이미지 description 과 텍스트 간의 유사도를 계산합니다.

In [None]:
import numpy as np

# 이미지와 텍스트 임베딩
# 이미지 URI를 사용하여 이미지 특징 추출
img_features = image_embedding_function.embed_image(image_uris)
# 텍스트 설명에 "This is" 접두사를 추가하고 텍스트 특징 추출
text_features = image_embedding_function.embed_documents(
    ["This is " + desc for desc in texts]
)

# 행렬 연산을 위해 리스트를 numpy 배열로 변환
img_features_np = np.array(img_features)
text_features_np = np.array(text_features)

# 유사도 계산
# 텍스트와 이미지 특징 간의 코사인 유사도를 계산
similarity = np.matmul(text_features_np, img_features_np.T)

텍스트 대 이미지 description 간 유사도를 구하고 시각화합니다.

In [None]:
# 유사도 행렬을 시각화하기 위한 플롯 생성
count = len(descriptions)
plt.figure(figsize=(20, 14))

# 유사도 행렬을 히트맵으로 표시
plt.imshow(similarity, vmin=0.1, vmax=0.3, cmap="coolwarm")
plt.colorbar()  # 컬러바 추가

# y축에 텍스트 설명 표시
plt.yticks(range(count), texts, fontsize=18)
plt.xticks([])  # x축 눈금 제거

# 원본 이미지를 x축 아래에 표시
for i, image in enumerate(original_images):
    plt.imshow(image, extent=(i - 0.5, i + 0.5, -1.6, -0.6), origin="lower")

# 유사도 값을 히트맵 위에 텍스트로 표시
for x in range(similarity.shape[1]):
    for y in range(similarity.shape[0]):
        plt.text(x, y, f"{similarity[y, x]:.2f}", ha="center", va="center", size=12)

# 플롯 테두리 제거
for side in ["left", "top", "right", "bottom"]:
    plt.gca().spines[side].set_visible(False)

# 플롯 범위 설정
plt.xlim([-0.5, count - 0.5])
plt.ylim([count + 0.5, -2])

# 제목 추가
plt.title("Cosine Similarity", size=20)

![](./images/chroma-04.png)

### Vectorstore 생성 및 이미지 추가

Vectorstore 를 생성하고 이미지를 추가합니다.

In [None]:
# DB 생성
image_db = Chroma(
    collection_name="multimodal",
    embedding_function=image_embedding_function,
)

# 이미지 추가
image_db.add_images(uris=image_uris)

아래는 이미지 검색된 결과를 이미지로 출력하기 위한 helper class 입니다.

In [None]:
import base64
import io
from PIL import Image
from IPython.display import HTML, display
from langchain.schema import Document


class ImageRetriever:
    def __init__(self, retriever):
        """
        이미지 검색기를 초기화합니다.

        인자:
        retriever: LangChain의 retriever 객체
        """
        self.retriever = retriever

    def invoke(self, query):
        """
        쿼리를 사용하여 이미지를 검색하고 표시합니다.

        인자:
        query (str): 검색 쿼리
        """
        docs = self.retriever.invoke(query)
        if docs and isinstance(docs[0], Document):
            self.plt_img_base64(docs[0].page_content)
        else:
            print("검색된 이미지가 없습니다.")
        return docs

    @staticmethod
    def resize_base64_image(base64_string, size=(224, 224)):
        """
        Base64 문자열로 인코딩된 이미지의 크기를 조정합니다.

        인자:
        base64_string (str): 원본 이미지의 Base64 문자열.
        size (tuple): (너비, 높이)로 표현된 원하는 이미지 크기.

        반환:
        str: 크기가 조정된 이미지의 Base64 문자열.
        """
        img_data = base64.b64decode(base64_string)
        img = Image.open(io.BytesIO(img_data))
        resized_img = img.resize(size, Image.LANCZOS)
        buffered = io.BytesIO()
        resized_img.save(buffered, format=img.format)
        return base64.b64encode(buffered.getvalue()).decode("utf-8")

    @staticmethod
    def plt_img_base64(img_base64):
        """
        Base64로 인코딩된 이미지를 표시합니다.

        인자:
        img_base64 (str): Base64로 인코딩된 이미지 문자열
        """
        image_html = f'<img src="data:image/jpeg;base64,{img_base64}" />'
        display(HTML(image_html))

In [None]:
# Image Retriever 생성
retriever = image_db.as_retriever(search_kwargs={"k": 3})
image_retriever = ImageRetriever(retriever)

In [None]:
# 이미지 조회
result = image_retriever.invoke("A Dog on the street")

![](./images/chroma-05.png)

In [None]:
# 이미지 조회
result = image_retriever.invoke("Motorcycle with a man")

![](./images/chroma-06.png)