### 3.2.1 크로마 클라이언트 생성

In [1]:
import chromadb

# 크로마 클라이언트 생성
client = chromadb.Client()

### 3.2.2 컬렉션 생성

In [2]:
# 벡터 컬렉션 생성
collection = client.create_collection("example_collection")

### 3.2.3 벡터 데이터 추가

In [3]:
# 임베딩된 벡터 데이터 (예시로 임의 벡터 사용)
vectors = [
[0.1, 0.2, 0.3], # 첫 번째 데이터의 벡터
[0.4, 0.5, 0.6], # 두 번째 데이터의 벡터
[0.7, 0.8, 0.9], # 세 번째 데이터의 벡터
]
# 벡터와 연결된 임의 고유 ID (각 벡터마다 고유한 ID 필요)
ids = ["doc1", "doc2", "doc3"]

# 벡터 데이터 추가
collection.add(ids=ids, embeddings=vectors)
print("벡터 데이터를 컬렉션에 추가했습니다.")

벡터 데이터를 컬렉션에 추가했습니다.


### 3.2.4 벡터 검색

In [4]:
import json

# 검색할 벡터 (예시로 임의 벡터 사용)
query_vector = [0.1, 0.2, 0.25]

# 벡터 컬렉션에서 유사한 벡터 검색
results = collection.query(query_embeddings=[query_vector], n_results=2)
formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0]
}
print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1",
        "doc2"
    ],
    "유사도 거리": [
        0.002500001108273864,
        0.30250000953674316
    ]
}


### 3.2.5 메타데이터 필터링

In [5]:
collection = client.create_collection("metadata_example_collection")

# 임베딩된 벡터 데이터 및 메타데이터 추가
vectors = [
    [0.1, 0.2, 0.3], # 첫 번째 데이터 벡터
    [0.4, 0.5, 0.6], # 두 번째 데이터 벡터
    [0.7, 0.8, 0.9], # 세 번째 데이터 벡터
]
ids = ["doc1", "doc2", "doc3"]

metadatas = [
    {"name": "example", "category": "A"}, # 첫 번째 문서의 메타데이터
    {"name": "sample", "category": "B"}, # 두 번째 문서의 메타데이터
    {"name": "example", "category": "C"} # 세 번째 문서의 메타데이터
]

# 벡터 데이터 추가 (메타데이터 포함)
collection.add(ids=ids, embeddings=vectors, metadatas=metadatas)
results = collection.query(
    query_embeddings=[[0.1, 0.2, 0.3]],
    n_results=1,
    where={"name": "example"} # 메타데이터 필터 적용
)

# 검색 결과 정리
formatted_results = {
    "검색된 문서 ID": results["ids"][0] if results["ids"] else [],
    "유사도 거리": results["distances"][0] if results["distances"] else [],
    "메타데이터": results["metadatas"][0] if results["metadatas"] else []
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1"
    ],
    "유사도 거리": [
        0.0
    ],
    "메타데이터": [
        {
            "category": "A",
            "name": "example"
        }
    ]
}


### 3.2.6 임베딩 데이터 추가

In [6]:
from sentence_transformers import SentenceTransformer

# 모델 로드
model = SentenceTransformer('all-MiniLM-L6-v2')

# 임베딩할 문장
sentence = "이것은 임베딩 예제입니다."

# 문장 임베딩 생성
embedding = model.encode(sentence)

# 임베딩 출력
print("임베딩 결과:", embedding)
print("임베딩 차원:", embedding.shape)

  from .autonotebook import tqdm as notebook_tqdm


임베딩 결과: [-3.16610821e-02  9.91079509e-02  3.21414284e-02 -4.77641961e-03
  2.06647869e-02 -4.26963829e-02  1.08513243e-01  5.91692701e-02
 -3.82519104e-02 -2.70917322e-02  1.10797770e-01 -3.27146351e-02
  8.14444870e-02 -1.82765163e-02  3.63844000e-02 -3.83140221e-02
  3.29665020e-02  3.95625196e-02 -2.65554711e-02 -3.17467861e-02
  1.29391039e-02  2.19179336e-02  1.07889265e-01  1.24166002e-02
 -7.60592893e-02 -5.10002859e-02  3.95048931e-02  1.36652421e-02
  8.86634141e-02 -4.19127196e-02  6.43823482e-03  4.20045592e-02
  6.79684058e-02  1.37291234e-02  2.50340141e-02 -3.60205844e-02
 -4.92924303e-02 -1.51257450e-02 -4.84425202e-02  6.49660751e-02
 -5.19369245e-02 -3.22293267e-02  7.63611272e-02 -1.37317389e-01
  1.76454149e-02  2.84964629e-02 -4.42442633e-02 -4.08116020e-02
 -6.28238618e-02  1.08337782e-01 -3.33936438e-02 -4.31645624e-02
 -5.31808734e-02  1.91285070e-02  4.64881174e-02 -5.00249453e-02
 -5.93597293e-02 -3.17170508e-02 -2.08584294e-02 -2.07601767e-02
  2.15868019e-02 

In [7]:
client = chromadb.Client()
collection = client.create_collection("example-collection")
# 임베딩 모델 초기화
model = SentenceTransformer('all-MiniLM-L6-v2')
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]
embeddings = model.encode(documents)

# 벡터 데이터 추가
collection.add(
    ids=ids,
    documents=documents,
    embeddings=embeddings,
)
print("벡터 데이터를 컬렉션에 추가했습니다.")
print("임베딩 차원:", embeddings.shape)

벡터 데이터를 컬렉션에 추가했습니다.
임베딩 차원: (3, 384)


### 3.2.7 임베딩 데이터 검색

In [8]:
query_text = "고양이"
query_embedding = model.encode([query_text])

# 벡터 컬렉션에서 유사한 벡터 검색
results = collection.query(query_embeddings=query_embedding, n_results=2)

formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0]
}
print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1",
        "doc3"
    ],
    "유사도 거리": [
        1.4484705924987793,
        1.4485849142074585
    ]
}


### 3.2.8 크로마의 저장 방식

In [9]:
from chromadb import PersistentClient

client = PersistentClient(path="chroma_storage") # 영구 저장 경로 설정
collection = client.get_or_create_collection("persistent_collection")

# 컬렉션 생성 및 데이터 추가
# 자동으로 디스크 저장됨
collection.add(
    embeddings=[[0.9, 0.8, 0.7]],
    metadatas=[{"name": "persistent_item"}],
    ids=["doc3"]
)

In [10]:
# Chroma 클라이언트 재시작 후 데이터를 불러옴
client = PersistentClient(path="chroma_storage")
collection = client.get_collection("persistent_collection")

# 저장된 데이터 확인
results = collection.query(
    query_embeddings=[[0.9, 0.8, 0.7]],
    n_results=1
)

# 검색 결과 정리
formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0],
    "메타데이터": results["metadatas"][0]
}

print("\n저장된 데이터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


저장된 데이터 검색 결과:
{
    "검색된 문서 ID": [
        "doc3"
    ],
    "유사도 거리": [
        0.0
    ],
    "메타데이터": [
        {
            "name": "persistent_item"
        }
    ]
}


### 3.2.9 임베딩 기반 라마인덱스 답변 생성

In [None]:
import chromadb
from llama_index.core.schema import Document
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# API 키 설정
api_key = "your-api-key-here"  # 여기에 실제 API 키 입력
# 또는 환경 변수에서 가져오기
# api_key = os.environ.get("OPENAI_API_KEY")

# ChromaDB 클라이언트 생성 및 컬렉션 준비
client = chromadb.PersistentClient(path="./chroma_db") # 데이터를 저장할 로컬 경로 지정
collection = client.get_or_create_collection("example-collection") # 컬렉션 생성 또는 불러오기

# Hugging Face 임베딩 모델 설정
embed_model = HuggingFaceEmbedding(model_name="all-MiniLM-L6-v2")

# 문서 데이터 준비
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 LlamaIndex의 Document 형식으로 변환
nodes = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents, ids)]

In [12]:
import os
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import VectorStoreIndex
from llama_index.llms.openai import OpenAI

llm = OpenAI(api_key=api_key)

# Chroma 벡터 스토어 생성
vector_store = ChromaVectorStore(chroma_collection=collection)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store,
embed_model= embed_model, llm=llm)

In [13]:
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import Settings

# Settings에 LLM과 Embedding 모델 설정
Settings.llm = OpenAI(api_key=api_key, model="gpt-4o-mini")
Settings.embed_model = OpenAIEmbedding(api_key=api_key)

# 쿼리 엔진 생성
query_engine = index.as_query_engine()

# 질의 수행
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 결과 출력
print("[질의 결과]")
print(response)

[질의 결과]
고양이는 전 세계적으로 인기 있는 애완동물 중 하나로, 독특한 특징을 가지고 있습니다. 고양이는 일반적으로 독립적이고 호기심이 많은 성격을 지니며, 다양한 품종과 색상을 가지고 있습니다. 또한, 고양이는 사냥 본능이 강해 작은 동물이나 장난감을 쫓는 것을 좋아합니다. 이들은 종종 사람들과의 유대감을 형성하며, 애정 표현을 통해 주인과의 관계를 강화합니다.


### 3.2.10 라마인덱스 기반 답변 생성

In [14]:
from llama_index.core import Settings
print(f"현재 임베딩 모델: {Settings.embed_model}")

현재 임베딩 모델: model_name='text-embedding-ada-002' embed_batch_size=100 callback_manager=<llama_index.core.callbacks.base.CallbackManager object at 0x31c088560> num_workers=None embeddings_cache=None additional_kwargs={} api_key='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' api_base='https://api.openai.com/v1' api_version='' max_retries=10 timeout=60.0 default_headers=None reuse_client=True dimensions=None


In [15]:
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 LlamaIndex의 Document 형식으로 변환
nodes = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents, ids)]

# Chroma 벡터 스토어 생성
vector_store = ChromaVectorStore(chroma_collection=collection)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store)

# 쿼리 엔진 생성 (기본적인 검색 + 답변 생성 기능 활성화)
query_engine = index.as_query_engine()

In [16]:
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 최종 응답 출력
print("[질의 결과]")
print(response)

# 응답 생성에 사용된 문서 확인
print("\n[검색 문서]")

for i, node in enumerate(response.source_nodes, 1):
    print(f"{i}. {node.text}\n")

[질의 결과]
고양이는 작은 육식동물로 주로 애완동물로 기릅니다. 이들은 민첩하고 장난기 있는 행동으로 유명합니다.

[검색 문서]
1. 고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.

2. 고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다.

