In [1]:
import chromadb

# 크로마 클라이언트 생성
client = chromadb.Client()

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given


In [2]:
# 벡터 컬렉션 생성
collection = client.create_collection("example_collection")

Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [3]:
# 임베딩된 벡터 데이터 (예시로 임의 벡터 사용)
vectors = [
    [0.1, 0.2, 0.3], # 첫 번째 데이터의 벡터
    [0.4, 0.5, 0.6], # 두 번째 데이터의 벡터
    [0.7, 0.8, 0.9], # 세 번째 데이터의 벡터
]

# 벡터와 연결된 임의 고유 ID (각 벡터마다 고유한 ID 필요)
ids = ["doc1", "doc2", "doc3"]

# 벡터 데이터 추가
collection.add(ids=ids, embeddings=vectors)
print("벡터 데이터를 컬렉션에 추가했습니다.")

Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


벡터 데이터를 컬렉션에 추가했습니다.


In [4]:
import json

# 검색할 벡터 (예시로 임의 벡터 사용)
query_vector = [0.1, 0.2, 0.25]

# 벡터 컬렉션에서 유사한 벡터 검색
results = collection.query(query_embeddings=[query_vector], n_results=2)

formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0]
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given



유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1",
        "doc2"
    ],
    "유사도 거리": [
        0.002500001108273864,
        0.30250000953674316
    ]
}


In [5]:
collection = client.create_collection("metadata_example_collection")

# 임베딩된 벡터 데이터 및 메타데이터 추가
vectors = [
    [0.1, 0.2, 0.3], # 첫 번째 데이터 벡터
    [0.4, 0.5, 0.6], # 두 번째 데이터 벡터
    [0.7, 0.8, 0.9], # 세 번째 데이터 벡터
]

ids = ["doc1", "doc2", "doc3"]

metadatas = [
    {"name": "example", "category": "A"}, # 첫 번째 문서의 메타데이터
    {"name": "sample", "category": "B"}, # 두 번째 문서의 메타데이터
    {"name": "example", "category": "C"} # 세 번째 문서의 메타데이터
]

# 벡터 데이터 추가 (메타데이터 포함)
collection.add(ids=ids, embeddings=vectors, metadatas=metadatas)

results = collection.query(
    query_embeddings=[[0.1, 0.2, 0.3]],
    n_results=1,
    where={"name": "example"} # 메타데이터 필터 적용
)

# 검색 결과 정리
formatted_results = {
    "검색된 문서 ID": results["ids"][0] if results["ids"] else [],
    "유사도 거리": results["distances"][0] if results["distances"] else [],
    "메타데이터": results["metadatas"][0] if results["metadatas"] else []
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))

Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given



유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1"
    ],
    "유사도 거리": [
        0.0
    ],
    "메타데이터": [
        {
            "name": "example",
            "category": "A"
        }
    ]
}


In [6]:
!pip install sentence-transformers

Collecting sentence-transformers
  Using cached sentence_transformers-4.1.0-py3-none-any.whl.metadata (13 kB)
Collecting transformers<5.0.0,>=4.41.0 (from sentence-transformers)
  Using cached transformers-4.53.0-py3-none-any.whl.metadata (39 kB)
Collecting torch>=1.11.0 (from sentence-transformers)
  Using cached torch-2.7.1-cp311-none-macosx_11_0_arm64.whl.metadata (29 kB)
Collecting scikit-learn (from sentence-transformers)
  Using cached scikit_learn-1.7.0-cp311-cp311-macosx_12_0_arm64.whl.metadata (31 kB)
Collecting scipy (from sentence-transformers)
  Using cached scipy-1.16.0-cp311-cp311-macosx_14_0_arm64.whl.metadata (61 kB)
Collecting jinja2 (from torch>=1.11.0->sentence-transformers)
  Using cached jinja2-3.1.6-py3-none-any.whl.metadata (2.9 kB)
Collecting safetensors>=0.4.3 (from transformers<5.0.0,>=4.41.0->sentence-transformers)
  Using cached safetensors-0.5.3-cp38-abi3-macosx_11_0_arm64.whl.metadata (3.8 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn->sentence-tr

In [7]:
from sentence_transformers import SentenceTransformer

# 모델 로드
model = SentenceTransformer('all-MiniLM-L6-v2')

# 임베딩할 문장
sentence = "이것은 임베딩 예제입니다."

# 문장 임베딩 생성
embedding = model.encode(sentence)

# 임베딩 출력
print("임베딩 결과:", embedding)
print("임베딩 차원:", embedding.shape)

  from .autonotebook import tqdm as notebook_tqdm


임베딩 결과: [-3.16610895e-02  9.91079956e-02  3.21413986e-02 -4.77648620e-03
  2.06648074e-02 -4.26964127e-02  1.08513214e-01  5.91693372e-02
 -3.82518992e-02 -2.70917360e-02  1.10797763e-01 -3.27146016e-02
  8.14444125e-02 -1.82765927e-02  3.63844149e-02 -3.83140966e-02
  3.29664797e-02  3.95625792e-02 -2.65554264e-02 -3.17468233e-02
  1.29390964e-02  2.19178889e-02  1.07889235e-01  1.24165481e-02
 -7.60593340e-02 -5.10003157e-02  3.95048931e-02  1.36652607e-02
  8.86634663e-02 -4.19127233e-02  6.43823808e-03  4.20045890e-02
  6.79684207e-02  1.37291215e-02  2.50339620e-02 -3.60205397e-02
 -4.92923744e-02 -1.51257599e-02 -4.84425500e-02  6.49661273e-02
 -5.19369319e-02 -3.22293006e-02  7.63611794e-02 -1.37317374e-01
  1.76454727e-02  2.84964032e-02 -4.42443006e-02 -4.08116356e-02
 -6.28238097e-02  1.08337730e-01 -3.33937220e-02 -4.31645960e-02
 -5.31808920e-02  1.91285051e-02  4.64880913e-02 -5.00249416e-02
 -5.93597591e-02 -3.17170843e-02 -2.08584089e-02 -2.07601730e-02
  2.15868503e-02 

In [8]:
client = chromadb.Client()
collection = client.create_collection("example-collection")

# 임베딩 모델 초기화
model = SentenceTransformer('all-MiniLM-L6-v2')

documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]

ids = ["doc1", "doc2", "doc3"]

embeddings = model.encode(documents)

# 벡터 데이터 추가
collection.add(
    ids=ids,
    documents=documents,
    embeddings=embeddings,
)
print("벡터 데이터를 컬렉션에 추가했습니다.")
print("임베딩 차원:", embeddings.shape)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


벡터 데이터를 컬렉션에 추가했습니다.
임베딩 차원: (3, 384)


In [9]:
query_text = "고양이"
query_embedding = model.encode([query_text])

# 벡터 컬렉션에서 유사한 벡터 검색
results = collection.query(query_embeddings=query_embedding, n_results=2)

formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0]
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given



유사한 벡터 검색 결과:
{
    "검색된 문서 ID": [
        "doc1",
        "doc3"
    ],
    "유사도 거리": [
        1.4484708309173584,
        1.448585033416748
    ]
}


In [10]:
from chromadb import PersistentClient

client = PersistentClient(path="chroma_storage") # 영구 저장 경로 설정
collection = client.get_or_create_collection("persistent_collection")

# 컬렉션 생성 및 데이터 추가
# 자동으로 디스크 저장됨
collection.add(
    embeddings=[[0.9, 0.8, 0.7]],
    metadatas=[{"name": "persistent_item"}],
    ids=["doc3"]
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


In [11]:
# Chroma 클라이언트 재시작 후 데이터를 불러옴
client = PersistentClient(path="chroma_storage")
collection = client.get_collection("persistent_collection")

# 저장된 데이터 확인
results = collection.query(
    query_embeddings=[[0.9, 0.8, 0.7]],
    n_results=1
)

# 검색 결과 정리
formatted_results = {
    "검색된 문서 ID": results["ids"][0],
    "유사도 거리": results["distances"][0],
    "메타데이터": results["metadatas"][0]
}
print("\n저장된 데이터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given



저장된 데이터 검색 결과:
{
    "검색된 문서 ID": [
        "doc3"
    ],
    "유사도 거리": [
        0.0
    ],
    "메타데이터": [
        {
            "name": "persistent_item"
        }
    ]
}


In [12]:
!pip install llama-index==0.11.11 \
    llama-index-vector-stores-chroma==0.3.0 \
        llama-index-embeddings-huggingface==0.3.0

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting llama-index-vector-stores-chroma==0.3.0
  Using cached llama_index_vector_stores_chroma-0.3.0-py3-none-any.whl.metadata (698 bytes)
Collecting llama-index-embeddings-huggingface==0.3.0
  Using cached llama_index_embeddings_huggingface-0.3.0-py3-none-any.whl.metadata (769 bytes)
Using cached llama_index_vector_stores_chroma-0.3.0-py3-none-any.whl (5.2 kB)
Using cached llama_index_embeddings_huggingface-0.3.0-py3-none-any.whl (8.6 kB)
Installing collected packages: llama-index-embeddings-huggingface, llama-index-vector-stores-chroma
Successfully installed llama-index-embeddings-huggingface-0.3.0 llama-index-vector-stores-chroma-0.3.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [13]:
import chromadb
from llama_index.core.schema import Document
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import os
api_key = os.environ.get("OPENAI_API_KEY")

# ChromaDB 클라이언트 생성 및 컬렉션 준비
# 데이터를 저장할 로컬 경로 지정
client = chromadb.PersistentClient(path="./chroma_db") 
# 컬렉션 생성 또는 불러오기
collection = client.get_or_create_collection("example-collection") 

# Hugging Face 임베딩 모델 설정
embed_model = HuggingFaceEmbedding(model_name="all-MiniLM-L6-v2")

# 문서 데이터 준비
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 LlamaIndex의 Document 형식으로 변환
nodes = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents, ids)]

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [14]:
import os
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import VectorStoreIndex
from llama_index.llms.openai import OpenAI

llm = OpenAI(api_key=os.environ["OPENAI_API_KEY"])

# Chroma 벡터 스토어 생성
vector_store = ChromaVectorStore(chroma_collection=collection)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store,
embed_model= embed_model, llm=llm)

In [15]:
# 쿼리 엔진 생성
query_engine = index.as_query_engine()

# 질의 수행
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 결과 출력
print("[질의 결과]")
print(response)

[질의 결과]
고양이는 독립적이고 까다로운 동물로 알려져 있습니다. 주로 깨끗한 습성을 가지고 있고, 자신만의 영역을 중요시합니다. 애정 표현이 상대적으로 덜한 편이며, 고양이는 주로 자신의 시간을 혼자 보내는 것을 선호합니다.


In [None]:
from llama_index.core import Settings
print(f"현재 임베딩 모델: {Settings.embed_model}")

In [17]:
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 LlamaIndex의 Document 형식으로 변환
nodes = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents, ids)]

# Chroma 벡터 스토어 생성
vector_store = ChromaVectorStore(chroma_collection=collection)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store)

# 쿼리 엔진 생성 (기본적인 검색 + 답변 생성 기능 활성화)
query_engine = index.as_query_engine()

In [18]:
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 최종 응답 출력
print("[질의 결과]")
print(response)

# 응답 생성에 사용된 문서 확인
print("\n[검색 문서]")
for i, node in enumerate(response.source_nodes, 1):
    print(f"{i}. {node.text}\n")

[질의 결과]
고양이는 작은 육식동물로, 주로 애완동물로 기르며 민첩하고 장난기 있는 행동으로 유명합니다.

[검색 문서]
1. 고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.

2. 고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다.



In [1]:
!pip install pinecone==6.0.2

Collecting pinecone==6.0.2
  Using cached pinecone-6.0.2-py3-none-any.whl.metadata (9.0 kB)
Collecting pinecone-plugin-interface<0.0.8,>=0.0.7 (from pinecone==6.0.2)
  Using cached pinecone_plugin_interface-0.0.7-py3-none-any.whl.metadata (1.2 kB)
Using cached pinecone-6.0.2-py3-none-any.whl (421 kB)
Using cached pinecone_plugin_interface-0.0.7-py3-none-any.whl (6.2 kB)
Installing collected packages: pinecone-plugin-interface, pinecone
Successfully installed pinecone-6.0.2 pinecone-plugin-interface-0.0.7

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:
from pinecone import Pinecone
import os

# 환경 변수에서 API 키 가져오기
api_key = os.environ.get("PINECONE_API_KEY")
pc = Pinecone(api_key=api_key)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
from pinecone import ServerlessSpec

index_name = "my-index"

pc.create_index(
    name=index_name,
    dimension=3, # 벡터의 차원 수
    metric="cosine", # 유사도 측정 방식 (cosine, euclidean, dotproduct 중 선택)
    spec=ServerlessSpec(
        cloud="aws", # 사용할 클라우드: aws 또는 gcp
        region="us-east-1" # 리전 설정 (free tier에서 지원되는 리전을 사용해야 함)
    )
)

{
    "name": "my-index",
    "metric": "cosine",
    "host": "my-index-g5gwtyw.svc.aped-4627-b74a.pinecone.io",
    "spec": {
        "serverless": {
            "cloud": "aws",
            "region": "us-east-1"
        }
    },
    "status": {
        "ready": true,
        "state": "Ready"
    },
    "vector_type": "dense",
    "dimension": 3,
    "deletion_protection": "disabled",
    "tags": null
}

In [4]:
index = pc.Index(index_name)
# 벡터 데이터 삽입
vectors = [
    [0.1, 0.2, 0.3], # 첫 번째 데이터의 벡터
    [0.4, 0.5, 0.6], # 두 번째 데이터의 벡터
    [0.7, 0.8, 0.9], # 세 번째 데이터의 벡터
]

# 벡터를 인덱스에 추가
ids = ["doc1", "doc2", "doc3"]
index.upsert([(id, vector) for id, vector in zip(ids, vectors)])
print("아이템 임베딩을 인덱스에 추가했습니다.")

아이템 임베딩을 인덱스에 추가했습니다.


In [5]:
import json

# 유사 벡터 검색
results = index.query(
    vector=[[0.1, 0.2, 0.3]], # 검색할 쿼리 벡터
    top_k=2, # 가장 유사한 2개의 벡터 반환
    include_metadata=False
)

formatted_results = {
    "검색된 문서 ID": results["matches"][0]["id"],
    "유사도 거리": results["matches"][0]["score"]
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


유사한 벡터 검색 결과:
{
    "검색된 문서 ID": "doc1",
    "유사도 거리": 0.998880625
}


In [6]:
# 메타데이터와 함께 벡터 삽입
vectors = [
    ([0.1, 0.2, 0.3], {"category": "A", "year": 2020}),
    ([0.4, 0.5, 0.6], {"category": "B", "year": 2021}),
    ([0.7, 0.8, 0.9], {"category": "A", "year": 2022}),
]

ids = ["doc1", "doc2", "doc3"]
index.upsert([(id, vector, metadata) for id, (vector, metadata) in zip(ids, vectors)])

# 검색 벡터
query_vector = [0.1, 0.2, 0.25]

# 메타데이터 필터링 조건
filter_condition = {
    "category": {"$eq": "A"},
    "year": {"$gt": 2020}
}

# 검색
query_result = index.query(
    vector=query_vector,
    top_k=2,
    filter=filter_condition,
    include_metadata=True
)

In [7]:
formatted_results = {
    "검색된 문서 ID": query_result["matches"][0]["id"],
    "메타데이터": query_result["matches"][0]["metadata"]
}

print("\n유사한 벡터 검색 결과:")
print(json.dumps(formatted_results, indent=4, ensure_ascii=False))


유사한 벡터 검색 결과:
{
    "검색된 문서 ID": "doc3",
    "메타데이터": {
        "category": "A",
        "year": 2022.0
    }
}


In [8]:
!pip install llama-index==0.11.11 \
    llama-index-vector-stores-pinecone==0.3.0 \
        llama-index-embeddings-huggingface==0.3.0

Collecting llama-index-vector-stores-pinecone==0.3.0
  Using cached llama_index_vector_stores_pinecone-0.3.0-py3-none-any.whl.metadata (719 bytes)
Collecting pinecone-client<6.0.0,>=3.2.2 (from llama-index-vector-stores-pinecone==0.3.0)
  Using cached pinecone_client-5.0.1-py3-none-any.whl.metadata (19 kB)
Collecting pinecone-plugin-inference<2.0.0,>=1.0.3 (from pinecone-client<6.0.0,>=3.2.2->llama-index-vector-stores-pinecone==0.3.0)
  Using cached pinecone_plugin_inference-1.1.0-py3-none-any.whl.metadata (2.2 kB)
Using cached llama_index_vector_stores_pinecone-0.3.0-py3-none-any.whl (7.6 kB)
Using cached pinecone_client-5.0.1-py3-none-any.whl (244 kB)
Using cached pinecone_plugin_inference-1.1.0-py3-none-any.whl (85 kB)
Installing collected packages: pinecone-plugin-inference, pinecone-client, llama-index-vector-stores-pinecone
Successfully installed llama-index-vector-stores-pinecone-0.3.0 pinecone-client-5.0.1 pinecone-plugin-inference-1.1.0

[1m[[0m[34;49mnotice[0m[1;39;49m]

In [10]:
from pinecone import Pinecone
from llama_index.core.schema import Document
from llama_index.vector_stores.pinecone import PineconeVectorStore
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.schema import Document
import os

api_key = os.environ.get("PINECONE_API_KEY")
pc = Pinecone(api_key=api_key)
index_name = "example"
spec = {
    "serverless": {
        "cloud": "aws",
        "region": "us-east-1"
    }
}

# 인덱스 생성 (존재하지 않는 경우)
if index_name not in pc.list_indexes():
    pc.create_index(
        name=index_name,
        dimension=3,
        metric="cosine",
        spec=spec
    )
index = pc.Index(index_name)

# LlamaIndex에서 사용할 HuggingFace 임베딩 모델 설정
embed_model = HuggingFaceEmbedding(model_name="all-MiniLM-L6-v2")

# 문서 데이터
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 Document 형식으로 변환
nodes = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents, ids)]

# Pinecone 벡터 스토어 생성
vector_store = PineconeVectorStore(pinecone_index=index)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store,
embed_model= embed_model)

In [11]:
query_engine = index.as_query_engine()

# 질의 수행
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 결과 출력
print("\n[질의 결과]")
print(response)


[질의 결과]
고양이는 독립적이고 까다로운 동물로 알려져 있습니다. 주로 자신의 영역을 중시하며, 깨끗한 습성을 가지고 있습니다. 애정을 표현하는 방식이 다양하며, 주인에게 애정을 나타내는 방식이 강아지와는 조금 다를 수 있습니다.


In [12]:
vector_store = PineconeVectorStore(pinecone_index=index)

# LlamaIndex의 VectorStoreIndex 생성
index = VectorStoreIndex.from_documents(nodes, vector_store=vector_store)

# 쿼리 엔진 생성
query_engine = index.as_query_engine()

# 질의 수행
query_text = "고양이에 대해 알려줘"
response = query_engine.query(query_text)

# 최종 응답 출력
print("[질의 결과]")
print(response)

# 응답 생성에 사용된 문서 확인
print("\n[응답에 사용된 문서]")
for i, node in enumerate(response.source_nodes, 1):
    print(f"{i}. {node.text}\n")

[질의 결과]
고양이는 작은 육식동물로, 주로 애완동물로 기르며 민첩하고 장난기 있는 행동으로 유명합니다.

[응답에 사용된 문서]
1. 고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.

2. 고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다.



In [13]:
!pip install llama-index-vector-stores-qdrant==0.3.0

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting llama-index-vector-stores-qdrant==0.3.0
  Using cached llama_index_vector_stores_qdrant-0.3.0-py3-none-any.whl.metadata (767 bytes)
Collecting qdrant-client>=1.7.1 (from llama-index-vector-stores-qdrant==0.3.0)
  Downloading qdrant_client-1.14.3-py3-none-any.whl.metadata (10 kB)
Collecting portalocker<3.0.0,>=2.7.0 (from qdrant-client>=1.7.1->llama-index-vector-stores-qdrant==0.3.0)
  Using cached portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)
Collecting h2<5,>=3 (from httpx[http2]>=0.20.0->qdrant-client>=1.7.1->llama-index-vector-stores-qdrant==0.3.0)
  Using cached h2-4.2.0-py3-none-any.whl.metadata (5.1 kB)
Collecting hyperframe<7,>=6.1 (from h2<5,>=3->httpx[http2]>=0.20.0->qdrant-client>=1.7.1->llama-index-vector-stores-qdrant==0.3.0)
  Using cached hyperframe-6.1.0-py3-none-any.whl.metadata (4.3 kB)
Collecting hpack<5,>=4.1 (from h2<5,>=3->httpx[http2]>=0.20.0->qdrant-client>=1.7.1->llama-index-vector-stores-qdrant==0.3.0)
  Using cached hpack-4.1.0-py3-none-any.

In [14]:
from llama_index.core import VectorStoreIndex
from llama_index.vector_stores.qdrant import QdrantVectorStore
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams
from llama_index.core.schema import Document
from qdrant_client import QdrantClient
client = QdrantClient(":memory:")

# 문서 데이터
documents = [
    "고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.",
    "강아지는 충성심이 강하고 친절한 동물로, 흔히 인간의 최고의 친구로 불립니다. 주로 애완동물로 기르고, 동반자로서 유명합니다.",
    "고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다."
]
ids = ["doc1", "doc2", "doc3"]

# 문서를 Document 형식으로 변환
documents = [Document(text=doc, id_=doc_id) for doc, doc_id in zip(documents,
ids)]


In [15]:
# 특정 디렉터리에 저장 할 경우
client = QdrantClient(path="./qdrant_db")

In [16]:
# Qdrant에 새로운 컬렉션 생성
collection_name = "llama_index_qdrant"
client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=768, distance=Distance.COSINE)
)

# Qdrant 벡터 스토어 설정
vector_store = QdrantVectorStore(client=client, collection_name=collection_name)

# 인덱스 생성 및 저장
index = VectorStoreIndex.from_documents(documents, vector_store=vector_store)

In [17]:
# 쿼리 엔진 생성 및 실행
query_engine = index.as_query_engine()
query_text = "고양이"
response = query_engine.query(query_text)

# 최종 응답 출력
print("[질의 결과]")
print(response)

# 응답 생성에 사용된 문서 확인
print("\n[응답에 사용된 문서]")
for i, node in enumerate(response.source_nodes, 1):
    print(f"{i}. {node.text}\n")

[질의 결과]
고양이는 작은 육식동물로, 주로 애완동물로 기르며 민첩하고 장난기 있는 행동으로 유명합니다.

[응답에 사용된 문서]
1. 고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.

2. 고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다.



In [19]:
client = QdrantClient("http://localhost", port=6333)

In [None]:
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams
from llama_index.core.schema import Document

# Qdrant 클라우드 서버에 연결 (API 키 사용)
QDRANT_API_KEY = os.environ.get("QDRANT_API_KEY")

QDRANT_HOST = "host_주소:6333"
client = QdrantClient(QDRANT_HOST, api_key=QDRANT_API_KEY)

In [25]:
# Qdrant 벡터 스토어 설정
vector_store = QdrantVectorStore(client=client, collection_name=collection_name)

# 인덱스 생성 및 저장
index = VectorStoreIndex.from_documents(documents, vector_store=vector_store)

# 쿼리 엔진 생성 및 실행
query_engine = index.as_query_engine()
query_text = "고양이"
response = query_engine.query(query_text)

# 최종 응답 출력
print("\n[질의 결과]")
print(response)

# 응답 생성에 사용된 문서 확인
print("\n[응답에 사용된 문서]")
for i, node in enumerate(response.source_nodes, 1):
    print(f"{i}. {node.text}\n")


[질의 결과]
고양이는 작은 육식동물로, 주로 애완동물로 기르며 민첩하고 장난기 있는 행동으로 유명합니다.

[응답에 사용된 문서]
1. 고양이는 작은 육식동물로, 주로 애완동물로 기릅니다. 민첩하고 장난기 있는 행동으로 유명합니다.

2. 고양이와 강아지는 전 세계적으로 인기 있는 애완동물로, 각각 독특한 특징을 가지고 있습니다.

