Chromadb에서 단순히 client = chromadb.Client() 만 하는 경우 휘발성으로 런타임이 종료되면 지워진다.  
그러나 실제 어플리케이션에서는 DB가 계속 존재하여야 한다.  
이를 위해서 chromadb는 chromadb.PersistentClient(path=persist_directory) api를 통해 persistent 한 DB를 제공한다

In [1]:
import chromadb

# Create a new Chroma client with persistence enabled. 
persist_directory = "db"

client = chromadb.PersistentClient(path=persist_directory)

# Create a new chroma collection
collection_name = "peristed_collection"
collection = client.get_or_create_collection(name=collection_name)

path 이름으로 sqlite3 기반의 chromadb 엔진이 형성 된 것을 확인할 수 있다.

In [2]:
collection.add(
    embeddings=[
        [1.1, 2.3, 3.2],
        [4.5, 6.9, 4.4],
        [1.1, 2.3, 3.2],
        [4.5, 6.9, 4.4],
        [1.1, 2.3, 3.2],
        [4.5, 6.9, 4.4],
        [1.1, 2.3, 3.2],
        [4.5, 6.9, 4.4],
    ],
    metadatas=[
        {"uri": "img1.png", "style": "style1"},
        {"uri": "img2.png", "style": "style2"},
        {"uri": "img3.png", "style": "style1"},
        {"uri": "img4.png", "style": "style1"},
        {"uri": "img5.png", "style": "style1"},
        {"uri": "img6.png", "style": "style1"},
        {"uri": "img7.png", "style": "style1"},
        {"uri": "img8.png", "style": "style1"},
    ],
    documents=["doc1", "doc2", "doc3", "doc4", "doc5", "doc6", "doc7", "doc8"],
    ids=["id1", "id2", "id3", "id4", "id5", "id6", "id7", "id8"],
)

In [3]:
# Create a new client with the same settings
client = chromadb.PersistentClient(path=persist_directory)

# Load the collection
collection = client.get_collection(collection_name)

query embedding을 통해 바로 쿼리를 추출할 수 있다.  
embedding vector가 제일 유사한 첫번째 document 관련 정보가 추출된 것을 확인할 수 있다.

In [4]:
# Query the collection
results = collection.query(
    query_embeddings=[[1.1, 2.3, 3.2]],
    n_results=1
)

print(results)

{'ids': [['id1']], 'distances': [[0.0]], 'metadatas': [[{'style': 'style1', 'uri': 'img1.png'}]], 'embeddings': None, 'documents': [['doc1']], 'uris': None, 'data': None, 'included': ['metadatas', 'documents', 'distances']}


In [5]:
collection.get(include=["embeddings", "metadatas", "documents"])

{'ids': ['id1', 'id2', 'id3', 'id4', 'id5', 'id6', 'id7', 'id8'],
 'embeddings': [[1.1, 2.3, 3.2],
  [4.5, 6.9, 4.4],
  [1.1, 2.3, 3.2],
  [4.5, 6.9, 4.4],
  [1.1, 2.3, 3.2],
  [4.5, 6.9, 4.4],
  [1.1, 2.3, 3.2],
  [4.5, 6.9, 4.4]],
 'metadatas': [{'style': 'style1', 'uri': 'img1.png'},
  {'style': 'style2', 'uri': 'img2.png'},
  {'style': 'style1', 'uri': 'img3.png'},
  {'style': 'style1', 'uri': 'img4.png'},
  {'style': 'style1', 'uri': 'img5.png'},
  {'style': 'style1', 'uri': 'img6.png'},
  {'style': 'style1', 'uri': 'img7.png'},
  {'style': 'style1', 'uri': 'img8.png'}],
 'documents': ['doc1', 'doc2', 'doc3', 'doc4', 'doc5', 'doc6', 'doc7', 'doc8'],
 'uris': None,
 'data': None,
 'included': ['embeddings', 'metadatas', 'documents']}