In [1]:
testdocument = """## Abgeordnetengesetz § 3  Wahlvorbereitungsurlaub

(1) Einer Bewerberin oder einem Bewerber um einen Sitz im Landtag oder in der gesetzgebenden Körperschaft eines anderen Landes ist zur Vorbereitung ihrer oder seiner Wahl innerhalb der letzten zwei Monate vor dem Wahltag auf Antrag Urlaub bis zu zwei Monaten zu gewähren. Ein Anspruch auf Fortzahlung der Bezüge besteht für die Dauer der Beurlaubung nicht.

(2) Einer Beamtin oder einem Beamten beziehungsweise einer Richterin oder einem Richter, die oder der sich um einen Sitz im Landtag oder in der gesetzgebenden Körperschaft eines anderen Landes, im Deutschen Bundestag oder im Europäischen Parlament bewirbt, ist zur Vorbereitung seiner Wahl innerhalb der letzten zwei Monate vor dem Wahltag auf Antrag Urlaub bis zu zwei Monaten unter Wegfall der Dienstbezüge zu gewähren. Der Anspruch auf Beihilfe in Krankheits-, Geburts- und Todesfällen bleibt unberührt."""

documents = [
    "Die Natur ist ein integraler Bestandteil unseres Lebens.",
    "Die Technologie entwickelt sich in rasantem Tempo.",
    "Gesunde Ernährung ist wichtig für Körper und Geist.",
    "Das Universum ist weit und voller Geheimnisse.",
    testdocument
]


In [2]:
import chromadb
from chromadb.utils import embedding_functions

# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb.Client()

# Create collection. get_collection, get_or_create_collection, delete_collection also available!
model_name = "../training/models/german-nq-granite-embedding-278m-multilingual/checkpoint-4560"
sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=model_name)
collection = client.get_or_create_collection("documents",embedding_function=sentence_transformer_ef)

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection.add(
    documents=documents, # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
    metadatas=[{"source": "array"}]*len(documents), # filter on these!
    ids=[str(i) for i in range(len(documents))], # unique for each doc
)


  from .autonotebook import tqdm as notebook_tqdm


In [5]:
# Query/search 2 most similar results. You can also .get by id
results = collection.query(
    query_texts=["Wann dürfen Abgeordnete Urlaub nehmen?"], # query text
    n_results=5,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)

results

{'ids': [['4', '3', '0', '1', '2']],
 'embeddings': None,
 'documents': [['## Abgeordnetengesetz §\xa03 \xa0Wahlvorbereitungsurlaub\n\n(1)\xa0Einer Bewerberin oder einem Bewerber um einen Sitz im Landtag oder in der gesetzgebenden Körperschaft eines anderen Landes ist zur Vorbereitung ihrer oder seiner Wahl innerhalb der letzten zwei\xa0Monate vor dem Wahltag auf Antrag Urlaub bis zu zwei\xa0Monaten zu gewähren. Ein Anspruch auf Fortzahlung der Bezüge besteht für die Dauer der Beurlaubung nicht.\n\n(2)\xa0Einer Beamtin oder einem Beamten beziehungsweise einer Richterin oder einem Richter, die oder der sich um einen Sitz im Landtag oder in der gesetzgebenden Körperschaft eines anderen Landes, im Deutschen Bundestag oder im\xa0Europäischen Parlament bewirbt, ist zur Vorbereitung seiner Wahl innerhalb der letzten zwei\xa0Monate vor dem Wahltag auf Antrag Urlaub bis zu zwei\xa0Monaten unter Wegfall der Dienstbezüge zu gewähren. Der Anspruch auf Beihilfe in Krankheits-, Geburts- und Todesfä