## <span style="color: Yellow;">**Retrieve Data from Vektordatenbanken**</span>

### **ChromaDB vs FAISS**

| **Feature**                 | **FAISS**                    | **ChromaDB**                  |
|------------------------------|------------------------------|-------------------------------|
| **Storage**                 | Requires separate metadata   | Integrated metadata           |
| **Flexibility**             | Static after creation        | Dynamic, supports updates     |
| **Ease of Use**             | More complex setup           | Simpler API                   |
| **Performance**             | Highly optimized             | Good for medium datasets      |
| **Offline Support**         | Yes                          | Yes                           |

**So in the end, we have decided to use ChromaDB**


### **Embeddings models**


| **Model**               | **Dimensionality** | **Quality**          | **Offline** | **Use Cases**                                | **Speed**      |
|--------------------------|--------------------|----------------------|-------------|---------------------------------------------|----------------|
| **text-embedding-ada-002** | 1536               | Best-in-class        | No          | Complex queries, large-scale semantic tasks | Moderate (API) |
| **All-MiniLM-L6-v2**     | 384                | Good                 | Yes         | Lightweight tasks, semantic search          | Fast           |
| **Instructor-XL**        | 768                | Very Good            | Yes         | Knowledge bases, task-specific embeddings   | Moderate       |
| **MPNet**                | 768                | Very Good            | Yes         | Context-aware embeddings, multilingual      | Moderate       |
| <span style="color: green;">**GTR-T5 (Large)**</span>       | 1024               | Excellent            | Yes         | Cross-domain, large-scale retrieval         | Slower         |
| **Sentence-BERT**        | 768                | Very Good            | Yes         | Sentence similarity, classification         | Moderate       |

**we decided to use the free and best option which is GTR-T5 (Large)**

## **Try 😎**

In [4]:
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import SentenceTransformer
import chromadb


db_path="./vektor_DB"
client = chromadb.PersistentClient(path=db_path)

embedding_model = SentenceTransformer("sentence-transformers/gtr-t5-large")

collection = client.get_collection("meinungen")

### Function to retrieve the data

In [7]:
def query_collection(query_text, n_results=6):

    query_embedding = embedding_model.encode(query_text)
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=n_results,
        include=["documents", "metadatas", "distances"]
    )
    return results

### Start

In [8]:
query = "Cybersicherheit"
results = query_collection(query)

print(f"Query: {query}")
for i in range(len(results["documents"][0])):
    print(f"\nResult {i+1}:")
    print(f"  Document: {results['documents'][0][i]}")
    print(f"  Party: {results['metadatas'][0][i]['party']}")
    print(f"  Theme: {results['metadatas'][0][i]['theme']}")
    print(f"  Chunk Index: {results['metadatas'][0][i]['chunk_index']}")
    print(f"  Distance: {results['distances'][0][i]}")

Query: Cybersicherheit

Result 1:
  Document: das Bundesamt für Sicherheit in der Informationstechnik, zu stärken und aufzurüsten. Wir Freie Demokraten wollen die Cybersicherheit stärken. Denn Cybersicherheit ist die Achillesferse des Informations- zeitalters. Deshalb brauchen wir eine tatsächlich umsetzbare und agile Cybersicherheitsstrategie. Bestandteile davon müssen ein wirksames Schwachstellenmanagement und ein Recht auf Verschlüsselung sein. Dazu gehören ebenfalls die Vorgabe von security-by-design inklusive Haftung der Her- stellerinnen und Hersteller für Schäden, die fahrlässig durch IT-Sicherheitslücken verursacht werden, und eine Verpflichtung der Herstellerinnen und Hersteller, während der üblichen Nutzungsdauer eines Produkts Updates zur Verfügung zu stellen. Effiziente Schutz- und Verteidigungssysteme müssen in der Cybersicherheit stets Vorrang haben. Deshalb sollen Unternehmen, die umfangreichen Einflussmöglichkeiten autori- tärer Regime unterliegen, beim Ausbau kritische