## <span style="color: Yellow;">**Retrieve Data from Vektordatenbanken**</span>

### **ChromaDB vs FAISS**

| **Feature**                 | **FAISS**                    | **ChromaDB**                  |
|------------------------------|------------------------------|-------------------------------|
| **Storage**                 | Requires separate metadata   | Integrated metadata           |
| **Flexibility**             | Static after creation        | Dynamic, supports updates     |
| **Ease of Use**             | More complex setup           | Simpler API                   |
| **Performance**             | Highly optimized             | Good for medium datasets      |
| **Offline Support**         | Yes                          | Yes                           |

**So in the end, we have decided to use ChromaDB**


### **Embeddings models**


| **Model**               | **Dimensionality** | **Quality**          | **Offline** | **Use Cases**                                | **Speed**      |
|--------------------------|--------------------|----------------------|-------------|---------------------------------------------|----------------|
| **text-embedding-ada-002** | 1536               | Best-in-class        | No          | Complex queries, large-scale semantic tasks | Moderate (API) |
| **All-MiniLM-L6-v2**     | 384                | Good                 | Yes         | Lightweight tasks, semantic search          | Fast           |
| **Instructor-XL**        | 768                | Very Good            | Yes         | Knowledge bases, task-specific embeddings   | Moderate       |
| **MPNet**                | 768                | Very Good            | Yes         | Context-aware embeddings, multilingual      | Moderate       |
| <span style="color: green;">**GTR-T5 (Large)**</span>       | 1024               | Excellent            | Yes         | Cross-domain, large-scale retrieval         | Slower         |
| **Sentence-BERT**        | 768                | Very Good            | Yes         | Sentence similarity, classification         | Moderate       |

**we decided to use the free and best option which is GTR-T5 (Large)**

## **Try 😎**

In [2]:
from transformers import AutoTokenizer, AutoModel
from sentence_transformers import SentenceTransformer
import chromadb


db_path="./vektor_DB"
client = chromadb.PersistentClient(path=db_path)

embedding_model = SentenceTransformer("sentence-transformers/gtr-t5-large")

collection = client.get_collection("meinungen")

### Function to retrieve the data

In [11]:
def query_collection(query_text, n_results=4):

    query_embedding = embedding_model.encode(query_text)
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=n_results,
        include=["documents", "metadatas", "distances"]
    )
    return results

### Start

In [10]:
query = "Was denkt AFD über Cybersicherheit?"
results = query_collection(query)

print(f"Query: {query}")
for i in range(len(results["documents"][0])):
    print(f"\nResult {i+1}:")
    print(f"  Document: {results['documents'][0][i]}")
    print(f"  Party: {results['metadatas'][0][i]['party']}")
    print(f"  Theme: {results['metadatas'][0][i]['theme']}")
    print(f"  Chunk Index: {results['metadatas'][0][i]['chunk_index']}")
    print(f"  Distance: {results['distances'][0][i]}")

Query: Was denkt AFD über Cybersicherheit?

Result 1:
  Document: In der Digitalisierung von Wirtschaft und Gesellschaft sehen wir eine Chance für die Verbesserung des Lebens aller Bürger. Als freiheitliche und demokratische Partei wendet sich die AfD jedoch gegen jeglichen Missbrauch digitaler Techniken, die zur Überwachung oder Bevormundung von Bürgern und Unternehmen führen. Wir fordern auch hier die Einhaltung des Grundgesetzes und aller rechtsstaatlichen Prinzipien bei der Erstellung und Nutzung von digitalen Diensten. Grundrechte und Meinungsfreiheit gelten auch im Internet. Im Einzelnen verlangen wir: Verzicht auf Anwendung von Digitalisierung, die totalitäre Strukturen befördert. Abschaffung des NetzDG. Verhinderung von Upload-Filtern, denn sie beschneiden die Meinungsfreiheit und führen zu Zensur. Defizite im EU-Urheberrecht sind entsprechend zu korrigieren. Die AfD steht für ein freies und offenes Internet. Einhaltung rechtsstaatlicher Prinzipien auch im digitalen Bereich (In