# Wektorowe bazy danych

Na dzisiejszym laboratorium poznamy wektorowe bazy danych na przykładzie bazy Qdrant - [qdrant.tech](https://qdrant.tech).

Na początek zainstalujmy biblioteki dla Pythona, których będziemy używać w trakcie zajęć.

In [None]:
!pip install qdrant-client

## Docker

Jeśli uruchomiłaś/eś to laboratorium za pomocą Dockera, instancja bazy danych Qdrant powinna już być uruchomiona i dostępna pod poniższymi adresami.

* [localhost:6333](http://localhost:6333) - REST API
* [localhost:6333/dashbaord](http://localhost:6333/dashboard) - Dashboard


In [None]:
from qdrant_client import QdrantClient

qdrant_client = QdrantClient("qdrant", port=6333)

## Nie Docker

Osoby, którym nie działa Docker, powinny skorzystać z Qdrant Cloud wg poniższych instrukcji.

1. Wejdź na [cloud.qdrant.io](https://cloud.qdrant.io/login) i załóż konto / zaloguj się.
2. Przejdź do sekcji *Clusters* i wybierz *Create*.
3. Wybierz opcję *Free* i kliknij *Create* na samym dole.
4. Wejdź w szczegóły klastra (trzy kropeczki -> *Details*), a następnie wybierz kartę *API Keys*.
5. Kliknij *Create*, co spowoduje wygenerowanie nowego *API KEY*.
6. Z listy rozwijanej *Usage examples* wybierz *python* i na jego podstawie wypełnij blok kodu poniżej.
7. Wróć do listy klastrów i poczekaj, aż status Twojego klastra zmieni się na *HEALTHY*.
8. Spróbuj połączyć się z klastrem za pomocą poniższego kodu.

In [None]:
from qdrant_client import QdrantClient

qdrant_client = QdrantClient(
    url="TWOJ_URL", 
    api_key="TWOJ_API_KEY",
)

## Tworzenie kolekcji

Wektorowe bazy danych przechowują dane w kolekcjach. Kolekcja określa długość przechowywanych wektorów oraz sposób ich porównywania.

In [None]:
from qdrant_client.http.models import Distance, VectorParams

qdrant_client.create_collection(
    collection_name="test_collection",
    vectors_config=VectorParams(size=4, distance=Distance.DOT),
)

## Wstawianie danych

Do kolekcji można wstawić wektory o zadeklarowanej długości oraz `payload`, czyli metadane, które będą przechowane razem z wektorem i które w jakiś sposób go opisują.

In [None]:
from qdrant_client.http.models import PointStruct

qdrant_client.upsert(
    collection_name="test_collection",
    wait=True,
    points=[
        PointStruct(id=1, vector=[0.05, 0.61, 0.76, 0.74], payload={"city": "Berlin"}),
        PointStruct(id=2, vector=[0.19, 0.81, 0.75, 0.11], payload={"city": "London"}),
        PointStruct(id=3, vector=[0.36, 0.55, 0.47, 0.94], payload={"city": "Moscow"}),
        PointStruct(id=4, vector=[0.18, 0.01, 0.85, 0.80], payload={"city": "New York"}),
        PointStruct(id=5, vector=[0.24, 0.18, 0.22, 0.44], payload={"city": "Beijing"}),
        PointStruct(id=6, vector=[0.35, 0.08, 0.11, 0.44], payload={"city": "Mumbai"}),
    ],
)

## Wyszukiwanie podobnych (bliskich) wektorów

Podobieństwo wektorów oznacza jest mierzona w ich bliskości w przestrzeni, w której się znajdują. Im bliżej siebie są wektory tym bardziej podobne dane reprezentują.

![](img/encoders.png)

Podobieństwo to jest mierzone z użyciem metryki określonej przy tworzeniu kolekcji. 
W naszym przypadku jest to `DOT` - czyli iloczyn skalarny ([wiki/Dot_product](https://en.wikipedia.org/wiki/Dot_product)).
Inne, popularne metryki to odległość euklidesowa ([wiki/Euclidean_distance](https://en.wikipedia.org/wiki/Euclidean_distance)) 
lub podobieństwo cosinus ([wiki/Cosine_similarity](https://en.wikipedia.org/wiki/Cosine_similarity)). 
Wybór metryki powinien być podyktowany typem danych, z którym mamy do czynienia.

Więcej informacji na ten temat znajdziesz w dokumentacji Qdranta - [https://qdrant.tech/documentation/concepts/search/](https://qdrant.tech/documentation/concepts/search/).

In [None]:
search_result = qdrant_client.search(
    collection_name="test_collection", 
    query_vector=[0.2, 0.1, 0.9, 0.7], 
    limit=3,
)

print(search_result)

## Filtrowanie wyników

Oczywiście można zawężyć zbiór wynikowy, jeśli szukamy podobnych wektorów, które dodatkowo spełniają jakieś warunki dotyczące przechowywanych metadanych wektorów.

In [None]:
from qdrant_client.http.models import Filter, FieldCondition, MatchValue

search_result = qdrant_client.search(
    collection_name="test_collection",
    query_vector=[0.2, 0.1, 0.9, 0.7],
    query_filter=Filter(
        must=[FieldCondition(key="city", match=MatchValue(value="London"))]
    ),
    with_payload=True,
    limit=3,
)

print(search_result)