# Inteligentnta wyszukiwarka

W pierwszym przypadku użycia wykorzystamy wektorową bazę danych do stworzenia inteligentnej wyszukiwarki tekstowej. Nie będzie ona działać na wyszukiwaniu podobnych ciągów znaków,
a zamiast tego będzie opierać się na wektorowej reprezentacji tekstu. Mocno upraszczając - z każdego tekstu da się stworzyć wektor, który reprezentuje użyte
w tekście słowa. Wektor ten, umieszczony w wielowymiarowej przestrzeni, reprezentuje znaczenie tekstu.

Poniższe komendy instalują bilbiotekę *Sentence Transformers* ([sbert.net](https://www.sbert.net/)), która posiada wbudowane modele potrafiące przekształcać tekst na wektor.
Moglibyśmy po prostu wykonać `pip install sentence-transformers`, ale ta komenda pobrałaby wszystkie zależności, w tym możliwość uruchamiania transformerów na GPU, czego nie potrzebujemy
w trakcie laboratorium. Dzięki pominięciu tych zależności oszczędzimy pobieranie około 2 GB.

In [None]:
!pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu
!pip install transformers tqdm numpy scikit-learn scipy nltk sentencepiece
!pip install --no-deps sentence-transformers

Od teraz możemy używać transformera, by przekształcić dowolny tekst w wektor. Użyjemy do tego wytrenowanego modelu 
[all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2).

In [None]:
from sentence_transformers import SentenceTransformer

encoder = SentenceTransformer("all-MiniLM-L6-v2")

encoder.encode("Ala zostawiła kota w domu, bo uczy się korzystać z wektorowych baz danych.")

# Zadanie

Twoim zadaniem jest dostarczenie możliwości wyszukiwania tekstów w wektorowej bazie danych.

1. Zapoznaj się z plikiem `movies.json`. Zawiera on dane testowe zawierające listę filmów wraz z krótkim opisem fabuły z repozytorium [erik-sytnyk/movies-list](https://github.com/erik-sytnyk/movies-list/blob/master/db.json).
2. Połącz się z Twoją instancją Qdrant.
3. Stwórz kolekcję, która przechowa wektory tekstów (w tym przypadku dobrą odległością będzie `COSINE`, bo podobne teksty układają się w *podobną stronę* w przestrzeni.
4. Wczytaj dane testowe, zwektoryzuj je i zapisz je w bazie danych.
5. Napisz funkcję, która na podstawie zadanej frazy zwróci pasujące filmy.