# ABOUT:
- this code tries to get top k genres given a query
- background:
    - we have a Genre collection, where each genre has an embedding
    - given a query we can compute the most similar genres
- Approach:
    - convert query to embedding
    - use matrix multiplication to get top k genres

### connect mongo

In [11]:
from pymongo import MongoClient
import certifi
ca = certifi.where()
client = MongoClient("mongodb+srv://tanchingfhen:978775!Mj@dataproducts.hcjk1ct.mongodb.net/?retryWrites=true&w=majority", tlsCAFile=ca)
db = client["DP"] 
book_collection = db["books"] 
genre_collection = db["genre"] 
full_genre_collection = db["full_genre"] 

In [2]:
from sentence_transformers import SentenceTransformer
from numpy import dot
import numpy as np


embedding_model = SentenceTransformer('whaleloops/phrase-bert')

"""
FAST - Given query return top k genres by matrix multiplication
"""
def search_genre_by_query(collection, query, topk = 10, return_scores = False):
    # get document containing all genres
    document = collection.find_one({})
    # embed query
    query_embedding = embedding_model.encode(query)
    # compute scores and sort
    scores = np.dot(np.array(document["embedding"]),query_embedding)
    scores = sorted(zip(document["genre"],scores), key = lambda ele: ele[1], reverse = True)
    # return topk scores
    if not return_scores:
        scores = [ele[0] for ele in scores]
    return scores[:topk]

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
query = "invasion and war"
search_genre_by_query(full_genre_collection, query, return_scores = False)

['War',
 'Civil War',
 'Combat',
 'World War I',
 'World War II',
 'Military',
 'American Civil War',
 'Terrorism',
 'Military History',
 'Military Romance']

### retrieve books by genre

In [15]:
def get_book_by_tag(collection, tags, keyname = "Genre", operator = "or"):
    if operator not in ["or","and"]:
        raise ValueError("Available operators are [or,and]")
    filter_dict = {
        f"${operator}":[{keyname:tag} for tag in tags]
    }
    return collection.find(filter_dict)

In [13]:
search_genre_list = ['War',
 'Civil War',
 'Combat',
 'World War I',
 'World War II',
 'Military',
 'American Civil War',
 'Terrorism',
 'Military History',
 'Military Romance']

In [16]:
mongo_cursor = get_book_by_tag(book_collection, search_genre_list)

In [31]:
next(mongo_cursor)

{'_id': '3442410665',
 'ISBN': '3442410665',
 'URL': 'https://www.goodreads.com/book/show/1431947.Sturmzeit',
 'Review': ['Znana i uwielbiana niemiecka autorka kryminałów Charlotte Link powraca w nowej odsłonie i przedstawia swoim czytelnikom fascynującą sagę historyczną, którą rozpoczyna pierwszy tom „Czas Burz”.Główna bohaterka powieści - osiemnastoletnia Felicja - przypomina legendarną, upartą, pewną siebie Scarlett O’Harę z pełnej rozmachu powieści Margaret Mitchell „Przeminęło z wiatrem”. To chyba nieprzypadkowe podobieństwo, nieprzypadkowe porównanie, na które skusiła się sama Charlotte Link, tworząc swoją postać. Jej bohaterka nie ma skrupułów. Potrafi uwodzić, zwodzić, kręcić tak, by zawsze postawić na swoim. Mężczyźni, którzy pojawiają się w jej życiu, wpadają w sidła jej mocy, nie potrafią się oprzeć jej urokowi, by wreszcie wypalić się, zginąć, zniknąć. Felicja pragnie jedynie przetrwać. I ratować swoją ziemię, rodzinny majątek na wsi, co znów przywodzi na myśl plantację Tar

In [37]:
from PriorityQueue import PriorityQueuePlus
"""
SLOW - looping through 400+ genres  is still slow!
"""
def search_genre_by_query(genre_collection, query, topk = 10):
    query_embedding = embedding_model.encode(query)
    queue = PriorityQueuePlus(topk = topk, max_size = 100)
    for doc in genre_collection.find({}):
        score = dot(query_embedding, doc['embedding'])
        queue.push(value = doc['genre'], priority = score)
    return queue.get_topk()