# <center> Разбор кейса ML-инженера

## Import libraries and load datasets

In [2]:
import numpy as np
import pandas as pd
import  scipy.sparse as sparse
from lightfm import LightFM
from lightfm.cross_validation import random_train_test_split
from lightfm.evaluation import precision_at_k, recall_at_k
import pickle



In [3]:
ratings = pd.read_csv("data/ratings.csv")
books = pd.read_csv("data/books.csv")
tags = pd.read_csv("data/tags.csv")
book_tags = pd.read_csv("data/book_tags.csv")

В файле tags.csv очень много неинформативных тегов. В нашем случае теги сильно влияют на качество модели. Поэтому мы заранее произвели их предобработку:

Выбрали около 500 наиболее популярных тегов.
Сгруппировали оставшиеся теги.

Готовый файл с очищенными тегами, который мы назвали tags_cleaned.csv, лежит в директории data.

In [4]:
tags = pd.read_csv("data/tags_cleaned.csv")
tags

Unnamed: 0,tag_id,tag_name
0,509,19th-century
1,923,20th-century
2,941,21st-century
3,1499,abuse
4,1540,action
...,...,...
329,33114,young-adult
330,33121,young-adult-fantasy
331,33124,young-adult-fiction
332,33165,youth


## Data preprocessing

В датафреймах tags и books есть два идентификатора: goodreads_book_id — от сервиса Goodreads и book_id, который привязан к нашей таблице. Создадим словарь, с помощью которого сможем находить book_id книги по goodreads_book_id.

In [5]:
mapper = dict(zip(books.goodreads_book_id, books.book_id))

Теперь применим этот словарь, чтобы добавить id книги в датафрейм book_tags.

In [6]:
book_tags.reset_index(drop=True, inplace=True)
print(book_tags.shape[0])
print(tags.shape[0])

999912
334


In [7]:
book_tags = book_tags[book_tags.tag_id.isin(tags.tag_id)]
book_tags.shape[0]

300738

In [8]:
book_tags['id'] = book_tags.goodreads_book_id.apply(lambda x: mapper[x])
book_tags

Unnamed: 0,goodreads_book_id,tag_id,count,id
1,1,11305,37174,27
4,1,33114,12716,27
5,1,11743,9954,27
6,1,14017,7169,27
10,1,27199,3857,27
...,...,...,...,...
999877,33288638,9886,10,8892
999879,33288638,3358,10,8892
999880,33288638,1679,10,8892
999889,33288638,1659,9,8892


In [9]:
ratings_coo = sparse.coo_matrix((ratings.rating, (ratings.user_id, ratings.book_id)))
feature_ratings = sparse.coo_matrix(([1]*len(book_tags), (book_tags.id, book_tags.tag_id)))

In [15]:
ratings_coo.shape

(53425, 10001)

## Model building

![image.png](attachment:55f13dd3-5360-4e70-a622-bb1082b9f0b7.png)

In [10]:
# число потоков процессора (зависит от того, на какой машине запускаете)
NUM_THREADS = 8 

#число параметров вектора 
NUM_COMPONENTS = 60 

#число эпох обучения
NUM_EPOCHS = 10

#зерно датчика случайных чисел
RANDOM_STATE = 42

In [11]:
%%time
#Разбиваем датасет на обучающую и тестовую выборки
train, test = random_train_test_split(ratings_coo, test_percentage=0.2, random_state=RANDOM_STATE)

#Создаём модель
model = LightFM(
    learning_rate=0.05, #темп (скорость) обучения
    loss='warp', #loss-функция
    no_components=NUM_COMPONENTS,#размерность вектора признаков
    random_state=RANDOM_STATE #генератор случайных чисел
)

#Обучаем модель
# model = model.fit(
#     train, #обучающая выборка
#     epochs=NUM_EPOCHS, #количество эпох обучения
#     num_threads=NUM_THREADS, #количество потоков процессора
#     item_features=feature_ratings #признаки товаров (рейтинги книг)
# )

CPU times: total: 1.08 s
Wall time: 1.05 s


## Load trained model

In [12]:
with open("model.pkl", "rb") as f:
    model = pickle.load(f)

In [17]:
# #Тестируем нашу модель
# precision_score = precision_at_k(
#     model, #модель
#     test, #тестовая выборка
#     num_threads=NUM_THREADS, #количество потоков процессора
#     k=10, #количество предложений
#     item_features=feature_ratings #признаки товаров
# ).mean() #усредняем результаты
 
# recall_score = recall_at_k(
#     model, #модель
#     test, #тестовая выборка
#     num_threads=NUM_THREADS, #количество потоков процессора
#     k=10, #количество предложений
#     item_features=feature_ratings #признаки товаров
# ).mean() #усредняем результаты

# print(recall_score, precision_score)

<p><span style="font-weight: bold;
    font-family: 'courier new', courier;
    display: block;
    text-align: center;
    font-size: 1.4em;
    text-transform: uppercase;
    color: #2e765e;">ТЕСТИРОВАНИЕ МОДЕЛИ</span></p>

![image.png](attachment:ee0667fd-e94b-44cf-94aa-83cced013761.png)

In [23]:
# Извлекаем эмбеддинги
item_biases, item_embeddings = model.get_item_representations(features=feature_ratings)

print(item_biases.shape, item_enbeddings.shape)

(10001,) (10001, 60)


![image.png](attachment:42083293-7bed-41fc-a28f-42b38440c685.png)

![image.png](attachment:2e440d84-7991-41cd-bcc0-276515c5e439.png)

![image.png](attachment:c90e4c05-3161-4414-ab1b-c58631b0f4d6.png)

Перейдём к реализации. Сначала установим библиотеку nmslib:

In [20]:
# !pip install nmslib

![image.png](attachment:3f89c9bf-1dfc-46c3-a586-1f2bfbef6d7d.png)

In [26]:
import nmslib

# Создадим граф для поиска
nms_idx = nmslib.init(method='hnsw', space='cosinesimil')

# Начинаем добавлять книги в граф
nms_idx.addDataPointBatch(item_embeddings)
nms_idx.createIndex(print_progress=True)

![image.png](attachment:3577ae0f-4953-4809-9668-83d2f5cb1375.png)

In [27]:
# Вспомогательная функция
def nearest_books_nms(book_id, index, n=10):
    nn = index.knnQuery(item_embeddings[book_id], k=n)
    return nn

![image.png](attachment:41b328f4-a2da-4120-8635-fa0506f36c3c.png)

In [47]:
#Отфильтруем только те книги, в которых названии встречается подстрока "1984"
books[books['title'].apply(lambda x: x.lower().find("1984"))>0]

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
845,846,5472,5472,2966408,51,151010269,9780151000000.0,"George Orwell, Christopher Hitchens",1950.0,Animal Farm & 1984,...,116197,118761,1293,1212,3276,16511,40583,57179,https://images.gr-assets.com/books/1327959366m...,https://images.gr-assets.com/books/1327959366s...
9795,9796,201145,201145,2563528,25,64440508,9780064000000.0,"Else Holmelund Minarik, Maurice Sendak",1968.0,A Kiss for Little Bear,...,11063,11604,126,87,284,1898,3053,6282,https://s.gr-assets.com/assets/nophoto/book/11...,https://s.gr-assets.com/assets/nophoto/book/50...


Видим, что у нас есть 2 совпадения, где в названиях встречается "1984".

Давайте возьмём книгу с book_id 846. Это книга, в которую включены повесть «Скотный двор» ("Animal Farm") и роман-антиутопия «1984».

Найдём похожие книги — для этого воспользуемся написанной ранее функцией:

#Вызываем функцию для поиска ближайших соседей
nearest_books_nms(846, nms_idx)

Как мы говорили ранее, наша функция возвращает кортеж из двух массивов: numpy-вектор идентификаторов и numpy-вектор мер схожести (расстояний) между заданной книгой и её ближайшими соседями.

Пока что нас интересуют только идентификаторы— выделим их в отдельную переменную:

In [43]:
nbm = nearest_books_nms(846, nms_idx)[0]
nbm

array([846,  14,  55,  48, 809,  13, 903, 529, 271, 173])

![image.png](attachment:642ba598-3f88-4b3c-9dea-a94840ed1c57.png)

In [46]:
#Посмотрим на авторов и названия рекомендованных книг
books[books.book_id.isin(nbm)][['title', 'authors']]

Unnamed: 0,title,authors
12,1984,"George Orwell, Erich Fromm, Celâl Üster"
13,Animal Farm,George Orwell
47,Fahrenheit 451,Ray Bradbury
54,Brave New World,Aldous Huxley
172,A Clockwork Orange,Anthony Burgess
270,Flowers for Algernon,Daniel Keyes
528,Gulliver's Travels,"Jonathan Swift, Robert DeMaria Jr."
808,Brave New World / Brave New World Revisited,"Aldous Huxley, Christopher Hitchens"
845,Animal Farm / 1984,"George Orwell, Christopher Hitchens"
902,Anthem,Ayn Rand


Как можно увидеть, в результатах есть действительно похожие книги. Первыми идут отдельные книги — «1984» и «Скотный двор» ("Animal Farm"). Далее следуют «451 градус по Фаренгейту» Рэя Брэдбери ("Fahrenheit 451") и «О дивный новый мир» Олдоса Хаксли ("Brave New World"), которые также являются антиутопиями.

Не забудьте сохранить полученные эмбеддинги — они пригодятся в дальнейшем при реализации прототипа:

In [50]:
with open('item_embeddings.pkl', 'wb') as file:
    pickle.dump(
        item_embeddings, file, protocol=pickle.HIGHEST_PROTOCOL
    )

![image.png](attachment:8d2a8c95-1216-406d-83aa-0707fa5a8264.png)

In [52]:
# ! pip install streamlit

![image.png](attachment:25b9ab4e-dc8e-427d-b7d1-1fa9408f7c47.png)