# Lecture 21 - Recommendation Systems

In [1]:
# %pip install scikit-surprise

In [2]:
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

## Recommendation systems

**Рекомендаційні системи** - це типи систем фільтрації інформації, які будують рейтинговий перелік об'єктів (фільми, музика, книги, новини, вебсайти), яким користувач може надати перевагу. Вони використовуються в різних сферах, включаючи електронну комерцію, соціальні мережі, потокове відео та штучний інтелект. Система рекомендацій — це алгоритм штучного інтелекту, зазвичай пов’язаний із машинним навчанням, який використовує великі дані, щоб пропонувати або рекомендувати додаткові продукти споживачам. Вони можуть ґрунтуватися на різних критеріях, зокрема минулих покупках, історії пошуку, демографічній інформації та інших факторах. Системи рекомендацій дуже корисні, оскільки вони допомагають користувачам знаходити продукти та послуги, які вони могли б не знайти самостійно.

Системи рекомендацій навчені розуміти переваги, попередні рішення та характеристики людей і продуктів, використовуючи дані, зібрані про їхню взаємодію. До них належать покази, кліки, оцінки "подобається" та покупки. Завдяки своїй здатності передбачати інтереси та бажання споживачів на високоперсоніфікованому рівні системи рекомендацій є улюбленими серед постачальників контенту та продуктів. Вони можуть спонукати споживачів практично до будь-якого продукту чи послуги, які їх цікавлять, від книг до відео, уроків здоров’я та одягу.

**Основні завдання рекомендаційних систем:**

* **Виявлення потенційних інтересів користувача.** Рекомендаційні системи використовують дані про поведінку користувачів, щоб визначити, які об'єкти можуть бути їм цікаві. Наприклад, якщо користувач часто дивиться фільми про супергероїв, то йому можуть бути рекомендовані інші фільми в цьому жанрі.
* **Збільшення участі користувачів.** Рекомендаційні системи допомагають користувачам знайти цікавий контент, що підвищує їхню залученість до сервісу. Наприклад, якщо користувачеві подобається певний виконавець музики, то йому можуть бути рекомендовані інші виконавці з того ж жанру.
* **Підвищення продажів.** Рекомендаційні системи можуть використовуватися для підвищення продажів товарів та послуг. Наприклад, якщо користувач купив один товар, то йому можуть бути рекомендовані інші товари, які можуть його зацікавити.

**Основні типи рекомендаційних систем:**

* **Колаборативна фільтрація** (Collaborative filtering) ґрунтується на аналізі взаємодій користувачів з об'єктами. Для цього використовуються міри схожості між користувачами або об'єктами.
* **Фільтрація на основі ознак** (Content-based filtering) ґрунтується на аналізі характеристик об'єктів. Для цього використовуються такі характеристики, як жанр, тематика, рейтинг та інші.
* **Гібридні рекомендаційні системи** використовують комбінацію двох або більше типів рекомендаційних систем.

**Переваги рекомендаційних систем:**

* **Персоналізація.** Рекомендаційні системи допомагають користувачам знайти контент, який відповідає їхнім індивідуальним інтересам.
* **Зручність.** Рекомендаційні системи дозволяють користувачам швидко знайти цікавий контент, не витрачаючи багато часу на пошук.
* **Ефективність.** Рекомендаційні системи можуть підвищити продажі та залученість користувачів.

**Недоліки рекомендаційних систем:**

* **Необхідність збирання даних про користувачів.** Рекомендаційні системи працюють ефективніше, якщо вони мають доступ до достатніх даних про поведінку користувачів.
* **Неможливість враховувати всі фактори.** Рекомендаційні системи можуть не враховувати всі фактори, які впливають на інтереси користувачів.

**Приклади використання рекомендаційних систем:**

* **Електронна комерція.** Рекомендаційні системи використовуються в електронній комерції для рекомендації товарів користувачам. Наприклад, Amazon рекомендує користувачам товари, які вони, ймовірно, куплять, на основі їхніх попередніх покупок.
* **Соціальні мережі.** Рекомендаційні системи використовуються в соціальних мережах для рекомендації користувачам інших користувачів, груп та контенту. Наприклад, Facebook рекомендує користувачам друзів, які можуть їм сподобатися, на основі їхніх спільних інтересів.
* **Потокове відео.** Рекомендаційні системи використовуються в потоковому відео для рекомендації користувачам фільмів, телешоу та інших відео. Наприклад, Netflix рекомендує користувачам фільми, які вони, ймовірно, оцінять, на основі їхньої історії переглядів.
* **Штучний інтелект.** Рекомендаційні системи використовуються в штучному інтелекті для рекомендації користувачам інформації, яка може бути їм корисною. Наприклад, Google рекомендує користувачам новини, які вони, ймовірно, зацікавляться, на основі їхніх попередніх пошуків.

Рекомендаційні системи - це важливий інструмент, який використовується в різних сферах. Вони допомагають користувачам знайти цікавий контент та підвищити їхню залученість до сервісів.

<center>
    <img src="assets/recsys.png">
</center>


### Collaborative Filtering

**Колаборативна фільтрація** (Collaborative filtering) - це метод рекомендаційних систем, який ґрунтується на аналізі взаємодій користувачів з об'єктами. Для цього використовуються міри схожості між користувачами або об'єктами.

Основне припущення полягає в тому, що якщо два користувачі погоджуються в одному питанні, вони, швидше за все, погодяться і в інших. <br>
Спільну фільтрацію можна розділити на дві категорії: спільну фільтрацію на основі користувачів і спільну фільтрацію на основі елементів.

<center>
    <img src="assets/colaborative_filtering.png" height=200 width=400>
</center>

Колаборативна фільтрація може бути **уявною** або **явною**. Уявна колаборативна фільтрація використовується, якщо у системі немає даних про явні оцінки користувачів об'єктам. У цьому випадку система використовує інші дані про взаємодії користувачів з об'єктами, такі як перегляди, покупки, підписки тощо.

Явна колаборативна фільтрація використовується, якщо у системі є дані про явні оцінки користувачів об'єктам. У цьому випадку система використовує ці оцінки для визначення схожості між користувачами.

**Міри схожості**

Для визначення схожості між користувачами або об'єктами використовуються різні міри схожості. Найпоширенішими є такі міри схожості:

* **Коефіцієнт схожості Пірсона** (Pearson correlation coefficient) - це міра лінійної кореляції між двома наборами даних.
* **Коефіцієнт схожості Косинуса** (Cosine similarity) - це міра кутової відстані між двома векторами.
* **Міра схожості Джакарда** (Jaccard similarity) - це міра спільності між двома наборами даних.

**Алгоритми рекомендування**

Після того, як визначено схожість між користувачами або об'єктами, можна використовувати різні алгоритми рекомендування для побудови рейтингового переліку об'єктів для користувача. Найпоширенішими алгоритмами рекомендування є такі:

* **Алгоритм найближчих сусідів** (Nearest neighbor algorithm) - це алгоритм, який рекомендує користувачу об'єкти, які вже оцінили схожі користувачі.
* **Алгоритм фільтрації на основі факторів** (Factorization machines algorithm) - це алгоритм, який використовує машинне навчання для прогнозування рейтингів користувачів об'єктам.

**Переваги та недоліки**

**Переваги**

* **Персоналізація.** Колаборативна фільтрація дозволяє рекомендувати об'єкти, які відповідають індивідуальним інтересам користувачів.
* **Ефективність.** Колаборативна фільтрація може бути ефективною для великих наборів даних.

**Недоліки**

* **Необхідність збирання даних.** Колаборативна фільтрація вимагає збирання даних про взаємодії користувачів з об'єктами.
* **Нестабільність.** Колаборативна фільтрація може бути нестабільною, якщо кількість даних про взаємодії користувачів з об'єктами недостатня.

**Висновок**

Колаборативна фільтрація - це ефективний метод рекомендаційних систем, який дозволяє рекомендувати об'єкти, які відповідають індивідуальним інтересам користувачів. Однак для ефективної роботи колаборативних систем необхідно збирати достатньо даних про взаємодії користувачів з об'єктами.


### User-User Collaborative Filtering

**User-User Collaborative Filtering** (UCF) - це тип колаборативної фільтрації, який ґрунтується на схожості між користувачами. Для цього використовується міра схожості, яка визначає, наскільки схожі інтереси двох користувачів.

**Міри схожості**

Для визначення схожості між користувачами використовуються різні міри схожості. Найпоширенішими є такі міри схожості:

* **Коефіцієнт схожості Пірсона** (Pearson correlation coefficient) - це міра лінійної кореляції між двома наборами даних.
* **Коефіцієнт схожості Косинуса** (Cosine similarity) - це міра кутової відстані між двома векторами.
* **Міра схожості Джакарда** (Jaccard similarity) - це міра спільності між двома наборами даних.

**Алгоритми рекомендування**

Після того, як визначено схожість між користувачами, можна використовувати різні алгоритми рекомендування для побудови рейтингового переліку об'єктів для користувача. Найпоширенішими алгоритмами рекомендування є такі:

* **Алгоритм найближчих сусідів** (Nearest neighbor algorithm) - це алгоритм, який рекомендує користувачу об'єкти, які вже оцінили схожі користувачі.
* **Алгоритм фільтрації на основі факторів** (Factorization machines algorithm) - це алгоритм, який використовує машинне навчання для прогнозування рейтингів користувачів об'єктам.

**Принцип роботи**

UCF працює за таким принципом:

1. Для кожного користувача визначається його профіль, який складається з рейтингів, які він дав об'єктам.
2. Для всіх пар користувачів визначається схожість їхніх профілів.
3. Для користувача будується рейтинговий перелік об'єктів на основі рейтингів, які дали об'єктам схожі користувачі.

**Переваги**

* **Простота реалізації.** UCF є відносно простим для реалізації алгоритмом.
* **Ефективність.** UCF може бути ефективним для великих наборів даних.

**Недоліки**

* **Необхідність збирання даних.** UCF вимагає збирання даних про взаємодії користувачів з об'єктами.
* **Нестабільність.** UCF може бути нестабільною, якщо кількість даних про взаємодії користувачів з об'єктами недостатня.

**Висновок**

UCF - це ефективний метод колаборативної фільтрації, який дозволяє рекомендувати об'єкти, які відповідають індивідуальним інтересам користувачів. Однак для ефективної роботи UCF необхідно збирати достатньо даних про взаємодії користувачів з об'єктами.


### Item-Item Collaborative Filtering

**Item-Item Collaborative Filtering** (IICF) - це тип колаборативної фільтрації, який ґрунтується на схожості між об'єктами. Для цього використовується міра схожості, яка визначає, наскільки схожі два об'єкти.

**Міри схожості**

Для визначення схожості між об'єктами використовуються різні міри схожості. Найпоширенішими є такі міри схожості:

* **Коефіцієнт схожості Пірсона** (Pearson correlation coefficient) - це міра лінійної кореляції між двома наборами даних.
* **Коефіцієнт схожості Косинуса** (Cosine similarity) - це міра кутової відстані між двома векторами.
* **Міра схожості Джакарда** (Jaccard similarity) - це міра спільності між двома наборами даних.

**Алгоритми рекомендування**

Після того, як визначено схожість між об'єктами, можна використовувати різні алгоритми рекомендування для побудови рейтингового переліку об'єктів для користувача. Найпоширенішими алгоритмами рекомендування є такі:

* **Алгоритм найближчих сусідів** (Nearest neighbor algorithm) - це алгоритм, який рекомендує користувачу об'єкти, які схожі на об'єкти, які він уже оцінив.
* **Алгоритм фільтрації на основі факторів** (Factorization machines algorithm) - це алгоритм, який використовує машинне навчання для прогнозування рейтингів користувачів об'єктам.

**Принцип роботи**

IICF працює за таким принципом:

1. Для кожного об'єкта визначається його профіль, який складається з рейтингів, які він отримав від користувачів.
2. Для всіх пар об'єктів визначається схожість їхніх профілів.
3. Для користувача будується рейтинговий перелік об'єктів на основі рейтингів, які отримали схожі об'єкти.

**Переваги**

* **Необхідність меншої кількості даних.** IICF може працювати ефективно, навіть якщо для об'єктів є невелика кількість рейтингів.
* **Стабільність.** IICF є більш стабільною, ніж UCF, якщо кількість даних про взаємодії користувачів з об'єктами недостатня.

**Недоліки**

* **Складність реалізації.** IICF є більш складним для реалізації алгоритмом, ніж UCF.

**Висновок**

IICF - це ефективний метод колаборативної фільтрації, який дозволяє рекомендувати об'єкти, які відповідають індивідуальним інтересам користувачів. IICF має перевагу перед UCF в тому, що він може працювати ефективно, навіть якщо для об'єктів є невелика кількість рейтингів.


### Matrix Factorization

Матрична факторізація є ще одним популярним методом реалізації спільної фільтрації, де взаємодія користувача та елемента представлена у вигляді матриці, і ця матриця розкладається на приховані просторові представлення (приховані функції) як для користувачів, так і для елементів. <br>

<center><img src="assets/matrix_factorization.png" height=300 width=600></center>

Деякі з поширених методів: **Singular Value Decomposition (SVD)**, **Non-negative Matrix Factorization (NMF)** тощо.

### Measuring Similarity

1. **Cosine Similarity:** вимірює косинус кута між двома векторами зі значенням у діапазоні від -1 до 1. Значення, ближче до 1, вказує на більшу подібність.
$$\operatorname{cosine similarity} = S_C(A, B) := \cos(\theta) = \frac{\textbf{A} \cdot \textbf{B}}{\lVert \textbf{A} \rVert \lVert \textbf{B} \rVert} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{ \sum_{i=1}^n A_i^2 \cdot \sum_{i=1}^n B_i^2 }} $$

2. **Pearson Correlation:** Вимірює лінійну кореляцію між двома змінними зі значеннями в діапазоні від -1 до 1. Знову ж таки, значення, ближче до 1, вказує на вищу подібність.
$$ r_{xy} = \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{ \sqrt{ \sum_{i=1}^n (x_i - \bar{x})^2 } \sqrt{ \sum_{i=1}^n (y_i - \bar{y})^2 } } $$
де
- $n$ це розмір вибірки
- $x_i$, $y_i$ це окремі точки вибірки з індексом i
- $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ (вибіркове середнє); і аналогічно для $\bar{y}$

3. **Jaccard Similarity:** Вимірює подібність між кінцевими наборами вибірок і визначається як розмір перетину, поділений на розмір об’єднання наборів вибірок.
$$ J(i, j) = \operatorname{sim}(i, j) = \frac{ a }{ a + b + c } $$
де
- $a$ — це кількість атрибутів, які дорівнюють 1 для обох об'єктів $i$ і $j$
- $b$ — кількість атрибутів, які дорівнюють 0 для об’єкта $i$, але дорівнюють 1 для об’єкта $j$
- $c$ це кількість атрибутів, яка дорівнює 1 для об'єкта $i$, але дорівнює 0 для об'єкта $j$

### User-User Collaborative Filtering

Спільна фільтрація між користувачами базується на ідеї, що користувачі, які домовилися в минулому, домовляться в майбутньому про перевагу різних елементів.

#### Step 1: Construct a User-Item Matrix

Створіть матрицю, де кожен рядок представляє користувача, а кожен стовпець — елемент. <br>
Значення в матриці представляють оцінки, які користувачі дали елементам.

#### Step 2: Find Similar Users

Для певного користувача знайдіть інших подібних користувачів за допомогою метрики подібності, наприклад косинусної подібності або кореляції Пірсона.

#### Step 3: Predict Ratings

Щоб передбачити оцінку, яку користувач дав би елементу, з яким він ще не взаємодіяв, ви можете взяти зважену суму оцінок, наданих цьому елементу користувачами, схожими на цільового користувача.

#### Step 4: Make Recommendations

Рекомендуйте користувачам товари з найвищими прогнозованими оцінками.

In [3]:
# Initializing data
data = {
    'User': [1, 1, 2, 2, 3, 3, 4, 4, 5, 5],
    'Item': ['A', 'B', 'A', 'C', 'B', 'C', 'A', 'B', 'C', 'D'],
    'Rating': [5, 4, 4, 5, 1, 2, 5, 4, 5, 5]
}
df = pd.DataFrame(data)
df

Unnamed: 0,User,Item,Rating
0,1,A,5
1,1,B,4
2,2,A,4
3,2,C,5
4,3,B,1
5,3,C,2
6,4,A,5
7,4,B,4
8,5,C,5
9,5,D,5


In [4]:
# Step 1: Construct a User-Item Matrix
user_item_matrix = df.pivot_table(index='User', columns='Item', values='Rating')
user_item_matrix

Item,A,B,C,D
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,5.0,4.0,,
2,4.0,,5.0,
3,,1.0,2.0,
4,5.0,4.0,,
5,,,5.0,5.0


In [5]:
# Step 2: Find Similar Users
user_similarity = cosine_similarity(user_item_matrix.fillna(0))
user_similarity_df = pd.DataFrame(user_similarity, index=user_item_matrix.index, columns=user_item_matrix.index)
user_similarity_df

User,1,2,3,4,5
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.0,0.487805,0.279372,1.0,0.0
2,0.487805,1.0,0.69843,0.487805,0.552158
3,0.279372,0.69843,1.0,0.279372,0.632456
4,1.0,0.487805,0.279372,1.0,0.0
5,0.0,0.552158,0.632456,0.0,1.0


In [6]:
# Step 3: Predict Ratings
def get_similar_users(user, top_n=2):
    similar_users = user_similarity_df.loc[user].sort_values(ascending=False)
    similar_users = similar_users.drop(user, errors='ignore')
    return similar_users.head(top_n)

# Step 4: Make Recommendations
def recommend_items(user, top_n=2):
    similar_users = get_similar_users(user)
    similar_users_df = user_item_matrix.loc[similar_users.index]
    
    # Getting the mean ratings given by similar users
    mean_ratings = similar_users_df.mean(axis=0)
    
    # Getting the items already rated by the user
    user_rated_items = user_item_matrix.loc[user]
    user_rated_items = user_rated_items[user_rated_items > 0].index
    
    # Removing the items already rated by the user from the recommendation list
    recommended_items = mean_ratings.drop(user_rated_items, errors='ignore')

    return recommended_items.sort_values(ascending=False).head(top_n)

In [8]:
recommendations = recommend_items(user=5)
print(recommendations)

Item
A    4.0
B    1.0
dtype: float64


### Item-Item Collaborative Filtering

Цей метод подібний до спільної фільтрації між користувачами, але замість пошуку схожих користувачів він знаходить схожі елементи на основі оцінок користувачів.

#### Step 1: Construct a User-Item Matrix

Цей крок залишається незмінним - ми будуємо матрицю з користувачами та елементами.

#### Step 2: Find Similar Items

Замість обчислення схожості користувачів ми тепер обчислюємо схожість елементів. <br>
Це часто робиться шляхом транспонування матриці елемента користувача та обчислення подібності між векторами елементів.

#### Step 3: Predict Ratings

Щоб передбачити оцінку, яку користувач дав би елементу, який він ще не оцінив, ми беремо зважену суму оцінок, наданих цим користувачем подібним елементам.

#### Step 4: Make Recommendations

Рекомендуйте товари з найвищими прогнозованими оцінками.

In [9]:
data = {
    'User': [1, 1, 2, 2, 3, 3, 4, 4, 5, 5],
    'Item': ['A', 'B', 'A', 'C', 'B', 'C', 'A', 'B', 'C', 'D'],
    'Rating': [5, 4, 4, 5, 1, 2, 5, 4, 5, 5]
}
df = pd.DataFrame(data)
df

Unnamed: 0,User,Item,Rating
0,1,A,5
1,1,B,4
2,2,A,4
3,2,C,5
4,3,B,1
5,3,C,2
6,4,A,5
7,4,B,4
8,5,C,5
9,5,D,5


In [10]:
# Step 1: Construct a User-Item Matrix
user_item_matrix = df.pivot_table(index='User', columns='Item', values='Rating')
user_item_matrix

Item,A,B,C,D
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,5.0,4.0,,
2,4.0,,5.0,
3,,1.0,2.0,
4,5.0,4.0,,
5,,,5.0,5.0


In [12]:
# Step 2: Find Similar Items
item_item_sim_matrix = cosine_similarity(user_item_matrix.fillna(0).T)
item_item_sim_df = pd.DataFrame(item_item_sim_matrix, index=user_item_matrix.columns, columns=user_item_matrix.columns)
item_item_sim_df

Item,A,B,C,D
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1.0,0.857099,0.335013,0.0
B,0.857099,1.0,0.047378,0.0
C,0.335013,0.047378,1.0,0.680414
D,0.0,0.0,0.680414,1.0


In [14]:
# Step 3: Predict Ratings & Step 4: Make Recommendations
def get_item_recommendations(item, top_n=2):
    similar_items = item_item_sim_df[item].sort_values(ascending=False)
    top_similar_items = similar_items.iloc[1:top_n + 1].index.tolist()
    return top_similar_items


item_to_recommend_for = 'A'
recommendations = get_item_recommendations(item_to_recommend_for, top_n=2)
print(f"Top 2 recommendations for item '{item_to_recommend_for}': {recommendations}")

Top 2 recommendations for item 'A': ['B', 'C']


In [15]:
item_to_recommend_for = 'C'
recommendations = get_item_recommendations(item_to_recommend_for, top_n=2)
print(f"Top 2 recommendations for item '{item_to_recommend_for}': {recommendations}")

Top 2 recommendations for item 'C': ['D', 'A']


### Matrix Factorization

Матрична факторизація — це клас алгоритмів спільної фільтрації, які використовуються в системах рекомендацій. <br>
Він заснований на ідеї наближення вихідної матриці взаємодії між користувачем і елементом (оцінки) у добуток двох матриць меншої розмірності, що представляють приховані характеристики користувачів і елементів відповідно.

Загальна процедура побудови рекомендаційної системи за допомогою матричної факторизації:

1. **Preprocessing the Data:** Упорядкуйте дані в матриці взаємодії між користувачем і елементом, де кожен рядок представляє користувача, а кожен стовпець — елемент. Значення в матриці представляють взаємодію між користувачами та елементами (наприклад, оцінки, історія покупок).

2. **Matrix Factorization:** Факторизація матриці розкладає вихідну матрицю (R) на дві матриці: матрицю користувача (U) і матрицю елементів (V). Добуток цих матриць апроксимує вихідну матрицю.

$$ R \approx U \times V^T $$

де
- $U$ це матриця користувача, де кожен рядок представляє прихильність користувача до прихованих факторів.
- $V$  це матриця елементів, де кожен рядок представляє спорідненість елемента з прихованими факторами.

Ініціалізуйте матриці $U$ і $V$ деякими початковими значеннями. <br>
Поширеними підходами є випадкова ініціалізація або використання сингулярної декомпозиції (SVD) як початкового кроку.

3. **Training:** Щоб знайти $U$ і $V$, потрібно мінімізувати квадрат помилки для відомих оцінок:

$$ \sum_{(i,j) \in \textit{known ratings}} (R_{ij} - u_i \cdot v_j)^2 + \lambda (\lVert u_i \rVert^2 + \lVert v_j \rVert^2) $$

де
- $u_i$ is the $i^{th}$ row of $U$
- $v_j$ is the $j^{th}$ row of $V$
- $\lambda$ є параметром регулярізації для запобігання переобладнанню.

Для мінімізації цієї цільової функції можна використовувати такі методи оптимізації, як стохастичний градієнтний спуск (SGD).

3. **Making Predictions:** Якщо у вас є $U$ і $V$, для будь-якого користувача $i$ і елемента $j$ прогнозована оцінка буде:

$$ \hat{R}_{ij} = u_i \cdot v_j $$

4. **Recommendation:** Для певного користувача $i$ ви можете рекомендувати елементи, які мають найвищі прогнозовані оцінки та з якими користувач ще не взаємодіяв.

#### Benefits

- Добре обробляє дуже великі набори даних.
- Може фіксувати складні взаємодії між користувачем і елементом із достатньою кількістю прихованих факторів.

#### Limitations

- Проблема холодного запуску: не вдається обробити нових користувачів або елементи, які не взаємодіють.


**Tuning hyperparameters (like the number of latent factors, $k$, and the regularization term, $\lambda$) is crucial for optimal performance.**

In [16]:
from collections import defaultdict

from surprise import SVD, Dataset, accuracy
from surprise.model_selection import train_test_split

In [20]:
# movielens-100k dataset
data = Dataset.load_builtin('ml-100k')

data.raw_ratings[:10]

[('196', '242', 3.0, '881250949'),
 ('186', '302', 3.0, '891717742'),
 ('22', '377', 1.0, '878887116'),
 ('244', '51', 2.0, '880606923'),
 ('166', '346', 1.0, '886397596'),
 ('298', '474', 4.0, '884182806'),
 ('115', '265', 2.0, '881171488'),
 ('253', '465', 5.0, '891628467'),
 ('305', '451', 3.0, '886324817'),
 ('6', '86', 3.0, '883603013')]

In [21]:
train, test = train_test_split(data, test_size=.25)

In [22]:
model = SVD()
model.fit(train)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x16c943700>

In [23]:
predictions = model.test(test)
accuracy.rmse(predictions)

RMSE: 0.9448


0.9447691917134503

In [33]:
def get_top_n(predictions, n=3):
    top_n = defaultdict(list)
    for uid, iid, true_r, est, _ in predictions:
        top_n[uid].append((iid, est))

    # sort the predictions for each user and retrieve the k highest ones.
    for uid, user_ratings in top_n.items():
        user_ratings.sort(key=lambda x: x[1], reverse=True)
        top_n[uid] = user_ratings[:n]

    return top_n

# Get top 3 recommendations for each user
top_n = get_top_n(predictions, n=15)

# Print the recommended items for user 196
for uid, user_ratings in top_n.items():
    if uid == '1':
        print(f"User ID {uid}: {[iid for (iid, _) in user_ratings]}")

User ID 1: ['174', '187', '169', '59', '182', '198', '176', '114', '170', '135', '190', '30', '166', '71', '79']
