<a href="https://colab.research.google.com/github/HalyshAnton/Python-AI/blob/AI_7_lesson/Recommendation_system2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Посібник про системи рекомендацій на основі вмісту

У сфері рекомендацій системи на основі вмісту займають центральне місце, коли ви хочете запропонувати елементи, схожі на те, що користувачеві подобалося раніше. Уявіть собі музичний потоковий сервіс - система на основі контенту аналізує особливості пісень, які подобаються користувачеві (жанр, темп, виконавець), і рекомендує інші зі схожими характеристиками. Цей посібник заглиблюється у світ рекомендацій на основі контенту, озброюючи вас базовими знаннями, щоб зрозуміти, як вони працюють.

**Основна ідея**

Системи рекомендацій на основі вмісту зосереджуються на **внутрішніх характеристиках** елементів, також відомих як особливості елементів. Аналізуючи ці характеристики та взаємодію з користувачем (оцінки, покупки, історія переглядів), система визначає елементи, які мають схожі характеристики з тими, до яких користувач виявив зацікавленість.

![](https://miro.medium.com/v2/resize:fit:1400/1*H_MMnrpLQrqTSJHdDOCMoA.png)

# Характеристики товарів

Сила системи, заснованої на контенті, полягає в багатстві та релевантності характеристик товарів, які вона враховує. Ось кілька найпоширеніших типів ознак:

* **Бінарні ознаки:** Ці ознаки можуть бути ввімкненими або вимкненими (1 або 0). Наприклад, фільм може бути класифікований як комедія (1) або ні (0).
* **Неперервні ознаки:** Ці ознаки мають числові значення. Прикладами можуть бути довжина книги, ціна товару або середня оцінка користувача для фільму.
* **Текстові ознаки:** Ці ознаки фіксують текстовий вміст, пов'язаний з елементом. Такі методи, як TF-IDF (частота терміна - зворотна частота документа), можна використовувати для відображення важливості слів в описі елемента.

# Міри подібності

Після того, як ви визначили характеристики позицій, системі потрібен спосіб порівняти їх і виявити схожі позиції. Ось кілька поширених мір схожості, які використовуються в рекомендаціях на основі вмісту:

* **Косинусна схожість:** Ця міра обчислює спрямовану схожість між двома векторами характеристик елементів. Елементи зі схожими профілями ознак матимуть вищий показник косинусоїдальної подібності.

![](https://miro.medium.com/v2/resize:fit:824/1*GK56xmDIWtNQAD_jnBIt2g.png)

* **Евклідова відстань:** Цей показник обчислює відстань по прямій між двома векторами ознак елементів у просторі ознак. Чим менша відстань, тим вища схожість.

![](https://cdn.botpenguin.com/assets/website/Euclidean_Distance_1_59a98c213f.png)

* **Схожість Жаккара:** Ця метрика (часто використовується для бінарних ознак) враховує відношення спільних ознак між двома об'єктами до загальної кількості ознак (включно з тими, що не є спільними). Вища схожість за Жаккардом вказує на більший збіг ознак.

![](https://storage.googleapis.com/lds-media/images/jaccard_similarity.width-1200.jpg)

In [None]:
c1 = set(['blue', 'purple', 'green'])
c2 = set(['blue', 'red', 'green'])

jaccard_sim = len(c1 & c2) / len(c1 | c2)


In [None]:
jaccard_sim

0.4

# Переваги рекомендацій на основі вмісту

* **Ефективні для нових елементів:** На відміну від спільної фільтрації (яка спирається на оцінки користувачів), системи на основі вмісту можуть рекомендувати нові елементи, навіть якщо вони ще не були оцінені, за умови, що їхні характеристики відомі.
* **Зрозумілі рекомендації:** Розуміючи особливості елементів, які використовуються для рекомендацій, ви можете пояснити, чому користувачеві пропонується той чи інший елемент.
* **Пом'якшення проблеми "холодного старту":** Системи на основі вмісту можуть вирішити проблему "холодного старту" для нових користувачів з обмеженою історією взаємодії, рекомендуючи елементи на основі їхніх характеристик.

**Обмеження, які слід враховувати**

* **Інженерія функцій:** Вибір правильних функцій елементів і забезпечення якості даних мають вирішальне значення для успіху систем, заснованих на вмісті.
* **Розрідженість даних:** Якщо характеристики об'єктів є розрідженими (недостатньо даних), обчислення подібності можуть стати ненадійними.
* **Обмежена сфера застосування:** Системи на основі вмісту можуть не враховувати нюанси вподобань користувачів, які виходять за межі характеристик об'єктів (наприклад, соціальний вплив, тренди).

**Висновок:**

Системи рекомендацій на основі контенту пропонують цінний підхід для пропонування товарів на основі притаманних їм характеристик. Використовуючи особливості елементів і міри схожості, ці системи можуть ефективно рекомендувати елементи, які відповідають минулим уподобанням користувача. Досліджуючи світ рекомендацій, пам'ятайте, що найкращий підхід часто передбачає поєднання різних методів, зокрема методів фільтрації на основі вмісту та спільної фільтрації.

In [None]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/HalyshAnton/IT-Step-Pyton-AI/main/module7/data/Video_games_esrb_rating.csv")

df.head()

Unnamed: 0,title,console,alcohol_reference,animated_blood,blood,blood_and_gore,cartoon_violence,crude_humor,drug_reference,fantasy_violence,...,sexual_content,sexual_themes,simulated_gambling,strong_janguage,strong_sexual_content,suggestive_themes,use_of_alcohol,use_of_drugs_and_alcohol,violence,esrb_rating
0,Monster Jam Steel Titans 2,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,E
1,Subnautica: Below Zero,1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ET
2,NIER REPLICANT VER.1.22474487139…,1,0,0,1,0,0,0,0,0,...,0,0,0,1,0,1,0,0,0,M
3,Jamestown+,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,ET
4,Neptunia Virtual Stars,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,T


In [None]:
df.drop(columns=['esrb_rating'], inplace=True)

titles = df['title']

data = df.drop(columns=['title'])

data.head()

Unnamed: 0,console,alcohol_reference,animated_blood,blood,blood_and_gore,cartoon_violence,crude_humor,drug_reference,fantasy_violence,intense_violence,...,partial_nudity,sexual_content,sexual_themes,simulated_gambling,strong_janguage,strong_sexual_content,suggestive_themes,use_of_alcohol,use_of_drugs_and_alcohol,violence
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,1,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,1,0,0,0,0,0,0,...,0,0,0,0,1,0,1,0,0,0
3,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,0


In [None]:
titles

0              Monster Jam Steel Titans 2
1                  Subnautica: Below Zero
2       NIER REPLICANT VER.1.22474487139…
3                              Jamestown+
4                  Neptunia Virtual Stars
                      ...                
1890     SENRAN KAGURA Peach Beach Splash
1891                         Sneaky Bears
1892                                SPARC
1893                           Still Time
1894                    Surf World Series
Name: title, Length: 1895, dtype: object

In [None]:
from sklearn.metrics import pairwise_distances


sim_matrix = pairwise_distances(data.values, data.values, metric='jaccard')



In [None]:
sim_matrix

array([[0.        , 0.8       , 0.8       , ..., 0.5       , 1.        ,
        0.        ],
       [0.8       , 0.        , 0.85714286, ..., 1.        , 1.        ,
        0.8       ],
       [0.8       , 0.85714286, 0.        , ..., 1.        , 0.75      ,
        0.8       ],
       ...,
       [0.5       , 1.        , 1.        , ..., 0.        , 1.        ,
        0.5       ],
       [1.        , 1.        , 0.75      , ..., 1.        , 0.        ,
        1.        ],
       [0.        , 0.8       , 0.8       , ..., 0.5       , 1.        ,
        0.        ]])

In [None]:
df_sim = pd.DataFrame(sim_matrix,
                      columns=titles,
                      index=titles)

df_sim.head()

title,Monster Jam Steel Titans 2,Subnautica: Below Zero,NIER REPLICANT VER.1.22474487139…,Jamestown+,Neptunia Virtual Stars,Monster Energy Supercross - The Official Videogame 4,Monochrome Order,Blightbound,Maquette,FATAL FURY™ BATTLE ARCHIVES VOL.2,...,Pillars of Eternity,X-Morph: Defense,Absolver,Fishing Planet,Obduction,SENRAN KAGURA Peach Beach Splash,Sneaky Bears,SPARC,Still Time,Surf World Series
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Monster Jam Steel Titans 2,0.0,0.8,0.8,1.0,1.0,0.0,1.0,0.75,1.0,1.0,...,0.8,0.666667,0.666667,0.5,1.0,1.0,1.0,0.5,1.0,0.0
Subnautica: Below Zero,0.8,0.0,0.857143,1.0,1.0,0.8,0.833333,0.833333,1.0,1.0,...,0.857143,0.8,0.8,1.0,0.6,1.0,1.0,1.0,1.0,0.8
NIER REPLICANT VER.1.22474487139…,0.8,0.857143,0.0,1.0,0.833333,0.8,0.833333,0.833333,1.0,0.75,...,0.4,0.5,0.8,1.0,1.0,0.857143,1.0,1.0,0.75,0.8
Jamestown+,1.0,1.0,1.0,0.0,0.5,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,0.833333,0.333333,1.0,1.0,1.0
Neptunia Virtual Stars,1.0,1.0,0.833333,0.5,0.0,1.0,1.0,1.0,1.0,0.666667,...,1.0,1.0,1.0,1.0,1.0,0.833333,0.333333,1.0,1.0,1.0


In [None]:
df_sim.shape

(1895, 1895)

In [None]:
df_sim.to_csv('df_sim.csv')

# Рекомендації

In [None]:
title = 'Neptunia Virtual Stars'
k = 10

# df_sim[title].sort_values()[:-k]
sim_titles = list(df_sim[title].nlargest(k).index)

sim_titles

['Monster Jam Steel Titans 2',
 'Subnautica: Below Zero',
 'Monster Energy Supercross - The Official Videogame 4',
 'Monochrome Order',
 'Blightbound',
 'Maquette',
 'NBA LIVE 20',
 'Golden Force',
 'Dungreed',
 'The End is Nigh']

# Декілька titles

In [None]:
user_titles = list(titles[:3])

user_titles

['Monster Jam Steel Titans 2',
 'Subnautica: Below Zero',
 'NIER REPLICANT VER.1.22474487139…']

## Перший спосіб

In [None]:
k = 10
final_titles = set()

for title in user_titles:
  sim_titles = set(df_sim[title].nlargest(k).index)

  final_titles |= (sim_titles)

final_titles

{'Asdivine Menace',
 'Bibi & Tina at the Horse Farm',
 'Bugsnax',
 'Dungreed',
 'FATAL FURY™ BATTLE ARCHIVES VOL.2',
 "FIVE NIGHTS AT FREDDY'S: HELP WANTED",
 'Jamestown+',
 'Maquette',
 'Monochrome Order',
 'Neptunia Virtual Stars',
 'Surviving the Aftermath',
 'Tanuki Justice',
 'The End is Nigh',
 'Turrican Flashback',
 'West of Dead'}

In [None]:
len(final_titles)

15

## Другий спосіб

In [None]:
type(df_sim[title].nlargest(k))

In [None]:
k = 10
final_titles = pd.Series()

for title in user_titles:
  sim_titles = df_sim[title].nlargest(k)

  if len(final_titles) == 0:
    final_titles = sim_titles
  else:
    final_titles = final_titles.add(sim_titles, fill_value=0)

#final_titles.drop(labels=titles, errors='ignore')
for title in user_titles:
  if title in final_titles:
    final_titles.drop(index=title, inplace=True)


list(final_titles.nlargest(k).index)

['Jamestown+',
 'Maquette',
 'Surviving the Aftermath',
 'Turrican Flashback',
 'Asdivine Menace',
 'Dungreed',
 'FATAL FURY™ BATTLE ARCHIVES VOL.2',
 "FIVE NIGHTS AT FREDDY'S: HELP WANTED",
 'Neptunia Virtual Stars',
 'The End is Nigh']

In [None]:
final_titles

title
Asdivine Menace                         2.0
Bibi & Tina at the Horse Farm           1.0
Bugsnax                                 1.0
Dungreed                                2.0
FATAL FURY™ BATTLE ARCHIVES VOL.2       2.0
FIVE NIGHTS AT FREDDY'S: HELP WANTED    2.0
Jamestown+                              3.0
Maquette                                3.0
Monochrome Order                        1.0
Neptunia Virtual Stars                  2.0
Surviving the Aftermath                 3.0
Tanuki Justice                          1.0
The End is Nigh                         2.0
Turrican Flashback                      3.0
West of Dead                            2.0
dtype: float64