# Метод косинусного сходства

## О методе

Метод **косинусного сходства** (*cosine similarity*) в коллаборативной фильтрации используется для измерения сходства между пользователями или предметами на основе их характеристик или предпочтений.

Косинусное сходство измеряет **угол** между двумя **нормированными** векторами в многомерном пространстве.

- Если угол маленький (векторы направлены в одну сторону), сходство близко к 1 (*почти идентичные предпочтения*)
- Если угол большой (векторы направлены в разные стороны), сходство близко к 0 (*нет связи*)
- Если векторы полностью противоположны, сходство -1 (*полная антипатия, но такое можно встретить крайне редко, отрицательные значения можно, например, обнулять или брать по модулю, рекомендательной системе важнее выявить сходства, чем противоположные предпочтения*)

Косинус угла $ \theta $ между векторами $ \mathbf{A} $ и $ \mathbf{B} $ находится по формуле:

$$
\cos \theta = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}
$$

где:

- $ \mathbf{A} \cdot \mathbf{B} = \sum_{i=1}^{n} A_i B_i = A_1 B_1 + A_2 B_2 + \dots + A_n B_n $ — скалярное произведение векторов,
- $ \|\mathbf{A}\| $ и $ \|\mathbf{B}\| $ — их длины (модули), вычисляемые как:

$$
\|\mathbf{A}\| = \sqrt{\sum_{i=1}^{n} A_i^2} = \sqrt{A_1^2 + A_2^2 + \dots + A_n^2}, \|\mathbf{B}\| = \sqrt{\sum_{i=1}^{n} B_i^2} = \sqrt{B_1^2 + B_2^2 + \dots + B_n^2}
$$

## Реализация

### Данные

**MIND** (***Mi**crosoft* ***N**ews* ***D**ataset*) - крупномасштабный набор данных для исследования рекомендаций новостей. Содержит около 160 тыс. новостных статей на английском языке и более 15 млн. журналов показов, созданных 1 млн. пользователей.

Будет использоваться **MIND-small** - около 50 тыс. пользователей и их журналы взаимодействия.

Данные состоят из нескольких файлов, среди которых интересующий нас - журнал взаимодействия пользователей (*behaviors.tsv*)

Файл содержит таблицу, каждая строка которой состоит из номера взаимодействия, id пользователя, даты и времени взаимодействия, показанных пользователю новостей, новостей, на которые пользователь кликнул.

In [1]:
import pandas as pd

df = pd.read_csv('../../data/Mindsmall_train/behaviors.tsv', sep='\t', header=None, names=['id', 'user_id', 'timestamp', 'shown_news', 'clicked_news'])

print(df.head(2))

   id user_id              timestamp  \
0   1  U13740  11/11/2019 9:05:58 AM   
1   2  U91836  11/12/2019 6:11:30 PM   

                                          shown_news  \
0  N55189 N42782 N34694 N45794 N18445 N63302 N104...   
1  N31739 N6072 N63045 N23979 N35656 N43353 N8129...   

                                        clicked_news  
0                                  N55689-1 N35729-0  
1  N20678-0 N39317-0 N58114-0 N20495-0 N42977-0 N...  


### Идея

Для реализации метода косинусного сходства нужны две вещи: векторы и сущности, которые они представляют (в нашем случае - пользователи). В качестве вектора можно представить список новостей, на которые пользователь кликнул.

Возможных значений координат вектора всего два:

- 1 - если пользователь кликнул на новость
- 0 - если не кликнул

Вектор будет состоять из **всех** известных посещенных пользователем новостей.

Нужно создать **матрицу пользователь-новость**, которая показывает, какие новости просматривал каждый пользователь. Эта матрица будет использоваться для вычисления косинусного сходства и рекомендаций.

### Код

Столбцы **user_id** и **clicked_news** содержат строковые значения, причем столбец clicked_news может содержать сразу несколько новостей. Сначала нужно преобразовать таблицу таким образом, чтобы в каждой строке значение столбца clicked_news было одним. Затем закодировать их, чтобы представить значения в виде чисел для удобной работы с матрицами. Для этого можно использовать метод `factorize()`, который:

- Преобразует **строковые значения** в **числовые индексы**
- Возвращает два массива: **кодированные значения** и **уникальные категории**

In [2]:
import numpy as np

df = df[['user_id', 'clicked_news']]
df['clicked_news'] = df['clicked_news'].str.split()
df = df.explode('clicked_news')
users, user_idx = pd.factorize(df['user_id'])
news, news_idx = pd.factorize(df['clicked_news'])

print(users)
print(news)
len(users) == len(news)

[    0     0     1 ... 13308 13308 13308]
[   0    1    2 ... 4178 1233 1574]


True

In [3]:
user_news_matrix = np.zeros((len(user_idx), len(news_idx)), dtype=int)
print(user_news_matrix)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [4]:
user_news_matrix[users, news] = 1
# Проверка правильности:
print("Первые 5 пользователей:", user_idx[:5])
print("Первые 6 новостей:", news_idx[:6])
print("Фрагмент матрицы пользователь-новость:")
print(user_news_matrix[:5, :6])  # Фрагмент 5x6 для проверки

Первые 5 пользователей: Index(['U13740', 'U91836', 'U73700', 'U34670', 'U8125'], dtype='object')
Первые 6 новостей: Index(['N55689-1', 'N35729-0', 'N20678-0', 'N39317-0', 'N58114-0', 'N20495-0'], dtype='object')
Фрагмент матрицы пользователь-новость:
[[1 1 0 0 0 0]
 [0 0 1 1 1 1]
 [0 0 1 1 0 0]
 [0 1 0 0 0 0]
 [0 0 1 1 1 0]]


Получена матрица, строки которой - это те векторы, которые и нужно сравнивать. Теперь можно реализовать сам метод косинусного сходства - вычисление угла между векторами

In [10]:
def cosine_similarity_matrix(matrix):
    # Нормализация векторов
    norms = np.linalg.norm(matrix, axis=1, keepdims=True)
    normalized_matrix = matrix / norms

    # Получаем матрицу сходства, умножая нормализованную матрицу на транспонированную
    similarity_matrix = np.dot(normalized_matrix, normalized_matrix.T)

    return similarity_matrix

cos_sim_matrix = cosine_similarity_matrix(user_news_matrix[:1000, :1000])
print(cos_sim_matrix)

[[1.         0.16263684 0.0140929  ... 0.32737904 0.01583119 0.09293534]
 [0.16263684 1.         0.23329532 ... 0.33549085 0.19218555 0.05128205]
 [0.0140929  0.23329532 1.         ... 0.         0.06358559 0.09331813]
 ...
 [0.32737904 0.33549085 0.         ... 1.         0.0527535  0.14193844]
 [0.01583119 0.19218555 0.06358559 ... 0.0527535  1.         0.08735707]
 [0.09293534 0.05128205 0.09331813 ... 0.14193844 0.08735707 1.        ]]


  normalized_matrix = matrix / norms


Итак, получена матрица сходства пользователей, и теперь на ее основе можно рекомендовать новости. Каждый элемент матрицы отражает сходство *i*-го пользователя с *j*-м. Соответственно, для рекомендации новостей нужно выбирать элементы с наибольшим значением сходства.

Итак, далее:

- Для пользователя, которому нужны рекомендации, найдем похожих
- Посмотрим, какие новости предпочли эти пользователи
- Рекомендуем те из них, которые не были прочитаны

In [14]:
def recommend_news(user_id, user_news_matrix, similarity_matrix, user_ids, news_ids, top_n):
    # Находим индекс пользователя
    user_idx = np.where(user_ids == user_id)[0][0]

    # Получаем индексы top_n похожих пользователей (без самого пользователя)
    user_similarities = similarity_matrix[user_idx]
    similar_users_idx = np.argsort(user_similarities)[::-1][1:top_n+1]

    # Новости, которые пользователь уже смотрел
    watched_by_user = set(np.where(user_news_matrix[user_idx] == 1)[0])

    # Список новостей для рекомендаций
    recommended_news = set()

    for sim_idx in similar_users_idx:
        # Одинаковые новости
        watched_by_similar = np.where(user_news_matrix[sim_idx] == 1)[0]

        # Рекомендуемые новости
        recommended_news.update(watched_by_similar)

    # Убираем уже просмотренные самим пользователем
    recommended_news -= watched_by_user

    # Преобразуем индексы новостей в их исходные идентификаторы
    recommended_news_ids = [news_idx[i] for i in recommended_news]

    return recommended_news_ids

print(recommend_news('U13740', user_news_matrix, cos_sim_matrix, user_idx, news_idx, 2))

['N52122-0', 'N33619-0', 'N63970-1', 'N20079-1']
