In [1]:
import numpy as np

# --- Исходные отзывы (векторы слов) ---

# Отзыв 1
a = np.array([1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# Отзыв 2
b = np.array([1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0])

# Отзыв 3
c = np.array([0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0])

# Новый отзыв
new = np.array([1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1])


# --- Функция косинусного расстояния ---
def cosine_distance(x, y):
    # Скалярное произведение векторов
    dot_product = np.dot(x, y)

    # Длины (L2-нормы) векторов
    norm_x = np.linalg.norm(x)
    norm_y = np.linalg.norm(y)

    # Косинусное сходство
    cosine_similarity = dot_product / (norm_x * norm_y)

    # Косинусное расстояние
    return 1 - cosine_similarity


# --- Считаем расстояния ---
d1 = cosine_distance(a, new)
d2 = cosine_distance(b, new)
d3 = cosine_distance(c, new)

# --- Вывод результатов ---
print(f"Отзыв 1 и новый: {d1:.3f}")
print(f"Отзыв 2 и новый: {d2:.3f}")
print(f"Отзыв 3 и новый: {d3:.3f}")


Отзыв 1 и новый: 0.423
Отзыв 2 и новый: 0.567
Отзыв 3 и новый: 0.842


In [2]:
from numpy import array
from numpy.linalg import norm
a = array([1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
b = array([1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0])
c = array([0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0])
new = array([1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1])
cos_a_new = a @ new / norm(a) / norm(new)
cos_b_new = b @ new / norm(b) / norm(new)
cos_c_new = c @ new / norm(c) / norm(new)
text_1 = "Отзывы 1 и новый:"
text_2 = "Отзывы 2 и новый:"
text_3 = "Отзывы 3 и новый:"
print(text_1, cos_a_new)
print(text_2, cos_b_new)
print(text_3, cos_c_new)

Отзывы 1 и новый: 0.6172133998483676
Отзывы 2 и новый: 0.46291004988627577
Отзывы 3 и новый: 0.0


## По результатам расчета косинусного сходства между новым отзывом и тремя существующими отзывами получаем:

### Отзыв 1 и новый: 0.62
Это наибольшее значение сходства. Векторы имеют схожее направление, значит, новый отзыв по смыслу ближе всего к отзыву 1. Можно сделать вывод, что они содержат много общих признаков (слов, тем или характеристик).

### Отзыв 2 и новый: 0.46
Умеренное сходство. Общие признаки присутствуют, но их заметно меньше, чем с отзывом 1. Семантически отзывы частично пересекаются, но не являются максимально похожими.

### Отзыв 3 и новый: 0.00
Косинусное сходство равно нулю, что означает ортогональность векторов. Это говорит о полном отсутствии общих признаков между отзывом 3 и новым отзывом. С точки зрения модели, они не связаны по содержанию.