Косинусна подібність (cosine similarity) — це міра подібності між двома ненульовими векторами у внутрішньому просторі, яка вимірює косинус кута між ними. Ця міра варіює від -1 до 1, де 1 означає, що вектори спрямовані в одному напрямку (ідентичні), 0 означає, що вектори ортогональні (не пов'язані), а -1 означає, що вектори спрямовані в протилежних напрямках.

Формула косинусної подібності для двох векторів A та B виглядає так:

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/8824e32cf3231efb52d53818b7f0e551f8179f46"></img>

Просте пояснення сенсу

Уявімо, що у нас є два стрілки, які вказують у різних напрямках. Якщо обидві стрілки вказують у одному і тому ж напрямку, то вони "схожі". Якщо стрілки вказують у протилежних напрямках, то вони "різні". Якщо стрілки вказують у різних напрямках, але не прямо проти одна одної, то вони "трохи схожі".

Косинусна подібність — це спосіб вимірювання, наскільки дві стрілки "схожі" одна на одну. Це як вимірювання кута між двома стрілками. Якщо кут дорівнює 0 градусів (стрілки вказують у одному напрямку), вони максимально схожі. Якщо кут дорівнює 180 градусів (стрілки вказують у протилежних напрямках), вони максимально різні.

Отже, косинусна подібність — це як "гра в кути", де ми дивимося, наскільки близько дві стрілки вказують у одному напрямку!

In [5]:
from math import sqrt
from collections import Counter


def cos_sim(str1, str2):
    # Розбиваємо рядки на слова (words1  words2) за допомогою split для str1 str2
    words1 = str1.split()
    words2 = str2.split()
    
    # Створюємо словники(counter1 counter2) з кількістю входжень для кожного слова для words1 words2
    counter1 = Counter(words1)
    counter2 = Counter(words2)
    print(counter1)
    print(counter2)
    
    # Об'єднуємо ключи словники
    all_words = set(counter1.keys()).union(set(counter2.keys()))
    
    # Створюємо вектори для обох рядків
    vector1 = [counter1.get(word, 0) for word in all_words]
    vector2 = [counter2.get(word, 0) for word in all_words]
    
    # Обчислюємо косинусну подібність
    dot_product = sum([vector1[i] * vector2[i] for i in range(len(vector1))])
    magnitude1 = sqrt(sum([vector1[i]**2 for i in range(len(vector1))]))
    magnitude2 = sqrt(sum([vector2[i]**2 for i in range(len(vector2))]))
    
    if not magnitude1 or not magnitude2:
        return 0
    
    return dot_product / (magnitude1 * magnitude2)

# Тест
str1 = "я люблю програмування"
str2 = "програмування це цікаво"
print(cos_sim(str1, str2))

Counter({'я': 1, 'люблю': 1, 'програмування': 1, '(Я)': 1})
Counter({'програмування': 1, 'це': 1, 'цікаво': 1})
0.2886751345948129
