In [1]:
import numpy as np

from conf.settings import (
    get_settings, Settings,
    get_read_file_settings, ReadFileSettings,
)
from processors.cosine_similarity import CosineSimilarityProcessor

In [2]:
# Получение конфигурации для расчетов.
settings: Settings = get_settings()
read_file_settings: ReadFileSettings = get_read_file_settings()

In [3]:
# Получение матричного представления исходных данных.
input_data_filename = '1_cosine_similarity.csv'
input_data_filepath = settings.INPUT_DATA_DIR / input_data_filename

source_data: np.ndarray = np.genfromtxt(
    input_data_filepath,
    dtype=int,
    **read_file_settings.dict(),
)
source_data: np.ndarray[tuple[int, int], int]
source_data

array([[5, 4, 5, 3, 5],
       [5, 5, 5, 3, 5],
       [5, 4, 4, 2, 5],
       [5, 3, 5, 0, 3],
       [5, 0, 5, 0, 0],
       [4, 5, 5, 3, 1]])

In [4]:
# Построение матрицы для соответствия продуктов.
products_similarity_processor = CosineSimilarityProcessor(source_data)
products_similarity_matrix = products_similarity_processor()
products_similarity_matrix

array([[-1.        ,  0.99613934,  0.99206151,  0.93376216,  0.70710678,
         0.90619215],
       [-1.        , -1.        ,  0.99153662,  0.92922799,  0.67728546,
         0.92290976],
       [-1.        , -1.        , -1.        ,  0.94151841,  0.68624357,
         0.87821799],
       [-1.        , -1.        , -1.        , -1.        ,  0.85749293,
         0.87635344],
       [-1.        , -1.        , -1.        , -1.        , -1.        ,
         0.7299964 ],
       [-1.        , -1.        , -1.        , -1.        , -1.        ,
        -1.        ]])

In [5]:
# Получение 2 самых близких продукта.
products_indices, products_score = CosineSimilarityProcessor.get_top_values(
    products_similarity_matrix,
    count=1,
)[0]
print(f"""
Пара близких продуктов: {products_indices}
Значение схожести: {products_score:.4f}
""")


Пара близких продуктов: (0, 1)
Значение схожести: 0.9961



In [6]:
# Построение матрицы для соответствия пользователей.
users_similarity_processor = CosineSimilarityProcessor(source_data.transpose())
users_similarity_matrix = users_similarity_processor()
users_similarity_matrix

array([[-1.        ,  0.88281509,  0.9929078 ,  0.78652574,  0.85863549],
       [-1.        , -1.        ,  0.89164324,  0.94138757,  0.89824939],
       [-1.        , -1.        , -1.        ,  0.80165124,  0.82209781],
       [-1.        , -1.        , -1.        , -1.        ,  0.83768   ],
       [-1.        , -1.        , -1.        , -1.        , -1.        ]])

In [7]:
# Получение 2 самых близких пользователей.
user_indices, users_score = CosineSimilarityProcessor.get_top_values(
    users_similarity_matrix,
    count=1,
)[0]
print(f"""
Пара близких пользователей: {user_indices}
Значение схожести: {users_score:.4f}
""")


Пара близких пользователей: (0, 2)
Значение схожести: 0.9929

