In [3]:
import torch
import numpy as np
from sklearn.cluster import DBSCAN

# Пример данных: матрица оценок пользователей
# Строки - пользователи, столбцы - объекты
ratings = torch.tensor([
    [5, 3, 0, 1],  # Пользователь 0
    [4, 0, 0, 1],  # Пользователь 1
    [5, 1, 3, 5],  # Пользователь 2
    [1, 0, 0, 4],  # Пользователь 3
    [0, 1, 5, 4],  # Пользователь 4
], dtype=torch.float32)

# Заменяем 0 на NaN (отсутствующие значения)
ratings[ratings == 0] = float('nan')

# Заполняем пропущенные значения средним по столбцам
mean_ratings = torch.nanmean(ratings, dim=0, keepdim=True)
ratings_filled = torch.where(torch.isnan(ratings), mean_ratings, ratings)

# Вычисляем попарные расстояния между пользователями
def pairwise_distances(X):
    # Используем евклидово расстояние
    return torch.cdist(X, X, p=2)

# Вычисляем матрицу расстояний
distances = pairwise_distances(ratings_filled)

# Преобразуем расстояния в формат numpy для использования в DBSCAN
distances_np = distances.numpy()

# Применяем DBSCAN
dbscan = DBSCAN(eps=3.0, min_samples=2, metric="precomputed")
labels = dbscan.fit_predict(distances_np)

# Выводим результаты
print("Метки кластеров для пользователей:", labels)

Метки кластеров для пользователей: [ 0  0  1 -1  1]


Пользователи 0 и 1 находятся в одном кластере (метка 0).

Пользователи 2 и 4 находятся в другом кластере (метка 1).

Пользователь 3 считается шумом (метка -1), так как его оценки не соответствуют ни одному из кластеров.


