In [4]:
import numpy as np
from sklearn.decomposition import TruncatedSVD

# Пример данных: матрица взаимодействий пользователей и объектов
# Строки - пользователи, столбцы - объекты
# 0 означает, что оценка отсутствует
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
], dtype=np.float32)

# Заменяем 0 на NaN (отсутствующие значения)
ratings[ratings == 0] = np.nan

# Заполняем пропущенные значения средним по столбцам
mean_ratings = np.nanmean(ratings, axis=0)
ratings_filled = np.where(np.isnan(ratings), mean_ratings, ratings)

# Применяем сингулярное разложение (SVD)
n_components = 2  # Количество латентных факторов
svd = TruncatedSVD(n_components=n_components)
P = svd.fit_transform(ratings_filled)  # Матрица пользователей
Q = svd.components_.T  # Матрица объектов

# Восстанавливаем матрицу оценок
predicted_ratings = np.dot(P, Q.T)

print("Исходная матрица оценок:")
print(ratings)

def normalize_ratings(ratings):
    min_score = np.min(ratings)  # Минимальное значение в матрице
    max_score = np.max(ratings)  # Максимальное значение в матрице
    # Линейное масштабирование
    normalized_ratings = (ratings - min_score) * 5 / (max_score - min_score)
    return normalized_ratings
# Нормализация предсказанной матрицы
normalized_ratings = normalize_ratings(predicted_ratings)
print("Нормализованная матрица оценок:")
print(normalized_ratings)

Исходная матрица оценок:
[[ 5.  3. nan  1.]
 [ 4. nan nan  1.]
 [ 1.  1. nan  5.]
 [ 1. nan nan  4.]
 [nan  1.  5.  4.]]
Нормализованная матрица оценок:
[[4.7881284  1.9208775  4.9979835  0.        ]
 [3.6899142  1.4327601  4.369566   0.41522738]
 [0.10511606 0.16063587 4.7959895  4.7117853 ]
 [0.6310522  0.32166305 4.535872   3.8469155 ]
 [1.6461325  0.7576999  5.         3.3245695 ]]
