### Рассмотреть понятие рекомендательных систем. Что такое? Где используется?

Рекомендательные системы — это программы, которые осуществляют подбор товаров, услуг или контента и предлагают их пользователям. Они анализируют данные о пользователях и предсказывают их интересы.

Области применения:
* Видео- и аудиостриминг (Netflix, YouTube, Spotify)
* Социальные сети (Instagram, TikTok, Facebook)
* Образовательные платформы (Coursera, Udemy)

### Рассмотреть основные виды рекомендательных систем: фильтрация по содержимому, совместная фильтрация (на основе близости, на основе модели), гибридная фильтрация. (Дополнительно можно рассмотреть: контекстные рекомендации, неперсонализированные рекомендации).

Основные виды рекомендательных систем
1. Фильтрация по содержимому (Content-based)

- Принцип: Рекомендации на основе характеристик объектов и предпочтений пользователя
- Процесс: Создание профиля пользователя → сопоставление с атрибутами объектов
- Преимущества: Не требует данных о других пользователях, прозрачность рекомендаций
- Недостатки: "Пузырь фильтров" (ограничение пользователя контентом, похожим на ранее просмотренный, что снижает разнообразие рекомендаций), необходимость качественных данных
- Примеры: Рекомендации статей, документов, научных публикаций

2. Совместная фильтрация (Collaborative)
На основе близости (Memory-based)

- User-based: Рекомендации на основе схожести пользователей
- Item-based: Рекомендации на основе схожести объектов
- Метрики: косинусное сходство (мера подобия между векторами, определяемая как косинус угла между ними; используется для определения схожести предпочтений пользователей или объектов независимо от масштаба оценок), корреляция Пирсона
- Недостатки: проблема холодного старта (сложность рекомендаций для новых пользователей или объектов без истории взаимодействий), разреженность данных (большинство пользователей взаимодействует лишь с малой частью всех доступных объектов)

На основе модели (Model-based)

- Техники: матричная факторизация, SVD, нейронные сети
- Преимущества: лучше масштабируется, решает проблему разреженности
- Примеры: Netflix Prize, системы рекомендации товаров

3. Гибридная фильтрация (Hybrid)

- Подходы: взвешенный, каскадный, переключаемый, смешанный
- Преимущества: компенсирует недостатки отдельных методов
- Примеры: YouTube, Netflix, Amazon, Spotify

### Рассмотреть: многоцелевую оптимизацию, архитектуру рекомендательных систем.

1. Многоцелевая оптимизация
Суть: Одновременная оптимизация нескольких, часто конфликтующих, целей рекомендательной системы.

Основные цели:

- Релевантность (точность прогноза)
- Разнообразие рекомендаций
- Новизна контента
- Охват каталога
- Справедливость рекомендаций
- Вычислительная эффективность
- Прибыль/конверсия

Методы:

- Взвешенная сумма целевых функций
- Парето-оптимальные решения
- Ограничения на определенные метрики
- Многослойные модели с разными целями на каждом уровне

2. Архитектура рекомендательных систем
Основные компоненты:

- Сбор данных
- Предобработка: нормализация, фильтрация
- Хранение данных: реляционные БД, NoSQL, распределенные системы
- Обучение моделей
- Генерация кандидатов: отбор потенциальных рекомендаций из каталога
- Ранжирование: упорядочивание кандидатов по релевантности
- Постобработка: фильтрация, разнообразие
- Серверная инфраструктура / MLOps
- Система обратной связи: сбор метрик, A/B-тестирование

In [5]:
import pandas as pd

# Рейтинги
ratings = pd.read_csv('ml-100k/u.data', sep='\t',
                      names=['userId', 'movieId', 'rating', 'timestamp'],
                      encoding='latin-1')

# Фильмы
movies = pd.read_csv('ml-100k/u.item', sep='|',
                     names=['movieId', 'title', 'release_date', 'video_release_date',
                            'imdb_url'] + [f'genre_{i}' for i in range(19)],
                     encoding='latin-1')

# Пользователи
users = pd.read_csv('ml-100k/u.user', sep='|',
                    names=['userId', 'age', 'gender', 'occupation', 'zip_code'],
                    encoding='latin-1')

# Предопределенные наборы для обучения/тестирования
train = pd.read_csv('ml-100k/ua.base', sep='\t',
                    names=['userId', 'movieId', 'rating', 'timestamp'],
                    encoding='latin-1')

test = pd.read_csv('ml-100k/ua.test', sep='\t',
                   names=['userId', 'movieId', 'rating', 'timestamp'],
                   encoding='latin-1')

In [9]:
train

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,5,874965758
1,1,2,3,876893171
2,1,3,4,878542960
3,1,4,3,876893119
4,1,5,3,889751712
...,...,...,...,...
90565,943,1047,2,875502146
90566,943,1074,4,888640250
90567,943,1188,3,888640250
90568,943,1228,3,888640275
