### 1. Примеры систем рекомендаций в реальных сервисах:

   * Netflix — рекомендации фильмов и сериалов на основе истории просмотров пользователя.
   * YouTube — рекомендации видео на основе истории просмотров и взаимодействия пользователя.
   * Amazon — рекомендации товаров на основе покупок и интересов пользователя.
   * Spotify — рекомендации музыкальных треков на основе прослушанных песен.
   * Instagram — рекомендации постов и аккаунтов на основе взаимодействий с контентом.


### 2. Типы откликов и их важнейшие свойства:

   * Явный отклик (Explicit Feedback): Прямой отклик пользователя, например, рейтинг товара. Свойства: точный, но требует явного действия со стороны пользователя.
   * Неявный отклик (Implicit Feedback): Косвенные данные, например, история просмотров или кликов. Свойства: легко собирается, но может быть менее точным.
   * Положительный отклик (Positive Feedback): Отзывы, подтверждающие предпочтение, например, покупка товара.
   * Отрицательный отклик (Negative Feedback): Отзывы, указывающие на неприязнь, например, отсутствие покупки.
\end{itemize}

### 3. Примеры открытых наборов данных:

   * MovieLens — набор данных о фильмах и оценках пользователей.
   * Amazon Product Review Dataset — данные о продуктах и отзывах покупателей.
   * Yelp Dataset — данные о ресторанах, отзывах и пользователях.


### 4. Формализация задачи о дополнении матрицы (Matrix Completion):
Задача дополнения матрицы заключается в том, чтобы восстановить недостающие значения в матрице $ R $, где строки представляют пользователей, а столбцы — товары. Задача формулируется как:
$
\min_{X, Y} \| R - X Y^T \|_F^2 + \lambda \left( \| X \|_F^2 + \| Y \|_F^2 \right)
$
где $ R $ — матрица откликов, $ X $ и $ Y $ — матрицы признаков для пользователей и товаров соответственно, $ \lambda $ — коэффициент регуляризации, а $ \| \cdot \|_F $ — нормировка Фробениуса.

### 5. Формализация задачи ранжирования (Ranking Problem):
Задача ранжирования заключается в том, чтобы упорядочить элементы (например, товары или документы) по релевантности. Формализуется как:
$
\min_{\theta} \sum_{i=1}^{N} \sum_{j=1}^{M} L(y_{ij}, \hat{y}_{ij}(\theta))
$
где $ L $ — функция потерь, $ y_{ij} $ — истинный порядок, $ \hat{y}_{ij}(\theta) $ — предсказанный порядок для пары объектов $ i $ и $ j $, $ \theta $ — параметры модели.

### 6. Формулы для схожести в алгоритме Collaborative Filtering:

   * Косинусная схожесть:
   $
    \text{sim}(A, B) = \frac{A \cdot B}{\| A \| \| B \|}
   $
   * Корреляция Пирсона:
   $
    \text{sim}(A, B) = \frac{\sum_{i} (A_i - \bar{A})(B_i - \bar{B})}{\sqrt{\sum_{i} (A_i - \bar{A})^2} \sqrt{\sum_{i} (B_i - \bar{B})^2}}
   $
   * Жаккардова схожесть:
   $
    \text{sim}(A, B) = \frac{|A \cap B|}{|A \cup B|}
   $


### 7. Разница между подходами item-based и user-based в Collaborative Filtering:
- Item-based approach: Схожесть вычисляется между объектами (например, товарами или фильмами), а не между пользователями. Рекомендуются похожие товары.
- User-based approach: Схожесть вычисляется между пользователями, и рекомендации делаются на основе предпочтений пользователей, схожих с текущим.

### 8. Формулировка алгоритма ALS (Alternating Least Squares):
Алгоритм ALS решает задачу матричного дополнения, чередуя шаги оптимизации по пользователям и товарам:
1. Фиксируем матрицу $ Y $ (товары) и находим $ X $ (пользователи):
$
X = (Y^T Y + \lambda I)^{-1} Y^T R
$
2. Фиксируем матрицу $ X $ и находим $ Y $:
$
Y = (X^T X + \lambda I)^{-1} X^T R
$
Здесь $ R $ — матрица откликов, $ \lambda $ — регуляризация, и $ I $ — единичная матрица.

### 9. Разница между явным и неявным ALS:
- Explicit ALS: Использует явные отклики пользователей (например, оценки).
- Implicit ALS: Использует неявные данные, такие как клики или просмотры.

### 10. Подход "two-tower" в системах рекомендаций:
Подход "two-tower" использует две нейронные сети для кодирования пользователей и товаров в независимые векторные представления, которые затем используются для предсказания релевантности. Это подходит для задач с большими объемами данных и позволяет масштабировать систему.

### 11. Формула для NDCG (Normalized Discounted Cumulative Gain):
$
NDCG_k = \frac{1}{Z_k} \sum_{i=1}^{k} \frac{2^{rel(i)} - 1}{\log_2(i + 1)}
$
где $ rel(i) $ — релевантность элемента $ i $, $ Z_k $ — нормировочная константа.

### 12. Формула для RankNet loss:
$
L = \sum_{i,j} \log(1 + \exp(-y_{ij} (s_i - s_j)))
$
где $ y_{ij} $ — истинный порядок (1 для правильного, 0 для неправильного), а $ s_i, s_j $ — предсказания для объектов $ i $ и $ j $.

### 13. Три алгоритма индексов kNN:

   * Алгоритм KD-деревьев.
   * Алгоритм Ball Tree.
   * Алгоритм Locality Sensitive Hashing (LSH).



----------------------------------------

Вот ответы на ваши вопросы по системам рекомендаций:

### 1. Цель систем рекомендаций:
Системы рекомендаций предназначены для фильтрации и представления пользователям релевантной информации, основанной на их предпочтениях, поведении или интересах. Основная цель таких систем — помочь пользователям находить интересные объекты (товары, фильмы, музыку и т.д.) среди огромного количества доступной информации. Они экономят время пользователей, предоставляя им персонализированные рекомендации, улучшая опыт взаимодействия с сервисами, такими как онлайн-магазины, видео- и музыкальные платформы, социальные сети и т.д.

### 2. Примеры систем рекомендаций:

   * Netflix: Рекомендации фильмов и сериалов на основе истории просмотров и предпочтений пользователя.
   * YouTube: Рекомендации видео, основанные на просмотренной истории и предпочтениях пользователя.
   * Amazon: Рекомендации товаров на основе покупок, интересов и поиска пользователей.
   * Spotify: Рекомендации музыкальных треков на основе прослушанных песен и предпочтений пользователя.
   * Instagram: Рекомендации аккаунтов и постов на основе активности пользователя (лайки, комментарии и подписки).


### 3. Основные наборы данных (конкурсы), хотя бы 2:

   * MovieLens: Один из самых известных наборов данных для систем рекомендаций, содержащий информацию о фильмах и оценках пользователей.
   * Kaggle Competition - Netflix Prize: Конкурс, организованный Netflix, где участникам предоставлялись данные о рейтингах фильмов для улучшения алгоритмов рекомендаций.


### 4. Формализация задачи для систем рекомендаций:

#### a) Задача дополнения матрицы (Matrix Completion):
Задача дополнения матрицы заключается в восстановлении недостающих значений в матрице откликов $ R $, где строки представляют пользователей, а столбцы — объекты (например, товары или фильмы). Целью является минимизация ошибки между предсказанными значениями и реальными данными:
$
\min_{X, Y} \| R - X Y^T \|_F^2 + \lambda \left( \| X \|_F^2 + \| Y \|_F^2 \right)
$
где $ X $ — матрица признаков пользователей, $ Y $ — матрица признаков объектов, $ \lambda $ — коэффициент регуляризации, а $ \| \cdot \|_F $ — норма Фробениуса.

#### b) Задача ранжирования (Ranking Problem):
Задача ранжирования заключается в упорядочивании объектов (например, товаров или фильмов) по их релевантности для конкретного пользователя. Формализация задачи может выглядеть следующим образом:
$
\min_{\theta} \sum_{i=1}^{N} \sum_{j=1}^{M} L(y_{ij}, \hat{y}_{ij}(\theta))
$
где $ L $ — функция потерь, $ y_{ij} $ — истинный порядок для объектов $ i $ и $ j $, $ \hat{y}_{ij}(\theta) $ — предсказанный порядок для этой пары объектов, $ \theta $ — параметры модели.


### 6. **Общий конвейер для современных систем рекомендаций (Pipeline)**

Современные системы рекомендаций обычно включают несколько ключевых этапов, которые обеспечивают точность и эффективность в процессе генерации рекомендаций. Эти этапы могут быть представлены через два основных компонента: **candidates funnel (фильтрация кандидатов)** и **models cascade (каскад моделей)**.

#### **Candidates Funnel (Фильтрация кандидатов)**:
На этом этапе система фильтрует объекты, которые могут быть рекомендованы пользователю, основываясь на различных факторах и фильтрах. Обычно используются такие методы, как:
- **Коллаборативная фильтрация (Collaborative Filtering)**: Поиск объектов, которые были популярны среди пользователей с похожими предпочтениями.
- **Контентная фильтрация (Content-Based Filtering)**: Отбор объектов, которые имеют схожие характеристики с теми, что уже были интересны пользователю.
- **Популярность или частота использования**: Выбор наиболее популярных объектов среди всех пользователей.

Этап **candidates funnel** помогает сузить количество объектов, из которых система будет выбирать те, что, вероятно, будут наиболее релевантны пользователю. Это может включать большое количество объектов, и задача состоит в том, чтобы выбрать самые подходящие для дальнейшей обработки.

#### **Models Cascade (Каскад моделей)**:
После того, как кандидаты отобраны на первом этапе, для их оценки используется более сложная обработка, основанная на моделях машинного обучения. Эти модели могут включать:
- **Модели ранжирования**: Используют такие алгоритмы, как RankNet, LambdaMART, которые оценивают, какие объекты из выбранных кандидатов наиболее релевантны.
- **Гибридные модели**: Комбинируют несколько методов, например, контентную и коллаборативную фильтрацию, с использованием нейронных сетей или других техник.
- **Методы обучения с подкреплением**: Модели могут быть адаптированы на основе откликов пользователей и на основе их взаимодействий с системой.

Каждый из кандидатов, отобранных на первом этапе, проходит через каскад моделей для оценки, которые дают финальные рекомендации.

---

### 9. **Проблемы систем рекомендаций и их решения**

#### a) **Feedback Loop (Обратная связь)**:
Проблема обратной связи возникает, когда система рекомендаций обновляется на основе того, какие рекомендации были предложены пользователям, что в свою очередь влияет на будущие рекомендации. Это может привести к следующим эффектам:
- **Усиление предпочтений (Filter bubble)**: Пользователи начинают получать рекомендации, которые слишком сильно соответствуют их предыдущим предпочтениям, не получая разнообразных или новых объектов.
- **Недооценка новых объектов**: Новые товары или фильмы могут не попасть в рекомендации, поскольку система не имеет достаточного числа взаимодействий с ними.

**Решения**:
- **Регуляризация и разнообразие**: Внедрение регуляризаторов в модели рекомендаций для обеспечения разнообразия и предотвращения замкнутых циклов.
- **Адаптивные модели**: Использование моделей, которые могут адаптироваться и учитывать не только предыдущие отклики, но и потенциал для новых предпочтений.
- **Использование модели с "свежими" данными**: Включение новых элементов в рекомендации через активное включение данных о новинках или случайных рекомендациях.

#### b) **Cold Start (Проблема холодного старта)**:
Проблема холодного старта возникает, когда система рекомендаций не имеет достаточно данных для оценки предпочтений пользователя или свойств объекта. Это может происходить в нескольких случаях:
- **Проблема холодного старта для пользователя**: Новый пользователь, который только что зарегистрировался, не имеет истории взаимодействий с системой.
- **Проблема холодного старта для объекта**: Новый товар или фильм, для которого нет достаточного количества взаимодействий (например, просмотров или покупок).

**Решения**:
- **Использование контентной фильтрации**: Для нового пользователя можно использовать информацию о его профиле (например, пол, возраст, интересы), чтобы сделать первые рекомендации.
- **Использование внешних источников информации**: Применение социальных сетей или внешних данных для получения информации о пользователе или объекте (например, через API или открытые данные).
- **Использование гибридных моделей**: Комбинирование различных методов, таких как коллаборативная фильтрация и контентная фильтрация, для смягчения проблем холодного старта.
- **Активное запрашивание откликов**: Внедрение механизма активного сбора откликов от новых пользователей (например, предложив оценить несколько товаров или фильмов при регистрации).

Эти решения помогают улучшить работу системы рекомендаций, справляясь с типичными проблемами, связанными с отсутствием данных.


### 12. **SLIM (Sparse Linear Methods)**

SLIM — это метод, используемый для рекомендательных систем, который основывается на решении задачи матричного дополнения с использованием разреженных линейных моделей. Он представляет собой подход, где система рекомендаций строится путем минимизации ошибки восстановления матрицы откликов при помощи линейных связей между товарами.

#### Формализация задачи SLIM:
Основная цель SLIM заключается в нахождении разреженной матрицы коэффициентов $W$, которая описывает связь между товарами (или пользователями). Формулировка задачи:
$
\min_{W} \| R - X W \|_F^2 + \lambda \| W \|_1
$
где:
- $ R $ — исходная матрица откликов (матрица пользователей и товаров),
- $ X $ — матрица признаков товаров,
- $ W $ — разреженная матрица весов, показывающая схожесть между товарами,
- $ \| W \|_1 $ — L1-регуляризация для обеспечения разреженности,
- $ \lambda $ — коэффициент регуляризации.

Таким образом, SLIM использует разреженные весовые матрицы для того, чтобы получить рекомендации, минимизируя ошибку, а также избегать переобучения, контролируя разреженность матрицы.

### 15. **Offline Metrics in Recommender Systems**

Offline метрики — это метрики, которые используются для оценки качества работы рекомендательных систем без необходимости в реальном времени собирать данные от пользователей. Они применяются в процессе разработки и настройки модели, так как позволяют быстро и эффективно измерять качество рекомендаций до их внедрения в реальной среде.

#### Основные Offline метрики:

1. **Precision@k (Точность на топ-k рекомендациях)**:
   $
   \text{Precision@k} = \frac{\text{Number of relevant items in top-k}}{k}
   $
   Эта метрика измеряет долю релевантных элементов в топ-k рекомендациях.

2. **Recall@k (Полнота на топ-k рекомендациях)**:
   $
   \text{Recall@k} = \frac{\text{Number of relevant items in top-k}}{\text{Total number of relevant items}}
   $
   Полнота оценивает, какую долю всех релевантных объектов система включила в топ-k.

3. **Mean Reciprocal Rank (MRR)**:
   $
   \text{MRR} = \frac{1}{|Q|} \sum_{q \in Q} \frac{1}{\text{rank}(q)}
   $
   MRR измеряет среднюю обратную позицию для правильных ответов среди всех запросов. Чем выше значение, тем лучше система.

4. **Normalized Discounted Cumulative Gain (NDCG)**:
   $
   NDCG_k = \frac{DCG_k}{IDCG_k}
   $
   DCG (Discounted Cumulative Gain) измеряет полезность элементов с учетом их позиций в списке рекомендаций, а NDCG нормирует это значение на оптимальную релевантность.

5. **Mean Average Precision (MAP)**:
   $
   \text{MAP} = \frac{1}{|Q|} \sum_{q \in Q} \frac{\sum_{k=1}^{N} \text{Precision@k}}{\text{Number of relevant items for query q}}
   $
   MAP измеряет среднюю точность по всем запросам, учитывая количество релевантных элементов на разных уровнях.

#### Семантика:
- **Precision** измеряет, насколько высококачественные рекомендации предоставляются пользователю.
- **Recall** оценивает, насколько полными являются рекомендации.
- **MRR** оценивает, насколько быстро система находит релевантный элемент в топе рекомендаций.
- **NDCG** учитывает не только релевантность, но и порядок элементов в рекомендациях.

Эти метрики позволяют исследователям и инженерам оценить эффективность рекомендательных систем на этапе тестирования, до их внедрения в реальной работе.

### 18. **ALS with MapReduce**

**ALS (Alternating Least Squares)** — это популярный алгоритм для решения задачи матричного дополнения в системах рекомендаций, который использует чередование оптимизации для матриц признаков пользователей и товаров.

#### Использование ALS с MapReduce:
MapReduce — это парадигма обработки данных, которая используется для масштабируемой обработки больших объемов данных. Использование ALS в рамках MapReduce позволяет распределенно обучать модель и эффективно работать с большими данными, например, в облачных вычислениях.

1. **Алгоритм ALS**:
   В ALS задача матричного дополнения сводится к нахождению двух матриц $ X $ и $ Y $, которые минимизируют ошибку восстановления:
   $
   \min_{X, Y} \| R - X Y^T \|_F^2 + \lambda \left( \| X \|_F^2 + \| Y \|_F^2 \right)
   $
   где $ X $ — матрица признаков пользователей, $ Y $ — матрица признаков товаров, $ R $ — матрица откликов пользователей на товары.

2. **Реализация с MapReduce**:
   Процесс обучения ALS с использованием MapReduce включает в себя несколько этапов:

   - **Map**: На этапе map для каждого пользователя и товара вычисляется ошибка матричного дополнения, а также обновляются значения для матриц $ X $ и $ Y $. Каждая пара $ (пользователь, товар) $ обрабатывается независимо.
   
   - **Reduce**: На этапе reduce агрегируются результаты обработки каждого пользователя и товара для вычисления обновлений для матриц $ X $ и $ Y $.

   Этот подход позволяет параллельно обрабатывать большие объемы данных, что делает обучение системы масштабируемым и быстрым даже при огромных датасетах.

3. **Преимущества использования MapReduce с ALS**:
   - **Масштабируемость**: Возможность обработки огромных объемов данных, которые не помещаются в память одного узла.
   - **Распределенная обработка**: Распараллеливание вычислений между множеством узлов ускоряет обучение модели.
   - **Эффективность**: За счет параллельной обработки данных можно достичь хорошей производительности при больших объемах данных.

Эта технология применяется в крупных системах рекомендаций, таких как Netflix, где необходимо обрабатывать данные миллионов пользователей и товаров.


### 21. **Технология Item2Item (Item-to-Item)**

Технология **Item2Item (предмет к предмету)** — это широко используемый подход в рекомендательных системах, особенно для фильтрации на основе объектов. Эта технология специально разработана для того, чтобы рекомендовать объекты, схожие с теми, с которыми пользователь уже взаимодействовал, купил или высоко оценил. Основная идея **Item2Item** заключается в вычислении сходства между объектами и использовании этой информации для генерации рекомендаций.

#### Ключевые компоненты технологии Item2Item:

1. **Вычисление сходства между объектами:**
   - **Косинусное сходство**: Измеряет косинус угла между двумя векторами в пространстве объектов. Объекты, которые находятся близко друг к другу с точки зрения взаимодействий пользователей (например, рейтингов или покупок), будут иметь высокое косинусное сходство.
     $
     \text{cosine\_sim}(i, j) = \frac{\sum_{u} R_{u,i} \cdot R_{u,j}}{\sqrt{\sum_{u} R_{u,i}^2} \cdot \sqrt{\sum_{u} R_{u,j}^2}}
     $
     где $R_{u,i}$ — рейтинг, который пользователь $u$ поставил объекту $i$, и $R_{u,j}$ — рейтинг, который пользователь $u$ поставил объекту $j$.
     
   - **Корреляция Пирсона**: Измеряет линейную корреляцию между рейтингами двух объектов по пользователям. Этот показатель полезен для нахождения связей между объектами, которые не очевидны в данных.
     $
     \text{pearson\_sim}(i, j) = \frac{\sum_{u} (R_{u,i} - \bar{R_i})(R_{u,j} - \bar{R_j})}{\sqrt{\sum_{u} (R_{u,i} - \bar{R_i})^2} \cdot \sqrt{\sum_{u} (R_{u,j} - \bar{R_j})^2}}
     $
     где $\bar{R_i}$ и $\bar{R_j}$ — средние значения рейтингов для объектов $i$ и $j$ соответственно.

   - **Сходство Жаккара**: Измеряет сходство между двумя множествами пользовательских взаимодействий. Оно часто используется при работе с бинарными данными, например, когда нужно узнать, взаимодействовал ли пользователь с объектом (кликнул, понравился и т.д.).
     $
     \text{jaccard\_sim}(i, j) = \frac{|I_i \cap I_j|}{|I_i \cup I_j|}
     $
     где $I_i$ и $I_j$ — множества пользователей, которые взаимодействовали с объектами $i$ и $j$, соответственно.

2. **Построение матрицы сходства объектов:**
   - Первый шаг — вычисление попарных сходств между объектами. Это формирует матрицу сходства $ S $, где каждый элемент $ S(i, j) $ представляет сходство между объектами $i$ и $j$. Эта матрица может быть как плотной, так и разреженной, в зависимости от дизайна системы и количества взаимодействий между объектами и пользователями.

3. **Генерация рекомендаций:**
   - **Топ-N рекомендации**: После того как матрица сходства построена, система генерирует рекомендации, рассматривая наиболее похожие объекты на те, с которыми пользователь уже взаимодействовал. Объекты с наибольшими значениями сходства затем сортируются и рекомендуются.
   - **Взвешенная сумма сходств**: Для каждого объекта, с которым пользователь взаимодействовал (например, поставил рейтинг или купил), система предсказывает новые объекты, вычисляя взвешенную сумму похожих объектов:
     $
     \hat{R}_{u,j} = \sum_{i \in \mathcal{I}_u} S(i,j) \cdot R_{u,i}
     $
     где $ \hat{R}_{u,j} $ — предсказанный рейтинг для пользователя $u$ на объект $j$, а $\mathcal{I}_u$ — множество объектов, с которыми пользователь $u$ уже взаимодействовал.

4. **Оптимизация и масштабируемость:**
   - **Факторизация матрицы**: Для больших наборов данных матрица сходства объектов может быть вычислительно дорогой. Одним из решений является применение методов факторизации матриц (например, сингулярного разложения), чтобы уменьшить размерность данных и оптимизировать процесс рекомендаций.
   - **Эффективная индексация**: Для повышения скорости извлечения похожих объектов можно использовать алгоритмы, такие как **k-d деревья** или **Ball Trees** для эффективного поиска ближайших соседей.
   - **Приближенные ближайшие соседи (ANN)**: В системах, работающих с большими объемами данных, методы, такие как **Locality Sensitive Hashing (LSH)** или **Annoy**, помогают быстро находить приближенные ближайшие соседи для рекомендаций объектов.

5. **Реальные приложения:**
   - **Amazon**: Рекомендации на основе Item2Item используются в платформах электронной коммерции, таких как Amazon, для предложений продуктов, схожих с теми, которые пользователь просмотрел или купил.
   - **Netflix**: Этот подход применяется для рекомендации фильмов и телешоу на основе сходства между объектами.
   - **Spotify**: Музыкальные платформы часто используют рекомендации типа "предмет к предмету" для предложения схожих треков или альбомов на основе предпочтений пользователя.

#### Преимущества технологии Item2Item:
- **Персонализация**: Предоставляет персонализированные рекомендации на основе поведения пользователя и его взаимодействий.
- **Масштабируемость**: Методы Item2Item хорошо масштабируются на большие наборы данных, особенно когда они комбинируются с эффективными методами индексации.
- **Интерпретируемость**: Рекомендации, основанные на объектах, более интерпретируемы, чем некоторые модели "черного ящика", так как они основаны на метриках сходства, которые легко объяснить.

#### Ограничения:
- **Проблема холодного старта**: Новые объекты, не имеющие предварительных взаимодействий с пользователями, могут быть рекомендованы неэффективно.
- **Смещение по популярности**: Популярные объекты могут доминировать в рекомендациях, что может затмить нишевые объекты.
- **Разреженность**: В системах с большим количеством объектов и относительно меньшим количеством взаимодействий (разреженная матрица) матрицы сходства могут быть разреженными и, соответственно, менее точными.

В заключение, технология **Item2Item** использует идею, что объекты, с которыми пользователи взаимодействовали схожим образом, скорее всего, будут интересны тем же пользователям. Этот метод работает путем вычисления сходства между объектами и генерации рекомендаций на основе этих сходств, и он оказался эффективным для множества платформ, использующих рекомендации.
