# Рекомендательные системы

### Тривиальный случай

Клиенты, покупавшие $i_0$ также покупали $I(i_0)$

<img src="../figures/recsys1.png" alt="Simple RecSys" style="width: 500px;"/>

$U(i_0)=\{u\in U| r_{ui_0}\not = \emptyset, u\not = u_0\}$ - коллаборация клиента

$I(i_0)=\{i\in I | sim(i,i_0)=\frac{U(i_0)\cap U(i)}{U(i_0)\cup U(i)}> \delta\}$ - похожие товары

### От клиента (user-based)

Клиенты, похожие на $u_0$, также покупали $I(i_0)$

<img src="../figures/recsys2.png" alt="User-based RecSys" style="width: 500px;"/>

$U(i_0)=\{u\in U| sim(u,u_0) > \alpha\}$ - коллаборация клиента

$I(i_0)=\{i\in I | B(i)=\frac{U(u_0)\cap U(i)}{U(u_0)\cup U(i)}> 0\}$, где $U(i)=\{u\in U | r_{ui} \not = \emptyset\}$

### От объекта (item-based)

Вместе с объектами, которые покупал $u_0$, часто покупают $I(u_0)$

<img src="../figures/recsys3.png" alt="Item-based RecSys" style="width: 500px;"/>

$I(u_0)=\{i\in I | \exists i_0: r_{u_0r_0}\not = \emptyset\ \&\ B(i)=sim(i,i_0)>\alpha\}$

## Словарь с предпочтениями пользователи-фильмы

In [12]:
# Словарь кинокритиков и выставленных ими оценок для небольшого набора
# данных о фильмах
critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 
 'The Night Listener': 3.0},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 
 'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0, 
 'You, Me and Dupree': 3.5}, 
'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
 'Superman Returns': 3.5, 'The Night Listener': 4.0},
'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
 'The Night Listener': 4.5, 'Superman Returns': 4.0, 
 'You, Me and Dupree': 2.5},
'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 
 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,
 'You, Me and Dupree': 2.0}, 
'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
 'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},
'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}

In [13]:
critics['Toby']

{'Snakes on a Plane': 4.5, 'Superman Returns': 4.0, 'You, Me and Dupree': 1.0}

In [14]:
critics['Lisa Rose']['Lady in the Water']


2.5

Используем Евклидо расстояние для оценки схожести пользователей:

$sim(u_1,u_2) = \frac{1}{1+d_{euq}(u_1, u_2)}$


In [45]:
# Возвращает сходство person1 и person2 на основе расстояния
def sim_distance(prefs,person1,person2):
    # ваш код
    return 0

In [46]:
sim_distance(critics, 'Lisa Rose','Gene Seymour')

0

Используем корруляцию Пирсона для оценки схожести пользователей

In [47]:
# Возвращает коэффициент корреляции Пирсона между p1 и p2
def sim_pearson(prefs,p1,p2):
    # ваш код
    return 0

In [48]:
sim_pearson(critics,'Lisa Rose','Gene Seymour')

0

## Ранжирование критиков

In [53]:
# Возвращает список наилучших соответствий для человека из словаря prefs.
# Количество результатов в списке и функция подобия – необязательные
# параметры.
def topMatches(prefs,person,n=5,similarity=sim_pearson):
    # ваш код
    return [(0, '')] # (score, person)

In [54]:
topMatches(critics,'Toby',n=3)

[(0, '')]

## Рекомендация фильмов (User-based подход)

Составляем рекомендации для заданного человека, пользуясь взвешенным средним оценок, данных всеми остальными пользователями

$rank(i) = \frac{\sum_u r_{ui}\cdot sim(u_0,u)}{\sum_u sim(u_0,u)}$, $r_{u_0i} = \emptyset$

In [72]:
# сортированный список
def getRecommendations(prefs,person,similarity=sim_pearson):
    # ваш код
    return [(0, '')] # (rank, item)

In [56]:
getRecommendations(critics,'Toby')

[(0, '')]

In [57]:
getRecommendations(critics,'Toby', sim_distance)

[(0, '')]

## Сходство предметов

Как заменить

{'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5}}

на

{'Lady in the Water':{'Lisa Rose':2.5,'Gene Seymour':3.0},
'Snakes on a Plane':{'Lisa Rose':3.5,'Gene Seymour':3.5}}?


In [58]:
def transformPrefs(prefs):
    # ваш код
    return {'':{'':0}} # {item:{person:prefs}

In [59]:
movies=transformPrefs(critics)

In [60]:
movies

{'': {'': 0}}

In [61]:
topMatches(movies,'Superman Returns')

[(0, '')]

In [62]:
getRecommendations(movies,'Just My Luck')

[(0, '')]

## Коллаборативная фильтрация по сходству объектов (Item-based collaborative filtering)

In [63]:
# Создать словарь, содержащий для каждого образца те образцы, которые больше всего похожи на него
def calculateSimilarItems(prefs,n=10):
    # ваш код
    return {'':0} # {item:topMatches(item)}

In [64]:
itemsim=calculateSimilarItems(critics)

Рекомендуемые образцы:

$rank(i) = \frac{\sum_j r_{ui}*sim(i,j)}{\sum_j sim(i,j)}$, $r_{ui} = \emptyset$

In [65]:
# сортированный список
def getRecommendedItems(prefs,itemMatch,user):
    # ваш код
    return [(0, '')] # (rank, item)

In [66]:
getRecommendedItems(critics,itemsim,'Toby')

[(0, '')]

## Рекомендация на данных MovieLens

Источник: http://grouplens.org/datasets/movielens/

In [67]:
def loadMovieLens(path='../data/ml-100k'):
# Получить названия фильмов
    movies={}
    for line in open(path+'/u.item'):
        (id,title)=line.split('|')[0:2]
        movies[id]=title
# Загрузить данные
    prefs={}
    for line in open(path+'/u.data'):
        (user,movieid,rating,ts)=line.split('\t')
        prefs.setdefault(user,{})
        prefs[user][movies[movieid]]=float(rating)
    return prefs

In [68]:
prefs=loadMovieLens( )
prefs['87']
#len(prefs['87'])

{'2001: A Space Odyssey (1968)': 5.0,
 'Ace Ventura: Pet Detective (1994)': 4.0,
 'Addams Family Values (1993)': 2.0,
 'Addicted to Love (1997)': 4.0,
 'Adventures of Priscilla, Queen of the Desert, The (1994)': 3.0,
 'Adventures of Robin Hood, The (1938)': 5.0,
 'Air Force One (1997)': 3.0,
 'Air Up There, The (1994)': 3.0,
 'Alien (1979)': 4.0,
 'American President, The (1995)': 5.0,
 'Annie Hall (1977)': 4.0,
 'Apocalypse Now (1979)': 4.0,
 'Babe (1995)': 5.0,
 'Baby-Sitters Club, The (1995)': 2.0,
 'Back to the Future (1985)': 5.0,
 'Bad Boys (1995)': 4.0,
 'Bananas (1971)': 5.0,
 'Barcelona (1994)': 3.0,
 'Batman & Robin (1997)': 4.0,
 'Batman (1989)': 3.0,
 'Batman Returns (1992)': 3.0,
 'Big Green, The (1995)': 3.0,
 'Big Squeeze, The (1996)': 2.0,
 'Birdcage, The (1996)': 4.0,
 'Blade Runner (1982)': 4.0,
 'Blues Brothers, The (1980)': 5.0,
 'Boomerang (1992)': 3.0,
 'Boot, Das (1981)': 4.0,
 'Brady Bunch Movie, The (1995)': 2.0,
 'Braveheart (1995)': 4.0,
 'Bridge on the River

In [69]:
getRecommendations(prefs,'87')[0:30]

[(0, '')]

In [70]:
calculateSimilarItems(prefs,n=50)[10:20]

TypeError: unhashable type: 'slice'

In [71]:
getRecommendedItems(prefs,itemsim,'87')[0:30]

[(0, '')]

# Задание 1. Сравнение методов коллаборативной фильтрации по сходству пользователей и по сходству объектов


1. Требуется реализовать вычисление ошибки [MAE](http://www.recsyswiki.com/wiki/Mean_absolute_error) и [RMSE](http://www.recsyswiki.com/wiki/Root_mean_square_error-mean-square_deviation) на тестовых данных [Movie Lens](http://grouplens.org/datasets/movielens/).  
В качестве данных обучения можно использовать файлы с расширением base, а тестирование качества провести на файле test: пары файлов u1.base и u1.test, ..., u5.base и u5.test. Каждая пара -- это разбиение 80%/20%  данных для всех пользователей $u$ на обучащие и тестовые данные.
2. Для каждого метода (user-based и item-based) постройте графики зависимости [MAE](http://www.recsyswiki.com/wiki/Mean_absolute_error) и [RMSE](http://www.recsyswiki.com/wiki/Root_mean_square_error-mean-square_deviation) от числа соседей (диапазон от 1 до 100 с разумным шагом).
3. Если качество предсказаний слишком низкое (MAE>2,0), то попробуйте формулы 2.6 и 2.7 из обзора http://files.grouplens.org/papers/FnT%20CF%20Recsys%20Survey.pdf.
Можно использовать альтернативные формулы для исходной модели $r_{u,i} = k\sum\limits_{u^\prime \in U}\operatorname{sim}(u,u^\prime)r_{u^\prime, i} \mbox{ (случай user-based модели):}$
$$r_{u,i} = \frac{1}{N}\sum\limits_{u^\prime \in U}r_{u^\prime, i}$$
$$r_{u,i} = \bar{r_u} +  k\sum\limits_{u^\prime \in U} sim(u,u^\prime)(r_{u^\prime, i}-\bar{r_{u^\prime}} ) \mbox{, где } k =1/\sum_{u^\prime \in U}|\operatorname{sim}(u,u^\prime)|.$$
4. Сравните подходы на основе полученных результатов по аналогии с пунктами 1 и 2. 
5. Как изменяется величина MAE (RMSE) от числа выдаваемых рекомендаций (top-n): $n \in \{1,3,5,10,15,20,30,40,50,100\}$? 
6. Как Вы считаете, какие фильмы чаще рекомендуются -- популярные с высокими оценками или редкие (те, которые редко оцениваются) с высокими оценками?
7. Что делать, если соседей (то есть похожих на целевого пользователя или конкретный товар) мало? Нужно/можно ли как-то учитывать достоверность таких рекомендаций? 
8. *Необязательное подзадание.* Насколько различны списки из top-n рекомендаций. Попробуйте улучшить результаты подбором $\beta$ для минимизации MAE (RMSE) в гибридных рекомендациях в зависимости от числа соседей:
$$\beta\cdot r^{user-based}_{ui} + (1-\beta)\cdot r^{item-based}_{ui}, \mbox{ где } 0 \leq \beta \leq 1.$$ 

