# Отчет по проекту

## Рекомендательная система ресторанов и кафе в Москве

## Выполнили: Соколов Харис, Купцова Анастасия, Уманец Екатерина

### Формулирока цели и задач

Наша цель --- построить рекомендательную систему ресторанов  и кафе города Москвы. Существует два типа потребителей и, следовательно, две задачи. Первый тип --- люди, которые готовы предоставить информацию, какие рестораны они посещали ранее. Основываясь на истории посещений, мы должны предложить таким потребителям другие рестораны, которые, возможно, их заинтересуют. Второй тип --- это люди, которые не могут сказать, в какие рестораны они ходили (например, потому что недавно приехали в Москву), однако мы можем получить доступ к их социальным атрибутам (например, потребитель готов указать адрес своего профиля в соцсети <<ВКонтакте>>). Тогда, имея такую информацию, мы можем предложить им рестораны, куда ходили похожие на них (по социальным характеристикам) люди.

### Задача №1


### Задача

Для первой группы потребителей мы обладаем информацией о ресторанах, которые они посещали ранее. Наша задача — основываясь на истории посещений, предложить таким потребителям другие рестораны, которые, возможно, их заинтересуют. 

### Описание и обработка данных

Изначально у нас есть датасет с сайта http://www.afisha.ru, в котором представлены данные по посещениям пользователей сайта ресторанов и кафе в крупных городах России.

In [1]:
import numpy as np
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

Датасет выглядит следующим образом:

In [2]:
data = pd.read_csv('DataSet_Rest_User.csv', sep=';')
data.head(5)

Unnamed: 0,ID_Rest,ID_Afisha_user
0,http://www.afisha.ru/msk/restaurant/15958/,www.afisha.ru/personalpage/3008125
1,http://www.afisha.ru/msk/restaurant/15958/,www.afisha.ru/personalpage/2993572
2,http://www.afisha.ru/msk/restaurant/15958/,www.afisha.ru/personalpage/2627134
3,http://www.afisha.ru/msk/restaurant/15958/,www.afisha.ru/personalpage/2560943
4,http://www.afisha.ru/msk/restaurant/218258/,www.afisha.ru/personalpage/3034211


In [3]:
print('Общее количество посещений ресторанов и кафе в крупных городах России:', data.shape[0])

Общее количество посещений ресторанов и кафе в крупных городах России: 20457


Удалим рестораны не из Москвы

In [4]:
dataframe=pd.DataFrame(columns=['ID_Rest', 'ID_Afisha_user'])
for i in range(0, data.shape[0]):
    if str(data['ID_Rest'][i]).split(sep='/')[3] == 'msk':
        ponchik = pd.DataFrame([[data['ID_Rest'][i], data['ID_Afisha_user'][i]]], columns=['ID_Rest', 'ID_Afisha_user'])
        dataframe = dataframe.append(ponchik, ignore_index=True)

In [5]:
print('Общее количество посещений ресторанов и кафе в Москве:', dataframe.shape[0])

Общее количество посещений ресторанов и кафе в Москве: 14177


Подсчитаем количество объектов и признаков

In [6]:
users = dataframe['ID_Afisha_user'].drop_duplicates()
users = [x for x in users if str(x) != 'nan']

In [7]:
print('Количество уникальных потребителей (объектов):', len(users))

Количество уникальных потребителей (объектов): 10446


In [8]:
rests = dataframe['ID_Rest'].drop_duplicates()
rests = [x for x in rests if str(x) != 'nan']

In [9]:
print('Количество уникальных ресторанов и кафе (признаков):', len(rests))

Количество уникальных ресторанов и кафе (признаков): 4535


Теперь создадим таблицу, где по вертикали будут расположены объекты (уникальные посетители), а по горизонтали --- признаки (уникальные рестораны). На пересечении ставится единица, если данный потребитель посещал соответствующий ресторан, и ноль, если нет.

In [10]:
Frame = pd.DataFrame(columns=rests, index=users)
for i in range(0, dataframe.shape[0]):
    Frame[dataframe['ID_Rest'][i]][dataframe['ID_Afisha_user'][i]]=1

In [11]:
Frame.head()

Unnamed: 0,http://www.afisha.ru/msk/restaurant/15958/,http://www.afisha.ru/msk/restaurant/218258/,http://www.afisha.ru/msk/restaurant/19998/,http://www.afisha.ru/msk/restaurant/75769/,http://www.afisha.ru/msk/restaurant/42248/,http://www.afisha.ru/msk/restaurant/60163/,http://www.afisha.ru/msk/restaurant/74038/,http://www.afisha.ru/msk/restaurant/47066/,http://www.afisha.ru/msk/restaurant/49077/,http://www.afisha.ru/msk/restaurant/140263/,...,http://www.afisha.ru/msk/restaurant/73183/,http://www.afisha.ru/msk/restaurant/73797/,http://www.afisha.ru/msk/restaurant/75762/,http://www.afisha.ru/msk/restaurant/75774/,http://www.afisha.ru/msk/restaurant/140223/,http://www.afisha.ru/msk/restaurant/140300/,http://www.afisha.ru/msk/restaurant/151092/,http://www.afisha.ru/msk/restaurant/152437/,http://www.afisha.ru/msk/restaurant/173385/,http://www.afisha.ru/msk/restaurant/300940/
www.afisha.ru/personalpage/3008125,1.0,,,,,,,,,,...,,,,,,,,,,
www.afisha.ru/personalpage/2993572,1.0,,,,,,,,,,...,,,,,,,,,,
www.afisha.ru/personalpage/2627134,1.0,,,,,,,,,,...,,,,,,,,,,
www.afisha.ru/personalpage/2560943,1.0,,,,,,,,,,...,,,,,,,,,,
www.afisha.ru/personalpage/3034211,,1.0,,,,,,,,,...,,,,,,,,,,


Теперь создадим файл, пригодный для обработки в библиотеке SPMF. Для этого мы для каждого потребителя в отдельной строке записываем порядковые индексы ресторанов, которые он посетил.

In [68]:
A = list()
for i in range(0, Frame.shape[0]):
    A.append([])
    for j in range(0, len(Frame.values[i])):
        if Frame.values[i][j] == 1:
            A[i].append(j)

for i in range(0, len(A)):
    A[i] = ' '.join(str(elem) for elem in A[i])

file = open('data.txt', 'w')
file.write("\n".join(A))

60422

In [69]:
A[0:15]

['0',
 '0',
 '0 379 453',
 '0',
 '1 3682',
 '1',
 '1',
 '2 31',
 '2 1838',
 '2',
 '2',
 '3 41 124 194 587 847 849 981 3649 3984',
 '3',
 '3',
 '3']

### Методы и полученные результаты

#### Ассоциативные правила

Допустим есть потребитель $X$, посещавший некоторые рестораны и кафе в Москве. Если он указывает все эти рестораны или их часть, то мы можем найти людей с похожей историей посещенных ресторанов и посмотреть, в какие еще заведения они ходили. Можно предположить, что люди, у которых списки посещенных прежде ресторанов и кафе очень близки, имеют похожие вкусы, финансовые возможности, местоположоние и т. д. Тогда, потребителю $X$ можно предложить заведения, которые посещали похожие на него потребители, но в которые сам он еще не ходил. Для этого прекрасно подходят ассоциативные правила. В данной постановке задачи ассоциативное правило будет иметь следующую интерпретацию: если потребитель $X$ посетил рестораны ..., то ему также следует посетить рестораны ...


Для поиска ассоциативных правил мы будем использовать библиотеку SPMF: алгоритм FPGrowth association rules with lift с различными параметрами minsup и minconf при этом **minlift** всегда равен **нулю**.

##### Результаты поиска ассоциативных правил для различных комбинаций параметров:
(Min lift здесь не является параметром, а считается по полученным ассоциативным правилам!)

In [70]:
results = pd.DataFrame(columns=['Min sup', 'Max sup', 'Min conf', 'Max conf', 'Avg conf', 'Min lift', 'Max lift', 'Avg lift', 'N of rules'])

In [71]:
for i in ['2', '3', '4', '5', '6', '7', '8', '9', '10']:
    for j in ['0', '0,5', '0,8']:
        if i=='10' and j=='0,8':
            bublick2 = pd.DataFrame([[i, '-', j, '-', '-', '-', '-', '-', '0']], columns=['Min sup', 'Max sup', 'Min conf', 'Max conf', 'Avg conf', 'Min lift', 'Max lift', 'Avg lift', 'N of rules'])
            results = results.append(bublick2, ignore_index=True)
        else:    
            bublick = pd.read_csv('sup' + i +'conf'+j)
            bublick2 = pd.DataFrame([[i, np.round(bublick['#SUP:'].values.max(), 3), j, np.round(bublick['#CONF:'].values.max(), 3), np.round(bublick['#CONF:'].values.mean(), 3), np.round(bublick['#LIFT:'].values.min(), 3), np.round(bublick['#LIFT:'].values.max(), 3), np.round(bublick['#LIFT:'].values.mean(), 3), bublick.shape[0]]], columns=['Min sup', 'Max sup', 'Min conf', 'Max conf', 'Avg conf', 'Min lift', 'Max lift', 'Avg lift', 'N of rules'])
            results = results.append(bublick2, ignore_index=True)

In [72]:
results

Unnamed: 0,Min sup,Max sup,Min conf,Max conf,Avg conf,Min lift,Max lift,Avg lift,N of rules
0,2,17,0,1,0.896,6.35,5223,2759.3,174948
1,2,17,5,1,0.979,74.614,5223,2995.25,152552
2,2,9,8,1,1,248.714,5223,3036.23,140107
3,3,17,0,1,0.9,66.677,3482,2775.43,173310
4,3,17,5,1,0.979,117.518,3482,3003.51,151841
5,3,9,8,1,1,290.167,3482,3044.73,139450
6,4,17,0,1,0.778,117.518,2089.2,1123.02,2000
7,4,17,5,1,0.885,117.518,2089.2,1143.24,1551
8,4,9,8,1,0.981,696.4,2089.2,1136.55,1196
9,5,17,0,1,0.909,117.518,1492.29,1046.93,622


Заметим, что так как количество ресторанов и кафе очень большое, а количество их посещений относительно невелико, уровень поддержки не является хорошим показателем того, стоит ли использовать конкретное ассоциативное правило для рекомендаций. Например, уровень поддержки, равный 10 - это всего лишь 0.00097%. Также интересно отметить, что во всех случаях минимальный уровень lift оказался больше единицы, что означает положительную зависимость между появлением ресторанов из части "если" и ресторанов из части "то" для всех найденных ассоциативных правил. 

Нам необходимо выбрать параметры для рекомендательной системы. Min sup мы выбираем, исходя из необходимого количества ассоциативных правил и временных затрат на обработку датасета. Так как у нас больше 4500 ресторанов и кафе, количество ассоциативных правил должно быть точно не меньше этого числа, при этом обработка датасета занимает очень много времени, поэтому возьмем min sup = 3. Min conf выберем на уровне 0.8, так как в этом случае average conf = 1 и average lift максимален среди всех вариантов.

#### Рекомендательная система на основе ассоциативных правил

Обработаем датасет с ассоциативными правилами:

In [189]:
recom = pd.read_csv('sup3conf0,8')
recommend = pd.DataFrame(columns = ['if', 'then', 'sup', 'conf', 'lift'])
for i in range(0, recom.shape[0]):
    recom['Pattern'][i] = recom['Pattern'][i].split(sep='==>')
    keks = pd.DataFrame([[recom['Pattern'][i][0].split(' '), recom['Pattern'][i][1].split(' '), recom['#SUP:'][i], recom['#CONF:'][i], recom['#LIFT:'][i]]], columns=['if', 'then', 'sup', 'conf', 'lift'])
    recommend = recommend.append(keks, ignore_index=True)
    recommend['if'][i]= [int(x) for x in recommend['if'][i] if str(x) != '']
    recommend['then'][i]= [int(x) for x in recommend['then'][i] if str(x) != '']

In [277]:
recommend.head()

Unnamed: 0,if,then,sup,conf,lift
0,[1042],[639],9.0,0.818182,712.227273
1,[1939],[639],8.0,1.0,870.5
2,[2792],[639],9.0,1.0,870.5
3,[3096],[639],4.0,1.0,870.5
4,[3227],[639],9.0,0.818182,712.227273


Мы выдаем рекомендацию по следующему принципу. Пусть потребитель $X$ посетил рестораны $a$, $b$ и $c$. Пусть у нас также есть $N$ ассоциативных правил, тогда мы выбираем из них все те, у которых в части "если" есть хотя бы один из ресторанов $a$, $b$, $c$. Далее, в качестве рекомендаци мы выдаем все (уникальные) рестораны из части "то" из всех выбранных выше ассоциативных правил. В данной ситуации такой принцип приемлем, так как, во-первых, у нас средний average confidence равен единице, во-вторых, у нас высокий average lift (причем он всегда больше единицы), следовательно, ассоциативные правила примерно в одинаковой степени хороши. В-третьих, у нас очень большой датасет (в частности, огромное количество ресторанов) при относительно малом количестве посещений, значит количество ресторанов, рекомендованных по такому принципу, будем приемлемым (не сильно большим). Поэтому никаких дополнительных ограничений мы не используем. Однако понятно, что если бы посещений в датасете было много, тогда пришлось бы отбирать "наилучшие" ассоциативные правила более жестко, а не просто установив minsup=3 и minconf=0.8. Например, мы могли бы в первую очередь использовать ассоциативные правила, где в части "если" находятся все три ресторана $a$, $b$ и $c$ и больше никаких, во вторую очередь - те, где в части "если" находятся все три ресторана, но при этом есть и другие, в третью очередь - те, где в части "если" находятся два ресторана из трех, и т.д. 

In [264]:
def recommendation(number):
    res = [int(x) for x in A[number].split(' ')]
    go = []
    for i in range(0, recommend.shape[0]):
        if len(set.intersection(set(res), set(recommend['if'][i]))) !=0:
            for k in range(0, len(recommend['then'][i])):
                if (len(set.intersection(set([recommend['then'][i][k]]), set(res))) == 0) and (len(set.intersection(set([recommend['then'][i][k]]), set(go)))==0):
                    go.append(recommend['then'][i][k])
    restres = [Frame.columns[x] for x in res]
    restgo = [Frame.columns[x] for x in go]
    print('Вы посетили рестораны:')
    for i in range(0, len(restres)):
          print(restres[i])
    print('Советуем вам также посетить:')
    for i in range(0, len(restgo)):
          print(restgo[i])

Рекомендации для потребителя с индексом 1674

In [265]:
recommendation(1674)

Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/218816/
http://www.afisha.ru/msk/restaurant/75770/
http://www.afisha.ru/msk/restaurant/22385/
http://www.afisha.ru/msk/restaurant/35857/
http://www.afisha.ru/msk/restaurant/32294/
http://www.afisha.ru/msk/restaurant/42354/
http://www.afisha.ru/msk/restaurant/46459/
http://www.afisha.ru/msk/restaurant/46950/
http://www.afisha.ru/msk/restaurant/313359/
Советуем вам также посетить:
http://www.afisha.ru/msk/restaurant/18426/
http://www.afisha.ru/msk/restaurant/23503/
http://www.afisha.ru/msk/restaurant/29942/
http://www.afisha.ru/msk/restaurant/42748/
http://www.afisha.ru/msk/restaurant/48715/
http://www.afisha.ru/msk/restaurant/47387/
http://www.afisha.ru/msk/restaurant/75812/
http://www.afisha.ru/msk/restaurant/75813/
http://www.afisha.ru/msk/restaurant/75814/
http://www.afisha.ru/msk/restaurant/75762/


Рекомендация для потребителя с индексом 1691

In [266]:
recommendation(1691)

Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/59461/
http://www.afisha.ru/msk/restaurant/290755/
http://www.afisha.ru/msk/restaurant/311202/
http://www.afisha.ru/msk/restaurant/259792/
http://www.afisha.ru/msk/restaurant/73798/
http://www.afisha.ru/msk/restaurant/270109/
http://www.afisha.ru/msk/restaurant/59197/
http://www.afisha.ru/msk/restaurant/313147/
Советуем вам также посетить:
http://www.afisha.ru/msk/restaurant/20365/
http://www.afisha.ru/msk/restaurant/23693/
http://www.afisha.ru/msk/restaurant/76516/


#### Выводы и сравнение с другими использованными (далее) методами

Большое количество ресторанов и посетителей при малом количестве посещений приводит не только к тому, что мы не можем использовать min sup как показатель качества правила, но и к тому, что большинству потребителей мы не можем ничего порекомендовать. При использовании других методов мы всегда можем дать какую-нибудь рекомендацию. 

Если внимательно посмотреть на датасет, то можно заметить, что все рестораны можно поделить на две группы: очень популярные и непопулярные. Для первых есть огромное количество ассоциативных правил, для вторых их попросту нет. При этом доля популярных ресторанов в датасете очень мала. В результате, чтобы данная рекомендательная система смогла что-либо посоветовать потребителю, в истории посещений этого потребителя обязательно должен находиться популярный ресторан. Иначе, даже если потребитель посетил много ресторанов, в которые при этом никто другой не ходил, система не сможет ему ничего посоветовать. Однако, согласно датасету, подавляющее большинство потребителей ходили лишь в один и при этом непопулярный ресторан. В итоге, рекомендательная система с ассоциативными правилами не может дать рекомендаций большинству потребителей.

Получается, мы можем использовать данную алгоритм, только если потребитель посещал популярные рестораны.

В потрвеждение сказанного выберем 20 случайных человек из датасета и покажем, что большинство из них посещали не более одного ресторана и алгоритм не может им ничего посоветовать.

In [275]:
for i in np.random.random_integers(0, 10446, 20):
    recommendation(i)
    print(' ')

Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/48558/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/218824/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/20289/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/49288/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/47865/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/48095/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/300940/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/139410/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/32834/
Советуем вам также посетить:
 
Вы посетили рестораны:
http://www.afisha.ru/msk/restaurant/29172/
Советуем вам также посетить:
 
Вы посетили рестораны:
http

#### Матричная факторизация.

Матичная факторизация  - один из методов для рекомендательных систем. Идея состоит в том, чтобы разложить исходную матрицу оценок на две матрицы, которые при умножении аппроксимировали бы исходную матрицу. 


В отличии от ассоциативных правил, для любого потребителя всегда найдется ресторан, который можно ему посоветовать.

Требуется поработать с данными:
    1. Все NaN в матрице посетители - пользователи были заменены на 0
    2. Так как матрица рестораны - пользователи огромна, то удалим строки и столбцы, сумма по которым =1.           (иначе очень долго выполняется градиентный спуск)

In [12]:
data=Frame.replace(np.nan,0)
data.head()

Unnamed: 0,http://www.afisha.ru/msk/restaurant/15958/,http://www.afisha.ru/msk/restaurant/218258/,http://www.afisha.ru/msk/restaurant/19998/,http://www.afisha.ru/msk/restaurant/75769/,http://www.afisha.ru/msk/restaurant/42248/,http://www.afisha.ru/msk/restaurant/60163/,http://www.afisha.ru/msk/restaurant/74038/,http://www.afisha.ru/msk/restaurant/47066/,http://www.afisha.ru/msk/restaurant/49077/,http://www.afisha.ru/msk/restaurant/140263/,...,http://www.afisha.ru/msk/restaurant/73183/,http://www.afisha.ru/msk/restaurant/73797/,http://www.afisha.ru/msk/restaurant/75762/,http://www.afisha.ru/msk/restaurant/75774/,http://www.afisha.ru/msk/restaurant/140223/,http://www.afisha.ru/msk/restaurant/140300/,http://www.afisha.ru/msk/restaurant/151092/,http://www.afisha.ru/msk/restaurant/152437/,http://www.afisha.ru/msk/restaurant/173385/,http://www.afisha.ru/msk/restaurant/300940/
www.afisha.ru/personalpage/3008125,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2993572,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2627134,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2560943,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/3034211,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [13]:
mask_row = data.apply(lambda x: x.sum() > 1, 1)
data = data[mask_row]
mask_col = data.apply(lambda x: x.sum() > 1, 0)

In [14]:
data_new = data[mask_row][data.columns[mask_col.values]]
#проверят, есть ли люди, которые посетили 1 ресторан
for i in range(data_new.shape[1]):
    if sum(data_new[data_new.columns[i]])<=1:
        print(i)

In [15]:
print(data_new.shape)
data_new.head()

(1395, 896)


Unnamed: 0,http://www.afisha.ru/msk/restaurant/19998/,http://www.afisha.ru/msk/restaurant/75769/,http://www.afisha.ru/msk/restaurant/74038/,http://www.afisha.ru/msk/restaurant/39327/,http://www.afisha.ru/msk/restaurant/61187/,http://www.afisha.ru/msk/restaurant/44778/,http://www.afisha.ru/msk/restaurant/140644/,http://www.afisha.ru/msk/restaurant/36026/,http://www.afisha.ru/msk/restaurant/48308/,http://www.afisha.ru/msk/restaurant/44602/,...,http://www.afisha.ru/msk/restaurant/314359/,http://www.afisha.ru/msk/restaurant/315297/,http://www.afisha.ru/msk/restaurant/46108/,http://www.afisha.ru/msk/restaurant/59081/,http://www.afisha.ru/msk/restaurant/25458/,http://www.afisha.ru/msk/restaurant/47380/,http://www.afisha.ru/msk/restaurant/49231/,http://www.afisha.ru/msk/restaurant/75762/,http://www.afisha.ru/msk/restaurant/140300/,http://www.afisha.ru/msk/restaurant/152437/
www.afisha.ru/personalpage/2627134,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/3034211,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2859031,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2765266,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/101642,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [16]:
#данные с атрибутеми ресторанов
attribut_rest = pd.read_csv('Rest_attributes.csv',encoding="1251", sep=";").drop('Tags',axis=1)
attribut_rest.head()

Unnamed: 0,ID_rest,Rest_name,Cuisine,Price,Adress
0,/msk/restaurant/15958/,Beermarket,Пивные рестораны,700–1500 рублей,"Москва, Бутырская, 69"
1,/msk/restaurant/218258/,Grammy's,Караоке,1500–2500 рублей,"Москва, Кутузовский просп., 2/1, стр. 6, в Кон..."
2,/msk/restaurant/19998/,Via Романо,Итальянская кухня,1500–2500 рублей,"Москва, Лавочкина, 34"
3,/msk/restaurant/75769/,Lao Lee Caf?,Вьетнамская кухня,До 700 рублей,"Москва, Миусская пл., 9, стр. 11"
4,/msk/restaurant/42248/,Double B,Кофейни,До 700 рублей,"Москва, Милютинский пер., 3"


In [17]:
#Удалим рестораны, которых нет в attribut_rest.
a_1 = attribut_rest["ID_rest"].values
a_2 = [x[20:] for x in data_new.columns.values]

for_delit = ['http://www.afisha.ru'+i for i in a_2 if i not in a_1]


In [18]:
data_new = data_new.drop(for_delit,axis=1)
data_new.shape

(1395, 882)

Алгоритм матричной факторизации. 

(выбор несильно маленькой допустимой ошибки основан на медленной работе алгоритма)

In [19]:
def matrix_factorization(R, P, Q, K, steps=2000, alpha=0.2, beta=0.002):
    Q = Q.T
    for step in range(steps):
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    eij = R[i][j] - np.dot(P[i,:],Q[:,j])
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        print(step)
                        
        eR = np.dot(P,Q)
        #overall error on observed data
        e = 0
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - np.dot(P[i,:],Q[:,j]), 2)

                                
        print(e)
        if e < 0.006:break
    return P, Q.T

In [21]:
import time
R = np.array(data_new)

N = len(R)
M = len(R[0])
K = 3

P = np.random.rand(N,K)
Q = np.random.rand(M,K)

t0 = time.time()
nP, nQ = matrix_factorization(R, P, Q, K)
print("время работы алгоритма",time.time() - t0, "сек.")

0
81.0066055901
1
20.8408301944
2
10.2289662916
3
5.44112931457
4
3.41589517545
5
2.39303934513
6
1.79882439844
7
1.4139970735
8
1.14657291165
9
0.951739279672
10
0.804766197867
11
0.690852044896
12
0.600608396298
13
0.527790638266
14
0.468087532843
15
0.418439413656
16
0.376628842416
17
0.34102067291
18
0.31039028055
19
0.283806995058
20
0.260553577936
21
0.240069887242
22
0.221913012731
23
0.205728707625
24
0.1912306222
25
0.178184986723
26
0.16639916197
27
0.155712984003
28
0.145992160808
29
0.137123194655
30
0.129009448896
31
0.121568078477
32
0.114727615512
33
0.108426054319
34
0.102609319529
35
0.0972300301144
36
0.0922464937532
37
0.0876218819562
38
0.083323548192
39
0.0793224600648
40
0.0755927231669
41
0.072111179199
42
0.0688570647129
43
0.0658117197098
44
0.0629583375394
45
0.0602817492454
46
0.0577682368348
47
0.0554053709768
48
0.0531818694538
49
0.0510874733314
50
0.0491128383254
51
0.0472494392589
52
0.0454894858378
53
0.0438258482431
54
0.0422519912678
55
0.040761915905

In [22]:
nR = np.dot(nP, nQ.T) #оцененная матрица посещений 


Получившаяся матрица оценок

In [23]:
fit_data = pd.DataFrame(nR,index = data_new.index,columns=data_new.columns)
fit_data.head()

Unnamed: 0,http://www.afisha.ru/msk/restaurant/19998/,http://www.afisha.ru/msk/restaurant/75769/,http://www.afisha.ru/msk/restaurant/74038/,http://www.afisha.ru/msk/restaurant/39327/,http://www.afisha.ru/msk/restaurant/61187/,http://www.afisha.ru/msk/restaurant/44778/,http://www.afisha.ru/msk/restaurant/36026/,http://www.afisha.ru/msk/restaurant/44602/,http://www.afisha.ru/msk/restaurant/174405/,http://www.afisha.ru/msk/restaurant/45415/,...,http://www.afisha.ru/msk/restaurant/314359/,http://www.afisha.ru/msk/restaurant/315297/,http://www.afisha.ru/msk/restaurant/46108/,http://www.afisha.ru/msk/restaurant/59081/,http://www.afisha.ru/msk/restaurant/25458/,http://www.afisha.ru/msk/restaurant/47380/,http://www.afisha.ru/msk/restaurant/49231/,http://www.afisha.ru/msk/restaurant/75762/,http://www.afisha.ru/msk/restaurant/140300/,http://www.afisha.ru/msk/restaurant/152437/
www.afisha.ru/personalpage/2627134,0.65387,0.989674,1.017594,0.99783,0.880805,1.208818,0.903228,0.969978,0.933257,0.929112,...,0.924435,0.938968,0.972374,0.955023,0.967334,0.890693,0.989936,0.951491,1.053325,1.032185
www.afisha.ru/personalpage/3034211,0.589755,0.880864,1.190436,1.077684,0.797279,1.063026,1.066902,0.834836,0.735418,0.59467,...,0.984432,0.52168,0.834851,0.866415,0.814896,1.220431,1.033943,0.706907,1.055088,0.753067
www.afisha.ru/personalpage/2859031,0.999329,1.334995,1.389402,1.345452,1.304408,1.619511,1.236441,1.28453,1.336287,1.167868,...,1.307615,1.246412,1.334417,1.280964,1.340202,1.257079,1.337688,1.321749,1.397307,1.305642
www.afisha.ru/personalpage/2765266,0.999032,1.06955,0.914616,0.92536,1.237206,1.288452,0.811744,1.010229,1.281757,0.972424,...,1.02408,1.214564,1.133273,1.000436,1.17223,0.76205,0.953538,1.237632,0.984357,1.027286
www.afisha.ru/personalpage/101642,0.742086,0.999239,1.005181,0.984406,0.969818,1.214211,0.893236,0.96589,1.008318,0.905567,...,0.956831,0.971373,1.001504,0.957145,1.007151,0.887383,0.982865,1.004451,1.032809,1.000768


Мы получили матрицу, в которой посчитаны оценки посещения ресторанов пользователями. Наша гипотеза, что чем выше оценка, тем вероятнее человеку понравится в данном ресторане.

#### Выдаем 5 ресторанов, с максимальной оценкой (матричная факторизация).

In [24]:
#выдает характеристики ресторана
attribut_rest = pd.read_csv('Rest_attributes.csv',encoding="1251", sep=";").drop('Tags',axis=1)
def rest_attributes(long_name):
    
    #attribut_rest.index = attribut_rest['Rest_name'].values
   
    rest = attribut_rest[attribut_rest["ID_rest"]==long_name[len("http://www.afisha.ru"):]][attribut_rest.columns[1:]]
    recom = [i for i in rest.values[0]]
    return recom

In [60]:
# выдает рекомендуемые рестораны для ind_number пользователя
def rest_recomend(ind_number,old_data,fit_data):
    #visited_rest = data_new.iloc[0].apply(lambda x: x==1)
    visited_rest = [old_data.columns[i] for i in range(len(old_data.iloc[ind_number])) if old_data.iloc[ind_number][i]==1]
    new_rest = pd.DataFrame(fit_data.drop(visited_rest,axis=1).iloc[ind_number])
    new_rest.columns = ['score']
    recomend_rest = new_rest.sort_values('score',ascending=False).head(5)
    
    frame = []
    for i in recomend_rest.index:
        frame.append(rest_attributes(i))
    frame_2=[]
    for i in visited_rest:
        frame_2.append(rest_attributes(i))
    
    recomend = pd.DataFrame(frame, columns = ['Name',"Сuisine","Price","Address"])
    visit = pd.DataFrame(frame_2, columns = ['Name',"Сuisine","Price","Address"])
    return  recomend,visit
        
        

Теперь посмотрим на пример работы алгоритма **матричной факторизации**.

In [64]:
id_number=168 # номер пользователя
recomend,visit = rest_recomend(id_number,data_new,fit_data)
print("Пользователь %r посетил следующие рестораны"%(id_number))
visit

Пользователь 168 посетил следующие рестораны


Unnamed: 0,Name,Сuisine,Price,Address
0,Хинкали Point,Хинкали,До 700 рублей,"Москва, Забелина, 1"
1,Воронеж. Закусочная и мясная лавка,Стейки,700–1500 рублей,"Москва, Пречистенка, 4, 1 этаж"


In [65]:
print("Следующие рестораны могут быть Вам интересны (пользователь %r):" %(id_number))

recomend

Следующие рестораны могут быть Вам интересны (пользователь 168):


Unnamed: 0,Name,Сuisine,Price,Address
0,Марукамэ,Японская кухня,До 700 рублей,"Москва, Ленинская Слобода, 17"
1,Тан,Китайская кухня,Больше 2500 рублей,"Москва, Оружейный пер., 13, стр. 1"
2,Две палочки,Японская кухня,700–1500 рублей,"Москва, Камергерский пер., 6/5, стр. 3"
3,Kon-Tiki,Бары,700–1500 рублей,"Москва, Рождественка, 5/7, стр. 2"
4,Аист,Итальянская кухня,Больше 2500 рублей,"Москва, М.Бронная, 8/1"


Результатом алгоритма матричной факторизации стала матрица fit_data. Ошибка по ненулевым исходным эллементам составила 0.006. Далее для i-ого пользователя отбирались 5 ресторанов (которые он не посещал) с максимальной оценкой и рекомендовались ему для посещения. 

#### SVD

Выше уже говорилось, что булевая матрица посетители-рестораны является сильно разряженной. На этот случай хорошим методом является сингулярное разложение матрицы.

Идея заключается в том, что мы обнуляем наименьшие сингулярные значения, и перемножая, получаем приближенную исходную матрицу. 

In [32]:
U, s, V = np.linalg.svd(data_new.T) #расскладываем матрицу на 3 матрицы

S = np.zeros((882, 1395))

S[:882,:882]= np.eye(882)*s #создаем диагональную матрицу с сингулярными значениями
print("Размерность S = ",S.shape)

Y=np.dot(U, np.dot(S, V)) #всстнавливаем исходную матрицу

print("Ошибка по всем эллементам ",np.linalg.norm(data_new.T-Y))

#обнуляем маленькие значения матрицы S
for_0 = 100
for i in range (S.shape[0]-for_0,S.shape[0]):
    S[i,i]=0
Y=np.dot(U, np.dot(S, V))
print("Ошибка с  %r удаленными элементами"%(for_0),np.linalg.norm(data_new.T-Y))

Размерность S =  (882, 1395)
Ошибка по всем эллементам  1.70719265518e-13
Ошибка с  100 удаленными элементами 4.04767230792


In [33]:
fit_data_SVD = pd.DataFrame(Y.T,index = data_new.index,columns=data_new.columns )


В результате работы SVD мы получили приближенную матрицу fit_data_SVD, элементами которой, согласно нашей гипотезы, являются оценки ресторанов постителями.

#### Выдаем 5 ресторанов, с максимальной оценкой (SVD).

In [66]:
recomend,visit = rest_recomend(id_number,data_new,fit_data_SVD)
print("Следующие рестораны могут быть Вам интересны (пользователь %r):" %(id_number))
recomend

Следующие рестораны могут быть Вам интересны (пользователь 168):


Unnamed: 0,Name,Сuisine,Price,Address
0,True Burgers,Бургеры,До 700 рублей,"Москва, Бауманская, 50/12, стр. 1"
1,Ms. Donair,Стритфуд,До 700 рублей,"Москва, Сретенка, 1"
2,Хачапурия,Хачапури,700–1500 рублей,"Москва, Б.Никитская, 26"
3,Brix Tapas & Grill,Бары,1500–2500 рублей,"Москва, Покровка, 4, стр. 1"
4,Mary & Dogs,Кафе,До 700 рублей,"Москва, Мытная, 74, фудкорт Даниловского рынка"


In [67]:
print("Пользователь %r посетил следующие рестораны"%(id_number))
visit

Пользователь 168 посетил следующие рестораны


Unnamed: 0,Name,Сuisine,Price,Address
0,Хинкали Point,Хинкали,До 700 рублей,"Москва, Забелина, 1"
1,Воронеж. Закусочная и мясная лавка,Стейки,700–1500 рублей,"Москва, Пречистенка, 4, 1 этаж"


В результате SVD мы получили приближенную матрицу. И выдаем 5 ресторанов с максимальной оценкой.

#### Сравнение двух алгоритмов: SVD и матричная факторизация. 

In [81]:
id_number = 1087
recomend,visit = rest_recomend(id_number,data_new,fit_data)

print("Пользователь %r посетил следующие рестораны"%(id_number))

visit

Пользователь 1087 посетил следующие рестораны


Unnamed: 0,Name,Сuisine,Price,Address
0,Шоколадница,Кофейни,700–1500 рублей,"Москва, Б.Грузинская, 2/12"
1,Нияма,Японская кухня,700–1500 рублей,"Москва, Головинское ш., 5, ТЦ «Водный»"


In [82]:
print("Рекомендуемые рестораны для пользователя %r (матричная факторизация)" %(id_number))
recomend

Рекомендуемые рестораны для пользователя 1087 (матричная факторизация)


Unnamed: 0,Name,Сuisine,Price,Address
0,Черри мио,Кафе,1500–2500 рублей,"Москва, просп. Мира, 99, 2 этаж"
1,"Мама, я в Тбилиси!",Грузинская кухня,700–1500 рублей,"Москва, Воронцово Поле, 18"
2,Double B,Кофейни,До 700 рублей,"Москва, Оболенский пер., 9, корп. 1, вход из п..."
3,Гусятникофф,Русская кухня,Больше 2500 рублей,"Москва, Александра Солженицына, 2а"
4,Ten,Стритфуд,700–1500 рублей,"Москва, Б.Садовая, 10"


In [83]:
print("Рекомендуемые рестораны для пользователя %r (SVD)" %(id_number))
recomend,visit = rest_recomend(id_number,data_new,fit_data_SVD)
recomend

Рекомендуемые рестораны для пользователя 1087 (SVD)


Unnamed: 0,Name,Сuisine,Price,Address
0,Шоколадница,Кофейни,700–1500 рублей,"Москва, Страстной б-р, 6"
1,Нияма,Японская кухня,700–1500 рублей,"Реутов, Октября, 10, ТЦ «Экватор», 3 этаж"
2,Mitzva Bar,Бары,700–1500 рублей,"Москва, Пятницкая, 3/4, стр. 1"
3,Prime,Кафе,До 700 рублей,"Москва, Б.Дмитровка, 7/5, стр. 1"
4,Stay True Bar,Бары,700–1500 рублей,"Москва, Славянская пл., 2/5/4, стр. 3"


В результате рекомендуемые рестораны не совпадают. Но характеристики рекомендуемых ресторанов похожи на те рестораны, в которых побывали пользователи. Данное несовпадение может возникать из-за большого массива ресторанов, и выдачу всего лишь 5 ркомендуемых (возможно, оценки по другим ресторанам не сильно отличаются от 5 лучших, но мы их не выдаем.

Однако можно объединять 5 наилучших ресторанов по мнению двух алгоритмов и выдавать 10 рекомендуемых ресторанов для пользователей.

#### Вывод 

В ходе построения рекомендательной системы для решения задачи 1 (рекомендуем рестораны, исходя из информации о посещенных ресторанах)было использвано 3 способа:
1. Ассоциативные правила
2. Матричная факторизация
3. SVD

Недостатком первого способа было то, что для сильно разряженной матрицы (наш случай) для некоторых людей нельзя было построить рекомендацию. 

Данный недостаток был исправлен с помощью метода матричной факторизации и SVD, которые хорошо приближают сильно разряженные матрицы.  В итоге мы рекомендуем человеку 5 ресторанов с наивысшей оценкой для каждого из методов. Но стоит отметить, что при использовании этих двух алгоритмов два множества рекомендуемых ресторанов не пересекаются. Следовательно, можно в качестве рекомендации давать объединение двух множеств ресторанов, полученных с помощью алгоритма матричной факторизации и SVD.


### Задача №2


### Задача.

Для второй группы потребителей мы не обладаем информацией о ресторанах, которые они посещали ранее, однако мы знаем некоторые параметры потребителей. Наша задача — порекомендовать рестораны, которые могут им понравиться.

### Данные.

Для решения данной задачи мы используем 3 файла с данными:

1. DataSet_Afisha_SN.csv - сопоставление аккаунтов с сайта afisha.ru и профилей в некоторой социальной сети (например, facebook.com или "Вконтакте")
2. DataSet_VK_ID_ATR.csv - сопоставление пользователей "Вконтакте" и их параметров
3. DataSet_Rest_User.csv - сопоставление пользователей сайта afisha.ru и ресторанов, которые они посещали

### Описание данных.
Для профилей социальной сети «ВКонтакте» указаны следующие параметры:

Во-первых, это некторые социальные атрибуты.

* *ActivityIndex* - индекс активности человека для сети "ВКонтакте", рассчитывается на основе частоты входа в социальную сеть. 
* *AverageFriendsAge* - средний возраст друзей для сети "ВКонтакте" (как прокси для возраста самого пользователя, так как параметр "возраст" нам не предоставлен)
* *FriendsAverageHasHighSchools* - доля аккаунтов, для которых указан хотя бы один ВУЗ, среди всех аккаунтов, которые когда-либо были в друзьях.
* *FriendsAverageHasJobs* - доля аккаунтов, для которых указано хотя бы одно место работы, среди всех аккаунтов, которые когда-либо были в друзьях.
* *LifeTime* - количество дней, прошедших с даты регистрации аккаунта до последней активности.
* *MobileUsageAll* - доля входов с любых мобильных устройств среди всех зафиксированных входов в данный аккаунт.
* *MobileUsageAndroid* - доля входов в аккаунт с устройств Android среди всех зафиксированных входов с мобильных устройств.
* *MobileUsageIPad* - доля входов в аккаунт с устройств IPad среди всех зафиксированных входов с мобильных устройств.
* *MobileUsageIphone* - доля входов в аккаунт с устройств Iphone среди всех зафиксированных входов с мобильных устройств.
* *MobileUsageWinPhone* - доля входов в аккаунт с устройств WinPhone среди всех зафиксированных входов с мобильных устройств.
* *NumberOfChildren* - количество детей, указанное пользователем (Заметим, что если значение неизвестно, то фактор принимает значение 0).
* *NumberOfCompanies* - количество мест работы (компаний), указанное пользователем (Заметим, что если значение неизвестно, то фактор принимает значение 0).
* *NumberOfFollowers* - количество подписчиков (Заметим, что в случае, когда нет подписчиков, фактор принимает значение "-").
* *NumberOfFriends* - количество друзей.
* *NumberOfHighSchools* - количество ВУЗов, указанное пользователем (Заметим, что если значение неизвестно, то фактор принимает значение 0).
* *NumberOfRelatives* - количество родственников, указанное пользователем (Заметим, что если значение неизвестно, то фактор принимает значение 0).
* *Relation* - катеогриальная переменная, кодирующая семейное положение пользователя(0 - неизвестно; 1 - всё сложно; 2 - в активном поиске; 3- помолвлен; 4 - влюблен; 5 - есть друг/подруга; 6 - не женат/не замужем; 7 - женат/замужем)
* *UseScreenName* - факт использования "короткого" идентификатора страницы (0 - не используется, 1 - используется)

Во-вторых, это параметры, указывающие на интересы пользователей, которые устроены следующим образом: INTEREST_xxxxxx – доля подписок пользователя на группы VK, классифицированные по определенной теме (здесь xxxxxx); например, если половина подписок пользователя, связаны с музыкой, то его INTEREST_music будет 50%. Всего 97 параметров даного вида. 

### Решение 

**Идея:** допустим, есть потребитель, о котором у нас нет информации, в какие рестора-
ны он ходил, однако мы знаем некоторые его параметры из социальной сети "Вконтакте". Тогда с помощью метода k-ближайший соседей, мы определим похожих (по параметрас из социальной сети) на него потребителей, для которых у нас есть информация, какие рестораны они посещали. В результате мы сможем порекомендовать данному потребителю рестораны, исходя из предпочтений похожих на него людей.

#### Часть 1. Сопоставим пользователей сайта afisha.ru и профили социальной сети "Вконтакте"

In [29]:
# загрузим данные из файла "DataSet_Afisha_SN.csv"

df_af_SN = pd.read_csv('DataSet_Afisha_SN.csv', sep = ';')
print(df_af_SN.shape)

(9309, 2)


In [30]:
df_af_SN.head()

Unnamed: 0,ID_Afisha_user,ID_SN
0,www.afisha.ru/personalpage/2627134,http://facebook.com/1075523789126704
1,www.afisha.ru/personalpage/1425368,http://facebook.com/698204806958139
2,www.afisha.ru/personalpage/2696251,http://facebook.com/657938597698741
3,www.afisha.ru/personalpage/1337727,http://facebook.com/759006417567778
4,www.afisha.ru/personalpage/1024043,http://facebook.com/723866285


In [31]:
df_af_SN.tail()

Unnamed: 0,ID_Afisha_user,ID_SN
9304,www.afisha.ru/personalpage/2743714,http://vk.com/id116194449
9305,www.afisha.ru/personalpage/2896754,http://vk.com/id50389124
9306,www.afisha.ru/personalpage/2397404,http://vk.com/id256136491
9307,www.afisha.ru/personalpage/2761727,http://vk.com/id8543976
9308,www.afisha.ru/personalpage/2846176,http://vk.com/id1051051


Данные в файле "DataSet_Afisha_SN.csv" устроены следующим образом - профилю на сайте afisha.ru соответствует профиль в некоторой социальной сети.

In [32]:
# отберем только те профили сайта afisha.ru, которые соответствуют профилям "Вконтакте"
list_af_vk = []
for i in range(df_af_SN.shape[0]):
     if ('vk.com' or 'vkontakte.ru') in set(df_af_SN['ID_SN'][i].split(sep = '/')):
            list_af_vk.append([df_af_SN['ID_Afisha_user'][i],df_af_SN['ID_SN'][i]])
print('Количество профилей сайта afisha.ru, которые соответствуют профилям "Вконтакте" = '
      + str(len(list_af_vk)))

Количество профилей сайта afisha.ru, которые соответствуют профилям "Вконтакте" = 4539


In [33]:
# проверим, есть ли профили afisha.ru, которым соответствуют несколько профилей вконтакте 
set_id_not_unique = set()
for i in range(len(list_af_vk)-1):
     if list_af_vk[i][0] == list_af_vk[i+1][0]:
            set_id_not_unique.add(list_af_vk[i][0])
            
print('В выборке есть ' + str(len(sorted(set_id_not_unique))) + 
    ' пользователей afisha.ru, которые имеют два и более аккаунтов Вконтакте')

print('Выведем ссылки на этих пользователей')
print(sorted(set_id_not_unique))


В выборке есть 6 пользователей afisha.ru, которые имеют два и более аккаунтов Вконтакте
Выведем ссылки на этих пользователей
['www.afisha.ru/personalpage/118586', 'www.afisha.ru/personalpage/1788862', 'www.afisha.ru/personalpage/441407', 'www.afisha.ru/personalpage/510648', 'www.afisha.ru/personalpage/657323', 'www.afisha.ru/personalpage/892177']


In [34]:
#в выборке 6 пользователей afisha.ru, которые имеют два и более аккаунтов вконтакте,поэтому удалим их
#также оставим только тех пользователей, id которых состоит из цифр
new_list_af_vk = []
for profile in list_af_vk:
    if profile[0] not in set_id_not_unique:
        if profile[1].split(sep = "/")[3][:2] == 'id':
            new_list_af_vk.append([profile[0], profile[1].split(sep = "/")[3][2:]])

        
list_af_vk = new_list_af_vk

In [35]:
#создадим датафрэйм сопоставляющий пользователей afisha.ru и "Вконтакте"
df_af_vk = pd.DataFrame(list_af_vk)
df_af_vk.columns = ['ID_afisha', 'ID_vk']

#вместо индексов укажем ID пользователей "Вконтакте"(это понадобится для дальнейшей работы)
list_of_indexes_1 = []
for ind in list(df_af_vk['ID_vk']):
    list_of_indexes_1.append(int(ind))
df_af_vk.index = list_of_indexes_1

**Получили** датафрейм, сопоставляющий пользователей сайта afisha.ru и их профили социальной сети "Вконтакте"

In [36]:
print('Количество профилей сайта afisha.ru, которые соответствуют профилям "Вконтакте" = ' 
      + str(df_af_vk.shape[0]))
df_af_vk.head()

Количество профилей сайта afisha.ru, которые соответствуют профилям "Вконтакте" = 4525


Unnamed: 0,ID_afisha,ID_vk
42422921,www.afisha.ru/personalpage/2765266,42422921
16546298,www.afisha.ru/personalpage/2696251,16546298
346137965,www.afisha.ru/personalpage/2987219,346137965
1294183,www.afisha.ru/personalpage/136060,1294183
3229820,www.afisha.ru/personalpage/1962140,3229820


#### Часть 2. Сопоставим пользователей социальной сети "Вконтакте"  и их параметры

In [37]:
# загрузим данные из файла 'DataSet_VK_ID_ATR.csv'

df_id_ATR = pd.read_csv('DataSet_VK_ID_ATR.csv', sep = ';')
print(df_id_ATR.shape)
df_id_ATR.head(5)

(4290, 116)


Unnamed: 0,ID,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,...,INTEREST_tourism,INTEREST_travel,INTEREST_TV,INTEREST_ukraine,INTEREST_video,INTEREST_way_of_life,INTEREST_wedding_communities,INTEREST_women_communities,INTEREST_workout,INTEREST_youth_communities
0,10026122,0.89,28,0.62925,0.17687,2961,0.775,0.1828,0,0.0,...,0.0,0.0,0.0104166666667,0.0,0.0,0.00520833333333,0,0.078125,0.00520833333333,0.0
1,39124462,1.97,25,0.79545,0.12121,2531,0.78914,0.0,0,0.97571,...,0.00769230769231,0.00769230769231,0.00769230769231,0.0,0.00769230769231,0.00769230769231,0,0.0153846153846,0.0,0.0384615384615
2,13478168,1.12,25,0.60143,0.19093,2898,0.83186,0.0,0,0.94326,...,0.0,0.0,0.0,0.00854700854701,0.00854700854701,0.025641025641,0,0.042735042735,0.00854700854701,0.00854700854701
3,1020642,2.78,29,0.54768,0.26158,3206,0.81984,0.99506,0,0.0,...,0.0,0.0,0.00826446280992,0.0,0.0,0.00826446280992,0,0.00826446280992,0.0,0.0
4,2414374,1.81,25,0.71429,0.13265,3120,0.92742,0.0,0,0.98261,...,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0606060606061,0.0,0.0


In [38]:
# для параметра NumberOfFollowers заменим значение '-' на 0 (см. описание параметров)
for i in range(df_id_ATR.shape[0]):
    if df_id_ATR['NumberOfFollowers'][i] == '-':
        df_id_ATR['NumberOfFollowers'][i] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [39]:
# удалим всех пользователей с наличием значения '-' хотя бы для одного из параметров
# мы можем так сделать, так как '-' означает, что доступ к информации закрыт или аккаунт приватен
for i in range(df_id_ATR.shape[0]):
    current_set = set()
    for col_name in list(df_id_ATR.columns):
        current_set.add(df_id_ATR[col_name][i])
    if '-' in current_set:
        df_id_ATR.drop(i, inplace = True)

In [40]:
# посмотрим, сколько пользователей осталось после удаления всех пропусков
print('Количество пользователей сети "Вконтакте" после удаления всех пропусков в характеристиках = ' 
      + str(df_id_ATR.shape[0]))
df_id_ATR = df_id_ATR.reset_index(drop=True)
df_id_ATR.head()

Количество пользователей сети "Вконтакте" после удаления всех пропусков в характеристиках = 3593


Unnamed: 0,ID,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,...,INTEREST_tourism,INTEREST_travel,INTEREST_TV,INTEREST_ukraine,INTEREST_video,INTEREST_way_of_life,INTEREST_wedding_communities,INTEREST_women_communities,INTEREST_workout,INTEREST_youth_communities
0,10026122,0.89,28,0.62925,0.17687,2961,0.775,0.1828,0,0.0,...,0.0,0.0,0.0104166666667,0.0,0.0,0.00520833333333,0,0.078125,0.00520833333333,0.0
1,39124462,1.97,25,0.79545,0.12121,2531,0.78914,0.0,0,0.97571,...,0.00769230769231,0.00769230769231,0.00769230769231,0.0,0.00769230769231,0.00769230769231,0,0.0153846153846,0.0,0.0384615384615
2,13478168,1.12,25,0.60143,0.19093,2898,0.83186,0.0,0,0.94326,...,0.0,0.0,0.0,0.00854700854701,0.00854700854701,0.025641025641,0,0.042735042735,0.00854700854701,0.00854700854701
3,1020642,2.78,29,0.54768,0.26158,3206,0.81984,0.99506,0,0.0,...,0.0,0.0,0.00826446280992,0.0,0.0,0.00826446280992,0,0.00826446280992,0.0,0.0
4,2414374,1.81,25,0.71429,0.13265,3120,0.92742,0.0,0,0.98261,...,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0606060606061,0.0,0.0


In [41]:
#преобразуем категориальную переменную 'Relation' в дамми переменные
df_dummy_relation = pd.get_dummies(df_id_ATR['Relation'], prefix = 'Relation')
df_dummy_relation.head()

Unnamed: 0,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [42]:
# добавим дамми переменные к df_id_ATR и удалим переменную 'Relation'
del df_id_ATR['Relation']
df_id_ATR = pd.concat([df_id_ATR, df_dummy_relation], axis=1, join='inner')
df_id_ATR.head()

Unnamed: 0,ID,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,...,INTEREST_workout,INTEREST_youth_communities,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
0,10026122,0.89,28,0.62925,0.17687,2961,0.775,0.1828,0,0.0,...,0.00520833333333,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,39124462,1.97,25,0.79545,0.12121,2531,0.78914,0.0,0,0.97571,...,0.0,0.0384615384615,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,13478168,1.12,25,0.60143,0.19093,2898,0.83186,0.0,0,0.94326,...,0.00854700854701,0.00854700854701,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,1020642,2.78,29,0.54768,0.26158,3206,0.81984,0.99506,0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2414374,1.81,25,0.71429,0.13265,3120,0.92742,0.0,0,0.98261,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [43]:
# вместо индексов укажем ID пользователей "Вконтакте"
list_of_indexes_2 = []
for ind in list(df_id_ATR['ID']):
    list_of_indexes_2.append(int(ind))
df_id_ATR.index = list_of_indexes_2
df_id_ATR = df_id_ATR[list(df_id_ATR.columns)[1:]]
df_id_ATR.head()

Unnamed: 0,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,MobileUsageWinPhone,...,INTEREST_workout,INTEREST_youth_communities,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
10026122,0.89,28,0.62925,0.17687,2961,0.775,0.1828,0,0.0,0,...,0.00520833333333,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
39124462,1.97,25,0.79545,0.12121,2531,0.78914,0.0,0,0.97571,0,...,0.0,0.0384615384615,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
13478168,1.12,25,0.60143,0.19093,2898,0.83186,0.0,0,0.94326,0,...,0.00854700854701,0.00854700854701,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1020642,2.78,29,0.54768,0.26158,3206,0.81984,0.99506,0,0.0,0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2414374,1.81,25,0.71429,0.13265,3120,0.92742,0.0,0,0.98261,0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Часть 3. Сопоставим пользователей сайта afisha.ru и их параметры из социальной сети "Вконтакте"

In [45]:
# объединим датасеты полученные в части 1 и части 2
df_af_vkATR = pd.concat([df_id_ATR, df_af_vk], axis=1, join='inner')
df_af_vkATR.head()

Unnamed: 0,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,MobileUsageWinPhone,...,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7,ID_afisha,ID_vk
42422921,1.38,31,0.52663,0.23669,2496,0.75301,0.16,0.0,0.824,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,www.afisha.ru/personalpage/2765266,42422921
16546298,2.13,25,0.59483,0.20259,2829,0.29893,0.78571,0.0,0.0,0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,www.afisha.ru/personalpage/2696251,16546298
1294183,2.25,31,0.58571,0.23571,3177,0.58182,0.0,0.0,0.0,1,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,www.afisha.ru/personalpage/136060,1294183
3229820,2.44,26,0.51585,0.24784,3090,0.73872,0.0,0.0,0.99035,0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,www.afisha.ru/personalpage/1962140,3229820
4307278,1.6,29,0.50394,0.30709,3064,0.6,0.0,0.02151,0.97849,0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,www.afisha.ru/personalpage/2178605,4307278


In [46]:
# удалим ID из социальной сети "Вконтакте" и в качестве индексов возьмем ID с сайта afisha.ru 
df_af_vkATR.index = list(df_af_vkATR['ID_afisha'])
df_af_vkATR = df_af_vkATR[list(df_af_vkATR.columns)[:-2]]
print('Количество пользователей сайта afisha.ru, имеющих заполненный профиль социальной сети "Вконтакте" = '
      + str(df_af_vkATR.shape[0]))
df_af_vkATR.head()

Количество пользователей сайта afisha.ru, имеющих заполненный профиль социальной сети "Вконтакте" = 3587


Unnamed: 0,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,MobileUsageWinPhone,...,INTEREST_workout,INTEREST_youth_communities,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
www.afisha.ru/personalpage/2765266,1.38,31,0.52663,0.23669,2496,0.75301,0.16,0.0,0.824,0,...,0.00154320987654,0.0262345679012,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
www.afisha.ru/personalpage/2696251,2.13,25,0.59483,0.20259,2829,0.29893,0.78571,0.0,0.0,0,...,0.0,0.0372208436725,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
www.afisha.ru/personalpage/136060,2.25,31,0.58571,0.23571,3177,0.58182,0.0,0.0,0.0,1,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/1962140,2.44,26,0.51585,0.24784,3090,0.73872,0.0,0.0,0.99035,0,...,0.0,0.0454545454545,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/2178605,1.6,29,0.50394,0.30709,3064,0.6,0.0,0.02151,0.97849,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


#### Часть 4. Сопоставим пользователей сайта afisha.ru и рестораны, которые они посещали

In [47]:
# Воспользуемся сделанной выше предобработкой файла DataSet_Rest_User.csv
# Получим таблицу, где по вертикали будут посетители, а по горизонтали - рестораны
# На пересечении ставится 1, если потребитель посещал соответствующий ресторан, и 0, если нет.

df_af_REST = Frame.replace(np.nan,0) 
print(df_af_REST.shape)
df_af_REST.head()

(10446, 4535)


Unnamed: 0,http://www.afisha.ru/msk/restaurant/15958/,http://www.afisha.ru/msk/restaurant/218258/,http://www.afisha.ru/msk/restaurant/19998/,http://www.afisha.ru/msk/restaurant/75769/,http://www.afisha.ru/msk/restaurant/42248/,http://www.afisha.ru/msk/restaurant/60163/,http://www.afisha.ru/msk/restaurant/74038/,http://www.afisha.ru/msk/restaurant/47066/,http://www.afisha.ru/msk/restaurant/49077/,http://www.afisha.ru/msk/restaurant/140263/,...,http://www.afisha.ru/msk/restaurant/73183/,http://www.afisha.ru/msk/restaurant/73797/,http://www.afisha.ru/msk/restaurant/75762/,http://www.afisha.ru/msk/restaurant/75774/,http://www.afisha.ru/msk/restaurant/140223/,http://www.afisha.ru/msk/restaurant/140300/,http://www.afisha.ru/msk/restaurant/151092/,http://www.afisha.ru/msk/restaurant/152437/,http://www.afisha.ru/msk/restaurant/173385/,http://www.afisha.ru/msk/restaurant/300940/
www.afisha.ru/personalpage/3008125,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2993572,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2627134,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/2560943,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
www.afisha.ru/personalpage/3034211,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


#### Часть 5. Отберем пользователей сайта afisha.ru, для которых одновременно есть информация о ресторанах, которые они посещали, и о параметрах социальной сети "Вконтакте"

In [48]:
# посмотрим, сколько есть таких пользователей в наших данных
af_REST_set = set(df_af_REST.index)
af_vkATR_set = set(df_af_vkATR.index)
final_user_set = af_REST_set.intersection(af_vkATR_set)
print('Количество пользователей сайта afisha.ru, для которых одновременно есть информация о ' +
      'ресторанах, которые они посещали, и о параметрах социальной сети "Вконтакте" = ' +
      str(len(final_user_set)))

Количество пользователей сайта afisha.ru, для которых одновременно есть информация о ресторанах, которые они посещали, и о параметрах социальной сети "Вконтакте" = 2289


In [49]:
# для решения задачи оставим только вышеописанных пользователей
df_AFwithRESTinfo_vkATR = df_af_vkATR
for user in list(df_AFwithRESTinfo_vkATR.index):
    if user not in final_user_set:
        df_AFwithRESTinfo_vkATR.drop(user, inplace = True)

**Подведем некоторый итог.**

* Во-первых, датафрейм df_AFwithRESTinfo_vkATR содержит данные пользователей сайта afisha.ru, для которых одновременно есть информация о ресторанах, которые они посещали, и о параметрах социальной сети "Вконтакте": по горизонтали - Id пользователей с сайта afisha.ru (2289 пользователей); по вертикали - параметры из социальной сети "Вконтакте" (122 параметра). 
*Note: При помощи этих данных мы будем осуществлять поиск похожих пользователей*

In [50]:
print(df_AFwithRESTinfo_vkATR.shape)
df_AFwithRESTinfo_vkATR.head()

(2289, 122)


Unnamed: 0,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,MobileUsageWinPhone,...,INTEREST_workout,INTEREST_youth_communities,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
www.afisha.ru/personalpage/2765266,1.38,31,0.52663,0.23669,2496,0.75301,0.16,0.0,0.824,0,...,0.00154320987654,0.0262345679012,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
www.afisha.ru/personalpage/2696251,2.13,25,0.59483,0.20259,2829,0.29893,0.78571,0.0,0.0,0,...,0.0,0.0372208436725,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
www.afisha.ru/personalpage/136060,2.25,31,0.58571,0.23571,3177,0.58182,0.0,0.0,0.0,1,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/1962140,2.44,26,0.51585,0.24784,3090,0.73872,0.0,0.0,0.99035,0,...,0.0,0.0454545454545,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/2178605,1.6,29,0.50394,0.30709,3064,0.6,0.0,0.02151,0.97849,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


* Во-вторых, датафрейм df_af_REST содержит информацию о том, какие рестораны посетили пользователи сайта  afisha.ru. *Note: при помощи этих данных мы будем давать рекомендации*

#### Часть 6. Предобработка данных для использования метода k ближайших соседей

Будем применять метод k ближайших соседей для пользователей из датафрейма df_AFwithRESTinfo_vkATR, для чего необходимо сделать следующую предобработку:
* провести шкалирование данных (алгоритм MinMaxScaler)
* перемешать выборку и взять 99% для обучения (это будет база для поиска похожих пользователей) и 1%(23 профиля) для демонстрации результатов

In [53]:
# шкалирование данных (алгоритм MinMaxScaler)
from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
list_scaled_col = []
for col in list(df_AFwithRESTinfo_vkATR.columns):
    list_scaled_col.append(min_max_scaler.fit_transform(df_AFwithRESTinfo_vkATR[col]))

In [54]:
scaled_data = pd.DataFrame(list_scaled_col)
scaled_data = scaled_data.transpose()
scaled_data.index = df_AFwithRESTinfo_vkATR.index
scaled_data.columns = df_AFwithRESTinfo_vkATR.columns
print(scaled_data.shape)
scaled_data.head()

(2289, 122)


Unnamed: 0,ActivityIndex,AverageFriendsAge,FriendsAverageHasHighSchools,FriendsAverageHasJobs,LifeTime,MobileUsageAll,MobileUsageAndroid,MobileUsageIPad,MobileUsageIphone,MobileUsageWinPhone,...,INTEREST_workout,INTEREST_youth_communities,Relation_0,Relation_1,Relation_2,Relation_3,Relation_4,Relation_5,Relation_6,Relation_7
www.afisha.ru/personalpage/2765266,0.188285,0.454545,0.592458,0.389395,0.698998,0.75301,0.16,0.0,0.824,0.0,...,0.020062,0.026235,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
www.afisha.ru/personalpage/2696251,0.292887,0.181818,0.669183,0.333295,0.80666,0.29893,0.78571,0.0,0.0,0.0,...,0.0,0.037221,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
www.afisha.ru/personalpage/136060,0.309623,0.454545,0.658923,0.387783,0.919172,0.58182,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/1962140,0.336123,0.227273,0.580331,0.407739,0.891044,0.73872,0.0,0.0,0.99035,0.0,...,0.0,0.045455,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
www.afisha.ru/personalpage/2178605,0.218968,0.363636,0.566932,0.505215,0.882638,0.6,0.0,0.023683,0.97849,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [69]:
# перемешаем выборку
from sklearn.utils import shuffle
scaled_data = shuffle(scaled_data)

# выберем 99% для обучения
train_KNN_data = scaled_data[:-23]
test_KNN_data = scaled_data[-23:]

#### Часть 7. Поиск похожих пользователей при помощи метода k ближайших соседей и построение рекомендаций


Предположим, что есть пользователь сайта  afisha.ru, про которого мы не знаем, какие рестораны он посещал, однако знаем, его признаки из профиля социальной сети "Вконтакте", тогда, чтобы сделать рекомендацию для такого пользователя, нужно: 
* Во-первых, определить на каких пользователей (про которых мы знаем, какие рестораны они посещали) он похож: для этого используем алгоритм k ближайших соседей

* Во-вторых, изучив, какие рестораны посещали похожие на него пользователи, порекомендовать ему эти рестораны (*мы будем рекомендовать объединение множества ресторанов, которые посещали похожие пользователи, так как в среднем один пользователь сайта afisha.ru посещал 1-2 ресторана*)

In [70]:
#обучим алгоритм поиска ближайших соседей на нашей базе данных (k = 5)
from sklearn.neighbors import NearestNeighbors
knn_alg = NearestNeighbors(n_neighbors = 5)
knn_alg.fit(train_KNN_data)

NearestNeighbors(algorithm='auto', leaf_size=30, metric='minkowski',
         metric_params=None, n_jobs=1, n_neighbors=5, p=2, radius=1.0)

**Демонстрация результатов 1.** 

Из тестовой выборки для демонстрации результата выберем пользователя с профилем(см. ниже):

In [78]:
print(test_KNN_data[0:1].index[0])

www.afisha.ru/personalpage/2640258


Если пройти по ссылке можно познакомиться с пользователем поближе:)

In [73]:
# выберем произвольного пользователя из выборки test_KNN_data
id_afisha = test_KNN_data[0:1].index[0]
ATR_vk = list(np.array(test_KNN_data[0:1])[0])

# определим его 5 ближайших соседей
list_index_neighbors = list(knn_alg.kneighbors([ATR_vk])[1][0])
list_id_afisha_neighbors = []
for i in list_index_neighbors:
    list_id_afisha_neighbors.append(train_KNN_data.index[i])
    
#выведем результаты поиска
print('Для пользователя с id ' + str(id_afisha))
for i in range(5):
    print('Neighbor top-' + str(i+1) + ' = ' + 
          list_id_afisha_neighbors[i])

Для пользователя с id www.afisha.ru/personalpage/2640258
Neighbor top-1 = www.afisha.ru/personalpage/2401358
Neighbor top-2 = www.afisha.ru/personalpage/3016243
Neighbor top-3 = www.afisha.ru/personalpage/2905580
Neighbor top-4 = www.afisha.ru/personalpage/1635627
Neighbor top-5 = www.afisha.ru/personalpage/2951557


In [86]:
#построим рекомендацию для данного пользователя на основе того, какие рестораны посещали похожие на него люди

list_recom = []
for col in df_af_REST.columns:
    if (df_af_REST[col][list_id_afisha_neighbors[0]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[1]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[2]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[3]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[4]] == 1):
        list_recom.append(1)
    else:
        list_recom.append(0)
print('Вас могут заинтересовать следующие рестораны: ')        
for i in range(len(list_recom)):
    if list_recom[i] == 1:
        print(df_af_REST.columns[i])

Вас могут заинтересовать следующие рестораны: 
http://www.afisha.ru/msk/restaurant/18665/
http://www.afisha.ru/msk/restaurant/17226/
http://www.afisha.ru/msk/restaurant/49413/
http://www.afisha.ru/msk/restaurant/60985/
http://www.afisha.ru/msk/restaurant/88597/
http://www.afisha.ru/msk/restaurant/175904/


**Демонстрация результатов 2.** 

Из тестовой выборки для демонстрации результата выберем другого пользователя с профилем(см. ниже):

In [83]:
print(test_KNN_data[-1:].index[0])

www.afisha.ru/personalpage/2945454


С этим пользователем также можно познакомиться поближе, если пройти по ссылке!

In [81]:
# выберем произвольного пользователя из выборки test_KNN_data
id_afisha = test_KNN_data[-1:].index[0]
ATR_vk = list(np.array(test_KNN_data[0:1])[0])

# определим его 5 ближайших соседей
list_index_neighbors = list(knn_alg.kneighbors([ATR_vk])[1][0])
list_id_afisha_neighbors = []
for i in list_index_neighbors:
    list_id_afisha_neighbors.append(train_KNN_data.index[i])
    
#выведем результаты поиска
print('Для пользователя с id ' + str(id_afisha))
for i in range(5):
    print('Neighbor top-' + str(i+1) + ' = ' + 
          list_id_afisha_neighbors[i])

Для пользователя с id www.afisha.ru/personalpage/2945454
Neighbor top-1 = www.afisha.ru/personalpage/2401358
Neighbor top-2 = www.afisha.ru/personalpage/3016243
Neighbor top-3 = www.afisha.ru/personalpage/2905580
Neighbor top-4 = www.afisha.ru/personalpage/1635627
Neighbor top-5 = www.afisha.ru/personalpage/2951557


In [82]:
#построим рекомендацию для данного пользователя на основе того, какие рестораны посещали похожие на него люди

list_recom = []
for col in df_af_REST.columns:
    if (df_af_REST[col][list_id_afisha_neighbors[0]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[1]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[2]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[3]] == 1 or
        df_af_REST[col][list_id_afisha_neighbors[4]] == 1):
        list_recom.append(1)
    else:
        list_recom.append(0)
print('Вас могут заинтересовать следующие рестораны: ')        
for i in range(len(list_recom)):
    if list_recom[i] == 1:
        print(df_af_REST.columns[i])

Вас могут заинтересовать следующие рестораны: 
http://www.afisha.ru/msk/restaurant/29562/
http://www.afisha.ru/msk/restaurant/27780/
http://www.afisha.ru/msk/restaurant/16508/
http://www.afisha.ru/msk/restaurant/20289/
http://www.afisha.ru/msk/restaurant/311469/


**Заметим,** что в данной задаче мы не вводим количество ближайших соседей, как гиперпараметр алгоритма, а изначально выбираем его равным 5 по нескольким причинам:
* Во-первых, такое количество соседей кажется нам разумным при поиске среди не самой большой выборки из 2266 человек
* Во-вторых, гиперпараметр требует проверки точности результатов, что невозможно при данной формулировке задачи (число ресторанов слишком велико - 4535 ресторанов, а один человек посещал в среднем 1-2 ресторана из выборки, из-за этого не удается построить разумную метрику качества предсказания) 
* В-третьих, вкусы людей слишком уникальны, и если будем использовать слишком большое число ближайших соседей, мы рискуем предлагать пользователю все подряд

**Выводы:** данный алгоритм позволяет давать рекомендации даже тем пользователям, про которых мы не знаем, какие рестораны они посещали. Это возможно благодаря поиску похожих пользователей и изучения их истории посещения ресторанов. Сейчас выборка для поиска похожих людей состоит из 2266 пользователей, нам кажется, что если ее увеличить, то можно будет более точно находить похожих людей, что поможет давать более точные рекомендации. 