# Рекомендательная система на библиотеке surprise (Практика 2)

Сайт библиотеки: http://surpriselib.com/

Установки библиотеки:
```
$ pip install scikit-surprise
```
или
```
$ conda install -c conda-forge scikit-surprise```

In [1]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv("recdemo.csv", sep=";") #небольшой dataset

In [None]:
df

Unnamed: 0,id,A,B,C,D,E,F
0,1,3.0,4.0,2.0,4.0,1.0,
1,2,3.0,4.0,2.0,4.0,,2.0
2,3,,2.0,5.0,5.0,,5.0
3,4,,,,,4.0,
4,5,3.0,,2.0,4.0,4.0,
5,6,,5.0,5.0,5.0,,5.0
6,7,1.0,,,2.0,,3.0
7,8,,,,,4.0,4.0


In [None]:
df_unpivot=pd.melt(df, id_vars=['id'])
df_unpivot.head()

Unnamed: 0,id,variable,value
0,1,A,3.0
1,2,A,3.0
2,3,A,
3,4,A,
4,5,A,3.0


In [None]:
df_unpivot.dropna(inplace=True)
df_unpivot.columns=['userID', 'itemID', 'rating']

In [None]:
from surprise import Dataset
from surprise import Reader


In [None]:
reader = Reader(rating_scale=(1, 5)) # Зададим разброс оценок
data = Dataset.load_from_df(df_unpivot[['userID', 'itemID', 'rating']], reader) #создадим объект, с которым умеет работать библиотека

In [None]:
trainset = data.build_full_trainset()
testset = trainset.build_anti_testset()

$$ x_{ij}=μ+b_i+b_j+q^T_jp_i $$

https://surprise.readthedocs.io/en/stable/matrix_factorization.html

In [None]:
from surprise import SVD  

In [None]:
algo = SVD(n_factors=2,random_state=999)
predictions = algo.fit(trainset).test(testset)

In [None]:
df_unpivot1 = df_unpivot.copy()
for i in predictions:
    df_unpivot1 = df_unpivot1.append({'userID':i.uid, 'itemID': i.iid, 'rating': i.est}, ignore_index=True)

In [None]:
df_unpivot1.pivot(index='userID', columns='itemID', values='rating')

itemID,A,B,C,D,E,F
userID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,3.0,4.0,2.0,4.0,1.0,3.312456
2,3.0,4.0,2.0,4.0,3.210599,2.0
3,3.44435,2.0,5.0,5.0,3.684146,5.0
4,3.242607,3.599635,3.41523,3.784069,4.0,3.647434
5,3.0,3.490772,2.0,4.0,4.0,3.533499
6,3.676756,5.0,5.0,5.0,3.884204,5.0
7,1.0,3.194893,2.985395,2.0,3.010203,3.0
8,3.301363,3.630884,3.442314,3.798689,4.0,4.0


In [None]:
algo.pu # пользователи

array([[-0.02356038,  0.086795  ],
       [ 0.03311668, -0.06586878],
       [-0.01663012, -0.05196951],
       [ 0.17326108, -0.22112997],
       [ 0.11922751,  0.0574848 ],
       [-0.03847042, -0.02430361],
       [-0.10099924, -0.04709509],
       [-0.00974106,  0.08383197]])

In [None]:
algo.qi # фильмы

array([[-0.0499725 ,  0.20377982],
       [ 0.07260589, -0.09175883],
       [-0.0048234 , -0.06959711],
       [-0.08501758, -0.10890099],
       [ 0.16616968,  0.1825492 ],
       [ 0.00912318, -0.15003955]])

In [None]:
algo.qi.T # фильмы

array([[-0.0499725 ,  0.07260589, -0.0048234 , -0.08501758,  0.16616968,
         0.00912318],
       [ 0.20377982, -0.09175883, -0.06959711, -0.10890099,  0.1825492 ,
        -0.15003955]])

In [None]:
mu=df_unpivot.rating.mean()

In [None]:
m= algo.pu @ algo.qi.T 

In [None]:
m.shape

(8, 6)

In [None]:
i = 0
j = 5

In [None]:
mu+m[i][j]+algo.bu[i]+algo.bi[j]

3.31245613193024

## Сравнение параметров

In [None]:
from surprise import KNNBaseline
from surprise.model_selection import cross_validate

В библиотеке есть встроенные Dataset. Можно воспользоваться ими.

Возьмем Dataset movielens (Подробнее о нём https://grouplens.org/datasets/movielens/ )

In [None]:
data = Dataset.load_builtin('ml-100k')##загружем данные о фильмах

In [None]:
df = pd.DataFrame(data.raw_ratings)
df.columns = ['user', 'item', 'rating', 'timestamp']
df.head()

Unnamed: 0,user,item,rating,timestamp
0,196,242,3.0,881250949
1,186,302,3.0,891717742
2,22,377,1.0,878887116
3,244,51,2.0,880606923
4,166,346,1.0,886397596


In [None]:
for i in [1,3,5,7,20]:
    algo = KNNBaseline(k=i, verbose=False) #отключим вывод логирования
    cv=cross_validate(algo, data, measures=['RMSE'], cv=3, verbose=False)
    print(str(i)+'NN:',np.mean(cv['test_rmse']))

1NN: 1.2426586300518447
3NN: 1.0415340855946822
5NN: 0.9918657318153091
7NN: 0.9734473295688675
20NN: 0.940966101003433


In [None]:
for i in [1,2,3,5,7,10,50,70]:
    algo = SVD(n_factors=i,random_state=999, verbose=False) #отключим вывод логирования
    cv=cross_validate(algo, data, measures=['RMSE'], cv=3, verbose=False)
    print(str(i)+'-factors:',np.mean(cv['test_rmse']))

1-factors: 0.9424666189659544
2-factors: 0.9435939329600705
3-factors: 0.9429485955626742
5-factors: 0.944047741443388
7-factors: 0.9437036282187504
10-factors: 0.9436063900265164
50-factors: 0.943048775431651
70-factors: 0.9435419089201367


$$ x_{ij}=q^T_jp_i $$

https://surprise.readthedocs.io/en/stable/matrix_factorization.html

In [None]:
for i in [1,2,3,5,7,10,50,70]:
    algo = SVD(n_factors=i,biased=False,random_state=999, verbose=False) #отключим вывод логирования
    cv=cross_validate(algo, data, measures=['RMSE'], cv=3, verbose=False)
    print(str(i)+'-factors:',np.mean(cv['test_rmse']))

1-factors: 0.9681337675231441
2-factors: 0.969247102619306
3-factors: 0.9623089231349088
5-factors: 0.9605072006496022
7-factors: 0.9544680459829298
10-factors: 0.9591416567477246
50-factors: 0.958342846729939
70-factors: 0.9592871611513885


## Задание:
```
data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data, test_size=.30, random_state=999)
```
1. Для параметров i = [1,5,9,12,17,22] найдите лучший SVD (random_state=999) алгоритм по метрике MAP(n=7).

2. Сделайте прогноз по всем пользователям, который равен среднему из KNN (k=15, c корреляцией Пирсона и item-based подходом) и SVD (n = лучший из пункта 1).
Сравните по метрике MAP(n=7) полученные предсказания с kNN и SVD.