# 2. Recomendação via factorização de matrizes (SVD)

Vamos utilizar a biblioteca Sickit Surprise (http://surpriselib.com/) que abstrai vários algoritmos de recomendação que podemos utilizar para prototipar e validar.

In [18]:
%matplotlib inline

from surprise import SVD, Dataset, print_perf
from surprise.evaluate import evaluate
from surprise.dataset import Reader

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import math

In [25]:
# Carregando tabelas
users = pd.read_csv("../data/users.csv")
reviews = pd.read_csv("../data/reviews.csv")
places = pd.read_csv("../data/places.csv")

# Carregando `reviews` no formato especificado pela lib surprise
reader = Reader(line_format="user item rating", sep=",", rating_scale=(1, 5), skip_lines=1)
reviews_set = Dataset.load_from_file("../data/reviews.csv", reader=reader)

In [26]:
reviews.head()

Unnamed: 0,uid,pid,review
0,1,2,4
1,1,3,2
2,1,4,2
3,1,6,2
4,1,7,2


In [34]:
# Avaliando performance do algoritmo SVD (Single Value Decomposition)
# RMSE = root mean square error
# MAE = mean absolute error
algo = SVD()
evaluate(algo, reviews_set, measures=['RMSE', 'MAE'])

Evaluating RMSE, MAE of algorithm SVD.

------------
Fold 1
RMSE: 1.5457
MAE:  1.2750
------------
Fold 2
RMSE: 1.4971
MAE:  1.3795
------------
Fold 3
RMSE: 1.6594
MAE:  1.6017
------------
Fold 4
RMSE: 1.5593
MAE:  1.2290
------------
Fold 5
RMSE: 1.5939
MAE:  1.3921
------------
------------
Mean RMSE: 1.5711
Mean MAE : 1.3755
------------
------------
user: 1          item: 2          r_ui = 4.00   est = 2.65   {'was_impossible': False}


In [None]:
# Construindo dataset para treinar o algoritmo (i.e.: calcular pesos baseado nas features)
trainset = reviews_set.build_full_trainset()
algo.train(trainset)

In [39]:
places.head()

Unnamed: 0,id,name,category
0,1,Sushi do Samurai,Comida Japonesa
1,2,Temaki do Naruto,Comida Japonesa
2,3,Pizzaria Brasil,Pizzaria
3,4,Pizzaria do Chapéu,Pizzaria
4,5,Pizza Rápida,Pizzaria


In [57]:
# Prevendo rating do usuário 'Allan' para 'Sushi do Samurai' e 'Temaki do Naruto'
allan = 1
sushi_do_samurai = 1
temaki_do_naruto = 2
actual_rating = 4

# Previsão para 
p1 = algo.predict(allan, sushi_do_samurai)
p2 = algo.predict(allan, temaki_do_naruto, actual_rating)

print("Previsão para 'Sushi do Samurai' é " + str(p1.est))
print("Previsão para 'Temaki do Naruto' é " + str(p2.est))


Previsão para 'Sushi do Samurai' é 2.65
Previsão para 'Temaki do Naruto' é 2.65


# Quanto mais dados melhor: exemplo com MovieLens100k

Vamos aplicar em uma base de testes maior para avaliar a performance de acordo com o volume de informações. 
A base de avaliações de filmes 'MovileLens100k' fornecido pelo Grouplens (https://grouplens.org/) contém MovieLens uma base de dados com 100 mil avaliações de 1000 usuários diferentes sobre 1700 filmes lançados até Abril de 1998.

In [60]:
# Define the format
reader = Reader(line_format='user item rating timestamp', sep='\t')

# Load the data from the file using the reader format
data = Dataset.load_from_file('../data/ml-100k/u.data', reader=reader)
algo = SVD()
evaluate(algo, data, measures=['RMSE', 'MAE'])

Evaluating RMSE, MAE of algorithm SVD.

------------
Fold 1
RMSE: 0.9341
MAE:  0.7379
------------
Fold 2
RMSE: 0.9331
MAE:  0.7377
------------
Fold 3
RMSE: 0.9335
MAE:  0.7377
------------
Fold 4
RMSE: 0.9410
MAE:  0.7401
------------
Fold 5
RMSE: 0.9410
MAE:  0.7382
------------
------------
Mean RMSE: 0.9365
Mean MAE : 0.7383
------------
------------
user: 196        item: 302        r_ui = 4.00   est = 3.47   {'was_impossible': False}


In [None]:
# Retrieve the trainset
trainset = data.build_full_trainset()
algo.train(trainset)

In [None]:
# Predict
userid = str(196)
itemid = str(302)
actual_rating = 4
print(algo.predict(userid, 302, 4))