# Implementando um Sistema de Recomendação de Filmes
## Recuperação da Informação

*Hadrizia Santos*

Nesta atividade será implementado um sistema de recomendação de filmes com base nos dados do site MovieLens, utilizando a biblioteca [surprise](http://surpriselib.com/). Ao final desse lab, deve ser possível, a partir do identificador de um usuário, recomendar 10 filmes para este usuário, além de exibir os 3 usuários mais similares a ele. 

### 1. Importar as bibliotecas necessárias, os dados a serem utilizados e particioná-los 
Como dito anteriormente, a biblioteca principal para a construção desse sistema de recomendação é a SurpriseLib. Ela provê inclusive os dados do MovieLens, que contém informações sobre avaliações de filmes pelos usuários do site. Estes dados serão particionados em treino e teste, na proporção 85% e 15%, respectivamente.

In [3]:
from operator import itemgetter
import io
import json

from surprise import KNNWithMeans, KNNWithZScore, KNNBasic, KNNBaseline
from surprise import Dataset, accuracy
from surprise.model_selection import cross_validate, train_test_split
from surprise import get_dataset_dir


# Load the movielens-100k dataset (download it if needed).
data = Dataset.load_builtin('ml-100k')

# Spliting data in train (85%) and test (15%)
trainset, testset = train_test_split(data, test_size=.15)

### 2. Definindo o treino e treinando o modelo

A biblioteca disponibiliza alguns algoritmos de treinamento, como Baseline, SVD, KNN (de várias modalidades), etc. O escolhido foi o **KNNWithMeans**, pois foi o que apresentou menor RMSE no conjunto de teste. Usei **cross-validation** com 10 repetições pois acredito que ajuda bastante no treinamento de um modelo que generalize bem.

In [4]:
# Using KNN with k = 40
algo = KNNBaseline(k=25, sim_options={'name': 'pearson_baseline', 'user_based': True})

# Run 10-fold cross-validation and print results.
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=10, verbose=True)

# Training the model
algo.fit(trainset)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline si

<surprise.prediction_algorithms.knns.KNNBaseline at 0x7fd9d0856a20>

### 3. Avaliando o modelo

Agora é hora de testar o modelo. Para isso, será usado um exemplo cuja nota já existe e comparado com a nota que o modelo preveu. O resultado foi: A nota real da avaliação é 4.0 e o modelo preveu 4.056. Acredito ser uma aproximação boa. Além disso, são exibidos os valores de RMSE nos conjuntos de treino e teste.

In [5]:
# Using an example to evaluate the model accuracy
userid = str(196)
itemid = str(302)
actual_rating = 4

pred = algo.predict(userid, itemid)
print(pred)
print ('A nota real é igual a', actual_rating, 'e a nota da predição foi', pred.est)

# evaluating on the trainset
print("\nConjunto de Treino")
train_pred = algo.test(trainset.build_testset())
accuracy.rmse(train_pred)

# evaluating on the testset
print("\nConjunto de Teste")
test_pred = algo.test(testset)
accuracy.rmse(test_pred, verbose=True)

user: 196        item: 302        r_ui = None   est = 4.17   {'actual_k': 25, 'was_impossible': False}
A nota real é igual a 4 e a nota da predição foi 4.174729579514185

Conjunto de Treino
RMSE: 0.4023

Conjunto de Teste
RMSE: 0.9147


0.9147132215516297

### 4. Recomendando filmes para um usuário e retornando os vizinhos mais próximos

Dado um usuário, filtra-se o conjunto de teste para recuperar os filmes que o usuário ainda não viu. A partir de cada filme, o modelo irá prever uma avaliação do usuário e no fim serão retornados os 10 filmes com maior avaliação prevista por ele. Desta lista, extrai-se os nomes dos filmes e depois recupera-se os 3 vizinhos mais próximos, com idade e sexo.

In [65]:
# Get the movies that user doesn't watch.
def get_unwatched_movies(userId):
    not_watched = []
    for item in testset:
        if item[1][0] != userid:
            not_watched.append(item)
    return not_watched

# convert raw ids into movie names
def read_item_names():
    file_name = get_dataset_dir() + '/ml-100k/ml-100k/u.item'
    rid_to_name = {}
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_name[line[0]] = line[1]

    return rid_to_name

# convert raw ids into user data
def id_to_user():
    file_name = get_dataset_dir() + '/ml-100k/ml-100k/u.user'
    rid_to_user = {}
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_user[line[0]] = {}
            rid_to_user[line[0]]['age'] = line[1]
            rid_to_user[line[0]]['sex'] = line[2]
    return rid_to_user

# Get 10 recommended movies
def top_10_recommended_movies(userId):
    rid_to_name = read_item_names()
    
    not_watched = get_unwatched_movies(userId)
    
    predicted_rating = []
    
    for item in not_watched:
        movie = []
        movie.append(item[1])
        name = rid_to_name[str(item[1])]
        movie.append(name)
        predition = algo.predict(userid, item[1])
        movie.append(float(predition.est))
        
        if movie not in predicted_rating:
            predicted_rating.append(movie)
    return sorted(predicted_rating, key=itemgetter(2), reverse = True)[:10]

def get_K_neighbors(userId, n_k = 3):
    n = []
    id_user = id_to_user()
    for item in algo.get_neighbors(userId, k = n_k):
        n.append(id_user[str(item)])
    return n
    

In [72]:
userId = 196
print("Filmes recomendados:")
print(top_10_recommended_movies(str(userId)))
print("\nVizinhos mais próximos:")
print(get_K_neighbors(userId, 3))

Filmes recomendados:
[['851', 'Two or Three Things I Know About Her (1966)', 5.0], ['1233', 'Nénette et Boni (1996)', 5.0], ['1347', 'Ballad of Narayama, The (Narayama Bushiko) (1958)', 5.0], ['1643', 'Angel Baby (1995)', 5.0], ['1449', 'Pather Panchali (1955)', 4.992997656161196], ['119', 'Maya Lin: A Strong Clear Vision (1994)', 4.849363887024461], ['1367', 'Faust (1994)', 4.8440863113925525], ['285', 'Secrets & Lies (1996)', 4.8042983877854475], ['1377', 'Hotel de Love (1996)', 4.78828426190351], ['8', 'Babe (1995)', 4.774763541071216]]

Vizinhos mais próximos:
[{'age': '36', 'sex': 'M'}, {'age': '51', 'sex': 'F'}, {'age': '30', 'sex': 'F'}]


In [29]:
def list_to_json(movies):
    l = []
    for item in movies:
        d = {}
        d['movieId'] = item[0]
        d['movieName'] = item[1]
        d['predRating'] = item[2]
        l.append(d)
    return l

In [75]:
def recommended_json(userId):
    d = {}
    d['movies'] = list_to_json(top_10_recommended_movies(str(userId)))
    d['users'] = get_K_neighbors(userId, 3)
    return d

In [76]:
print(recommended_json(196))

{'movies': [{'movieId': '851', 'movieName': 'Two or Three Things I Know About Her (1966)', 'predRating': 5.0}, {'movieId': '1233', 'movieName': 'Nénette et Boni (1996)', 'predRating': 5.0}, {'movieId': '1347', 'movieName': 'Ballad of Narayama, The (Narayama Bushiko) (1958)', 'predRating': 5.0}, {'movieId': '1643', 'movieName': 'Angel Baby (1995)', 'predRating': 5.0}, {'movieId': '1449', 'movieName': 'Pather Panchali (1955)', 'predRating': 4.992997656161196}, {'movieId': '119', 'movieName': 'Maya Lin: A Strong Clear Vision (1994)', 'predRating': 4.849363887024461}, {'movieId': '1367', 'movieName': 'Faust (1994)', 'predRating': 4.8440863113925525}, {'movieId': '285', 'movieName': 'Secrets & Lies (1996)', 'predRating': 4.8042983877854475}, {'movieId': '1377', 'movieName': 'Hotel de Love (1996)', 'predRating': 4.78828426190351}, {'movieId': '8', 'movieName': 'Babe (1995)', 'predRating': 4.774763541071216}], 'users': [{'age': '36', 'sex': 'M'}, {'age': '51', 'sex': 'F'}, {'age': '30', 'sex'