## Workflow 
##### (especificado no Canvas pelo prof. Leandro)

- Baixar os dados do MovieLens 100k (uma base contendo informações sobre filmes assistidos e avaliados por vários usuários)
- Rodar o algoritmo de filtragem colaborativa baseada no usuário (basicamente o algoritmo KNN) nesses dados. Para isso você pode usar a biblioteca [surpriselib](http://surpriselib.com/). [Aqui](http://surprise.readthedocs.io/en/stable/knn_inspired.html) você tem os algoritmos baseados em KNN que pode usar.
- O que devo entregar?
    - Link para código comentado no github.
    - Qualidade do modelo em termos de RMSE (veja seção Getting Started na página [http://surpriselib.com/](http://surpriselib.com/))
    - Uma demo web onde você passar um usuário, mostra as top-5 recomendaçõe e apresenta os três melhores vizinhos desse usuário)


## Solução

Inicialmente, vou importar as bibliotecas necessárias para implementar o código, entre elas encontra-se a biblioteca **surpriselib** mencionada acima.

In [1]:
from surprise import Dataset, evaluate
from surprise import KNNBasic
from surprise.model_selection import cross_validate
from collections import defaultdict
import os, io

#### Constantes

In [2]:
QUANTIDADE_DE_RECOMENDACOES = 5
QUANTIDADE_DE_VIZINHOS_DO_USUARIO = 3

#### Métodos Auxiliares

In [3]:
def get_top_recommendations(predictions, N = QUANTIDADE_DE_RECOMENDACOES):
    """ Este método é responsável por retornar as top N recomendações de filmes para todos os usuários baseado
    nos cálculos de predições realizados. O retorn deste método é uma lista de IDs."""
    
    top_recs = defaultdict(list)
    for uid, iid, true_r, est, _ in predictions:
        top_recs[uid].append((iid, est))
    
    for uid, user_ratings in top_recs.items():
        user_ratings.sort(key = lambda x: x[1], reverse = True)
        top_recs[uid] = user_ratings[:N]
    
    return top_recs

In [4]:
def convert_item_ids_to_names():
    """Este método converte um ID do filme para o título do filme. Visto que o método que retorna as top N recomendações
    retorna uma lista de IDs de filmes, este método se faz necessário."""
    file_name = (os.path.expanduser('~') + '/.surprise_data/ml-100k/ml-100k/u.item')
    rid_to_name = {}
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_name[line[0]] = line[1]
    return rid_to_name

#### Workflow de Solução

In [5]:
# Load do MovieLens 100K Dataset (https://grouplens.org/datasets/movielens/100k/)
data = Dataset.load_builtin("ml-100k")

# Cria o training set
training_set = data.build_full_trainset()

# Visto que trata-se de collaborative filtering baseado em usuário, seto o user_based com True
sim_options = {
  'name': 'pearson_baseline',
  'user_based': True
}

# Algoritmo utilizado é o k-NN
knn = KNNBasic(sim_options=sim_options)

# Treina o training set
knn.fit(training_set)

# Cria o test set
test_set = training_set.build_anti_testset()

predictions = knn.test(test_set)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.


In [6]:
# 5 top recomendações de todos os usuários
top_recommendations = get_top_recommendations(predictions)

In [7]:
# converte IDs de filmes em títulos de filmes
ids_to_names = convert_item_ids_to_names()

In [16]:
# Entrada de ID de usuário via linha de comando
# uid = str(input("Digite um ID: "))

uid = "941"

In [17]:
# Imprime os nomes dos filmes recomendados para o usuário acima
for mid, rating in top_recommendations[uid]:
    print(ids_to_names[mid])

Prefontaine (1997)
Santa with Muscles (1996)
Boys, Les (1997)
Great Day in Harlem, A (1994)
Underground (1995)


In [18]:
# Apresenta os Top 3 usuarios mais similares ao usuário acima
neighbors = knn.get_neighbors(knn.trainset.to_inner_iid(uid), k=QUANTIDADE_DE_VIZINHOS_DO_USUARIO)
print(neighbors)

[285, 825, 97]


Agora vamos fazer um teste... visto que os usuários 285 e 97 são similares ao usuário 941, vamos checar os filmes deles.

In [19]:
for mid, rating in top_recommendations["285"]:
    print(ids_to_names[mid])

Prefontaine (1997)
Santa with Muscles (1996)
Little City (1998)
Entertaining Angels: The Dorothy Day Story (1996)
They Made Me a Criminal (1939)


In [21]:
for mid, rating in top_recommendations["97"]:
    print(ids_to_names[mid])

Whole Wide World, The (1996)
Prefontaine (1997)
Maya Lin: A Strong Clear Vision (1994)
Fear of a Black Hat (1993)
Aiqing wansui (1994)


Opa, perceba que há filmes em comum entre os 3 usuários, isso é um bom sinal em relação ao algoritmo!

##### Agora, vamos verificar a qualidade do modelo em termos de RMSE:

In [None]:
cross_validate(knn, data, measures=['RMSE'], cv=5, verbose=False)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
