# Projeto de sistema de recomendação de filmes

A estrutura do código e ideias que o motivaram encontra-se no arquivo "structure.ipynb".

O dataset utilizado é o MovieLens, cujo detalhamento pode ser encontrado no link http://files.grouplens.org/datasets/movielens/ml-20m-README.html


## Passo 1) Lendo o dataset


Os arquivos são disponibilizados no formato '.csv'. Assim, faremos a leitura dos arquivos com a biblioteca Pandas. 

Deve, neste ponto, também ser separado um conjunto utilizado para a recomendação e outro para a avaliação do sistema. Com o auxílio da biblioteca Scikit-learn, o método de divisão estratificada será utilizado para manter a proporção de avaliações para todos os usuários em ambos os conjuntos. Eles serão divididos à proporção de 70% treino e 30% teste, ficando com cerca de 14mi de avaliações no conjunto principal e 6mi de avaliações no conjunto de teste.

In [None]:
# Importando os pacotes necessários
import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedShuffleSplit
#import matplotlib.pyplot as plt
import re

#%matplotlib inline

In [None]:
# Lendo os arquivos
ratings = pd.read_csv('ml-20m/ratings.csv')
movies = pd.read_csv('ml-20m/movies.csv')
#tags = pd.read_csv('ml-20m/tags.csv')

# Mesclando os dados dos filmes com as avaliações
ratings_movies_all = pd.merge(ratings, movies, on='movieId').drop('timestamp', axis=1)

# Separando os índices para os conjuntos de treino e teste
split = StratifiedShuffleSplit(n_splits=1,test_size=0.3)
indices_train, indices_test = next(split.split(np.zeros(len(ratings_movies_all['userId'])), ratings_movies_all['userId']))

# Definindo o conjunto de treino, ou principal
ratings_movies = ratings_movies_all.iloc[indices_train]
ratings_movies

In [None]:
# Definindo o conjunto de testes
ratings_movies_test = ratings_movies_all.iloc[indices_test]
ratings_movies_test

## Passo 2) Como explorar os dados?

Neste ponto a intenção é conhecer melhor os dados, explorando através de questões. Primeiro respondemos questões simples e mais genéricas, como os 10 filmes com mais avaliações 5 estrelas. Depois partimos para questões mais complexas relacionadas a preferência geral.

Deste ponto em diante serão utilizados somente os dados do conjunto de treino para que não haja interferência na avaliação do sistema de recomendação.

In [None]:
# Filtrar os 10 filmes com maior NÚMERO de avaliações 5 estrelas, listando-os pelo título:
top_5star_movies = ratings_movies[ratings_movies['rating'] > 4.5]['title'].value_counts()[0:10]
top_5star_movies

In [None]:
# Os 20 filmes com maior MÉDIA de estrelas, listando-os pelo título:
top_meanstar = ratings_movies.groupby('title').agg({'rating': [np.size, np.mean]})
top_meanstar.sort_values([('rating', 'mean')], ascending=False).head(20)

##### Diferença entre usar o número de avaliações 5 estrelas e a média de estrelas por filme:

Ao utilizar a número de avaliações 5 estrelas nós selecionamos os títulos mais populares e bem avaliados, entretanto, podem ficar subamostrados os bons títulos mas com poucas avaliações. Neste ponto supre tal necessidade o uso da média de estrelas por título, mas este último método também oferece a desvantagem de selecionar títulos que não são populares e também títulos que tiveram pouquissimas avaliações, contudo positivas. Por isso, decidiu-se utilizar o número de avaliações 5 estrelas como forma de selecionar filmes bons e populares, sem o risco de oferecer filmes de pouco interesse geral.

### Questões relacionadas aos gêneros

* Quais os filmes com mais avaliações 5 estrelas dentro de cada gênero?

* Quando agregado outro gênero estes filmes mudam radicalmente?


In [None]:
# Um exemplo para filtrar os filmes por gênero e por mais avaliações 5 estrelas, listando-os pelo título:
top_5star_drama = ratings_movies[ratings_movies['genres'].str.contains('Drama')][ratings_movies['rating'] > 4.5]['title'].value_counts()[0:10]
top_5star_drama

In [None]:
# Um exemplo para filtrar os filmes por mais de um gênero e por mais avaliações 5 estrelas, listando-os pelo título:
top_5star_drama_romance = ratings_movies[ratings_movies['genres'].str.contains('Drama' and 'Romance')][ratings_movies['rating'] > 4.5]['title'].value_counts()[0:10]
top_5star_drama_romance

In [None]:
top_5star_drama_crime = ratings_movies[ratings_movies['genres'].str.contains('Drama' and 'Crime')][ratings_movies['rating'] > 4.5]['title'].value_counts()[0:10]
top_5star_drama_crime

Através das duas listas de filmes geradas observamos que a inclusão de um segundo gênero muda sensivelmente os filmes no ranking. Se tal observação se repetir para outras combinações de gêneros, devemos considerar que talvez um gênero não seja o suficiente para geram uma lista de recomendações de filmes para um determinado usuário. 

### Questões relacionadas a preferência por gênero

* Usuários avaliam apenas um gênero, ou mais gêneros? Eles gostam desses gêneros? O quão importante é o gênero na escolha e avaliação do filme?

Para responder a tal pergunta nós seguiremos as seguintes etapas: 

 1. Determinar o número de avaliações por gênero e usuário
 
 2. Determinar a participação de cada gênero no número de avaliações de cada usuário
 
 3. Encontrar quais os gêneros que compõe a maior parte das avaliações do usuário
 
 4. Determinar a avaliação média do usuário para cada gênero identificado
 
 5. Metrificar a importância do gênero na escolha e na avaliação do filme através dos dados anteriores, por exemplo a média de número de gêneros considerados importantes e a médias das avaliações em tais gêneros.



In [None]:
# 1. Determinando o número de avaliações por gênero para cada usuário

# 1a) definindo todos os gêneros que existem:
genre_labels = set()
for s in ratings_movies['genres'].str.split('|').values:
    genre_labels = genre_labels.union(set(s))

# 1b) desmembrando todos os gêneros em colunas separadas
genres_df = pd.DataFrame(dict((genre, ratings_movies['genres'].str.contains(genre, re.IGNORECASE))
                             for genre in genre_labels))
ratings_movies_expand = genres_df.join(ratings_movies)

# 1c) contar quantas vezes os gêneros são verdadeiros por usuário
n_gen_user = ratings_movies_expand.groupby('userId').agg({genre:[np.sum] for genre in genre_labels})

In [None]:
# 2. Determinando a participação percentual de cada gênero no número de avaliações de cada usuário
n_gen_user['total'] = n_gen_user.apply(sum, axis=1)
tax_gen_user = n_gen_user.div(n_gen_user['total'], axis=0).mul(100)

In [None]:
# 3. Encontrando qual(is) gênero(s) que compõe(m) a maior parte das avaliações do usuário
tax_pref = tax_gen_user.drop('total', axis=1)
preference = pd.DataFrame()
preference['genre_max'] = tax_pref.apply(np.argmax, axis=1)
preference['value_max'] = tax_pref.apply(np.amax, axis=1)

preference.head()

In [None]:
i=0
for i in range(len(preference['genre_max'])):
    tax_pref.iloc[i,'genre_max'] == 0

In [None]:
# 4. Determinar a avaliação média do usuário para cada gênero identificado

In [None]:
# 5. Metrificar a importância do gênero na escolha e na avaliação do filme

## Passo 3) Sistema de recomendação

O sistema de recomendação será baseado primeiramente no(s) gênero(s) que o usuário mais avalia, e depois no número de avaliações 5 estrelas dadas pelo universo de usuários.

O sistema seguirá os seguintes passos:

1. Filtrar lista de filmes que possuem o(s) gênero(s) de preferência do usuário e avaliação maior que 4.5

2. Excluir os filmes que o usuário já assitiu

3. Fazer um ranking desta lista de filmes de acordo com o número de avaliações 5 estrelas

4. Sugerir os filmes no topo do ranking (1 ou mais)

In [None]:
# exemplo com um usuário:
user = 3
pref_genre = 'Sci-Fi'

# 1. Filtrar lista de filmes que possuem o gênero definido e avaliação 5 estrelas
suggestion = ratings_movies[ratings_movies['genres'].str.contains(pref_genre)][ratings_movies['rating'] > 4.5]

# 2. Excluir o que o usuário já assistiu
viewed = ratings_movies[ratings_movies['userId'] == user]['movieId']

for movie in viewed:
    suggestion = suggestion[suggestion['movieId'] != movie]

# 3 e 4. Rankear pelo maior número de avaliações 5 estrelas e sugerir os melhores
n_suggestions = 5
final_suggestion = suggestion['title'].value_counts()[:n_suggestions]
final_suggestion

## Passo 3) Avaliação

Para fazer a avaliação será utilizado o conjunto de teste definido no início. Este conjunto contém avaliações de todos os usuários em um percentual de 30% em relação ao total de avaliações. 
A avaliação seguirá os seguintes passos.

1. Determinar se os filmes sugeridos constam no conjunto de teste para cada usuário.

2. Se houver filmes sugeridos no conjunto de testes, somar e fazer a média do número de estrelas dadas a estes filmes pelo usuário.

Estes números obtidos para cada usuário para cada usuário poderá ser manipulado para se tornar um índice único para avaliação do sistema ou avaliado para todos os usuários correlacionando-os com outros dados como o gênero de preferência, ou ainda ao índice de importância do gênero definido na exploração inicial dos dados.


In [None]:
# 1. Determinar se os filmes sugeridos constam no conjunto de teste para cada usuário

# 1a) Listar as avaliações do conjunto de testes do usuário.
test_viewed = ratings_movies_test[ratings_movies_test['userId'] == user] 

# 1b) Verificar o que foi sugerido pelo sistema de recomendação 
evaluate = np.zeros(len(test_viewed), dtype=bool)
i = 0
for movie in test_viewed['title']:
    evaluate[i] = movie in final_suggestion
    i = i+1
test_viewed['saw'] = evaluate
test_viewed.head()

In [None]:
# 2. Se houver filmes sugeridos no conjunto de testes, somar o número de estrelas dadas a estes filmes pelo usuário.
sum_rating_sugg = test_viewed[test_viewed['saw'] == True]['rating'].sum()
mean_rating_sugg = test_viewed[test_viewed['saw'] == True]['rating'].mean()
print('Soma das estrelas dadas aos filmes sugeridos: ', sum_rating_sugg, 'de 25.0')
print('Média de estrelas dadas aos filmes sugeridos: ', mean_rating_sugg)