# <img align="left" src="./images/film_strip_vertical.png" style=" width:40px; " > Laboratório prático: aprendizado profundo para filtragem baseada em conteúdo

Neste exercício, você implementará a filtragem baseada em conteúdo usando uma rede neural para construir um sistema de recomendação para filmes.


# Outline
- [ 1 - Pacotes ](#1)
- [ 2 - Conjunto de dados de classificações de filmes ](#2)
- [ 3 - Filtragem baseada em conteúdo com uma rede neural](#3)
   - [3.1 Dados de treinamento](#3.1)
   - [3.2 Preparando os dados de treinamento](#3.2)
- [ 4 - Rede Neural para filtragem baseada em conteúdo](#4)
   - [Exercício 1](#ex01)
- [ 5 - Previsões](#5)
   - [ 5.1 - Previsões para um novo usuário](#5.1)
   - [ 5.2 - Previsões para um usuário existente.](#5.2)
   - [5.3 - Encontrando Itens Semelhantes](#5.3)
     - [Exercício 2](#ex02)
- [ 6 - Parabéns! ](#6)

>_**OBSERVAÇÃO:** Para evitar erros do autoavaliador, você não tem permissão para editar ou excluir células não avaliadas neste laboratório. Evite também adicionar novas células.
**Depois de ser aprovado nesta tarefa** e quiser experimentar qualquer um dos códigos não avaliados, siga as instruções na parte inferior deste caderno._

<a name="1"></a>
## 1 - Pacotes <img align="left" src="./images/movie_camera.png" style=" width:40px; ">
Usaremos pacotes familiares, NumPy, TensorFlow e rotinas úteis de [scikit-learn](https://scikit-learn.org/stable/). Também usaremos [tabular](https://pypi.org/project/tabulate/) para imprimir tabelas e [Pandas](https://pandas.pydata.org/) para organizar dados tabulares.

In [1]:
import numpy as np
import numpy.ma as ma
import pandas as pd
import tensorflow as tf
from tensorflow import keras
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
import tabulate
from recsysNN_utils import *
pd.set_option("display.precision", 1)

<a name="2"></a>
## 2 - Conjunto de dados de classificação de filmes <img align="left" src="./images/film_rating.png" style=" width:40px;" >
O conjunto de dados é derivado do conjunto de dados [MovieLens ml-latest-small](https://grouplens.org/datasets/movielens/latest/).

[F. Maxwell Harper e Joseph A. Konstan. 2015. Conjuntos de dados do MovieLens: história e contexto. Transações ACM em Sistemas Inteligentes Interativos (TiiS) 5, 4: 19:1–19:19. <https://doi.org/10.1145/2827872>]

O conjunto de dados original tem cerca de 9.000 filmes avaliados por 600 usuários com classificações em uma escala de 0,5 a 5 em incrementos de 0,5 passos. O conjunto de dados foi reduzido em tamanho para se concentrar em filmes dos anos desde 2000 e gêneros populares. O conjunto de dados reduzido tem $n_u = 397$ usuários, $n_m= 847$ filmes e 25521 avaliações. Para cada filme, o conjunto de dados fornece um título de filme, data de lançamento e um ou mais gêneros. Por exemplo, "Toy Story 3" foi lançado em 2010 e tem vários gêneros: "Aventura|Animação|Infantil|Comédia|Fantasia". Este conjunto de dados contém poucas informações sobre usuários além de suas avaliações. Este conjunto de dados é usado para criar vetores de treinamento para as redes neurais descritas abaixo.
Vamos aprender um pouco mais sobre esse conjunto de dados. A tabela abaixo mostra os 10 melhores filmes classificados pelo número de avaliações. Esses filmes também têm classificações médias altas. Quantos desses filmes você já assistiu?

In [2]:
top10_df = pd.read_csv("./data/content_top10_df.csv")
bygenre_df = pd.read_csv("./data/content_bygenre_df.csv")
top10_df

Unnamed: 0,movie id,num ratings,ave rating,title,genres
0,4993,198,4.1,"Lord of the Rings: The Fellowship of the Ring,...",Adventure|Fantasy
1,5952,188,4.0,"Lord of the Rings: The Two Towers, The",Adventure|Fantasy
2,7153,185,4.1,"Lord of the Rings: The Return of the King, The",Action|Adventure|Drama|Fantasy
3,4306,170,3.9,Shrek,Adventure|Animation|Children|Comedy|Fantasy|Ro...
4,58559,149,4.2,"Dark Knight, The",Action|Crime|Drama
5,6539,149,3.8,Pirates of the Caribbean: The Curse of the Bla...,Action|Adventure|Comedy|Fantasy
6,79132,143,4.1,Inception,Action|Crime|Drama|Mystery|Sci-Fi|Thriller
7,6377,141,4.0,Finding Nemo,Adventure|Animation|Children|Comedy
8,4886,132,3.9,"Monsters, Inc.",Adventure|Animation|Children|Comedy|Fantasy
9,7361,131,4.2,Eternal Sunshine of the Spotless Mind,Drama|Romance|Sci-Fi


A tabela a seguir mostra as informações classificadas por gênero. O número de classificações por gênero varia substancialmente. Observe que um filme pode ter vários gêneros, portanto, a soma das classificações abaixo é maior que o número de classificações originais.

In [3]:
bygenre_df

Unnamed: 0,genre,num movies,ave rating/genre,ratings per genre
0,Action,321,3.4,10377
1,Adventure,234,3.4,8785
2,Animation,76,3.6,2588
3,Children,69,3.4,2472
4,Comedy,326,3.4,8911
5,Crime,139,3.5,4671
6,Documentary,13,3.8,280
7,Drama,342,3.6,10201
8,Fantasy,124,3.4,4468
9,Horror,56,3.2,1345


<a name="3"></a>
## 3 - Filtragem baseada em conteúdo com rede neural

No laboratório de filtragem colaborativa, você gerou dois vetores, um vetor de usuário e um vetor de item/filme cujo produto escalar preveria uma classificação. Os vetores foram derivados apenas das classificações.

A filtragem baseada em conteúdo também gera um vetor de recurso de usuário e filme, mas reconhece que pode haver outras informações disponíveis sobre o usuário e/ou filme que podem melhorar a previsão. As informações adicionais são fornecidas a uma rede neural que gera o usuário e o vetor de filme conforme mostrado abaixo.
<figura>
     <center> <img src="./images/RecSysNN.png" style="largura:500px;altura:280px;" ></center>
</figura>

<a name="3.1"></a>
### 3.1 Dados de Treinamento
O conteúdo do filme fornecido à rede é uma combinação dos dados originais e alguns 'recursos de engenharia'. Lembre-se da discussão sobre engenharia de recursos e do laboratório do Curso 1, Semana 2, laboratório 4. Os recursos originais são do ano em que o filme foi lançado e o gênero do filme é apresentado como um vetor único. Existem 14 gêneros. O recurso projetado é uma classificação média derivada das classificações do usuário.

O conteúdo do usuário é composto de recursos de engenharia. Uma classificação média por gênero é calculada por usuário. Além disso, um ID de usuário, contagem de classificação e média de classificação estão disponíveis, mas não incluídos no treinamento ou no conteúdo de previsão. Eles são carregados com o conjunto de dados porque são úteis na interpretação dos dados.

O conjunto de treinamento consiste em todas as avaliações feitas pelos usuários no conjunto de dados. Algumas classificações são repetidas para aumentar o número de exemplos de treinamento de gêneros sub-representados. O conjunto de treinamento é dividido em duas matrizes com o mesmo número de entradas, uma matriz de usuário e uma matriz de filme/item.

Abaixo, vamos carregar e exibir alguns dos dados.

In [4]:
# Load Data, set configuration variables
item_train, user_train, y_train, item_features, user_features, item_vecs, movie_dict, user_to_genre = load_data()

num_user_features = user_train.shape[1] - 3  # remove userid, rating count and ave rating during training
num_item_features = item_train.shape[1] - 1  # remove movie id at train time
uvs = 3  # user genre vector start
ivs = 3  # item genre vector start
u_s = 3  # start of columns to use in training, user
i_s = 1  # start of columns to use in training, items
print(f"Number of training vectors: {len(item_train)}")

Number of training vectors: 50884


Vejamos as primeiras entradas na matriz de treinamento do usuário.

In [5]:
pprint_train(user_train, user_features, uvs,  u_s, maxcount=5)

[user id],[rating count],[rating ave],Act ion,Adve nture,Anim ation,Chil dren,Com edy,Crime,Docum entary,Drama,Fan tasy,Hor ror,Mys tery,Rom ance,Sci -Fi,Thri ller
2,22,4.0,4.0,4.2,0.0,0.0,4.0,4.1,4.0,4.0,0.0,3.0,4.0,0.0,3.9,3.9
2,22,4.0,4.0,4.2,0.0,0.0,4.0,4.1,4.0,4.0,0.0,3.0,4.0,0.0,3.9,3.9
2,22,4.0,4.0,4.2,0.0,0.0,4.0,4.1,4.0,4.0,0.0,3.0,4.0,0.0,3.9,3.9
2,22,4.0,4.0,4.2,0.0,0.0,4.0,4.1,4.0,4.0,0.0,3.0,4.0,0.0,3.9,3.9
2,22,4.0,4.0,4.2,0.0,0.0,4.0,4.1,4.0,4.0,0.0,3.0,4.0,0.0,3.9,3.9


Alguns dos recursos do usuário e do item/filme não são usados no treinamento. Na tabela acima, os recursos entre colchetes "[]", como "id do usuário", "contagem de classificação" e "média de avaliação", não são incluídos quando o modelo é treinado e usado.
Acima você pode ver a média de classificação por gênero para o usuário 2. Entradas zero são gêneros que o usuário não avaliou. O vetor do usuário é o mesmo para todos os filmes avaliados por um usuário.
Vejamos as primeiras entradas do array movie/item.

In [6]:
pprint_train(item_train, item_features, ivs, i_s, maxcount=5, user=False)

[movie id],year,ave rating,Act ion,Adve nture,Anim ation,Chil dren,Com edy,Crime,Docum entary,Drama,Fan tasy,Hor ror,Mys tery,Rom ance,Sci -Fi,Thri ller
6874,2003,4.0,1,0,0,0,0,1,0,0,0,0,0,0,0,1
8798,2004,3.8,1,0,0,0,0,1,0,1,0,0,0,0,0,1
46970,2006,3.2,1,0,0,0,1,0,0,0,0,0,0,0,0,0
48516,2006,4.3,0,0,0,0,0,1,0,1,0,0,0,0,0,1
58559,2008,4.2,1,0,0,0,0,1,0,1,0,0,0,0,0,0


Acima, a matriz do filme contém o ano em que o filme foi lançado, a classificação média e um indicador para cada gênero em potencial. O indicador é um para cada gênero que se aplica ao filme. O ID do filme não é usado no treinamento, mas é útil ao interpretar os dados.

In [7]:
print(f"y_train[:5]: {y_train[:5]}")

y_train[:5]: [4.  3.5 4.  4.  4.5]


O alvo, y, é a classificação do filme dada pelo usuário.

Acima, podemos ver que o filme 6874 é um filme de ação/crime/suspense lançado em 2003. O usuário 2 classifica os filmes de ação como 3,9 em média. Os usuários do MovieLens deram ao filme uma classificação média de 4. 'y' é 4, indicando que o usuário 2 avaliou o filme 6874 como 4 também. Um único exemplo de treinamento consiste em uma linha das matrizes de usuário e item e uma classificação de y_train.

<a name="3.2"></a>
### 3.2 Preparando os dados de treinamento
Lembre-se de que no Curso 1, Semana 2, você explorou o escalonamento de recursos como um meio de melhorar a convergência. Escalaremos os recursos de entrada usando o [scikit learn StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html). Isso foi usado no Curso 1, Semana 2, Laboratório 5. Abaixo, a transformação_inversa também é mostrada para produzir as entradas originais. Escalaremos as classificações de destino usando um Min Max Scaler, que dimensiona o alvo entre -1 e 1. [scikit learn MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

In [8]:
# scale training data
item_train_unscaled = item_train
user_train_unscaled = user_train
y_train_unscaled    = y_train

scalerItem = StandardScaler()
scalerItem.fit(item_train)
item_train = scalerItem.transform(item_train)

scalerUser = StandardScaler()
scalerUser.fit(user_train)
user_train = scalerUser.transform(user_train)

scalerTarget = MinMaxScaler((-1, 1))
scalerTarget.fit(y_train.reshape(-1, 1))
y_train = scalerTarget.transform(y_train.reshape(-1, 1))
#ynorm_test = scalerTarget.transform(y_test.reshape(-1, 1))

print(np.allclose(item_train_unscaled, scalerItem.inverse_transform(item_train)))
print(np.allclose(user_train_unscaled, scalerUser.inverse_transform(user_train)))

True
True


Para nos permitir avaliar os resultados, dividiremos os dados em conjuntos de treinamento e teste conforme discutido no Curso 2, Semana 3. Aqui usaremos [sklean train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) para dividir e embaralhar os dados. Observe que definir o estado aleatório inicial com o mesmo valor garante que item, usuário e y sejam embaralhados de forma idêntica.

In [9]:
item_train, item_test = train_test_split(item_train, train_size=0.80, shuffle=True, random_state=1)
user_train, user_test = train_test_split(user_train, train_size=0.80, shuffle=True, random_state=1)
y_train, y_test       = train_test_split(y_train,    train_size=0.80, shuffle=True, random_state=1)
print(f"movie/item training data shape: {item_train.shape}")
print(f"movie/item test data shape: {item_test.shape}")

movie/item training data shape: (40707, 17)
movie/item test data shape: (10177, 17)


Os dados escalados e embaralhados agora têm uma média de zero.

In [10]:
pprint_train(user_train, user_features, uvs, u_s, maxcount=5)

[user id],[rating count],[rating ave],Act ion,Adve nture,Anim ation,Chil dren,Com edy,Crime,Docum entary,Drama,Fan tasy,Hor ror,Mys tery,Rom ance,Sci -Fi,Thri ller
1,0,-1.0,-0.8,-0.7,0.1,-0.0,-1.2,-0.4,0.6,-0.5,-0.5,-0.1,-0.6,-0.6,-0.7,-0.7
0,1,-0.7,-0.5,-0.7,-0.1,-0.2,-0.6,-0.2,0.7,-0.5,-0.8,0.1,-0.0,-0.6,-0.5,-0.4
-1,-1,-0.2,0.3,-0.4,0.4,0.5,1.0,0.6,-1.2,-0.3,-0.6,-2.3,-0.1,0.0,0.4,-0.0
0,-1,0.6,0.5,0.5,0.2,0.6,-0.1,0.5,-1.2,0.9,1.2,-2.3,-0.1,0.0,0.2,0.3
-1,0,0.7,0.6,0.5,0.3,0.5,0.4,0.6,1.0,0.6,0.3,0.8,0.8,0.4,0.7,0.7


<a name="4"></a>
## 4 - Rede Neural para filtragem baseada em conteúdo
Agora, vamos construir uma rede neural conforme descrito na figura acima. Terá duas redes que são combinadas por um produto escalar. Você construirá as duas redes. Neste exemplo, eles serão idênticos. Observe que essas redes não precisam ser iguais. Se o conteúdo do usuário for substancialmente maior que o conteúdo do filme, você pode optar por aumentar a complexidade da rede do usuário em relação à rede do filme. Nesse caso, o conteúdo é semelhante, portanto as redes são as mesmas.

<a name="ex01"></a>
### Exercício 1

- Use um modelo sequencial de Keras
     - A primeira camada é uma camada densa com 256 unidades e uma ativação relu.
     - A segunda camada é uma camada densa com 128 unidades e uma ativação relu.
     - A terceira camada é uma camada densa com unidades `num_outputs` e uma ativação linear ou nenhuma.
    
O restante da rede será fornecido. O código fornecido não usa o modelo sequencial Keras, mas usa a [API funcional](https://keras.io/guides/functional_api/) Keras. Esse formato permite mais flexibilidade na forma como os componentes são interconectados.

In [13]:
# GRADED_CELL
# UNQ_C1

num_outputs = 32
tf.random.set_seed(1)
user_NN = tf.keras.models.Sequential([
    
    ### START CODE HERE ###
    tf.keras.layers.Dense(256, activation='relu'),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(num_outputs),
    ### END CODE HERE ###  
])

item_NN = tf.keras.models.Sequential([
    ### START CODE HERE ###
    tf.keras.layers.Dense(256, activation='relu'),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(num_outputs),
    ### END CODE HERE ###  
])

# create the user input and point to the base network
input_user = tf.keras.layers.Input(shape=(num_user_features))
vu = user_NN(input_user)
vu = tf.linalg.l2_normalize(vu, axis=1)

# create the item input and point to the base network
input_item = tf.keras.layers.Input(shape=(num_item_features))
vm = item_NN(input_item)
vm = tf.linalg.l2_normalize(vm, axis=1)

# compute the dot product of the two vectors vu and vm
output = tf.keras.layers.Dot(axes=1)([vu, vm])

# specify the inputs and output of the model
model = tf.keras.Model([input_user, input_item], output)

model.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_5 (InputLayer)           [(None, 14)]         0           []                               
                                                                                                  
 input_6 (InputLayer)           [(None, 16)]         0           []                               
                                                                                                  
 sequential_4 (Sequential)      (None, 32)           40864       ['input_5[0][0]']                
                                                                                                  
 sequential_5 (Sequential)      (None, 32)           41376       ['input_6[0][0]']                
                                                                                              

In [14]:
# Public tests
from public_tests import *
test_tower(user_NN)
test_tower(item_NN)

[92mAll tests passed!
[92mAll tests passed!


We will use a mean squared error loss and an Adam optimizer.

In [15]:
tf.random.set_seed(1)
cost_fn = tf.keras.losses.MeanSquaredError()
opt = keras.optimizers.Adam(learning_rate=0.01)
model.compile(optimizer=opt,
              loss=cost_fn)

In [16]:
tf.random.set_seed(1)
model.fit([user_train[:, u_s:], item_train[:, i_s:]], y_train, epochs=30)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x1e85d5a53d0>

Evaluate the model to determine loss on the test data.

In [17]:
model.evaluate([user_test[:, u_s:], item_test[:, i_s:]], y_test)



0.081727534532547

It is comparable to the training loss indicating the model has not substantially overfit the training data.

<a name="5"></a>
## 5 - Previsões
Abaixo, você usará seu modelo para fazer previsões em várias circunstâncias.
<a name="5.1"></a>
### 5.1 - Previsões para um novo usuário
Primeiro, criaremos um novo usuário e faremos com que o modelo sugira filmes para esse usuário. Depois de tentar isso no conteúdo do usuário de exemplo, sinta-se à vontade para alterar o conteúdo do usuário para corresponder às suas próprias preferências e ver o que o modelo sugere. Observe que as classificações estão entre 0,5 e 5,0, inclusive, em incrementos de meio passo.

In [18]:
new_user_id = 5000
new_rating_ave = 0.0
new_action = 0.0
new_adventure = 5.0
new_animation = 0.0
new_childrens = 0.0
new_comedy = 0.0
new_crime = 0.0
new_documentary = 0.0
new_drama = 0.0
new_fantasy = 5.0
new_horror = 0.0
new_mystery = 0.0
new_romance = 0.0
new_scifi = 0.0
new_thriller = 0.0
new_rating_count = 3

user_vec = np.array([[new_user_id, new_rating_count, new_rating_ave,
                      new_action, new_adventure, new_animation, new_childrens,
                      new_comedy, new_crime, new_documentary,
                      new_drama, new_fantasy, new_horror, new_mystery,
                      new_romance, new_scifi, new_thriller]])

O novo usuário gosta de filmes do gênero aventura e fantasia. Vamos encontrar os filmes com melhor classificação para o novo usuário.
Abaixo, usaremos um conjunto de vetores de filme/item, `item_vecs`, que possui um vetor para cada filme no conjunto de treinamento/teste. Isso é combinado com o novo vetor do usuário acima e os vetores dimensionados são usados para prever as classificações de todos os filmes.

In [19]:
# generate and replicate the user vector to match the number movies in the data set.
user_vecs = gen_user_vecs(user_vec,len(item_vecs))

# scale our user and item vectors
suser_vecs = scalerUser.transform(user_vecs)
sitem_vecs = scalerItem.transform(item_vecs)

# make a prediction
y_p = model.predict([suser_vecs[:, u_s:], sitem_vecs[:, i_s:]])

# unscale y prediction 
y_pu = scalerTarget.inverse_transform(y_p)

# sort the results, highest prediction first
sorted_index = np.argsort(-y_pu,axis=0).reshape(-1).tolist()  #negate to get largest rating first
sorted_ypu   = y_pu[sorted_index]
sorted_items = item_vecs[sorted_index]  #using unscaled vectors for display

print_pred_movies(sorted_ypu, sorted_items, movie_dict, maxcount = 10)



y_p,movie id,rating ave,title,genres
4.6,98809,3.8,"Hobbit: An Unexpected Journey, The (2012)",Adventure|Fantasy
4.5,5816,3.6,Harry Potter and the Chamber of Secrets (2002),Adventure|Fantasy
4.4,106489,3.6,"Hobbit: The Desolation of Smaug, The (2013)",Adventure|Fantasy
4.4,54001,3.9,Harry Potter and the Order of the Phoenix (2007),Adventure|Drama|Fantasy
4.4,8368,3.9,Harry Potter and the Prisoner of Azkaban (2004),Adventure|Fantasy
4.4,137857,3.6,The Jungle Book (2016),Adventure|Drama|Fantasy
4.4,40815,3.8,Harry Potter and the Goblet of Fire (2005),Adventure|Fantasy|Thriller
4.4,116823,3.9,The Hunger Games: Mockingjay - Part 1 (2014),Adventure|Sci-Fi|Thriller
4.3,88125,3.9,Harry Potter and the Deathly Hallows: Part 2 (2011),Action|Adventure|Drama|Fantasy|Mystery
4.3,81834,4.0,Harry Potter and the Deathly Hallows: Part 1 (2010),Action|Adventure|Fantasy


<a name="5.2"></a>
### 5.2 - Previsões para um usuário existente.
Vejamos as previsões para o "usuário 2", um dos usuários no conjunto de dados. Podemos comparar as classificações previstas com as classificações do modelo.

In [20]:
uid = 2 
# form a set of user vectors. This is the same vector, transformed and repeated.
user_vecs, y_vecs = get_user_vecs(uid, user_train_unscaled, item_vecs, user_to_genre)

# scale our user and item vectors
suser_vecs = scalerUser.transform(user_vecs)
sitem_vecs = scalerItem.transform(item_vecs)

# make a prediction
y_p = model.predict([suser_vecs[:, u_s:], sitem_vecs[:, i_s:]])

# unscale y prediction 
y_pu = scalerTarget.inverse_transform(y_p)

# sort the results, highest prediction first
sorted_index = np.argsort(-y_pu,axis=0).reshape(-1).tolist()  #negate to get largest rating first
sorted_ypu   = y_pu[sorted_index]
sorted_items = item_vecs[sorted_index]  #using unscaled vectors for display
sorted_user  = user_vecs[sorted_index]
sorted_y     = y_vecs[sorted_index]

#print sorted predictions for movies rated by the user
print_existing_user(sorted_ypu, sorted_y.reshape(-1,1), sorted_user, sorted_items, ivs, uvs, movie_dict, maxcount = 50)



y_p,y,user,user genre ave,movie rating ave,movie id,title,genres
4.5,5.0,2,[4.0],4.3,80906,Inside Job (2010),Documentary
4.3,4.0,2,"[4.0,4.1,4.0,4.0,3.9,3.9]",4.1,79132,Inception (2010),Action|Crime|Drama|Mystery|Sci-Fi|Thriller
4.2,4.5,2,"[4.0,4.1,4.0]",4.2,58559,"Dark Knight, The (2008)",Action|Crime|Drama
4.2,4.0,2,"[4.0,4.1,3.9]",4.0,6874,Kill Bill: Vol. 1 (2003),Action|Crime|Thriller
4.2,3.5,2,"[4.0,4.2,4.1]",4.0,91529,"Dark Knight Rises, The (2012)",Action|Adventure|Crime
4.2,3.5,2,"[4.0,4.1,4.0,3.9]",3.8,8798,Collateral (2004),Action|Crime|Drama|Thriller
4.2,3.5,2,"[4.0,4.0]",3.9,99114,Django Unchained (2012),Action|Drama
4.2,4.5,2,"[4.0,4.0]",4.1,68157,Inglourious Basterds (2009),Action|Drama
4.2,5.0,2,"[4.0,4.2,3.9,3.9]",3.8,122882,Mad Max: Fury Road (2015),Action|Adventure|Sci-Fi|Thriller
4.1,3.0,2,[3.9],4.0,109487,Interstellar (2014),Sci-Fi


A previsão do modelo geralmente está dentro de 1 da classificação real, embora não seja uma previsão muito precisa de como um usuário avalia filmes específicos. Isso é especialmente verdadeiro se a classificação do usuário for significativamente diferente da média do gênero do usuário. Você pode variar o ID do usuário acima para experimentar diferentes usuários. Nem todos os IDs de usuário foram usados no conjunto de treinamento.

<a name="5.3"></a>
### 5.3 - Encontrando Itens Semelhantes
A rede neural acima produz dois vetores de recursos, um vetor de recursos do usuário $v_u$ e um vetor de recursos do filme $v_m$. Estes são 32 vetores de entrada cujos valores são difíceis de interpretar. No entanto, itens semelhantes terão vetores semelhantes. Esta informação pode ser usada para fazer recomendações. Por exemplo, se um usuário avaliou "Toy Story 3" muito bem, pode-se recomendar filmes semelhantes selecionando filmes com vetores de recursos de filmes semelhantes.

Uma medida de similaridade é a distância ao quadrado entre os dois vetores $ \mathbf{v_m^{(k)}}$ e $\mathbf{v_m^{(i)}}$ :
$$\left\Vert \mathbf{v_m^{(k)}} - \mathbf{v_m^{(i)}} \right\Vert^2 = \sum_{l=1}^{n}(v_{ m_l}^{(k)} - v_{m_l}^{(i)})^2\tag{1}$$

<a name="ex02"></a>
### Exercício 2

Escreva uma função para calcular a distância quadrada.

In [21]:
# GRADED_FUNCTION: sq_dist
# UNQ_C2
def sq_dist(a,b):
    """
    Returns the squared distance between two vectors
    Args:
      a (ndarray (n,)): vector with n features
      b (ndarray (n,)): vector with n features
    Returns:
      d (float) : distance
    """
    ### START CODE HERE ###     
    d = np.sum((a - b)**2)
    ### END CODE HERE ###     
    return d

In [22]:
a1 = np.array([1.0, 2.0, 3.0]); b1 = np.array([1.0, 2.0, 3.0])
a2 = np.array([1.1, 2.1, 3.1]); b2 = np.array([1.0, 2.0, 3.0])
a3 = np.array([0, 1, 0]);       b3 = np.array([1, 0, 0])
print(f"squared distance between a1 and b1: {sq_dist(a1, b1):0.3f}")
print(f"squared distance between a2 and b2: {sq_dist(a2, b2):0.3f}")
print(f"squared distance between a3 and b3: {sq_dist(a3, b3):0.3f}")

squared distance between a1 and b1: 0.000
squared distance between a2 and b2: 0.030
squared distance between a3 and b3: 2.000


In [23]:
# Public tests
test_sq_dist(sq_dist)

[92mAll tests passed!


Uma matriz de distâncias entre os filmes pode ser calculada uma vez quando o modelo é treinado e, em seguida, reutilizada para novas recomendações sem novo treinamento. O primeiro passo, uma vez treinado o modelo, é obter o vetor de características do filme, $v_m$, para cada um dos filmes. Para fazer isso, usaremos o `item_NN` treinado e construiremos um pequeno modelo para nos permitir executar os vetores de filme através dele para gerar $v_m$.

In [24]:
input_item_m = tf.keras.layers.Input(shape=(num_item_features))    # input layer
vm_m = item_NN(input_item_m)                                       # use the trained item_NN
vm_m = tf.linalg.l2_normalize(vm_m, axis=1)                        # incorporate normalization as was done in the original model
model_m = tf.keras.Model(input_item_m, vm_m)                                
model_m.summary()

Model: "model_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_7 (InputLayer)        [(None, 16)]              0         
                                                                 
 sequential_5 (Sequential)   (None, 32)                41376     
                                                                 
 tf.math.l2_normalize_6 (TFO  (None, 32)               0         
 pLambda)                                                        
                                                                 
Total params: 41,376
Trainable params: 41,376
Non-trainable params: 0
_________________________________________________________________


Depois de ter um modelo de filme, você pode criar um conjunto de vetores de recurso de filme usando o modelo para prever usando um conjunto de vetores de item/filme como entrada. `item_vecs` é um conjunto de todos os vetores do filme. Ele deve ser dimensionado para uso com o modelo treinado. O resultado da previsão é um vetor de recursos de 32 entradas para cada filme.

In [25]:
scaled_item_vecs = scalerItem.transform(item_vecs)
vms = model_m.predict(scaled_item_vecs[:,i_s:])
print(f"size of all predicted movie feature vectors: {vms.shape}")

size of all predicted movie feature vectors: (847, 32)


Let's now compute a matrix of the squared distance between each movie feature vector and all other movie feature vectors:
<figure>
    <left> <img src="./images/distmatrix.PNG"   style="width:400px;height:225px;" ></center>
</figure>

Podemos então encontrar o filme mais próximo encontrando o mínimo ao longo de cada linha. Faremos uso de [arrays mascarados numpy](https://numpy.org/doc/1.21/user/tutorial-ma.html) para evitar selecionar o mesmo filme. Os valores mascarados ao longo da diagonal não serão incluídos no cálculo.

In [27]:
count = 50  # number of movies to display
dim = len(vms)
dist = np.zeros((dim,dim))

for i in range(dim):
    for j in range(dim):
        dist[i,j] = sq_dist(vms[i, :], vms[j, :])
        
m_dist = ma.masked_array(dist, mask=np.identity(dist.shape[0]))  # mask the diagonal

disp = [["movie1", "genres", "movie2", "genres"]]
for i in range(count):
    min_idx = np.argmin(m_dist[i])
    movie1_id = int(item_vecs[i,0])
    movie2_id = int(item_vecs[min_idx,0])
    disp.append( [movie_dict[movie1_id]['title'], movie_dict[movie1_id]['genres'],
                  movie_dict[movie2_id]['title'], movie_dict[movie1_id]['genres']]
               )
table = tabulate.tabulate(disp, tablefmt='html', headers="firstrow")
table

movie1,genres,movie2,genres.1
Save the Last Dance (2001),Drama|Romance,Mona Lisa Smile (2003),Drama|Romance
"Wedding Planner, The (2001)",Comedy|Romance,"Sweetest Thing, The (2002)",Comedy|Romance
Hannibal (2001),Horror|Thriller,Final Destination 2 (2003),Horror|Thriller
Saving Silverman (Evil Woman) (2001),Comedy|Romance,Maid in Manhattan (2002),Comedy|Romance
Down to Earth (2001),Comedy|Fantasy|Romance,Bewitched (2005),Comedy|Fantasy|Romance
"Mexican, The (2001)",Action|Comedy,Rush Hour 2 (2001),Action|Comedy
15 Minutes (2001),Thriller,Panic Room (2002),Thriller
Enemy at the Gates (2001),Drama,Syriana (2005),Drama
Heartbreakers (2001),Comedy|Crime|Romance,Fun with Dick and Jane (2005),Comedy|Crime|Romance
Spy Kids (2001),Action|Adventure|Children|Comedy,"Mummy Returns, The (2001)",Action|Adventure|Children|Comedy


The results show the model will generally suggest a movie with similar genre's.

<a name="6"></a>
## 6 - Congratulations! <img align="left" src="./images/film_award.png" style=" width:40px;">
You have completed a content-based recommender system.    

This structure is the basis of many commercial recommender systems. The user content can be greatly expanded to incorporate more information about the user if it is available.  Items are not limited to movies. This can be used to recommend any item, books, cars or items that are similar to an item in your 'shopping cart'.