# Sistemas de recomendação

Neste exemplo, iremos apresentar algumas formas de desenvolver um sistema de recomendação para filmes.

Será apresentada a metodologia para Filtragem Colaborativa.

## Carregar pacotes

In [None]:
library(reshape2)
library(tidyverse)
library(magrittr)
library(recommenderlab)
library(Matrix)
library(NMF)
library(NNLM)

## Carregar dados

In [None]:
dados_ratings <- read_csv("/home/vm-data-science/education/dados/movies_ratings_example.csv")

In [None]:
dados_ratings %>% head

## Análises

### Transformar em matriz de usuário/item

Os valores "NA" são os filmes que os usuários ainda não deram nota.

O objetivo é estimar estes valores pelos métodos que serão apresentados para sabermos se devemos recomendar ou não estes filmes.

In [None]:
user_item_matrix <- dados_ratings %>% 
  spread( key = movie, value = rating ) %>% 
  select( -user )

In [None]:
user_item_matrix

## Algoritmos baseados em memória (*Memory Based Reasoning*)

Estes algoritmos, primeiramente, calculam a similaridade entre os usuários (*User based filtering*) ou itens (*Item based filtering*). Iremos apresentar ambos métodos.

Para realizar os cálculos, iremos utilizar as funções do pacote recommenderlab.

Neste pacote, primeiramente devemos transformar a matriz para o formato "realRatingMatrix".

In [None]:
user_item_matrix_reclab <- as.matrix(user_item_matrix[,-1]) %>% 
                                as(., "realRatingMatrix")

In [None]:
user_item_matrix_reclab

### ***Item Based filtering***

Este método segue as etapas:

1 - Para cada 2 itens, calcule a similaridade entre eles.

2 - Para cada item, identifique os *k* itens mais similares. 

3 - Identifique os grupos de itens mais associados para cada usuário.

4 - Recomende o grupo de itens que estão mais associados ao usuário.

- **Matriz de distâncias**

A matriz de distância será calculada em relação aos filmes (6 x 6), iremos apresentar uma amostra.

A diagonal é zero porque a distância entre o item e ele mesmo é igual. O método de cálculo da distância foi o coseno.

In [None]:
similarity_items <- similarity(user_item_matrix_reclab, 
                               method = "cosine", 
                               which = "items")
as.matrix(similarity_items)

- **Construção do modelo**

A matriz de similaridades é construída internamente no modelo.

In [None]:
# cuidado - demora bastante se a matriz for muito grande
# https://github.com/mhahsler/recommenderlab/blob/master/R/RECOM_IBCF.R

item_based_rec_model <- Recommender( data = user_item_matrix_reclab, 
                                     method = "IBCF", # Item based
                                     parameter = list(k = 3, normalize = NULL))

In [None]:
item_based_rec_model@model

- **Uso do modelo**

In [None]:
numero_recomendações <- 5

In [None]:
item_based_recomendacoes <- predict( item_based_rec_model,
                                     user_item_matrix_reclab,
                                     n = numero_recomendações )

- **Avaliações previstas para os filmes não vistos**

In [None]:
movies <- sapply( item_based_recomendacoes@items, 
                  function(x){ colnames(user_item_matrix[,-1])[x] } )

dados_ratings_previstos_ibcf <- cbind( melt(movies), ratings = item_based_recomendacoes@ratings %>% unlist )

dados_ratings_previstos_ibcf %<>% 
  rename( user_id = L1 ) %>% 
  left_join(., dados_ratings %>% 
              distinct( user, user_id),
            by ="user_id" )

In [None]:
dados_ratings_previstos_ibcf

In [None]:
dados_ratings_previstos_ibcf %>% 
    filter( user_id == 5 ) %>% 
    arrange( desc(ratings) )

### ***User based filtering***

- **Matriz de distâncias**

A diagonal é zero porque a distância entre o usuário e ele mesmo é igual. O método de cálculo da distância foi o coseno.

In [None]:
similarity_users <- similarity(user_item_matrix_reclab, 
                               method = "cosine", 
                               which = "users")
as.matrix(similarity_users)

- **Construção do modelo**

In [None]:
user_based_rec_model <- Recommender( data = user_item_matrix_reclab, 
                                     method = "UBCF", # User based 
                                     parameter = list(nn = 3, normalize = NULL) )

In [None]:
user_based_rec_model@model

- **Uso do modelo**

In [None]:
numero_recomendacoes <- 10

In [None]:
user_based_recomendacoes <- predict( user_based_rec_model,
                                     user_item_matrix_reclab,
                                     n = numero_recomendações )

- **Recomendação de filmes para o usuário**

In [None]:
movies <- sapply( user_based_recomendacoes@items, 
                  function(x){ colnames(user_item_matrix[,-1])[x] } )

dados_ratings_previstos_ubcf <- cbind( melt(movies), ratings = user_based_recomendacoes@ratings %>% unlist )

dados_ratings_previstos_ubcf %<>% 
  rename( user_id = L1 ) %>% 
  left_join(., dados_ratings %>% 
              distinct( user, user_id),
            by ="user_id" )

In [None]:
dados_ratings_previstos_ubcf

In [None]:
dados_ratings_previstos_ubcf %>% 
    filter( user_id == 3 ) %>% 
    arrange( desc(ratings) )

## Algoritmos baseados em modelos

Por meio da técnica de fatoração de matrizes, esses algoritmos preenchem os valores "NA" diretamente na matriz de usuários e itens.

Será utilizado o pacote NNLM combinado com o pacote NMF. Este pacote permite o uso de modelos baseados em *Alternating Least Squares*, estes proporcionam ganho de tempo e memória para estimar os *ratings*.

https://towardsdatascience.com/prototyping-a-recommender-system-step-by-step-part-2-alternating-least-square-als-matrix-4a76c58714a1

In [None]:
user_item_matrix_nnlm <- as.matrix(user_item_matrix[,-1])

In [None]:
user_item_matrix_nnlm

In [None]:
fatoracao_rec_model <- nnmf(user_item_matrix_nnlm, 
                            k = 2,  
                            method = 'scd', 
                            loss = 'mse')

In [None]:
complete_user_item_matrix <- fatoracao_rec_model$W %*% fatoracao_rec_model$H

In [None]:
complete_user_item_matrix

Podemos combinar as duas matrizes para obter os *ratings* dos filmes ainda não foram assistidos e poderão ser recomendados.

In [None]:
matriz_recomendacoes <- ( is.na(user_item_matrix_nnlm) == TRUE ) * round(complete_user_item_matrix, 2)

In [None]:
matriz_recomendacoes

Associamos novamente com os usuários.

In [None]:
matriz_recomendacoes <- cbind( user_item_matrix$user_id, data.frame(matriz_recomendacoes) )

In [None]:
# alguns ajustes
matriz_recomendacoes %<>% 
    rename( user_id = `user_item_matrix$user_id` )

In [None]:
matriz_recomendacoes %<>% 
    left_join(., dados_ratings %>% 
              distinct( user, user_id),
            by ="user_id" )

In [None]:
matriz_recomendacoes

Podemos ajustar para organizar um banco de dados ordenado com as possíveis recomendações.

In [None]:
banco_ratings <- matriz_recomendacoes %>% 
    gather( key = movie, value = ratings, -c(user_id, user)  ) %>% 
    filter( ratings > 0 )

In [None]:
banco_ratings

Podemos ver as 5 melhores recomendações para o usuário 6.

In [None]:
banco_ratings %>% 
    filter( user_id == 3 ) %>% 
    arrange( desc(ratings) ) %>% 
    head(5)

## Comparações

In [None]:
dados_ratings_previstos_ibcf %>% 
    filter( user_id == 3 ) %>% 
    arrange( desc(ratings) )

In [None]:
dados_ratings_previstos_ubcf %>% 
    filter( user_id == 3 ) %>% 
    arrange( desc(ratings) )

In [None]:
banco_ratings %>% 
    filter( user_id == 3 ) %>% 
    arrange( desc(ratings) )