# Sistemas de Recomendação

Nesta aula, aplicaremos os conhecimentos obtidos ao longo da disciplina para construir a base de um sistema de recomendação. Veremos desde sistemas simples até os mais complexos, usando técnicas de vetorização de textos que vimos em aulas anteriores para extrair informações de sinopses de filmes e fazer recomendações baseadas nelas. 

## Introdução

Usar sistemas de recomendação e, de fato, métodos de machine learning em produção, não é somente sobre implementar o melhor algoritmo, é sobre entender seus usuários e seu domínio. 

A definição de sistemas de recomendação é simples e vamos fornece-la futuramente. Por enquanto, vamos focar em quais problemas ela se propõe a resolver e como é usada. Em tópicos, vamos:

* Entender a tarefa que um sistema de recomendação está tentando emular

* Desenvolver um entendimento do que são recomendações personalizadas e não-personalizadas

* Desenvolver uma taxonomia de como descrever sistemas de recomendação.

Antes de nos aprofundarmos no tema, é importante entendermos a diferença entre recomendação e coisas que são parecidas com recomendação. Veja os exemplos e tente defini-los:

1. Numa loja de música, pego uma pilha de CDs e, usando-os como contexto, inicio uma conversa com o atendente, que me indica vários outros discos que podem me agradar.

2. Geralmente, recebo e-mails de supermercados com ofertas de produtos que eles dizem ser uma boa oferta

3. Na televisão, muito se pensa em colocar comerciais com o conteúdo de televisão certo, com o objetivo de atingir públicos específicos

4. Uma vez por semana, recebo um newsletter com os filmes mais assistidos no cinema

E por que isso recomendação é importante? Para entendermos essa ideia, vamos usar o conceito de Long tail, cunhado por Chris Anderson em 2004. No artigo, originalmente publicado na revista Wired, o autor identificou um novo modelo de negócios que é frequentemente visto na internet. 

Numa loja virtual, é possível armazenar um número infinito de produtos visto que o aluguel de espaço é barato ou, se conteúdo digital é vendido, espaço não é um problema, o que leva seu custo a quase zero. O que é diferente de uma loja física, que é limitada geograficamente. 

A ideia por trás da economia *long tail* é que é possível lucrar vendendo muitos produtos, mas apenas alguns poucos de cada, para muitas pessoas diferentes. 

A grande questão que permanece é como os usuários encontram aquilo que eles precisam? 

Aqui entram os sistemas de recomendação, visto que eles ajudam pessoas a encontrar diversas coisas que, de outra maneira, eles jamais imaginariam que existissem. 

De posse dessas informações, podemos definir sistemas de recomendação: 

 “Um sistema de recomendação calcula e provê conteúdo relevante ao usuário baseado no conhecimento do usuário, conteúdo e interações entre o usuário e o item.”
 
Tomando a Netflix como exemplo, vamos definir alguns termos comuns quando se trata de sistemas de recomendação. Observe a tabela:


<img src="img/tabela.png" />

Entretanto, veremos que construir um sistema de recomendação que forneça recomendações adequadas não é simples. Observe a imagem abaixo:

<img src="img/netflix.png" />

Vamos entende-la passo a passo:

1. Uma requisição para uma lista das principais escolhas é recebida

2. O sistema de recomendação é chamado, retornando itens da base de dados que são mais similares ao gosto do usuário atual

3. Os tops 5 itens (pode ser muito mais, na prática) são postos para o próximo passo, que é fazer predição. 

4. A predição é feita usando as preferências do usuário obtidas da base de dados de usuários. É provável que alguns itens fiquem de fora devido à baixa correlação com o usuário.

5. Os itens significantes são resultado da predição calculada, agora com o rating predito adicionado a eles.

6. Os itens significantes são ordenados de acordo com a preferência do usuário, contexto e dados demográficos.

7. Os itens são ordenados por relevância

8. O pipeline retorna os itens

9. O servidor apresenta os resultados

A imagem anterior deixa evidente que existem muitos aspectos a serem considerados quando lidamos com sistemas de recomendação. Além disso, esse pipeline não apresenta partes como coleta de dados e a construção de modelos. 

Em nossa aula, vamos focar na construção e entendimentos dos modelos de recomendação. 

De maneira geral, os algoritmos de recomendação pertencem a dois grupos distintos. Os algoritmos que empregam o uso de dados são chamados filtros colaborativos. Algoritmos que usam conteúdo de metadados e perfis de usuários para calcular recomendações são chamados filtros baseados em conteúdos. Ainda existe um terceiro grupo, chamado de sistemas híbridos, que é uma combinação dos dois anteriores. 

Na prática, precisamos ter uma ideia do que queremos fazer com um sistema de recomendação. Podemos ter o seguinte ciclo de modelagem até ter um sistema em produção:

<img src="img/ciclo_modelagem.png" />

## Novos usuários e produtos

Você percebeu que para fazer recomendações é preciso ter muitas informações sobre os gostos do usuário e também sobre os produtos que vamos recomendar, afinal, é preciso saber o que o usuário gosta e quais produtos são similares ao que ele gosta. Entretanto, mesmo possuindo muitos dados, apenas com isso não é possível resolver o problema de como introduzir novas coisas, sejam elas usuários ou produtos. 

Este problema é denominado __Cold Start__.

Para novos produtos, a solução é relativamente simples. Geralmente, a introdução de novos itens é acompanhada da promoção deles, por exemplo, enviando e-mails aos usuários, ou criando uma área especial onde novos itens podem ser consultados. 
Para novos usuários a solução é mais complicada. Quando devemos começar oferecer recomendações personalizadas? Qual a quantidade mínima de dados suficiente para determinar a preferencia de uma pessoa? Quando um novo usuário chega, não sabemos nada. Sem dados = sem personalização. 

Assim sendo, precisamos de maneiras de lidar com esse problema. Para itens novos, usar filtros baseado em conteúdo pode ser uma solução. Veremos isso mais adiante.

Entretanto, para usuários novos, temos outras abordagens. A solução é encontrar informação mesmo num conjunto de dados esparso. Podemos usar a informação que já temos e relacionar isso com o novo usuário. 

Podemos, então, usar regras de associação, bem como criar segmentos para usuários existentes e considerar o quão rápido podemos adequar um novo usuário a um segmento. 

Regras de associação dizem que, se um usuário colocou pão no seu carrinho de compras, oferecer manteiga a ele pode ser uma boa recomendação. Para um usuário novo, podemos usar regras de associação como, por exemplo, por onde o usuário navegou. Podemos implementar isso da seguinte forma:

<img src="img/association_rules.png" />

Outra forma de recomendação para lidar com o cold start é usar regras de negócio e conhecimento de domínio. Por exemplo, se um usuário navega pela seção de desenhos animados, apenas recomende desenhos animados e filmes “família”.

De outra maneira, podemos especificar coisas que nunca devem aparecer juntas. Exemplo: nunca recomende um filme de terror para alguém que está assistindo desenho animado. 

Podemos implementar isso da seguinte maneira:


<img src="img/business_rules.png" />

Uma terceira maneira de endereçar o problema de cold start é usar segmentação. A ideia é agrupar usuários com gostos similares, de modo que você consiga descobrir que tipo de pessoa gosta de que tipo de conteúdo. Quando um novo usuário chega, podemos recomendar conteúdo popular com aquele segmento. Isso é conhecido como recomendações demográficas. 

De maneira simples, você filtrar o ip do usuário e determinar sua localização e, então, oferecer produtos vendidos nessa localização. Se você sabe o gênero, você pode apresentar produtos mais vendidos para cada um deles. O mesmo serve para idade. Esses são os segmentos mais óbvios de serem encontrados. 

Por outro lado, podemos usar algoritmos não supervisionados (clustering) para agrupar nossos usuários conhecidos. Depois, podemos tentar encaixar um usuário novo num desses grupos e realizar as recomendações. 

Embora esse seja um problema para sistemas de recomendação, resolve-lo aqui não será o nosso foco. Nossa ideia é usar as técnicas que vimos até o momento para construir um modelo de recomendação. Mas como eu determino que um produto é similar a outro ou um usuário é similar a outro?

## Como calcular similaridade

Precisamos falar sobre similaridade porque queremos encontrar itens semelhantes àqueles que gostamos ou porque queremos encontrar usuários que gostem das mesmas coisas que gostamos. 

Entretanto, como definimos similaridade? Por exemplo, numa escala entre -1 a 1, quão similar duas pessoas são? Se talvez uma pessoa goste de Star Trek e outra goste de Star Wars, eles são similares?

Assim, precisamos de uma maneira de mensurar similaridade, que pode ser obtida através de uma função de similaridade, definida da seguinte maneira:

* Dados dois itens, $i_1$ e $i_2$, a similaridade entre eles é dada por uma função $sim(i_1,i_2)$.

Geralmente tomamos o domínio $[0,1]$ para determinar a similaridade entre dois itens, com 0 sendo totalmente dissimilares e 1 sendo totalmente similares (mesmo item). 

A Figura abaixo ilustra dois exemplos de funções de similaridade. É importante pensar sobre qual deve ser escolhida, visto que determinar qual é melhor depende do domínio (contexto) e dos dados:



<img src="img/similaridade.png" />

A medida de similaridade é intimamente relacionada com o cálculo da distancia entre itens. Geralmente, podemos dizer que a relação entre similaridade e distância é a seguinte:

* Quando a distância aumenta, a similaridade tende a zero. 

* Quando a distância tende a zero, a similaridade tende a um. 

Como mencionado, não existe método certo ou método errado de similaridade. Diferentes métodos funcionarão melhor em diferentes datasets. Entretanto, existem alguns pontos de partidas e, aqui, vamos discutir algumas medidas de distancia:

* Jaccard

* Euclidiana

* Cosseno

* Pearson

A distância de Jaccard é usada para indicar quão próximos dois conjuntos são. A explicação é simples: podemos dizer que cada filme é uma bag que contém todos os usuários que compraram esse filme. Assim, temos conjuntos de usuários, um para cada filme. Dessa maneira, podemos comparar dois filmes olhando para dois conjuntos de usuários. 

Datasets como o mencionado acima podem ser produzidos a partir das transações dos usuários, que podem ser transformadas numa lista onde cada linha indica se um usuário comprou um produto ou não (1 = comprou, 0 = não comprou).  
Considere a seguinte imagem:

<img src="img/jaccard1.png" />

Para calcular a similaridade entre dois itens, calculamos quantos usuários compraram (ou não) ambos os itens e, então, dividimos por quantos usuários compraram um ou outro. Formalmente, temos:

$jaccard_{i,j} = \frac{X}{Y}$

em que:

$X$ = número de usuários que compraram (ou não) ambos os itens

$Y$ = número de usuários que compraram ou $i$ ou $j$

Observe o exemplo para o caso abaixo:

<img src="img/jaccard2.png" />

A similaridade de Jaccard para esse caso é a seguinte:

$jaccard_{i,j} = \frac{4}{6} = 0.67$

Quando meu conjunto de dados é composto, por exemplo, de ratings de filmes, uma métrica mais apropriada é a distância Euclidiana, derivada do Teorema de Pitágoras. Ela pode ser entendida como o tamanho do segmento de linha que junta dois pontos de dados plotados num plano cartesiano n-dimensional. 

Veja a imagem abaixo como exemplo:

<img src="img/euclidiana.png" />

Os pontos no espaço n-dimensional são dados por vetores, definidos da seguinte maneira:

* $v_1:(q_1,q_2, ⋯,q_n)$

* $v_2:(r_1,r_2, ⋯,r_n)$

Assim, podemos definir matematicamente a distancia euclidiana da seguinte maneira:

$d(v_1,v_2) = \sqrt{\sum_{i=0}^{n} (q_i - r_i)^2}$

A distância pode variar entre 0 e infinito. Quanto menor seu valor, mais similares dois vetores são um do outro. 

Uma outra maneira de olhar para conteúdos é enxergar as linhas de uma matriz de rating como vetores no espaço e, então, determinar o cosseno do ângulo entre eles. 

O cálculo é dado pela seguinte fórmula:

$\cos (\theta ) =   \dfrac {A \cdot B} {\left\| A\right\| \left\| B\right\| } $

Quando o valor da similaridade é 1 (ângulo = 0), os vetores são exatamente similares. Por outro lado, um valor de cosseno igual a -1 (ângulo = 180) significa que os vetores são totalmente diferentes. 

Considerando ainda o exemplo de um conjunto de ratings de filmes para dois (ou mais) usuários diferentes, podemos usar a correlação de Pearson para determinar a similaridades entre dois usuários. 

A correlação de Pearson mensura o quão diferente cada ponto é na média. O range varia entre $[-1,1]$.  Com esse coeficiente, os ratings são normalizados subtraindo-se o rating médio do item para cada rating, como mostrado na equação abaixo:

$pearson = \frac{{}\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2  \sum_{i=1}^{n}(y_i - \overline{y})^2}}$

Tendo visto as principais medidas de distância usadas na construção de sistemas de recomendação, estamos prontos para efetivamente começar a construir um sistema de recomendação. Vamos começar por um bastante simples. 

## Simple Recommender
Para começarmos a entender os sistemas de recomendação, vamos usar como base de comparação a lista de 250 filmes do IMDB, calculados segundo uma métrica específica. Todos os filmes na lista são não-documentário, lançamento de cinema, possui pelo menos 45 minutos e tem mais de 250000 avaliações. 

Você pode consultar essa lista [aqui](https://www.imdb.com/chart/top/)

Como vimos, isso é um tipo de recomendação.  Vamos usar o data set The Movies Dataset [link](https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset) para criar uma lista parecida a fim de oferencer uma recomendação inicial. 

Link para download dos dados: [link](https://drive.google.com/drive/folders/12y6Wa9D4X1pQhCOnGE2DOGvmOvFijv8u?usp=sharing)

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('movies_metadata.csv')
df.head()

Para construir esse simples recommender, vamos seguir os seguintes passos:

1. Escolher uma métrica para avaliar os filmes
2. Decidir os pré-requisitos para o filme fazer parte da lista
3. Calcular o score para cada filme de acordo com a métrica e os pré-requisitos
4. Retornar a lista de filmes em ordem decrescente de acordo com o score

**Escolha da Métrica**

Para a métrica, vamos usar o Weighted Rating, definido da seguinte maneira:

$ WR = (\frac{v}{v+m} \times R) + (\frac{m}{v+m} \times C) $

Em que:

* $v$ é o número de votos que o filme gerou
* $m$ é o número mínumo de votos requerido para o filme fazer parte da lista
* $R$ é o rating médio do filme
* $C$ é o rating médio de todos os filmes no dataset

Já temos os valores de $v$ e $R$ paara todos os filmes através das features *vote_count* e *vote_average*. Vamos calcular o valor de $m$. $m$ pode ser qualquer valor, mas para esse caso, vamos o número de votos acumulado pelo 80th percentil, que pode ser calculado da seguinte forma:

In [None]:
m = df['vote_count'].quantile(0.80)
m #apenas 20% dos filmes ganharam mais que 50 votos

Vamos filtrar agora filmes que tiveram mais que 45 minutos e menos que 300 minutos de duração. Também vamos considerar apenas aqueles que tiveram mais que $m$ votos

In [None]:
q_movies = df[(df['runtime'] >= 45) & (df['runtime'] <= 300)]
q_movies = q_movies[q_movies['vote_count'] >= m]
q_movies.shape

Para calcular o valor de $C$, vamos obter a média da coluna *vote_average*

In [None]:
C = df['vote_average'].mean()
C

De posso de todas as informações, podemos escrever uma função para calcular o weighted rating:

In [None]:
def weighted_rating(x, m=m, C=C):
    v = x['vote_count']
    R = x['vote_average']
    return (v/(v+m) * R) + (m/(m+v) * C)

In [None]:
#cria uma nova coluna e aplica a funcao
q_movies['score'] = q_movies.apply(weighted_rating, axis=1)

In [None]:
#ordena o dataset em ordem descendente de acordo com o score
q_movies = q_movies.sort_values('score', ascending=False)

#Imprime os top 25 filmes
q_movies[['title', 'vote_count', 'vote_average', 'score', 'runtime']].head(25)

Obviamente que esse não é um tipo de recomendação personalizada. Ele apenas leva em conta as maiores notas que cada filme presente na base recebeu. A premissa é que, se muitas pessoas assistiram e gostaram, talvez seja uma boa você assistir também.

Vamos agora ver outro tipo de sistema de recomendação que já leva em consideração as preferências do usuário. 

## Knowledge-based recommender
Vamos avançar um pouco e criar um sistema um pouco mais complexo para fazer recomendações. Vamos realizar essas tarefas:

* Perguntar ao usuário seus gêneros preferidos
* Perguntar ao usuário a duração do filme
* Perguntar ao usuário a linha do tempo de filmes recomendados
* Usando essas informações coletadas, recomende filmes ao usuário que possuam um alto score e que satisfaça as condições anteriores

In [None]:
#vamos usar o mesmo dataset e manter apenas as features de interesse
df = df[['title','genres', 'release_date', 'runtime', 'vote_average', 'vote_count']]

df.head()

Vamos extrair o ano de lançamento a partir da coluna *release_date*

In [None]:
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
df['year'] = df['release_date'].apply(lambda x: str(x).split('-')[0] if x != np.nan else np.nan)

In [None]:
df['year'].dtype

Percebemos que o tipo de dados é objeto, pois existem valores NaT nos dados. Vamos usar uma função para transformar NaT em 0 e todos os demais valores em int

In [None]:
def convert_int(x):
    try:
        return int(x)
    except:
        return 0
    
df['year'] = df['year'].apply(convert_int)

Por fim, podemos dropar a coluna *release_date*

In [None]:
df = df.drop('release_date', axis=1)
df.head()

Agora, precisamos lidar com a feature *genres*, que a princípio, se parece com um json. Vamos ver um exemplo:

In [None]:
df.iloc[0]['genres']

Para que essa feature seja usável, é importante convertermos ela para um dicionário nativo do Python. A função *literal_eval* faz exatamente isso. Veja um exemplo:

In [None]:
from ast import literal_eval

a = "[1,2,3]"
print(type(a))

b = literal_eval(a)
print(type(b))


Agora, podemos aplicar nos nossos dados

In [None]:
#converte todos os NaN em strings de listas vazias
df['genres'] = df['genres'].fillna('[]')

#Applica literal_eval para converter para list
df['genres'] = df['genres'].apply(literal_eval)

#Converte lista de dicionário em lista de string
df['genres'] = df['genres'].apply(lambda x: [i['name'].lower() for i in x] if isinstance(x, list) else [])


In [None]:
df.head()

Entretanto, esse formato não é útil para nós. Precisamos fazer algo chamado explode, que consiste em criar múltiplas cópias do filme, uma para cada gênero que ele possui, cada uma com um gênero. 

In [None]:
s = df.apply(lambda x: pd.Series(x['genres']),axis=1).stack().reset_index(level=1, drop=True)
s.name = 'genre'
gen_df = df.drop('genres', axis=1).join(s)
gen_df.head()

Agora estamos prontos para criar uma função que irá agir como nosso recommender. Vamos criar os seguintes passos: 

* Obter o input do usuário sobre suas preferências
* Extrair todos os filmes que dão match com as condições do usuário
* Calcular o valor de $m$ e $C$ apenas para esses filmes e construir a lista de recomendação como vimos anteriormente

In [None]:
def build_chart(gen_df, percentile=0.8):
    
    print("Diga seu gênero preferido:")
    genre = input()

    print("Duração mínima:")
    low_time = int(input())
    
    print("Duração máxima:")
    high_time = int(input())

    print("Ano de lançamento mínimo")
    low_year = int(input())

    print("Ano de lançamento máximo")
    high_year = int(input())
    
    #Cria uma nova variável
    movies = gen_df.copy()
    
    #Filtra os filmes baseados nas condições fornecidas
    movies = movies[(movies['genre'] == genre) & 
                    (movies['runtime'] >= low_time) & 
                    (movies['runtime'] <= high_time) & 
                    (movies['year'] >= low_year) & 
                    (movies['year'] <= high_year)]
    
    #Calcula o valor de C e m
    C = movies['vote_average'].mean()
    m = movies['vote_count'].quantile(percentile)
    
    #considera apenas filmes com mais que m votos
    q_movies = movies.copy().loc[movies['vote_count'] >= m]
    
    #Calcula o score
    q_movies['score'] = q_movies.apply(lambda x: (x['vote_count']/(x['vote_count']+m) * x['vote_average']) 
                                       + (m/(m+x['vote_count']) * C)
                                       ,axis=1)

    #Ordena os filmes de maneira descendente
    q_movies = q_movies.sort_values('score', ascending=False)
    
    return q_movies

In [None]:
# testa a função
build_chart(gen_df).head()

In [None]:
#salvando os dados para serem usados posteriormente
df.to_csv('dados/metadata_clean.csv', index=False)

É um tipo de recomendação que leva em consideração os gostos do usuário, mas não considera o seu histórico e é custosa para ele, visto que ele teria que ficar inserindo essas informações toda vez que fosse procurar um filme. Além disso, ela é estática. Só seria alterada caso novos filmes fossem inseridos no conjunto de dados.

Vamos agora usar modelos mais complexos para construir uma recomendação personalizada. 

## Filtros baseados em conteúdo

Os recommenders que construímos anteriormente são extremamente primitivos. O Simple Recommender não leva em consideração as preferências individuais e, enquanto o Knowledge Recommender leva em consideração a preferência do usuário por gêneros, época de lançamento e duração, o modelo continua ainda muito genérico. 

Por exemplo, se uma pessoa gosta dos filmes The Dark Knight, Homem de Ferro e Superman, claramente ele tem uma preferência por filmes de superheróis. Entretanto, nosso modelo não será capaz de capturar tais detalhes. O máximo que conseguirá fazer é fornecer recomendações de filmes de ação, o que é gênero maior que envolve os filmes de superheróis. 

Poderíamos solicitar ao usuário mais informações sobre seus gostos e criar, por exemplo, uma categoria sub-gênero. No entanto, não temos informação pra isso e capturar todas as informações necessárias via usuário seria maçante e muito custoso. 

Ao invés disso, o que os usuários costumam fazer é **classificar seus filmes favoritos e o sistema apresenta a eles os mais similares.** 

Aqui, vamos construir dois tipos de filtros baseados em conteúdo:

1. Recommender baseado na descrição dos filmes
    > Ele vai comparar a descrição de diferentes filmes e prover recomendações de filmes que possuam descrição similar

2. Recommender baseado em metadados
    > Ele usa como features gêneros, keywords, cast, entre outros e faz recomendações baseadas nessas características

#### Recommender baseado na descrição dos filmes

In [None]:
df = pd.read_csv('dados/metadata_clean.csv')
df.head()

Essencialmente, os modelos que estamos construíndo calcula a similaridade entre os textos das descrições, mas como conseguimos quantificar a similaridade entre dois textos? 

Bem, vamos usar as técnicas que vimos rapidamente durante a aula: vetorização. Mais precisamente, vamos trabalhar com o TI-IDF. 

Basicamente, nosso modelo irá receber o título do filme como argumento e retornar uma lista de filmes similares baseada na descrição. Estes são os passos que vamos executar para construir nosso modelo:

* Obter os dados requeridos para construir o modelo
* Criar vetorização usando TF-IDF para cada filme
* Calcular a similaridade do cosseno par-a-par para cada filme
* Escrever uma função que recebe um título de filme como entrada e retorna uma lista de filmes similares

Olhando nossos dados, não temos a descrição dos filmes, mas isso é facilmente recuperado a partir dos dados originais. Vamos fazer isso:

In [None]:
orig_df = pd.read_csv('dados/movies_metadata.csv', low_memory=False)

#Adiciona as informações necessárias no nosso dataseet
df['overview'], df['id'] = orig_df['overview'], orig_df['id']
df.head()


Vamos usar a coluna *overview* para construir esse modelo e a coluna *id* para construir o próximo.

O próximo passo agora é realizar a vetorização dos dados. Vamos usar Scikit-Learn para fazer isso:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')

#Caso haja algum review vazio, é preenchido com uma string
df['overview'] = df['overview'].fillna('')

#constrói a matriz TF-IDF
tfidf_matrix = tfidf.fit_transform(df['overview'])
tfidf_matrix.shape #qtde de amostras, qtde de features

O próximo passo é construir uma matriz que conterá a similaridade do cosseno par a par para cada filme, ou seja, vamos criar uma matriz de 45466x45466 em que a célula na linha $i$ e coluna $j$ representa a similaridade entre os filmes $i$ e $j$. Novamente, SKlearn vem para nos ajudar com uma função pronta:

In [None]:
from sklearn.metrics.pairwise import linear_kernel

# Calcula a matriz de similaridade do cosseno
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)


O passo final é construir a função de recomendação. Antes disso, porém, vamos um mapeamento entre índice e título de filmes para facilitar a recuperação do nome dos filmes

In [None]:
indices = pd.Series(df.index, index=df['title']).drop_duplicates()

In [None]:
def content_recommender(title, cosine_sim=cosine_sim, df=df, indices=indices):
    # obtém o índice do filme dado o título 
    idx = indices[title]

    # obtém o score de similaridade par a par de todos os filmes com o filme em questão
    # e converte numa lista de tuplas
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Ordena os filmes baseados na similaridade do cosseno
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Obtém o score dos dez mais similares, ignorando o primeiro(próprio filme).
    sim_scores = sim_scores[1:11]

    # Obtém o índice dos filmes
    movie_indices = [i[0] for i in sim_scores]

    # Retorna o título dos 10 mais similares
    return df['title'].iloc[movie_indices]

In [None]:
content_recommender('The Matrix')

Percebemos que nosso recommender funciona relativamente bem. A maioria das recomendações fazem sentido já que, de uma maneira ou outra, trata de filmes com leões em suas descrições. Entretanto, quem assistiu o Rei Leão, provavelmente gostaria de ver recomendação de filmes das disney, mas nosso recommender não consegue capturar essas nuances. 

Felizmente, temos uma maneira de resolver esse problema. É o que vamos fazer com o Recommender baseado em metadados

#### Recommender baseado em metadados
Basicamente, vamos seguir os mesmos passos na criação de nosso recommender. Entretanto, os dados a serem usados serão diferentes. Basicamente, vamos usar os seguintes metadados:

* Gênero  do filme
* O diretor do filme
* Três maiores estrelas do filme
* Sub-gêneros ou keywords

Para isso, vamos precisar de dois arquivos adicionais:

In [None]:
cred_df = pd.read_csv('dados/credits.csv')
key_df = pd.read_csv('dados/keywords.csv')


In [None]:
cred_df.head()

In [None]:
len(key_df)

In [None]:
key_df.head()

Podemos ver que as informações do cast, equipe técnica (crew) e keywords estão na forma de lista de dicionários. Assim como fizemos anteriormente com gênero, precisamos reduzie isso a uma string ou lista de strings. 

Antes disso, porém, vamos agrupar nossos três DataFrames de modo que todas as nossas features estejam num lugar só. Para fazer o join, vamos o *id* e, para evitar erros, vamos tratar os ids, já que temos "1997-08-20" como ID.  

In [None]:
def clean_ids(x):
    try:
        return int(x)
    except:
        return np.nan

In [None]:
df['id'] = df['id'].apply(clean_ids)
df = df[df['id'].notnull()]

Agora podemos converter todos os IDs em int e agrupar os DataFrames

In [None]:
df['id'] = df['id'].astype(int)
key_df['id'] = key_df['id'].astype(int)
cred_df['id'] = cred_df['id'].astype(int)

df = df.merge(cred_df, on='id')
df = df.merge(key_df, on='id')
df.head()


Agora que temos todas as features num único Dataframe, vamos transformá-las num formáto útil. Especificamente, essas são as transformações que iremos executar:

* Converter *keywords* numa lista de string (vamos inclur somente as top 3)
* Converter *cast* numa lista de string (vamos incluir somente as top 3)
* De *crew*, vamos recuperar somente o diretor

In [None]:
#convertendo em objetos python
features = ['cast', 'crew', 'keywords', 'genres']
for feature in features:
    df[feature] = df[feature].apply(literal_eval)

Para extrair o nome do diretor, vamos analisar um objeto:

In [None]:
df.iloc[0]['crew'][0]

Assim, vamos criar uma função que olhe somente para a key 'name' e recupera a informação desejada. 

In [None]:
def get_director(x):
    for crew_member in x:
        if crew_member['job'] == 'Director':
            return crew_member['name']
    return np.nan

In [None]:
df['director'] = df['crew'].apply(get_director)
df['director'].head()

*keywords* e *cast* são lista de dicionários e precisamos extrair o top 3 do atributo 'names'. Vamos escrever uma função que faça isso:

In [None]:
def generate_list(x):
    if isinstance(x, list):
        names = [i['name'] for i in x]
        #Se tiver mais que tres, retorna somente os tres primeiros
        if len(names) > 3:
            names = names[:3]
        return names

    #retorna uma lista vazia, caso nao tenha tres
    return []

In [None]:
df['cast'] = df['cast'].apply(generate_list)
df['keywords'] = df['keywords'].apply(generate_list)

In [None]:
#recuperando somentes os top 3 generos
df['genres'] = df['genres'].apply(lambda x: x[:3])

In [None]:
#vamos verificar como ficou nosso DataFrame
df[['title', 'cast', 'director', 'keywords', 'genres']].head()

Por último, precisamos criar uma função simples para preparar esses textos. Vamos remover os espaços em branco dos nomes de cast e director (de modo que Ryan Reynolds e Ryan Gosling sejam tratados de forma diferente) e colocar todos os textos em minúsculas. 

In [None]:
def sanitize(x):
    if isinstance(x, list):
        #remove espaço em branco e coloca em minúscula
        return [str.lower(i.replace(" ", "")) for i in x]
    else:
        #s nao tiver diretor, retorna uma string vazia
        if isinstance(x, str):
            return str.lower(x.replace(" ", ""))
        else:
            return ''

In [None]:
for feature in ['cast', 'director', 'genres', 'keywords']:
    df[feature] = df[feature].apply(sanitize)

Antes de aplicar a vetorização, no entanto, precisamos concatenar todas as features que temos numa só. 

In [None]:
def create_feat(x):
    return ' '.join(x['keywords']) + ' ' + ' '.join(x['cast']) + ' ' + x['director'] + ' ' + ' '.join(x['genres'])

In [None]:
df['feature'] = df.apply(create_feat, axis=1)

In [None]:
df.iloc[0]['feature']

Agora estamos prontos para realizar a vetorização. Ao invés de usar TF-IDF, vamos usar o BoW (obtido através de CountVectorizer). Isso porque o TFIDI irá dar um peso menor para atores e diretores que atuaram e dirigiram um grande número de filmes.

In [None]:
df['feature'][0:40000]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer(stop_words='english')
count_matrix = count.fit_transform(df['feature']) #se der problema de memória, reduza a quantidade de linhas: df['feature'][0:30000]


In [None]:
#calcula a similaridade par a par
from sklearn.metrics.pairwise import cosine_similarity
cosine_sim2 = cosine_similarity(count_matrix, count_matrix)

Construindo o mapeamento para recuperar o nome dos filmes

In [None]:
df = df.reset_index()
indices2 = pd.Series(df.index, index=df['title'])

Agora estamos prontos para usar nosso recommender

In [None]:
content_recommender('Shutter Island', cosine_sim2, df, indices2)

As recomendações nesse caso foram muito diferentes das anteriores. Vimos que nosso recommender foi capaz de capturar mais informações que apenas 'leões'. Muitos dos filmes na lista são animações e dizem respeito a personagens antropomórficos. 

# O que você viu nesta aula?

Nesta aula, apresentamos o problema de recomendação. Definimos o problema e listamos diversas abordagens de como podemos fazer recomendação. Para isso, apresentamos o conceito de similaridade e as principais técnicas de recomendação, que são os filtros colaborativos.