# <font color='blue'>Sistema de recomendação de filmes da Netflix</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Python Version:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show pandas
matplotlibVersion = !pip show matplotlib
sklearnVersion = !pip show scikit-learn
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])
print("Sklearn", sklearnVersion[1])

In [None]:
# Instalar versão específica de uma biblioteca
#!pip install matplotlib==3.5.3

## Sistemas de Recomendação
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Sistemas de recomendação são aplicações que personalizam a experiência de consumo do cliente, recomendando as melhores opções com base nas compras recentes ou atividades de navegação, ou ainda, com base em outros critérios, conforme a área de negócio da empresa.<br>
Sistemas de recomendação são, portanto, modelos preditivos que a partir de análises estatísticas, determinam a probabilidade de um cliente estar interessado por outro item similar ao que está comprando em um momento. <br>

Basicamente, existem três tipos de sistemas de recomendação:<br>
- **Sistema de Recomendação Baseado no Item Mais Popular**: Essa estratégia é simplesmente oferecer ao cliente o que é mais popular, seja um filme, um livro ou um artigo de vestuário. Sem fazer nada mais do que observar nos registros de vendas, é possível construir um sistema de recomendação simples como esse. Isso não é necessariamente ciência de dados. Também não é particularmente personalizado para um cliente. Mas, pode ser útil quando a empresa sabe muito pouco sobre o seu visitante. <br>
- **Associações e Modelos Market Basket**: Sistemas de recomendação baseados em análise de Associações e Análise de Cesta de Mercado (Market Basket) tomam como base a **relação entre os conteúdos**. Este tipo de análise estatística baseia-se apenas no mais simples dos cálculos para encontrar itens que são frequentemente consumidos juntos. A análise matemática de associações e de market basket é a mesma. <br>
Quando os clientes normalmente adquirem os itens ou serviços um de cada vez, chamamos de Associações. Quando os clientes potencialmente compram várias coisas de uma só vez, chamamos de Market Basket. Assim, a Análise das Associações é realizada ao nível do cliente, enquanto a Análise de Market Basket é conduzida ao nível das transações.<br>
- **Filtros Colaborativos**: A filtragem colaborativa foca na **relação entre usuários** que são matematicamente similares. Em teoria, não são necessários atributos específicos para o conteúdo que os filtros colaborativos podem inferir. De fato, adicionar atributos de conteúdo pode melhorar o desempenho, mas não é tecnicamente necessário. A premissa é que se dois usuários tiveram uma forte semelhança de preferências no passado, é provável que eles continuarão com forte semelhança no futuro. <br>
Sistemas de recomendação baseados em Filtros Colaborativos irão recomendar às pessoas que gostam, por exemplo, de filmes de romance, aqueles filmes que têm forte conteúdo romântico sem a exigência de definir necessariamente o que seja "romance". Isso acontece porque são apenas números sendo analisados. Uma vez estabelecida a semelhança, os itens consumidos por um usuário podem ser recomendados a outros usuários semelhantes. Essa é a ideia por trás dos filtros colaborativos. Se, por exemplo, o usuário A e o usuário B tiverem preferências de filmes semelhantes, e o usuário A assistiu recentemente ao filme X, que o usuário B ainda não viu, então a ideia é recomendar esse filme a o usuário B. As recomendações de filmes no Netflix são um bom exemplo deste tipo de sistema de recomendação. 

</details>

## 1 - Definição do Problema de Negócio
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>


Endereço do conjunto de dados: https://www.kaggle.com/netflix-inc/netflix-prize-data <br>
</details>

## 2 - Coletando os dados

### 2.1 - Importando as bibliotecas

In [1]:
# Manipulação e exploração do conjunto de dados
import numpy as np
import pandas as pd

# Calcular o tempo de execução de uma célula
from datetime import datetime

# Leitura de arquivos
import os

# Cálculos matemáticos
import random
import math

# Plotagem de gráficos
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

# Matriz esparsa
from scipy import sparse

# Cálculo de similaridade
from sklearn.metrics.pairwise import cosine_similarity

# Redução de dimensionalidade
from sklearn.decomposition import TruncatedSVD

# Carregar imagens
from IPython.display import Image

### 2.2 - Lendo os arquivos texto e organizando os dados

In [2]:
# Marca o início da execução de leitura dos arquivos.
start = datetime.now()

# Criar um arquivo chamado dados.csv
# Se o arquivo não existir, criamos o arquivo em modo de escrita (w)
if not os.path.isfile('Dados/Netflix/dados.csv'):
    
    # Cria e abre o arquivo para gravação
    dataset = open('Dados/Netflix/dados.csv', mode = 'w')
    
    # Cria Lista vazia para as linhas dos arquivos
    linhas = []
    
    # Lista com o nome e caminho dos arquivos
    arquivos = ['Dados/Netflix/combined_data_1.txt',
                'Dados/Netflix/combined_data_2.txt',] 
                #'Dados/Netflix/combined_data_3.txt', 
                #'Dados/Netflix/combined_data_4.txt']
    
    # Loop por cada arquivo na lista de arquivos
    for arquivo in arquivos:
        
        # Print
        print("Lendo o arquivo {}...".format(arquivo))
        
        # Com o arquivo aberto, extraímos as linhas
        with open(arquivo) as f:
            
            # Loop por cada linha do arquivo
            for linha in f: 
                
                # Deletamos o conteúdo da lista
                del linhas[:] 
                
                # Divide as linhas do arquivo pelo caracter de final de linha
                linha = linha.strip()
                
                # Se encontramos "dois pontos" ao final da linha, fazemos replace removendo o caracter,
                # pois queremos apenas o id do filme
                if linha.endswith(':'):
                    movie_id = linha.replace(':', '')
                    
                # Se não, criamos uma lista comprehension para fazer a separação das colunas por vírgula
                else:
                    
                    # Separa as colunas
                    linhas = [x for x in linha.split(',')]
                    
                    # Usa o id do filme na posição de índice zero
                    linhas.insert(0, movie_id)
                    
                    # Grava o resultado no novo arquivo
                    dataset.write(','.join(linhas))
                    dataset.write('\n')
                    
        print("Concluído.\n")
        
    dataset.close()
    # Imprime o tempo total
    print('Tempo total para carregar os arquivos:', datetime.now() - start)
    
else:
    print("O arquivo 'dados.csv' já existe!")


O arquivo 'dados.csv' já existe!


### 2.3 - Carregando os dados

In [3]:
# Carregando os dados 
df = pd.read_csv('Dados/Netflix/dados.csv', sep = ',', names = ['Filme', 'Usuario', 'Avaliacao', 'Data'])
df

Unnamed: 0,Filme,Usuario,Avaliacao,Data
0,1,1488844,3,2005-09-06
1,1,822109,5,2005-05-13
2,1,885013,4,2005-10-19
3,1,30878,4,2005-12-26
4,1,823519,3,2004-05-03
...,...,...,...,...
51031350,9210,2420260,1,2003-12-01
51031351,9210,761176,3,2004-06-06
51031352,9210,459277,3,2005-02-25
51031353,9210,2407365,4,2005-04-29


## 3 - Explorando os dados

### 3.1 - Informações sobre o dataset

In [None]:
# Visualizando informações sobre o dataset
df.info()

In [None]:
# Sumário estatístico
df.describe()

### 3.2 - Tratando valores nulos

In [None]:
# Verificando a quantidade de valores nulos por coluna
df.isnull().sum() 

### 3.3 - Tratando dados duplicados

In [None]:
# Verificando se existem dados duplicados.
# Ocorrem dados duplicados quando uma linha inteira, é igual a outra
df.duplicated().sum()

### 3.4 - Tratando valores únicos

In [None]:
# Verificando a quantidade de valores únicos
df.nunique()

### 3.5 - Tratando colunas com datas

In [4]:
# Converte uma coluna do tipo Object para o tipo datetime
# É necessário fazer essa conversão para extrair: dia, mês, ano, hora etc
df.Data = pd.to_datetime(df.Data)

# Verifica informações do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51031355 entries, 0 to 51031354
Data columns (total 4 columns):
 #   Column     Dtype         
---  ------     -----         
 0   Filme      int64         
 1   Usuario    int64         
 2   Avaliacao  int64         
 3   Data       datetime64[ns]
dtypes: datetime64[ns](1), int64(3)
memory usage: 1.5 GB


#### 3.5.1 - Adiciona colunas com o dia da semana, com o mês e com o ano da avaliação

In [5]:
# Adiciona uma coluna ao dataset com o dia da semana
df['Dia_da_semana'] = df.Data.dt.day_name()

# Adiciona uma coluna ao dataset com o mês
df["Mes"] = df.Data.dt.month

# Adiciona uma coluna ao dataset com o ano
df["Ano"] = df.Data.dt.year

# Verificando as primeiras linhas
df.head()

Unnamed: 0,Filme,Usuario,Avaliacao,Data,Dia_da_semana,Mes,Ano
0,1,1488844,3,2005-09-06,Tuesday,9,2005
1,1,822109,5,2005-05-13,Friday,5,2005
2,1,885013,4,2005-10-19,Wednesday,10,2005
3,1,30878,4,2005-12-26,Monday,12,2005
4,1,823519,3,2004-05-03,Monday,5,2004


#### 3.5.2 - Excluindo a coluna Data

In [6]:
# Excluindo coluna
df.drop(["Data"], axis=1, inplace = True)
df.head()

Unnamed: 0,Filme,Usuario,Avaliacao,Dia_da_semana,Mes,Ano
0,1,1488844,3,Tuesday,9,2005
1,1,822109,5,Friday,5,2005
2,1,885013,4,Wednesday,10,2005
3,1,30878,4,Monday,12,2005
4,1,823519,3,Monday,5,2004


## 3.6 - Análise descritiva dos dados

### 3.6.1 - Parâmetros dos gráficos

In [None]:
# Define a paleta de cores
sns.color_palette("Pastel1")

# Define o tema utilizado.
sns.set_theme(style="darkgrid") 

### 3.6.2 - Funções para desenhar os gráficos

#### a) Função para ajustar as unidades de medida do eixo y dos gráficos

In [None]:
# Ajusta a unidade de medida do eixo y para milhões para facilitar a visualização
# Os dois argumentos são o valor e a posição do tick
def ajustaMilhoes(x, pos):
    return '{:1.1f}M'.format(x*1e-6)

#### b) Gráfico de barras - maior frequência

In [None]:
# Função para plotar um gráfico de barras indicando a maior frequênca
def desenhaMaiorFrequencia(coluna, numeroLinhas, titulo, labelEixoX):
    
    # Define uma semente para gerar sempre as mesmas cores
    np.random.seed(9)
    
    # Plotanto o gráfico
    fig = plt.subplots(figsize=(13, 6))
    ax = coluna.value_counts().sort_values(ascending = False).head(numeroLinhas).plot.bar(rot=0, color = np.random.rand(numeroLinhas,3), edgecolor='black')
    ax.set_title(titulo, fontsize = 16)
    ax.set_xlabel(labelEixoX, fontsize = 12)
    ax.set_ylabel("Quantidade", fontsize = 12)
    ax.bar_label(ax.containers[0], fmt='%.0f')
    # Verifica se há necessidade de ajustar a unidade de medida do eixo y
    if coluna.value_counts().max() >= 1000000:
        # Ajusta a unidade de medida do eixo y para milhões
        ax.yaxis.set_major_formatter(ajustaMilhoes)
    plt.show()

#### c) Gráfico de barras - menor frequência

In [None]:
# Função para plotar um gráfico de barras indicando a menor frequênca
def desenhaMenorFrequencia(coluna, numeroLinhas, titulo, labelEixoX):

    # Define uma semente para gerar sempre as mesmas cores
    np.random.seed(45)
    
    # Plotanto o gráfico
    fig = plt.subplots(figsize=(13, 6))
    ax = coluna.value_counts().sort_values().head(numeroLinhas).plot.bar(rot=0, color = np.random.rand(numeroLinhas,3), edgecolor='red')
    ax.set_title(titulo, fontsize = 16)
    ax.set_xlabel(labelEixoX, fontsize = 12)
    ax.set_ylabel("Quantidade", fontsize = 12)
    ax.bar_label(ax.containers[0], fmt='%.0f')
    plt.show()

#### d) Histograma

In [None]:
# Função que desenha um histograma
def desenhaHistograma(dados, titulo):

    # Calculando a quantidade de classes da variável analisada
    n = len(dados)
    k = round(1+3.3*math.log10(n))

    # Calculando o intervalo de cada classe
    frequencias, intervalos = np.histogram(dados, bins = k)

    # Desenha o histograma
    fig, ax = plt.subplots(figsize=(13, 6))  # Cria uma figura com eixos simples (x, y)
    ax.hist(dados, bins = k)
    ax.set_title(titulo, fontsize = 16)
    ax.set_xlabel("Quantidade de avaliações", fontsize = 12)
    ax.set_xticks(intervalos)
    ax.set_ylabel("Frequência", fontsize = 12)
    ax.bar_label(ax.containers[0])
    plt.show()

### 3.6.3 - Resumo dos dados

In [None]:
# Resumo dos dados
totalFilmes = len(np.unique(df.Filme))
totalUsuarios = len(np.unique(df.Usuario))
totalAvaliacoes = df.shape[0]
mediaAvaliacoes = round(df.Avaliacao.mean(),2)
totalAnos = len(np.unique(df.Ano))

print("Número Total de Filmes:", totalFilmes)
print("Número Total de Usuários:", totalUsuarios)
print("Número Total de Avaliações:", totalAvaliacoes)
print("Média de avaliações:", mediaAvaliacoes)
print("Total de anos:", totalAnos)

### 3.6.4 - Filmes com maior quantidade de avaliações

In [None]:
# Filmes com maior quantidade de avaliações
desenhaMaiorFrequencia(df.Filme, 10, "Filmes com maior quantidade de avaliações", "Filme")

### 3.6.5 - Filmes com menor quantidade de avaliações

In [None]:
# Filmes com menor quantidade de avaliações
desenhaMenorFrequencia(df.Filme, 10, "Filmes com menor quantidade de avaliações", "Filme")

### 3.6.6 - Histograma das avaliações dos filmes

A maioria dos filmes recebe entre 10 a 16648 avaliações. <br>
Existem alguns filmes que são muito populares e recebem muitas avaliações.

In [None]:
# Quantidade de Avaliações por filme
quantAvaliacoesPorFilme = df.Filme.value_counts().values

# Desenha o histograma
desenhaHistograma(quantAvaliacoesPorFilme, "Histograma das avaliações dos filmes")

### 3.6.7 - Usuários com maior quantidade de avaliações realizadas

In [None]:
# Usuários com maior quantidade de avaliações realizadas
desenhaMaiorFrequencia(df.Usuario, 10, "Usuários com maior quantidade de avaliações realizadas", "Usuário")

### 3.6.8 - Usuários com menor quantidade de avaliações realizadas

In [None]:
# Usuários com menor quantidade de avaliações
desenhaMenorFrequencia(df.Usuario, 10, "Usuários com menor quantidade de avaliações realizadas", "Usuário")

### 3.6.9 - Histograma das avaliações dos usuários

A maioria dos usuários faz de 1 a 458 avaliações.

In [None]:
# Quantidade de avaliações por filme
quantAvaliacoesPorUsuario = df.Usuario.value_counts().values

# Desenha o histograma
desenhaHistograma(quantAvaliacoesPorUsuario, "Histograma das avaliações dos usuários")

### 3.6.10 - Média de avaliações realizadas por cada usuário

In [None]:
# Imprime na tela a média de avaliações realizadas por cada usuário
print("Média de avaliações realizadas por usuário: ", round(df.Usuario.value_counts().mean()))

### 3.6.11 - Média de avaliações por filme

In [49]:
# Função que calcula a média das avaliações de um determinado filme
def calculaMediaAvaliacaoDoFilme(codigoFilme):
    return df[df.Filme == codigoFilme]["Avaliacao"].mean()

In [50]:
# Calculando a média das avaliações de um determinado filme
calculaMediaAvaliacaoDoFilme(530)

2.4294871794871793

### 3.6.12 - Quantidade de avaliações por dia da semana

In [None]:
# Quantidade de avaliações por dia da semana
desenhaMaiorFrequencia(df.Dia_da_semana, 7, "Quantidade de avaliações por dia da semana", "Dia da semana")

### 3.6.13 - Quantidade de avaliações por mês

In [None]:
# Quantidade de avaliações por mês
desenhaMaiorFrequencia(df.Mes, 12, "Quantidade de avaliações por mês", "Mês")

### 3.6.14 - Quantidade de avaliações por ano

In [None]:
# Calcula a quantidade de avaliações por ano, coloca em ordem crescente e armazena o resultado na variável
avaliacoesPorAno = df.Ano.value_counts().sort_values()

# Desenha o gráfico
fig, ax = plt.subplots(figsize=(13, 6)) 
ax.plot(avaliacoesPorAno.index, avaliacoesPorAno.values, marker = "8", label = "Avaliações por ano") 
ax.set_title("Quantidade de avaliações por ano", fontsize = 16)
ax.set_xlabel("Ano", fontsize = 12)
ax.set_ylabel("Quantidade", fontsize = 12)

# Verifica se há necessidade de ajustar a unidade de medida do eixo y
if avaliacoesPorAno.values.max() >= 1000000:
    # Ajusta a unidade de medida do eixo y para milhões
    ax.yaxis.set_major_formatter(ajustaMilhoes)

# Exibe a quantidade de avaliações em cada ponto do gráfico
for a,b in zip(avaliacoesPorAno.index, avaliacoesPorAno.values): 
    plt.text(a, b, str(b))
plt.show()

### 3.6.15 - Quantidade de cada avaliação

In [None]:
# Quantidade de cada avaliação
desenhaMaiorFrequencia(df.Avaliacao, 5, "Quantidade de cada avaliação", "Avaliação")

## 4 - Matriz Esparsa
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Uma matriz é dita **esparsa** quando possui uma grande quantidade de elementos com valor zero (ou não presentes, ou não necessários). Esse conceito está em contraste com uma matriz densa, onde a maioria ou todos os elementos têm um valor diferente de zero.

</details>

In [None]:
# Carregando imagem
Image('Dados/Netflix/Imagens/matriz_esparsa2.png')

In [None]:
# Carregando imagem
Image('Dados/Netflix/Imagens/matriz_esparsa1.png')

### 4.1 - Criando a Matriz Esparsa

In [11]:
# Verifica se a matriz esparsa já existe no disco
if os.path.isfile('Dados/Netflix/matrizEsparsa.npz'):
    # Carrega a matriz esparsa
    matrizEsparsa = sparse.load_npz('Dados/Netflix/matrizEsparsa.npz')
    print("Matriz Carregada! \nSeu formato é: (usuário, filme): ", matrizEsparsa.shape)
else:
    # Caso não exista o arquivo em disco, criamos a matriz esparsa 
    matrizEsparsa = sparse.csr_matrix((df.Avaliacao.values, (df.Usuario.values, df.Filme.values)),)
    print('Matriz Criada! \nSeu formato é: (usuário, filme): ', matrizEsparsa.shape)
    
    # Salva a matriz esparsa no disco no formato Numpy (npz) 
    sparse.save_npz('Dados/Netflix/matrizEsparsa.npz', matrizEsparsa)
    print('Matriz Salva em Disco.')

Matriz Carregada! 
Seu formato é: (usuário, filme):  (2649430, 9211)


### 4.2 - Calculando a esparsidade da matriz
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O conceito de esparsidade é usado para identificar o percentual de células que são esparsas ou não utilizadas. <br>
Neste exemplo de avaliação de filmes da Netflix, o percentual de esparsidade da matriz esparsa é muito alto, visto que, muitas células da matriz foram preenchidas com zero. Isso aconteceu porque muitos usuários não avaliaram muitos filmes.

</details>

In [38]:
# Calculando a esparsidade da matriz
linhas, colunas = matrizEsparsa.shape
elementosNaoZero = matrizEsparsa.count_nonzero()
print("Esparsidade da Matriz Esparsa: {}% ".format(round((1 - (elementosNaoZero / (linhas * colunas))) * 100,2)))

Esparsidade da Matriz Esparsa: 99.79% 


## Problema do Cold Start

In [None]:
# Cold start de usários
usuarios_treino = len(medias_treino['user'])
novos_usuarios = total_users - usuarios_treino

In [None]:
# Print
print('Total Geral de Usuários:', total_users)
print('Total de Usuários em Treino :', usuarios_treino)
print("Total de Usuários Que Não Estão em Treino: {} ({}%)".format(novos_usuarios,
                                                                   np.round((novos_usuarios / total_users) * 100, 2)))

75148 usuários não fazem parte dos dados de treino, ou seja, não temos como aprender o padrão de avaliação desses usuários! Esse é o problema do cold start (ou início frio).

In [None]:
# Cold start de filmes
filmes_treino = len(medias_treino['movie'])
novos_filmes = total_movies - filmes_treino

In [None]:
# Print
print('Total Geral de Filmes:', total_movies)
print('Total de Filmes em Treino:', filmes_treino)
print("Total de Filmes Que Não Estão em Treino: {} ({}%)".format(novos_filmes,
                                                                 np.round((novos_filmes/total_movies)*100, 2)))

346 filmes não aparecem nos dados de treino. Teremos que lidar com isso quando trabalharmos especialmente no modelo de Machine Learning.

## Calculando a Matriz de Similaridade de Usuários

In [None]:
# Função de cálculo de similaridade
def calcula_similaridade_usuario(sparse_matrix, 
                                 compute_for_few = False, 
                                 top = 100, 
                                 verbose = False, 
                                 verb_for_n_rows = 20,
                                 draw_time_taken = True):
    
    # Variáveis de controle
    no_of_users, _ = sparse_matrix.shape
    row_ind, col_ind = sparse_matrix.nonzero()
    row_ind = sorted(set(row_ind)) 
    time_taken = list()
    rows, cols, data = list(), list(), list()
    if verbose: print("Calculando top", top, "similaridades para cada usuário...")
    start = datetime.now()
    temp = 0
    
    # Loop pela matriz
    for row in row_ind[:top] if compute_for_few else row_ind:
        temp = temp + 1
        prev = datetime.now()
        
        # Calculando a similaridade de cosseno
        sim = cosine_similarity(sparse_matrix.getrow(row), sparse_matrix).ravel()
        top_sim_ind = sim.argsort()[-top:]
        top_sim_val = sim[top_sim_ind]
        rows.extend([row]*top)
        cols.extend(top_sim_ind)
        data.extend(top_sim_val)
        time_taken.append(datetime.now().timestamp() - prev.timestamp())
        
        if verbose:
            if temp%verb_for_n_rows == 0:
                print("Cálculo concluído para {} usuários [  tempo total : {}  ]".format(temp, datetime.now()-start))
            
    if verbose: print('Criação de matriz esparsa a partir das semelhanças computadas...')    
        
    if draw_time_taken:
        plt.plot(time_taken, label = 'Tempo de cálculo de cada usuário')
        plt.plot(np.cumsum(time_taken), label = 'Tempo Total')
        plt.legend(loc = 'best')
        plt.xlabel('Usuário')
        plt.ylabel('Tempo (segundos)')
        plt.show()
        
    return sparse.csr_matrix((data, (rows, cols)), shape = (no_of_users, no_of_users)), time_taken      

In [None]:
# Calculamos a similaridade

# Marca o início
start = datetime.now()

# Calcula a similaridade
matriz_esparsa_user, _ = calcula_similaridade_usuario(matriz_esparsa_treino, 
                                                      compute_for_few = True, 
                                                      top = 100, 
                                                      verbose = True)

print("Tempo Total de Processamento:", datetime.now() - start)

Temos **405.041 usuários** em nosso conjunto de treinamento e computação de semelhanças entre eles (**vetor dimensional de 17K**) é demorado.


Tentaremos reduzir as dimensões usando SVD, de modo a acelerar o processo.

## Redução de Dimensionalidade com TruncatedSVD

In [None]:
# Redução de dimensionalidade

# Marca o início
start = datetime.now()

# Cria o objeto TruncatedSVD reduzindo a dimensionalidade para 500 dimensões
netflix_svd = TruncatedSVD(n_components = 500, algorithm = 'randomized', random_state = 15)

# Aplica o TruncatedSVD
trunc_svd = netflix_svd.fit_transform(matriz_esparsa_treino)

print("Tempo Total de Processamento:", datetime.now() - start)

__Vamos calcular a variância explicada pelos componentes.__

In [None]:
# Calcula a variância explicada
expl_var = np.cumsum(netflix_svd.explained_variance_ratio_)

In [None]:
# Plot
fig, (ax1) = plt.subplots(nrows = 1, ncols = 1, figsize = plt.figaspect(.45))

ax1.set_ylabel("Variância Explicada", fontsize = 15)
ax1.set_xlabel("Fatores Latentes", fontsize = 15)
ax1.plot(expl_var)

# Vamos marcar algumas combinações de (fatores latentes, variância explicada) para tornar o gráfico mais claro
ind = [1, 2, 4, 8, 20, 60, 100, 200, 300, 400, 500]
ax1.scatter(x = [i-1 for i in ind], y = expl_var[[i-1 for i in ind]], c = '#ee4422')

for i in ind:
    ax1.annotate(s ="({}, {})".format(i,  np.round(expl_var[i-1], 2)), xy = (i-1, expl_var[i-1]),
                xytext = ( i+20, expl_var[i-1] - 0.01), fontweight = 'bold')

plt.show()

Com 500 componentes explicamos aproximadamente 65% da variância dos dados. Isso é suficiente para nosso exemplo.


In [None]:
# Vamos projetar nossa matriz no espaço de 500 dimensões
start = datetime.now()
trunc_matrix = matriz_esparsa_treino.dot(netflix_svd.components_.T)
print("Tempo de Processamento:", datetime.now() - start)

In [None]:
# Shape
trunc_matrix.shape

In [None]:
# Tipo
type(trunc_matrix)

In [None]:
# Vamos criar e salvar em disco a matriz com a a dimensionalidade reduzida para 500 dimensões
if not os.path.isfile('dados/matriz_esparsa_user_truncada.npz'):
    matriz_esparsa_user_truncada = sparse.csr_matrix(trunc_matrix)
    sparse.save_npz('dados/matriz_esparsa_user_truncada', matriz_esparsa_user_truncada)
else:
    matriz_esparsa_user_truncada = sparse.load_npz('dados/matriz_esparsa_user_truncada.npz')

In [None]:
# Conferindo o shape
matriz_esparsa_user_truncada.shape

__Agora calculamos novamente a similaridade de usuários usando a matriz truncada.__

In [None]:
# Calcula similaridade de usuários

# Marca o início
start = datetime.now()

# Calcula a similaridade
trunc_sim_matrix, _ = calcula_similaridade_usuario(matriz_esparsa_user_truncada, 
                                                   compute_for_few = True, 
                                                   top = 50, 
                                                   verbose = True) 

print("Tempo de Processamento:", datetime.now() - start)

## Calculando Matriz de Similaridade de Filmes

In [None]:
# Cálculo da similaridade de filmes

# Marca o início
start = datetime.now()

# Cria se não existir
if not os.path.isfile('dados/matriz_esparsa_filme.npz'):
    matriz_esparsa_filme = cosine_similarity(X = matriz_esparsa_treino.T, dense_output = False)
    print("Matriz Criada.")
    sparse.save_npz("dados/matriz_esparsa_filme.npz", matriz_esparsa_filme)
    print("Matriz Salva em Disco.")
else:
    matriz_esparsa_filme = sparse.load_npz("dados/matriz_esparsa_filme.npz")
    print("Matriz Carregada.")

print("Tempo de Processamento:", datetime.now() - start)

In [None]:
# Shape
matriz_esparsa_filme.shape

In [None]:
# Extra os ids dos filmes
movie_ids = np.unique(matriz_esparsa_filme.nonzero()[1])

In [None]:
# Calcula a similaridade de filmes de acordo com o padrão de avaliação dos usuários

# Marca o início
start = datetime.now()

# Dicionário para armazenar as similaridades
filmes_similares = dict()

# Loop pelos ids dos filmes
for movie in movie_ids:
    # Obtemos os top filmes semelhantes e armazenamos no dicionário
    filmes_sim = matriz_esparsa_filme[movie].toarray().ravel().argsort()[::-1][1:]
    filmes_similares[movie] = filmes_sim[:100]
    
print("Tempo de Processamento:", datetime.now() - start)

In [None]:
# Filmes similares ao filme de id 43
filmes_similares[43]

__Agora vamos encontrar os filmes mais semelhantes usando a matriz de similaridade.__

In [None]:
# Vamos carregar os títulos dos filmes do arquivo csv fornecido pela Netflix
titulos_filmes = pd.read_csv("dados/movie_titles.csv", 
                             sep = ',', 
                             header = None,
                             names = ['ID_Filme', 'Ano_Lancamento', 'Titulo'], 
                             verbose = True,
                             index_col = 'ID_Filme', 
                             encoding = "ISO-8859-1")

In [None]:
# Visualiza os dados
titulos_filmes.head()

__Vejamos quais são os filmes similares ao filme de ID 43.__

In [None]:
# ID do filme
id_filme = 43

In [None]:
# Print
print("Filme:", titulos_filmes.loc[id_filme].values[1])
print("Total de Avaliações de Usuários = {}.".format(matriz_esparsa_treino[:,id_filme].getnnz()))
print("Encontramos {} filmes que são similares a este e vamos imprimir os mais similares.".format(matriz_esparsa_filme[:,id_filme].getnnz()))

In [None]:
# Encontrando todas as similaridades
similarities = matriz_esparsa_filme[id_filme].toarray().ravel()
similar_indices = similarities.argsort()[::-1][1:]
similarities[similar_indices]
sim_indices = similarities.argsort()[::-1][1:] 

In [None]:
# Plot
fig = plt.figure(figsize = plt.figaspect(.45))
plt.plot(similarities[sim_indices], label = 'Todas as Avaliações')
plt.plot(similarities[sim_indices[:100]], label = 'Top 100 Filmes Similares')
plt.title("Filmes Similares ao Filme {}".format(id_filme), fontsize = 25)
plt.xlabel("Filmes", fontsize = 15)
plt.ylabel("Similaridade de Cosseno", fontsize = 15)
plt.legend()
plt.show()

In [None]:
# Aqui os top 10 filmes mais similares ao filme 43
titulos_filmes.loc[sim_indices[:10]]

Já poderíamos concluir o projeto aqui, pois já temos um sistema de recomendação. Mas iremos além e vamos construir um modelo de Machine Learning para fazer as previsões. Trabalharemos nisso na Parte 2 deste Mini-Projeto.