##  Sistema de Recomendação de Filmes

####  Contexto
Vamos criar um modelo de recomendação de filmes, utilizando duas base de dados: uma de filmes e outra de avaliações. O modelo de machine learning recomendará filmes com base no filme selecionado.

####  Lógica geral do modelo
A lógica aplicada para nosso modelo é criar um sistema de recomendações, utilizando filmes que contaram com muitas avaliações, avaliações estas realizadas por usuários que fizeram muitas avaliações (com isso, teremos dados mais consistentes para aplicar em nosso modelo). A depender do filme selecionado, o modelo recomendará filmes "próximos" mais bem avaliados pelos usuários.

####  Como será feito?
Nosso modelo utilizará as variáveis filme, avaliação ...
- Análise exploratória dos dados: Verificar informações das bases de dados (tamanho, tipo de dado, se há valores nulos ou duplicados);
     
- Pré processamento dos dados: Selecionar as colunas que serão utilizadas no modelo, alterar tipos das variáveis, juntar bases de dados;

- Criação do modelo de machine learning: Para nosso modelo, utilizaremos duas bibliotecas: scipy.sparse e sklearn.neighbors.


  Por que scipy.sparse? Transformaremos nossos dados numa matriz esparsa com o método csr_matrix da biblioteca scipy.sparse. Uma vez que nossa matriz contém muitos zeros, passar para matriz esparsa possibilitará um processamento mais rápido dos dados.

    Por que sklearn.neighbors? O método NearestNeighbors da sklearn.neighbors permite que o modelo pegue o "vizinho mais próximo", ou seja, considerando o filme selecionado, quais outros filmes assistidos pelos usuários também foram assistidos e tiveram boa pontuação.


####  Dicionário
 Dados sobre os filmes (movies_metadata.csv)
 - adult: se o filme é para adultos ou não                
 - belongs_to_collection:
 - budget:                 
 - genres: gênero do filme   
 - homepage: 
 - id:                    
 - imdb_id:                
 - original_language: idioma original do filme     
 - original_title: título original do filme      
 - overview: resumo do filme              
 - popularity:              
 - poster_path:             
 - production_companies:   
 - production_countries:   
 - release_date:           
 - revenue:                
 - runtime:       
 - spoken_languages:       
 - status:                 
 - tagline:                
 - title:                  
 - video:     
 - vote_average:          
 - vote_count:

 Dados sobre as avaliações (movies_metadata.csv)
 - userId: ID do usuário
 - movieId: ID do filme
 - rating: avaliação
 - timestamp: 

In [49]:
# Importação dos pacotes
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix
from sklearn.neighbors import NearestNeighbors

### Análise exploratória dos dados

Vamos importar e verificar as informações gerais das bases de dados, seus tamanhos e tipos de dados, se contam com valores nulos ou duplicados

In [2]:
# Importação dados filmes
# low_memory para que o python não classifique todas as variáveis do banco de dados, que é grande
df_filmes = pd.read_csv('movies_metadata.csv', low_memory=False)
df_filmes.head()

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [3]:
# Informações dados filmes
df_filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [4]:
# Importação dados avaliações
df_avaliacoes = pd.read_csv('ratings.csv')
df_avaliacoes.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,110,1.0,1425941529
1,1,147,4.5,1425942435
2,1,858,5.0,1425941523
3,1,1221,5.0,1425941546
4,1,1246,5.0,1425941556


In [56]:
# Informações dados filmes
df_avaliacoes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3844582 entries, 17291 to 26023521
Data columns (total 3 columns):
 #   Column      Dtype  
---  ------      -----  
 0   ID_USUARIO  int64  
 1   ID_FILME    int64  
 2   AVALIACAO   float64
dtypes: float64(1), int64(2)
memory usage: 117.3 MB


### Pré Processamento dos dados
- Seleção das colunas que utilizaremos no sistema de avaliações
- Renomear colunas para ficar mais intuitivo
- Dadas as colunas selecionadas, excluir valores vazios duplicados
- Seleção de filmes com muitas avaliações e de usuários que fizeram muitas avaliações

In [5]:
# Seleção das colunas que iremos utilizar
df_filmes = df_filmes[['id', 'original_title', 'original_language', 'vote_count']]

# Renomeando colunas
df_filmes.rename(columns = {'id':'ID_FILME', 'original_title':'TITULO', 'original_language':'IDIOMA', 'vote_count':'QTD_AVALIACOES'}, inplace=True)
df_filmes.head()

Unnamed: 0,ID_FILME,TITULO,IDIOMA,QTD_AVALIACOES
0,862,Toy Story,en,5415.0
1,8844,Jumanji,en,2413.0
2,15602,Grumpier Old Men,en,92.0
3,31357,Waiting to Exhale,en,34.0
4,11862,Father of the Bride Part II,en,173.0


In [6]:
# Seleção das colunas que iremos utilizar
df_avaliacoes = df_avaliacoes[['userId', 'movieId', 'rating']]

# Renomeando colunas
df_avaliacoes.rename(columns = {'userId':'ID_USUARIO', 'movieId':'ID_FILME', 'rating':'AVALIACAO'}, inplace=True)
df_avaliacoes.head()

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO
0,1,110,1.0
1,1,147,4.5
2,1,858,5.0
3,1,1221,5.0
4,1,1246,5.0


In [7]:
# Verificando valores nulos em filmes
df_filmes.isna().sum()

ID_FILME           0
TITULO             0
IDIOMA            11
QTD_AVALIACOES     6
dtype: int64

In [8]:
# São poucos valores nulos, vamos excluí-los
df_filmes.dropna(inplace=True)
df_filmes.isna().sum()

ID_FILME          0
TITULO            0
IDIOMA            0
QTD_AVALIACOES    0
dtype: int64

In [14]:
# Verificando valores duplicados em filmes
df_filmes.duplicated().sum()

28

In [54]:
# Excluindo valores duplicados
df_filmes.drop_duplicates(inplace=True)
df_filmes.duplicated().sum()

In [15]:
# Verificando valores nulos em avaliaces
df_avaliacoes.isna().sum()

ID_USUARIO    0
ID_FILME      0
AVALIACAO     0
dtype: int64

In [16]:
# Verificando valores duplicados em avaliações
df_avaliacoes.duplicated().sum()

0

In [19]:
# Verificando a quantidade de avaliações por usuários
df_avaliacoes['ID_USUARIO'].value_counts()

ID_USUARIO
45811     18276
8659       9279
270123     7638
179792     7515
228291     7410
          ...  
30155         1
9641          1
164717        1
243426        1
234625        1
Name: count, Length: 270896, dtype: int64

In [20]:
# Selecionando apenas usuários que fizeram +999 avaliações
qt_avaliacoes = df_avaliacoes['ID_USUARIO'].value_counts() > 999
y = qt_avaliacoes[qt_avaliacoes].index
y.shape

(2509,)

In [21]:
# Selecionando somente avaliacoes de usuarios que fizeram +999 avaliações
df_avaliacoes = df_avaliacoes[df_avaliacoes['ID_USUARIO'].isin(y)]

In [22]:
# Visualizando o tamanho do dataset
df_avaliacoes.shape

(3844582, 3)

In [25]:
# Selecionando filmes que tiveram +999 avaliacoes
df_filmes = df_filmes[df_filmes['QTD_AVALIACOES'] > 999]

In [28]:
# Agrupando a quantidade de filmes por linguagem
filmes_idioma = df_filmes['IDIOMA'].value_counts()
filmes_idioma.head()

IDIOMA
en    1100
fr       5
ja       5
it       3
ko       2
Name: count, dtype: int64

In [30]:
# Como os filmes com o idioma ingles são os que mais contam com +999 avaliações, selecionaremos apenas eles
df_filmes = df_filmes[df_filmes['IDIOMA'] == 'en']

In [31]:
# Tipos de dados de filmes
df_filmes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1100 entries, 0 to 44842
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID_FILME        1100 non-null   object 
 1   TITULO          1100 non-null   object 
 2   IDIOMA          1100 non-null   object 
 3   QTD_AVALIACOES  1100 non-null   float64
dtypes: float64(1), object(3)
memory usage: 43.0+ KB


In [32]:
# Tipos de dados de avaliacoes
df_avaliacoes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3844582 entries, 17291 to 26023521
Data columns (total 3 columns):
 #   Column      Dtype  
---  ------      -----  
 0   ID_USUARIO  int64  
 1   ID_FILME    int64  
 2   AVALIACAO   float64
dtypes: float64(1), int64(2)
memory usage: 117.3 MB


In [33]:
# Convertendo ID_FILME em df_filmes em int, para uni-lo a df_avaliacoes pelo ID_FILME (ID_FILME precisa ser do mesmo tipo nos dois dataframes)
df_filmes['ID_FILME'] = df_filmes['ID_FILME'].astype(int)

In [36]:
# Concatenando os dataframes
avaliacoes_e_filmes = df_avaliacoes.merge(df_filmes, on='ID_FILME')
avaliacoes_e_filmes.head()

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,IDIOMA,QTD_AVALIACOES
0,229,12,1.0,Finding Nemo,en,6292.0
1,229,70,3.0,Million Dollar Baby,en,2519.0
2,229,77,3.0,Memento,en,4168.0
3,229,85,3.0,Raiders of the Lost Ark,en,3949.0
4,229,106,4.0,Predator,en,2129.0


In [37]:
# Verificando o tamanho do dataframe
avaliacoes_e_filmes.shape

(189882, 6)

In [39]:
# Verificando valores nulos
avaliacoes_e_filmes.isna().sum()

ID_USUARIO        0
ID_FILME          0
AVALIACAO         0
TITULO            0
IDIOMA            0
QTD_AVALIACOES    0
dtype: int64

In [40]:
# Descartando possíveis duplicados, com um mesmo usuário avaliando o mesmo filme mais de uma vez
avaliacoes_e_filmes.drop_duplicates(['ID_USUARIO', 'ID_FILME'], inplace=True)

In [41]:
# Visualizando como ficou nosso dataframe após a exclusão de duplicadas
avaliacoes_e_filmes.shape

(189882, 6)

In [42]:
# Descartando ID_FILME (não utilizaremos na análise)
del avaliacoes_e_filmes['ID_FILME']

In [43]:
# Faremos um pivot, cada ID_USUARIO será uma variável (coluna) com o respectivo valor de nota para cada filme avaliado
filmes_pivot = avaliacoes_e_filmes.pivot_table(columns='ID_USUARIO', index='TITULO', values='AVALIACAO')
filmes_pivot.head()

ID_USUARIO,229,231,741,836,1104,1136,1243,1380,1652,1846,...,269632,269750,269913,270071,270123,270213,270237,270564,270654,270887
TITULO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10 Things I Hate About You,,,,,,,,,,,...,,2.5,,3.0,3.0,,,,,
12 Angry Men,,,,,,,,,,,...,,,,,,,,,3.5,
127 Hours,,,,,,,,,,,...,,,,,,,,,,
1408,,,,,,,,,,,...,,,,,2.5,2.0,,,,
2 Fast 2 Furious,,,,,,,,,,,...,,,,,,,,,,


In [44]:
# Substituindo os valores nulos por 0
filmes_pivot.fillna(0, inplace=True)
filmes_pivot.head()

ID_USUARIO,229,231,741,836,1104,1136,1243,1380,1652,1846,...,269632,269750,269913,270071,270123,270213,270237,270564,270654,270887
TITULO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10 Things I Hate About You,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,2.5,0.0,3.0,3.0,0.0,0.0,0.0,0.0,0.0
12 Angry Men,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.5,0.0
127 Hours,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1408,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,2.5,2.0,0.0,0.0,0.0,0.0
2 Fast 2 Furious,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [46]:
# Transformando nosso dataset em uma matriz sparsa
filmes_sparse = csr_matrix(filmes_pivot)

In [47]:
# Verificando o tipo
type(filmes_sparse)

scipy.sparse._csr.csr_matrix

### Criando nosso modelo


In [50]:
# Criando e treinando o modelo preditivo
modelo = NearestNeighbors(algorithm = 'brute')
modelo.fit(filmes_sparse)

### Fazendo previsões de sugestões de filmes

In [51]:
# Recomendações com base no filme 127 Hours
distance, sugestions = modelo.kneighbors(filmes_pivot.filter(items=['127 Hours'], axis=0).values.reshape(1,-1))

for i in range(len(sugestions)):
    print(filmes_pivot.index[sugestions[i]])

Index(['127 Hours', 'American Hustle', 'The Expendables 2', 'Lord of War',
       'RED 2'],
      dtype='object', name='TITULO')


In [52]:
# Recomendações com base no filme Toy Story
distance, sugestions = modelo.kneighbors(filmes_pivot.filter(items=['Toy Story'], axis=0).values.reshape(1,-1))

for i in range(len(sugestions)):
    print(filmes_pivot.index[sugestions[i]])

Index(['Toy Story', 'Meet the Fockers', 'Top Gun',
       'Harry Potter and the Chamber of Secrets',
       'Austin Powers: International Man of Mystery'],
      dtype='object', name='TITULO')


In [53]:
# Recomendações com base no filme 2 Fast 2 Furious
distance, sugestions = modelo.kneighbors(filmes_pivot.filter(items=['2 Fast 2 Furious'], axis=0).values.reshape(1,-1))

for i in range(len(sugestions)):
    print(filmes_pivot.index[sugestions[i]])

Index(['2 Fast 2 Furious', 'Bambi', 'The Matrix Reloaded',
       'Brokeback Mountain', 'Lord of War'],
      dtype='object', name='TITULO')
