In [1]:
# Importando os pacotes a serem utilizados
import pandas as pd
import numpy as np
import ast

#Os dados podem ser encontrados em 
### https://1drv.ms/u/s!AsB4w0fun-WjnGt3hDTatLJmnKy4?e=fx3dS4

In [2]:
# Importar o arquivo com os filmes e visualizar as primeiras linhas
filmes = pd.read_csv("movies_metadata.csv", low_memory = False)
filmes.head(3)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0


In [3]:
# Importando o arquivo de avaliações e avaliando as primeiras linhas
avaliacoes = pd.read_csv("ratings.csv")
avaliacoes.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,110,1.0,1425941529
1,1,147,4.5,1425942435
2,1,858,5.0,1425941523
3,1,1221,5.0,1425941546
4,1,1246,5.0,1425941556


In [4]:
# Convertendo strings em listas de dicionários
filmes['genres'] = filmes['genres'].apply(ast.literal_eval)
# Extraindo os gêneros dos filmes
filmes['genre_names'] = filmes['genres'].apply(lambda x: [genre['name'] for genre in x])

In [5]:
# Filtrando somente as colunas necessários e renomeando nome das variaveis
# Seleciona somente as variaveis que iremos utilizar
filmes = filmes [['id','original_title','original_language','vote_count','release_date','genre_names']]
# Renomeia as variaveis
filmes.rename(columns = {'id':'ID_FILME','original_title':'TITULO','original_language':'LINGUAGEM','vote_count':'QT_AVALIACOES','release_date':'DT_LANCAMENTO','genre_names':'GENEROS'}, inplace = True)
# Exibe as primeiras linhas do arquivo tratado
filmes.head()

Unnamed: 0,ID_FILME,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS
0,862,Toy Story,en,5415.0,1995-10-30,"[Animation, Comedy, Family]"
1,8844,Jumanji,en,2413.0,1995-12-15,"[Adventure, Fantasy, Family]"
2,15602,Grumpier Old Men,en,92.0,1995-12-22,"[Romance, Comedy]"
3,31357,Waiting to Exhale,en,34.0,1995-12-22,"[Comedy, Drama, Romance]"
4,11862,Father of the Bride Part II,en,173.0,1995-02-10,[Comedy]


In [6]:
# Filtrando somente as colunas necessários e renomeando nome das variaveis
# Seleciona somente as variaveis que iremos utilizar
avaliacoes = avaliacoes [['userId','movieId','rating']]
# Renomeia as variaveis
avaliacoes.rename(columns = {'userId':'ID_USUARIO','movieId':'ID_FILME','rating':'AVALIACAO'}, inplace = True)
# Exibe as primeiras linhas do arquivo tratado
avaliacoes.head()

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO
0,1,110,1.0
1,1,147,4.5
2,1,858,5.0
3,1,1221,5.0
4,1,1246,5.0


In [7]:
# Verificando se há valores nulos
filmes.isna().sum()

ID_FILME          0
TITULO            0
LINGUAGEM        11
QT_AVALIACOES     6
DT_LANCAMENTO    87
GENEROS           0
dtype: int64

In [8]:
# Como são poucos os valores nulos iremos remover porque não terá impacto nenhum
filmes.dropna(inplace = True)

In [9]:
# Verificando se há valores nulos
filmes.isna().sum()

ID_FILME         0
TITULO           0
LINGUAGEM        0
QT_AVALIACOES    0
DT_LANCAMENTO    0
GENEROS          0
dtype: int64

In [10]:
# Verificando se há valores nulos
avaliacoes.isna().sum()

ID_USUARIO    0
ID_FILME      0
AVALIACAO     0
dtype: int64

In [11]:
# Verificando a quantidade de avaliacoes por usuarios
avaliacoes['ID_USUARIO'].value_counts()

ID_USUARIO
45811     18276
8659       9279
270123     7638
179792     7515
228291     7410
          ...  
30155         1
9641          1
164717        1
243426        1
234625        1
Name: count, Length: 270896, dtype: int64

In [12]:
# Vamos pegar o ID_USUARIO somente de usuários que fizeram mais de 50 avaliações
qt_avaliacoes = avaliacoes['ID_USUARIO'].value_counts() > 50
y = qt_avaliacoes[qt_avaliacoes].index
y.shape

(102379,)

In [13]:
# Visualizando os usuarios selecionados
y

Index([ 45811,   8659, 270123, 179792, 228291, 243443,  98415, 229879,  98787,
       172224,
       ...
        22710,  45638, 204417, 237909, 197366, 199982, 181262, 116301, 126397,
       199970],
      dtype='int64', name='ID_USUARIO', length=102379)

In [14]:
# visualizando o tamanho do dataset Avaliações
avaliacoes.shape

(26024289, 3)

In [15]:
# Pegando somente avaliacoes dos usuarios que avaliaram mais de 50 vezes
avaliacoes = avaliacoes[avaliacoes['ID_USUARIO'].isin(y)]

In [16]:
# visualizando o tamanho do dataset Avaliações
avaliacoes.shape

(22806277, 3)

In [17]:
# Visualizando os DataFrame Avaliacoes
avaliacoes.head()

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO
59,4,223,4.0
60,4,415,4.0
61,4,648,4.0
62,4,1097,5.0
63,4,1197,4.0


In [18]:
# Visualizando o DataFrame Filmes
filmes.head()

Unnamed: 0,ID_FILME,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS
0,862,Toy Story,en,5415.0,1995-10-30,"[Animation, Comedy, Family]"
1,8844,Jumanji,en,2413.0,1995-12-15,"[Adventure, Fantasy, Family]"
2,15602,Grumpier Old Men,en,92.0,1995-12-22,"[Romance, Comedy]"
3,31357,Waiting to Exhale,en,34.0,1995-12-22,"[Comedy, Drama, Romance]"
4,11862,Father of the Bride Part II,en,173.0,1995-02-10,[Comedy]


In [19]:
# Vamos usar os filmes que possuem somente uma quantidade de avaliações superior a 50 avaliações
filmes = filmes[filmes['QT_AVALIACOES'] > 50]
# Vamos agrupar e visualizar a quantidade de filmes pela linguagem
filmes_linguagem = filmes['LINGUAGEM'].value_counts()
filmes_linguagem.head(20)

LINGUAGEM
en    7395
fr     517
it     226
ja     215
es     110
de     109
ko      63
cn      60
hi      57
zh      53
sv      39
da      36
ru      29
pt      28
no      15
nl      12
th       8
pl       7
fa       7
hu       7
Name: count, dtype: int64

In [20]:
# Selecionar somente os filmes da linguagem EN (English)
filmes = filmes[filmes['LINGUAGEM'] == 'en']

In [21]:
# Visualizar os tipos de dados das variaveis
filmes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7395 entries, 0 to 45441
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   ID_FILME       7395 non-null   object 
 1   TITULO         7395 non-null   object 
 2   LINGUAGEM      7395 non-null   object 
 3   QT_AVALIACOES  7395 non-null   float64
 4   DT_LANCAMENTO  7395 non-null   object 
 5   GENEROS        7395 non-null   object 
dtypes: float64(1), object(5)
memory usage: 404.4+ KB


In [22]:
avaliacoes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22806277 entries, 59 to 26024288
Data columns (total 3 columns):
 #   Column      Dtype  
---  ------      -----  
 0   ID_USUARIO  int64  
 1   ID_FILME    int64  
 2   AVALIACAO   float64
dtypes: float64(1), int64(2)
memory usage: 696.0 MB


In [23]:
# Precisamos converter a variavel ID_FILME em inteiro
filmes['ID_FILME'] = filmes['ID_FILME'].astype(int)

In [24]:
# Verificando a quantidade de filmes pelo tamanho do arquivo
filmes.shape

(7395, 6)

In [25]:
filmes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7395 entries, 0 to 45441
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   ID_FILME       7395 non-null   int32  
 1   TITULO         7395 non-null   object 
 2   LINGUAGEM      7395 non-null   object 
 3   QT_AVALIACOES  7395 non-null   float64
 4   DT_LANCAMENTO  7395 non-null   object 
 5   GENEROS        7395 non-null   object 
dtypes: float64(1), int32(1), object(4)
memory usage: 375.5+ KB


In [26]:
# Concatenando os dataframes
avaliacoes_e_filmes = avaliacoes.merge(filmes, on = 'ID_FILME')
avaliacoes_e_filmes.head()

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS
0,4,223,4.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
1,12,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
2,46,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
3,49,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
4,53,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"


In [27]:
# Vamos descartar os valores duplicados, para que não tenha problemas de termos o mesmo usuário avaliando o mesmo filme
# diversas vezes
avaliacoes_e_filmes.drop_duplicates(['ID_USUARIO','ID_FILME'], inplace = True)

In [28]:
# Verificando a quantidade de filmes com avaliacoes pelo tamanho do arquivo
avaliacoes_e_filmes.shape

(5271204, 8)

In [29]:
# Verificando se há valores nulos
avaliacoes_e_filmes.isna().sum()

ID_USUARIO       0
ID_FILME         0
AVALIACAO        0
TITULO           0
LINGUAGEM        0
QT_AVALIACOES    0
DT_LANCAMENTO    0
GENEROS          0
dtype: int64

In [30]:
# Vamos visualizar as primeiras 20 linhas do arquivo
avaliacoes_e_filmes.head(20)

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS
0,4,223,4.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
1,12,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
2,46,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
3,49,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
4,53,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
5,60,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
6,62,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
7,63,223,2.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
8,65,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
9,79,223,3.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"


In [31]:
# Vamos descartar os valores duplicados, para que não tenha problemas de termos o mesmo usuário avaliando o mesmo filme
# diversas vezes
avaliacoes_e_filmes.drop_duplicates(['ID_USUARIO','ID_FILME'], inplace = True)

In [32]:
# DataFrame sem a variavel ID_FILME
avaliacoes_e_filmes.head(20)

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS
0,4,223,4.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
1,12,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
2,46,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
3,49,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
4,53,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
5,60,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
6,62,223,4.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
7,63,223,2.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
8,65,223,5.0,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"
9,79,223,3.5,Rebecca,en,346.0,1940-04-12,"[Drama, Mystery]"


In [39]:
# Exportando os titulos
lista_titulos = avaliacoes_e_filmes['TITULO'].unique()
df_lista_titulos = pd.DataFrame(lista_titulos)
df_lista_titulos.to_excel('Lista_Titulos.xlsx')

In [33]:
import pandas as pd
import numpy as np

# Função para calcular a distância euclidiana entre duas listas
def euclidean_distance(list1, list2):
    return np.linalg.norm(list1 - list2)

# Função para calcular a similaridade entre usuários
def user_similarity(user1, user2):
    return euclidean_distance(user1, user2)

# Função para calcular a similaridade entre gêneros
def genre_similarity(genre1, genre2):
    return 1 if set(genre1) == set(genre2) else 0

def sistema_de_recomendacao(titulo, avaliacoes_e_filmes):
    filme_referencia = avaliacoes_e_filmes[avaliacoes_e_filmes['TITULO'] == titulo]
    
    # Filtrando o dataframe para excluir o filme de referência
    avaliacoes_outros_filmes = avaliacoes_e_filmes[avaliacoes_e_filmes['TITULO'] != titulo]

    # Calculando a similaridade entre usuários
    similaridade_usuarios = []
    for _, row in avaliacoes_outros_filmes.iterrows():
        similaridade = euclidean_distance(row['AVALIACAO'], filme_referencia['AVALIACAO'].values[0])
        similaridade_usuarios.append(similaridade)

    avaliacoes_outros_filmes['Similaridade_Usuarios'] = similaridade_usuarios

    # Calculando a similaridade entre os gêneros dos filmes
    generos_referencia = filme_referencia['GENEROS'].values[0]
    similaridade_generos = []
    for generos in avaliacoes_outros_filmes['GENEROS']:
        similaridade = genre_similarity(generos, generos_referencia)
        similaridade_generos.append(similaridade)

    avaliacoes_outros_filmes['Similaridade_Generos'] = similaridade_generos

    # Combinando as similaridades
    avaliacoes_outros_filmes['Total_Similaridade'] = 0.7 * avaliacoes_outros_filmes['Similaridade_Usuarios'] + 0.3 * avaliacoes_outros_filmes['Similaridade_Generos']

    # Ordenando os filmes por similaridade
    recomendacoes = avaliacoes_outros_filmes.sort_values(by='Total_Similaridade', ascending=False).head(3).drop_duplicates(subset='TITULO')

    return recomendacoes




In [47]:
# Recomendações para o filme Toy Story
filme_de_interesse = 'Toy Story'
recomendacoes = sistema_de_recomendacao(filme_de_interesse, avaliacoes_e_filmes)
recomendacoes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Similaridade_Usuarios'] = similaridade_usuarios
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Similaridade_Generos'] = similaridade_generos
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Total_Similaridade'] = 0.7 * aval

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS,Similaridade_Usuarios,Similaridade_Generos,Total_Similaridade
343981,92540,585,0.5,"Monsters, Inc.",en,6150.0,2001-11-01,"[Animation, Comedy, Family]",2.5,1,2.05


In [50]:
# Recomendações para o filme Sin City
filme_de_interesse2 = 'Sin City'
recomendacoes2 = sistema_de_recomendacao(filme_de_interesse2, avaliacoes_e_filmes)
recomendacoes2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Similaridade_Usuarios'] = similaridade_usuarios
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Similaridade_Generos'] = similaridade_generos
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  avaliacoes_outros_filmes['Total_Similaridade'] = 0.7 * aval

Unnamed: 0,ID_USUARIO,ID_FILME,AVALIACAO,TITULO,LINGUAGEM,QT_AVALIACOES,DT_LANCAMENTO,GENEROS,Similaridade_Usuarios,Similaridade_Generos,Total_Similaridade
1064230,202897,1089,0.5,Point Break,en,861.0,1991-07-12,"[Action, Thriller, Crime]",2.5,1,2.05
3970399,46847,4105,0.5,Black Rain,en,250.0,1989-09-22,"[Action, Thriller, Crime]",2.5,1,2.05
3950685,112688,2140,0.5,Kiss of the Dragon,en,304.0,2001-07-06,"[Action, Crime, Thriller]",2.5,1,2.05
