# Sistema de Recomendação

O objetivo do projeto é aplicar funções que se adequem ao conceito do algoritmo KNN, desta feita utilizei os dados do MovieLens para fazer um sistema de recomendação de filmes à usuários.

Dados utilizados do 'recommended for education and development': ml-latest-small.zip (size: 1 MB)

https://grouplens.org/datasets/movielens/

In [None]:
#importando bibliotecas

import pandas as pd
import numpy as np

In [None]:
filmes = pd.read_csv("movies.csv")
filmes.columns = ["filmeId", "titulo", "generos"]
filmes = filmes.set_index("filmeId") #O set_index será o filmeId
filmes.head()

Unnamed: 0_level_0,titulo,generos
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy


In [None]:
notas = pd.read_csv("ratings.csv")
notas.columns = ["usuarioId", "filmeId", "nota", "momento"]
notas.head()

Unnamed: 0,usuarioId,filmeId,nota,momento
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [None]:
total_de_votos = notas["filmeId"].value_counts() 

In [None]:
filmes['total_de_votos'] = total_de_votos 
filmes.head()

Unnamed: 0_level_0,titulo,generos,total_de_votos
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,215.0
2,Jumanji (1995),Adventure|Children|Fantasy,110.0
3,Grumpier Old Men (1995),Comedy|Romance,52.0
4,Waiting to Exhale (1995),Comedy|Drama|Romance,7.0
5,Father of the Bride Part II (1995),Comedy,49.0


**Indicação básica levando em consideração apenas o total de votos**

In [None]:
filmes.sort_values("total_de_votos", ascending = False).head(10)

Unnamed: 0_level_0,titulo,generos,total_de_votos
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
356,Forrest Gump (1994),Comedy|Drama|Romance|War,329.0
318,"Shawshank Redemption, The (1994)",Crime|Drama,317.0
296,Pulp Fiction (1994),Comedy|Crime|Drama|Thriller,307.0
593,"Silence of the Lambs, The (1991)",Crime|Horror|Thriller,279.0
2571,"Matrix, The (1999)",Action|Sci-Fi|Thriller,278.0
260,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Sci-Fi,251.0
480,Jurassic Park (1993),Action|Adventure|Sci-Fi|Thriller,238.0
110,Braveheart (1995),Action|Drama|War,237.0
589,Terminator 2: Judgment Day (1991),Action|Sci-Fi,224.0
527,Schindler's List (1993),Drama|War,220.0


**Indicação básica levando em consideração a nota média e o número de votos.**

In [None]:
notas_medias = notas.groupby("filmeId").mean()["nota"]

In [None]:
filmes["nota_media"] = notas_medias     
filmes.sort_values("total_de_votos", ascending = False).head(10)

Unnamed: 0_level_0,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
356,Forrest Gump (1994),Comedy|Drama|Romance|War,329.0,4.164134
318,"Shawshank Redemption, The (1994)",Crime|Drama,317.0,4.429022
296,Pulp Fiction (1994),Comedy|Crime|Drama|Thriller,307.0,4.197068
593,"Silence of the Lambs, The (1991)",Crime|Horror|Thriller,279.0,4.16129
2571,"Matrix, The (1999)",Action|Sci-Fi|Thriller,278.0,4.192446
260,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Sci-Fi,251.0,4.231076
480,Jurassic Park (1993),Action|Adventure|Sci-Fi|Thriller,238.0,3.75
110,Braveheart (1995),Action|Drama|War,237.0,4.031646
589,Terminator 2: Judgment Day (1991),Action|Sci-Fi,224.0,3.970982
527,Schindler's List (1993),Drama|War,220.0,4.225


# Sugestão baseada no usuário mais próximo

In [None]:
def notas_do_usuario(usuario):
  notas_do_usuario = notas.query("usuarioId==%d" % usuario)
  notas_do_usuario = notas_do_usuario[["filmeId", "nota"]].set_index("filmeId")
  return notas_do_usuario

In [None]:
notas_do_usuario(1)

Unnamed: 0_level_0,nota
filmeId,Unnamed: 1_level_1
1,4.0
3,4.0
6,4.0
47,5.0
50,5.0
...,...
3744,4.0
3793,5.0
3809,4.0
4006,4.0


In [None]:
def distancia_de_vetores(a,b):
  return np.linalg.norm(a - b)

In [None]:
def distancia_de_usuarios(usuario_id1, usuario_id2, minimo = 5):
  notas1 = notas_do_usuario(usuario_id1)
  notas2 = notas_do_usuario(usuario_id2)
  diferencas = notas1.join(notas2, lsuffix="_esquerda", rsuffix="_direita").dropna()
  
  if(len(diferencas) < minimo):
    return None 
  
  distancia =  distancia_de_vetores(diferencas['nota_esquerda'], diferencas['nota_direita'])
  return [usuario_id1, usuario_id2, distancia]

In [None]:
def distancia_de_todos(voce_id, numero_de_usuarios_a_analisar = None):
  todos_os_usuarios = notas['usuarioId'].unique()
  if numero_de_usuarios_a_analisar:
    todos_os_usuarios = todos_os_usuarios[:numero_de_usuarios_a_analisar]
  distancias = [distancia_de_usuarios(voce_id, usuario_id) for usuario_id in todos_os_usuarios]
  distancias = list(filter(None, distancias))
  distancias = pd.DataFrame(distancias, columns = ["voce", "outra_pessoa", "distancia"])
  return distancias

In [None]:
def mais_proximos_de(voce_id, numero_de_usuarios_a_analisar = None):
  distancias = distancia_de_todos(voce_id, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  distancias = distancias.sort_values("distancia")
  distancias = distancias.set_index("outra_pessoa").drop(voce_id)
  return distancias

In [None]:
mais_proximos_de(1, numero_de_usuarios_a_analisar = 50)
#os usuários mais proximos do usuário 1 que estão dentro desse subconjunto de 50 usuários

Unnamed: 0_level_0,voce,distancia
outra_pessoa,Unnamed: 1_level_1,Unnamed: 2_level_1
49,1,1.0
9,1,1.0
25,1,1.414214
13,1,1.414214
30,1,1.802776
35,1,2.236068
26,1,2.236068
46,1,3.316625
8,1,3.741657
5,1,3.741657


In [None]:
#eu quero as notas do usurio mais similar tirando os filmes que já assisti

def sugere_para(voce, numero_de_usuarios_a_analisar = None):
  notas_de_voce = notas_do_usuario(voce)
  filmes_que_voce_ja_viu = notas_de_voce.index

  similares = mais_proximos_de(voce, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  similar = similares.iloc[0].name
  notas_do_similar = notas_do_usuario(similar)
  notas_do_similar = notas_do_similar.drop(filmes_que_voce_ja_viu, errors='ignore')
  recomendacoes = notas_do_similar.sort_values("nota", ascending=False)
  return recomendacoes.join(filmes) #join com o df filmes

In [None]:
sugere_para(1, numero_de_usuarios_a_analisar=50).head() 

#o usuário mais proximo no subconjunto de 50 usuários

Unnamed: 0_level_0,nota,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1200,4.5,Aliens (1986),Action|Adventure|Horror|Sci-Fi,126.0,3.964286
4022,4.5,Cast Away (2000),Drama,100.0,3.7
47099,4.5,"Pursuit of Happyness, The (2006)",Drama,46.0,3.793478
79132,4.5,Inception (2010),Action|Crime|Drama|Mystery|Sci-Fi|Thriller|IMAX,143.0,4.066434
109487,4.5,Interstellar (2014),Sci-Fi|IMAX,73.0,3.993151


In [None]:
sugere_para(1, numero_de_usuarios_a_analisar = 300).head() 

Unnamed: 0_level_0,nota,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
8636,5.0,Spider-Man 2 (2004),Action|Adventure|Sci-Fi|IMAX,79.0,3.803797
58559,5.0,"Dark Knight, The (2008)",Action|Crime|Drama|IMAX,149.0,4.238255
33794,5.0,Batman Begins (2005),Action|Crime|IMAX,116.0,3.862069
4993,5.0,"Lord of the Rings: The Fellowship of the Ring,...",Adventure|Fantasy,198.0,4.106061
5349,5.0,Spider-Man (2002),Action|Adventure|Sci-Fi|Thriller,122.0,3.540984


# Sugestão baseada em vários usuários mais próximos 

In [None]:
def mais_proximos_de(voce_id, n_mais_proximos=10, numero_de_usuarios_a_analisar = None): #os 10 mais proximos
  distancias = distancia_de_todos(voce_id, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  distancias = distancias.sort_values("distancia")
  distancias = distancias.set_index("outra_pessoa").drop(voce_id)
  return distancias.head(n_mais_proximos)

In [None]:
mais_proximos_de(1, n_mais_proximos = 2, numero_de_usuarios_a_analisar=300)
#eu quero os 2 mais proximos analisando apenas os 300 primeiros usuários 

Unnamed: 0_level_0,voce,distancia
outra_pessoa,Unnamed: 1_level_1,Unnamed: 2_level_1
77,1,0.0
258,1,1.0


In [None]:
mais_proximos_de(1, n_mais_proximos = 10, numero_de_usuarios_a_analisar=300)

Unnamed: 0_level_0,voce,distancia
outra_pessoa,Unnamed: 1_level_1,Unnamed: 2_level_1
77,1,0.0
258,1,1.0
49,1,1.0
9,1,1.0
65,1,1.322876
162,1,1.414214
90,1,1.414214
25,1,1.414214
13,1,1.414214
300,1,1.5


In [None]:
#pegando as notas dessas pessoas e tirando a média
#A coluna "nota" é a média de votos que as pessoas similares deram para o filme
#nota média é a nota media daquele filme para todo o meu banco de dados

def sugere_para(voce, n_mais_proximos = 10, numero_de_usuarios_a_analisar = None):
  notas_de_voce = notas_do_usuario(voce)
  filmes_que_voce_ja_viu = notas_de_voce.index

  similares = mais_proximos_de(voce, n_mais_proximos = n_mais_proximos, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  usuarios_similares = similares.index #transformando usuarioId em index
  notas_dos_similares = notas.set_index("usuarioId").loc[usuarios_similares]
  recomendacoes = notas_dos_similares.groupby("filmeId").mean()[["nota"]]
  recomendacoes = recomendacoes.sort_values("nota", ascending=False)
  return recomendacoes.join(filmes)

In [None]:
sugere_para(1, numero_de_usuarios_a_analisar = 300).head()

Unnamed: 0_level_0,nota,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
187593,5.0,Deadpool 2 (2018),Action|Comedy|Sci-Fi,12.0,3.875
802,5.0,Phenomenon (1996),Drama|Romance,46.0,3.336957
534,5.0,Shadowlands (1993),Drama|Romance,14.0,3.607143
1172,5.0,Cinema Paradiso (Nuovo cinema Paradiso) (1989),Drama,34.0,4.161765
515,5.0,"Remains of the Day, The (1993)",Drama|Romance,24.0,3.604167


# A função mais_proximo_de vira o algoritmo KNN

In [None]:
def knn(voce_id, k_mais_proximos=10, numero_de_usuarios_a_analisar = None):
  distancias = distancia_de_todos(voce_id, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  distancias = distancias.sort_values("distancia")
  distancias = distancias.set_index("outra_pessoa").drop(voce_id)
  return distancias.head(k_mais_proximos)

In [None]:
def sugere_para(voce, k_mais_proximos = 10, numero_de_usuarios_a_analisar = None):
  notas_de_voce = notas_do_usuario(voce)
  filmes_que_voce_ja_viu = notas_de_voce.index

  similares = knn(voce, k_mais_proximos = k_mais_proximos, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  usuarios_similares = similares.index
  notas_dos_similares = notas.set_index("usuarioId").loc[usuarios_similares]
  recomendacoes = notas_dos_similares.groupby("filmeId").mean()[["nota"]]
  recomendacoes = recomendacoes.sort_values("nota", ascending=False)
  return recomendacoes.join(filmes)

# Recomendando para usuário novo

In [None]:
filmes.loc[[122904, 1246, 2529, 2329 , 2324 , 1 , 7 , 2 ,1196, 260]]  #o novo usuário deu nota para esses filmes 

Unnamed: 0_level_0,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
122904,Deadpool (2016),Action|Adventure|Comedy|Sci-Fi,54.0,3.833333
1246,Dead Poets Society (1989),Drama,86.0,3.959302
2529,Planet of the Apes (1968),Action|Drama|Sci-Fi,56.0,3.803571
2329,American History X (1998),Crime|Drama,129.0,4.217054
2324,Life Is Beautiful (La Vita è bella) (1997),Comedy|Drama|Romance|War,88.0,4.147727
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,215.0,3.92093
7,Sabrina (1995),Comedy|Romance,54.0,3.185185
2,Jumanji (1995),Adventure|Children|Fantasy,110.0,3.431818
1196,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Sci-Fi,211.0,4.21564
260,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Sci-Fi,251.0,4.231076


In [None]:
def novo_usuario(dados):
  novo_usuario = notas['usuarioId'].max()+1 #é o maior ID somado mais 1
  notas_do_usuario_novo = pd.DataFrame(dados, columns=["filmeId", "nota"])
  notas_do_usuario_novo['usuarioId'] = novo_usuario
  return pd.concat([notas, notas_do_usuario_novo])

In [None]:
notas = novo_usuario([[122904,2],[1246,5],[2529,2],[2329,5],[2324,5],[1,2],[7,0.5],[2,2],[1196,1],[260,1]])
notas.tail() #Esses são os dados (notas) do usuário novo. 

Unnamed: 0,usuarioId,filmeId,nota,momento
5,611,1,2.0,
6,611,7,0.5,
7,611,2,2.0,
8,611,1196,1.0,
9,611,260,1.0,


In [None]:
#Vamos sugerir para o usuário novo
sugere_para(611).head()

Unnamed: 0_level_0,nota,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
171495,5.0,Cosmos,(no genres listed),2.0,4.5
81847,5.0,Tangled (2010),Animation|Children|Comedy|Fantasy|Musical|Roma...,24.0,3.916667
1873,5.0,"Misérables, Les (1998)",Crime|Drama|Romance|War,10.0,3.75
8014,5.0,"Spring, Summer, Fall, Winter... and Spring (Bo...",Drama,10.0,4.25
103141,5.0,Monsters University (2013),Adventure|Animation|Comedy,16.0,3.875


# Recomendação tendo um número mínimo de votos 

Poderíamos ter um algoritmo que funcionasse somente para descobertas de novos filmes, e nesse recomendar filmes com poucas avaliações seria interessante. Mas não é o caso no nosso sistema, e, portanto, vamos utilizar somente as notas de filmes com mais de 50 avaliações para evitarmos essa situação.

In [None]:
filmes_com_mais_de_50_votos = filmes.query("total_de_votos >= 50")
filmes_com_mais_de_50_votos.sort_values("nota_media", ascending = False).head(10)

Unnamed: 0_level_0,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
318,"Shawshank Redemption, The (1994)",Crime|Drama,317.0,4.429022
858,"Godfather, The (1972)",Crime|Drama,192.0,4.289062
2959,Fight Club (1999),Action|Crime|Drama|Thriller,218.0,4.272936
1276,Cool Hand Luke (1967),Drama,57.0,4.27193
750,Dr. Strangelove or: How I Learned to Stop Worr...,Comedy|War,97.0,4.268041
904,Rear Window (1954),Mystery|Thriller,84.0,4.261905
1221,"Godfather: Part II, The (1974)",Crime|Drama,129.0,4.25969
48516,"Departed, The (2006)",Crime|Drama|Thriller,107.0,4.252336
1213,Goodfellas (1990),Crime|Drama,126.0,4.25
912,Casablanca (1942),Drama|Romance,100.0,4.24


In [None]:
notas = notas.set_index("filmeId").loc[filmes_com_mais_de_50_votos.index]
notas.head() #esses são os filmes com mais de 50 votos

Unnamed: 0_level_0,usuarioId,nota,momento
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,4.0,964982700.0
1,5,4.0,847435000.0
1,7,4.5,1106636000.0
1,15,2.5,1510578000.0
1,17,4.5,1305696000.0


In [None]:
notas = notas.reset_index()
notas.head() #nosso df agora só tem os filmes com mais de 50 notas 

Unnamed: 0,filmeId,usuarioId,nota,momento
0,1,1,4.0,964982700.0
1,1,5,4.0,847435000.0
2,1,7,4.5,1106636000.0
3,1,15,2.5,1510578000.0
4,1,17,4.5,1305696000.0


In [None]:
#fazendo nova sugestão para nosso novo usuário, só que agora com o total de votos maior ou igual a 50

sugere_para(611).head()

Unnamed: 0_level_0,nota,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
112852,5.0,Guardians of the Galaxy (2014),Action|Adventure|Sci-Fi,59.0,4.050847
74458,4.75,Shutter Island (2010),Drama|Mystery|Thriller,67.0,4.022388
71535,4.666667,Zombieland (2009),Action|Comedy|Horror,53.0,3.877358
78499,4.5,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX,55.0,4.109091
2804,4.5,"Christmas Story, A (1983)",Children|Comedy,55.0,3.972727


# Recomendação tendo um número mínimo de filmes em comum 

In [None]:
def sugere_para(voce, k_mais_proximos = 10, numero_de_usuarios_a_analisar = None):
  notas_de_voce = notas_do_usuario(voce)
  filmes_que_voce_ja_viu = notas_de_voce.index

  similares = knn(voce, k_mais_proximos = k_mais_proximos, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  usuarios_similares = similares.index
  notas_dos_similares = notas.set_index("usuarioId").loc[usuarios_similares]
  recomendacoes = notas_dos_similares.groupby("filmeId").mean()[["nota"]]
  aparicoes = notas_dos_similares.groupby("filmeId").count()[['nota']]
  
  filtro_minimo = k_mais_proximos / 2 #ou seja, pelo menos 5 pessoas tem que ter dado nota para o mesmo filme
  recomendacoes = recomendacoes.join(aparicoes, lsuffix="_media_dos_usuarios", rsuffix="_aparicoes_nos_usuarios")
  recomendacoes = recomendacoes.query("nota_aparicoes_nos_usuarios >= %.2f" % filtro_minimo)  
  recomendacoes = recomendacoes.sort_values("nota_media_dos_usuarios", ascending=False)
  recomendacoes = recomendacoes.drop(filmes_que_voce_ja_viu,errors='ignore')
  return recomendacoes.join(filmes)

In [None]:
def knn(voce_id, k_mais_proximos=10, numero_de_usuarios_a_analisar = None):
  distancias = distancia_de_todos(voce_id, numero_de_usuarios_a_analisar = numero_de_usuarios_a_analisar)
  distancias = distancias.sort_values("distancia")
  distancias = distancias.set_index("outra_pessoa").drop(voce_id, errors='ignore')
  return distancias.head(k_mais_proximos)

In [None]:
#fazendo nova sugestão para o usuário novo, só que agora 5 pessoas, no mínimo, assistiu e deu nota para x filme

sugere_para(611, numero_de_usuarios_a_analisar=500)

#por exemplo, para o filme 318, 8 pessoas deram nota de media 4.5

Unnamed: 0_level_0,nota_media_dos_usuarios,nota_aparicoes_nos_usuarios,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
318,4.500000,8,"Shawshank Redemption, The (1994)",Crime|Drama,317.0,4.429022
919,4.400000,5,"Wizard of Oz, The (1939)",Adventure|Children|Fantasy|Musical,92.0,3.880435
79132,4.357143,7,Inception (2010),Action|Crime|Drama|Mystery|Sci-Fi|Thriller|IMAX,143.0,4.066434
356,4.350000,10,Forrest Gump (1994),Comedy|Drama|Romance|War,329.0,4.164134
7361,4.312500,8,Eternal Sunshine of the Spotless Mind (2004),Drama|Romance|Sci-Fi,131.0,4.160305
...,...,...,...,...,...,...
5481,2.300000,5,Austin Powers in Goldmember (2002),Comedy,65.0,2.846154
3785,2.300000,5,Scary Movie (2000),Comedy|Horror,50.0,2.920000
2054,2.300000,5,"Honey, I Shrunk the Kids (1989)",Adventure|Children|Comedy|Fantasy|Sci-Fi,68.0,2.757353
1485,2.100000,5,Liar Liar (1997),Comedy,74.0,3.033784


In [None]:
x = sugere_para(611) #esses são os filmes em comum com as 10 pessoas mais próximas 
x.head()

Unnamed: 0_level_0,nota_media_dos_usuarios,nota_aparicoes_nos_usuarios,titulo,generos,total_de_votos,nota_media
filmeId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
318,4.5,8,"Shawshank Redemption, The (1994)",Crime|Drama,317.0,4.429022
919,4.4,5,"Wizard of Oz, The (1939)",Adventure|Children|Fantasy|Musical,92.0,3.880435
79132,4.357143,7,Inception (2010),Action|Crime|Drama|Mystery|Sci-Fi|Thriller|IMAX,143.0,4.066434
356,4.35,10,Forrest Gump (1994),Comedy|Drama|Romance|War,329.0,4.164134
7361,4.3125,8,Eternal Sunshine of the Spotless Mind (2004),Drama|Romance|Sci-Fi,131.0,4.160305


In [None]:
#mudei o padrão de dez pessoas mais proximas, para 20 pessoas mais proximas, passando o mínimo a ser 10 
z= sugere_para(611, k_mais_proximos=20).head(10) 
z.head()

In [None]:
z["nota_aparicoes_nos_usuarios"].unique() #perceba que o máximo é 10

Um detalhe importante é: quanto mais usuários estamos pegando com nosso parâmetro k_mais_proximos, mais aparecem nas recomendações filmes muito populares. Isso porque, já que definimos nosso filtro mínimo como k_mais_proximos / 2, quanto maior o número de vizinhos, maior será o número de usuários que terão que ter visto o mesmo filme. Nesse caso, eu peguei os 20 mais proximos, pelo menos 10 teriam que ter visto o mesmo filme.

É importante ressaltar que esse sistema de recomendação poderia ficar ainda mais sofisticado, caso eu separasse os filmes por gênero, por exemplo. Mas o objetivo do case foi apenas mostrar como construir um simples sistema de recomendação.