Criação de recomendação de filmes a partir da transformação dos titulos em matrizes numericas. logo após a transformação dos titulos em numeros, comparamos com uma lista de avaliação de filmes. para que o modelo nos retorne os filmes mais bem avaliados por aquelas pessoas que tambem avaliaram bem o filque que procuro.

### Leitura da base 

In [6]:
import pandas as pd
filme=pd.read_csv('movies.csv')

In [7]:
filme

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
62418,209157,We (2018),Drama
62419,209159,Window of the Soul (2001),Documentary
62420,209163,Bad Poems (2018),Comedy|Drama
62421,209169,A Girl Thing (2001),(no genres listed)


### Limpeza dos titulos 

In [8]:
import re

def limpar_titulo(title):
    return re.sub("[^a-zA-Z0-9 ]","", title)  # ^ dentro da classe de caracteres nega o padrão, ou seja, corresponderá a qualquer caractere que não esteja na lista a seguir.
                                        #a-zA-Z0-9 corresponde a qualquer letra maiúscula, letra minúscula ou dígito.
                                       #O espaço em branco " " corresponde a um espaço em branco litera


            

In [9]:
filme["clean_title"] = filme["title"].apply(limpar_titulo)

### Tornando os titulos em vetores de numeros 


// Aplicando uma ponderação por nome. (Inverse docment frequency) Que ajuda o mecanismo de pesquisa encontrar termos que são unicos

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(ngram_range=(1,2))    #ngram.range procura (toy {story) 1995}

tfidf = vectorizer.fit_transform(filme["clean_title"]) #transformou em matriz de numeros os titulos

### Criando uma função de busca

In [11]:
#calculando a similaridade dos graficos
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

#definição de search(title)
def search(title):    
    
    title = limpar_titulo(title)
    query_vec = vectorizer.transform([title])
    similarity = cosine_similarity(query_vec, tfidf).flatten()
    indices = np.argpartition(similarity, -5)[-5:] # achando os 5 titulos mais similares
    results = filme.iloc[indices] [::-1] # esta ultima expressao busca o ultimo filme 
    return results                                   # pois o filme mais similar esta como ultimo na saida dos dados 
    
    


In [44]:
similarity

array([0.113662  , 0.12665159, 0.57464617, ..., 0.        , 0.        ,
       0.        ])

In [49]:
results

Unnamed: 0,movieId,title,genres,clean_title
60174,202701,Любить по-русски (1995),Drama|Romance,1995
2,3,Grumpier Old Men (1995),Comedy|Romance,Grumpier Old Men 1995
28489,131824,Men... (1985),Comedy,Men 1985
11003,47484,G Men (1935),Crime|Drama,G Men 1935
7071,7196,"Men, The (1950)",Drama,Men The 1950


### Criando uma caixa interativa para busca dos titulos

In [12]:
import ipywidgets as widgets

from IPython.display import display

movie_input = widgets.Text(
     value="Toy Story",
     description="Movies Title:",
      disabled = False
)


movie_list = widgets.Output()

def on_type(data):
    with movie_list:
         movie_list.clear_output()
         title = data["new"]
         if len(title) > 5:
            display(search(title))
            
movie_input.observe(on_type, names="value")

display(movie_input, movie_list)

Text(value='Toy Story', description='Movies Title:')

Output()

### Leitura dos dados de avaliação dos filmes

In [64]:
ratings = pd.read_csv("ratings.csv")

In [65]:
ratings.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

### Usuarios que gostaram dos mesmos filme que eu

In [68]:
movie_id = 1 

In [80]:
# Pessoas que assistiram o movieID & com classificação maior q 4
similar_users = ratings[(ratings["movieId"]) == movie_id & (ratings["rating"] > 4)]["userId"].unique()


In [86]:
#Encontrando os outros filmes que elas gostam 
# temos aqui filmes diferentes para usuarios que gostam do mesmo filme que eu

similar_user_recs = ratings[(ratings["userId"].isin(similar_users))&(ratings["rating"] >4)]["movieId"]


In [88]:
#encontrando filmes com mais de 10% dos usuarios que sao semelhante q eu gosto
similar_user_recs = similar_user_recs.value_counts() / len(similar_users)

similar_user_recs = similar_user_recs[similar_user_recs > .1] 

In [89]:

similar_user_recs

1        1.000000
318      0.445607
260      0.403770
356      0.370215
296      0.367295
           ...   
953      0.103053
551      0.101195
1222     0.100876
745      0.100345
48780    0.100186
Name: movieId, Length: 113, dtype: float64

### Os filmes que todos os usuarios gostam ( o que é comum)

filmes que pessoas como nos gostam mais que geralmente gostam

vamos descobrir quanto todos os usuarios em nosso conjunto de dados gostam desses filmes 

In [91]:
# encontrando alguem que avaliou um filme q esta em nosso confunto de indice de pontos de filme recomendados
# & e tambem encontratemos pessoas que classificaram alto
all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)]

In [96]:
#descobrir qual a porcentagem de todos os usuarios que recomendam cada um desses filmes
all_users_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())


In [98]:
 
rec_percentages = pd.concat([similar_user_recs, all_users_recs],axis=1)
rec_percentages.columns = ["similar","all"]


In [99]:
rec_percentages

# Note que buscamos valores altos nos conjuntos similares e valores baixos em valorem comuns
# Assim conseguimos distinguir os "nichos" 

Unnamed: 0,similar,all
1,1.000000,0.124728
318,0.445607,0.342220
260,0.403770,0.222207
356,0.370215,0.235266
296,0.367295,0.284674
...,...,...
953,0.103053,0.045792
551,0.101195,0.040918
1222,0.100876,0.066877
745,0.100345,0.037031


In [100]:
#Criação de um score de recomendação
rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]

In [101]:
#Ordenando do maior ao menor
rec_percentages = rec_percentages.sort_values("score",ascending=False)

In [105]:
#Unindo as duas bases de dados com os id dos filmes e os respectivos nomes
rec_percentages.head(10).merge(filme, left_index=True, right_on= "movieId")

Unnamed: 0,similar,all,score,movieId,title,genres,clean_title
0,1.0,0.124728,8.017414,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
3021,0.280648,0.053706,5.225654,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 2 1999
2264,0.110539,0.025091,4.405452,2355,"Bug's Life, A (1998)",Adventure|Animation|Children|Comedy,Bugs Life A 1998
14813,0.15296,0.035131,4.354038,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX,Toy Story 3 2010
4780,0.235147,0.070811,3.320783,4886,"Monsters, Inc. (2001)",Adventure|Animation|Children|Comedy|Fantasy,Monsters Inc 2001
580,0.216618,0.067513,3.208539,588,Aladdin (1992),Adventure|Animation|Children|Comedy|Musical,Aladdin 1992
6258,0.228139,0.072268,3.156862,6377,Finding Nemo (2003),Adventure|Animation|Children|Comedy,Finding Nemo 2003
587,0.1794,0.059977,2.99115,595,Beauty and the Beast (1991),Animation|Children|Fantasy|Musical|Romance|IMAX,Beauty and the Beast 1991
8246,0.203504,0.068453,2.972889,8961,"Incredibles, The (2004)",Action|Adventure|Animation|Children|Comedy,Incredibles The 2004
359,0.253411,0.085764,2.954762,364,"Lion King, The (1994)",Adventure|Animation|Children|Drama|Musical|IMAX,Lion King The 1994


### Concatenando tudo em uma função e em seguida criando uma caixa interativa para busca de titulos

In [106]:
def find_similar_movies(movie_id):
    similar_users = ratings[(ratings["movieId"]) == movie_id & (ratings["rating"] > 4)]["userId"].unique()
    similar_user_recs = ratings[(ratings["userId"].isin(similar_users))&(ratings["rating"] >4)]["movieId"]
    
    similar_user_recs = similar_user_recs.value_counts() / len(similar_users)
    similar_user_recs = similar_user_recs[similar_user_recs > .1]
    
    all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)]
    all_users_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())
    
    rec_percentages = pd.concat([similar_user_recs, all_users_recs],axis=1)
    rec_percentages.columns = ["similar","all"]
    
    rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]
    rec_percentages = rec_percentages.sort_values("score",ascending=False)
    
    return rec_percentages.head(10).merge(filme, left_index=True, right_on= "movieId")
    



In [110]:
movie_name_input = widgets.Text(
    value="Toy Story",
     description="Movie Title",
     desable= False
)

recomendation_list = widgets.Output()

def on_type(data):
    with recomendation_list:
        recomendaditon_list.clear_output
        title = data["new"]
        if len(title) >5:
            results=search(title)
            movie_id = results.iloc[0]["movieId"]
            display(find_similar_movies(movie_id))
            
            
movie_name_input.observe(on_type, names="value") 

display(movie_name_input, recomendation_list)

Text(value='Toy Story', description='Movie Title')

Output()