In [None]:
import numpy as np

np.random.randint(100)

74

# **Project using content-based filtering**

Link do código análisado: [content base movie recommend system](https://www.kaggle.com/code/monawankhede/content-base-movie-recommend-system)

## O que é content-base filtering 😰

O projeto utiliza filtragem baseada em conteúdo, ou seja,  envolve recomendação ou classificação de itens com base em suas características ou conteúdo. Esse método de filtragem analisa as informações intrínsecas dos itens, como suas descrições, atributos ou tags, para encontrar similaridades e fazer recomendações ou classificações. A métrica de similaridade utilizada é o kernel linear, o cálculo é feito usando o produto escalar entre os vetores de características dos filmes, que é usada para medir a semelhança entre dois vetores, neste caso, os vetores de características dos filmes que estão na coluna ***'metadata'***.

## Quais as colunas de feature ❓

O data set utiliza as colunas ***'movieId'***, ***'title'***, **'metadata'**, **'year'** para fazer a recomendação dos filmes.

## Quais as colunas de rótulo ❓

No processo de recomendação de filmes, utiliza-se uma função que analisa as características do filme inserido, como suas tags e gênero, a fim de encontrar outros filmes com similaridade nessas informações. A função "pega" o ID do título do filme fornecido como entrada e busca por filmes que compartilhem tags e gênero semelhantes. Dessa forma, a função utiliza o conteúdo do filme, representado pela coluna de ***'metadata'*** e retorna o ***'index'*** e ***'title'***.

## Vantagens ✅

Essa abordagem baseada em conteúdo é útil para sugerir filmes relacionados, ***pois considera as características intrínsecas dos filmes em vez de depender das preferências de outros usuários.*** Assim, a recomendação é personalizada com base nas características específicas do filme de interesse.

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All"
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
# Defina o tamanho do dataset desejado
tamanho_dataset = 1000

# Exemplo de colunas de um dataset de publicações
post_id = np.arange(1, tamanho_dataset + 1)
title = np.random.choice(['Post 1', 'Post 2', 'Post 3'], tamanho_dataset)
genre =np.random.choice(['Python', 'Front-end', 'Finances', 'Back-end', 'Design'], tamanho_dataset)

# Crie um dicionário com os dados
dados = {
    'postId': post_id,
    'title': title,
    'genres': genre
}

# Crie um DataFrame usando o dicionário de dados
df = pd.DataFrame(dados)

# Salve o DataFrame em um arquivo CSV
df.to_csv('dataset_post.csv', index=False)

### Passo 1 : Importar os arquivos necessários

In [None]:
movie = pd.read_csv("/content/sample_data/movies.csv")
movie

FileNotFoundError: ignored

In [None]:
post = pd.read_csv("/content/dataset_post.csv")
post

Unnamed: 0,postId,title,genres
0,1,Post 1,Design
1,2,Post 1,Design
2,3,Post 1,Front-end
3,4,Post 3,Back-end
4,5,Post 3,Finances
...,...,...,...
995,996,Post 3,Finances
996,997,Post 2,Python
997,998,Post 2,Design
998,999,Post 2,Back-end


### Passo 2 : Pré-processamento e limpeza de dados

In [None]:
#Verifica se há títulos duplicados
movie["title"].unique()

In [None]:
#Cria uma nova coluna com o ano que está no título dos filmes
movie["Year"] = movie.title.str.extract("(\(\d\d\d\d\))" ,expand = True)
movie["Year"]

In [None]:
#Remover '()' do ano
movie["Year"] = movie.title.str.extract("(\d\d\d\d)" ,expand = True)
movie["Year"]

In [None]:
#Removendo qualquer ano de lançamento presente nos títulos dos filmes, substituindo-os por espaços em branco
movie["title"]= movie.title.str.replace("(\(\d\d\d\d\))","")
movie

In [None]:
#Removendo espaços extras no ínicio e fim do título
movie["title"]= movie["title"].apply(lambda x: x.strip())
movie.head(3)

In [None]:
post["title"]= post["title"].apply(lambda x: x.strip())
post.head(3)

Unnamed: 0,postId,title,genres
0,1,Post 1,Design
1,2,Post 1,Design
2,3,Post 1,Front-end


In [None]:
#Transformando todos os elementos da coluna 'genres' em letras minúsculas
movie["genres"] = movie["genres"].apply(lambda x:x.lower())
movie

In [None]:
post["genres"] = post["genres"].apply(lambda x:x.lower())
post

Unnamed: 0,postId,title,genres
0,1,Post 1,design
1,2,Post 1,design
2,3,Post 1,front-end
3,4,Post 3,back-end
4,5,Post 3,finances
...,...,...,...
995,996,Post 3,finances
996,997,Post 2,python
997,998,Post 2,design
998,999,Post 2,back-end


Extração de dados de outra tabela

In [None]:
#Importando o arquivo 'tags.csv'
tag = pd.read_csv("/content/sample_data/tags.csv")
tag.head(3)

In [None]:
# Defina o tamanho do dataset desejado
tamanho_dataset = 1000

# Exemplo de colunas de um dataset de publicações
user_id = np.random.randint(1, 100, tamanho_dataset)
post_id = np.arange(1, tamanho_dataset + 1)
tag_post = np.random.choice(['Post 1', 'Post 2', 'Post 3'], tamanho_dataset)
timestamp = np.random.choice(['Python', 'Front-end', 'Finances', 'Back-end', 'Design'], tamanho_dataset)

# Crie um dicionário com os dados
dados = {
    'userId': user_id,
    'postId': post_id,
    'tag': tag_post,
    'timestamp': timestamp
}

# Crie um DataFrame usando o dicionário de dados
df = pd.DataFrame(dados)

# Salve o DataFrame em um arquivo CSV
df.to_csv('dataset_tags.csv', index=False)

In [None]:
tag_data = pd.read_csv("/content/dataset_tags.csv")
tag_data.head(5)

Unnamed: 0,userId,postId,tag,timestamp
0,77,1,Post 2,Front-end
1,43,2,Post 1,Front-end
2,11,3,Post 3,Front-end
3,75,4,Post 2,Finances
4,58,5,Post 2,Design


Faz merge das colunas das tabelas

In [None]:
#Merge arquivos 'movie' e 'tag'
df = pd.merge(movie,tag,on="movieId",how="left")
df.head(3)

In [None]:
#Criando metadata ao adicionar gênero e tags
df.fillna("", inplace =True) #preenche os valores ausentes (NaN)
df = pd.DataFrame(df.groupby("movieId")["tag"].apply(lambda x: "%s" % " ".join(x))) # Essa função junta os valores da coluna "tag" separados por espaço em branco.
df

In [None]:
#merge movie and df dataset
new_df = pd.merge(movie,df ,on = "movieId" ,how="left")
new_df["metadata"] = new_df[["tag","genres"]].apply(lambda x: " ".join(x),axis=1)
new_df["metadata"]

In [None]:
#Armazena as colunas 'movieId' 'title' 'metadata' 'year' no novo dataser (new_df)
new_df = new_df[["movieId","title","metadata","Year"]]
new_df

In [None]:
# split |  from metadata
new_df["metadata"]=new_df.metadata.str.split("|")
new_df

In [None]:
#Tamanho do dataset final
new_df.shape

In [None]:
#Remove todos espaços extra da coluna de metadata
new_df['metadata']=new_df['metadata'].apply(lambda x:[i.replace(" ","") for i in x])
new_df

In [None]:
# join metadata spaces
new_df['metadata']=new_df['metadata'].apply(lambda x:" ".join(x))
new_df

In [None]:
#Da um check na new_df
new_df

In [None]:
#Encontra a posição do index
x = new_df[new_df["title"]=="Jumanji"].index
x

In [None]:
#Check elemento 0 no new_df
new_df['metadata'][0]

In [None]:
#Check valores do new_df
new_df.values

In [None]:
# check type of new_df
type(new_df)

In [None]:
# check shape of dataframe
new_df.shape

### Passo 3 : Conversão do DataFrame (nem_df) em uma matriz esparsa (sparse matrix)

In [None]:
#Criar um vetor utilizando a biblioteca TfidfVectorizer.
from sklearn.feature_extraction.text import TfidfVectorizer
tfid = TfidfVectorizer(stop_words='english') #remover palavras comuns em inglês que não são relevantes para a análise.
new_df['metadata'] = new_df['metadata'].fillna('')

In [None]:
tfv_matrix = tfid.fit_transform(new_df['metadata'])
tfv_matrix

In [None]:
#Check tamanho da matriz
tfv_matrix.shape

In [None]:
# import linear_kernel from sklearn
from sklearn.metrics.pairwise import linear_kernel
###Calcular o kernel sigmoide.
sig = linear_kernel(tfv_matrix, tfv_matrix)

In [None]:
#Guarda index do title
indices = pd.Series(new_df.index, index=new_df["title"])

In [None]:
indices

In [None]:
indices["Toy Story"]

### Passo 4 : Criando a função de recomendação de filme

In [None]:
def recomend_movie(title,cosine_sin=sig):
    idx = indices[title]
    sim_scores = enumerate(cosine_sin[idx])
    sim_scores = sorted(sim_scores, key=lambda x : x[1], reverse=True)
    #Quantos filmes irá recomendar
    sim_scores = sim_scores[1:10]
    movies_indices = [i[0] for i in sim_scores]
    movie_rec = new_df['title'].iloc[movies_indices].reset_index()
    print(movie_rec)

### Passo 5 : Recomendação ⭐

In [None]:
recomend_movie("Toy Story")

In [None]:
recomend_movie("Thumbelina")

In [None]:
recomend_movie("Grumpier Old Men")