In [None]:
# Qualidade de código
%pip install --upgrade pip > /dev/null
%pip install pycodestyle pycodestyle_magic > /dev/null
%pip install flake8 > /dev/null
%pip install ipywidgets > /dev/null
%pip install -U scikit-learn numpy pandas ipywidgets IPython requests > /dev/null
%load_ext pycodestyle_magic
# %%pycodestyle

In [25]:
import logging
import requests
import re
from datetime import date
import pandas as pd
from datetime import datetime
import pytz
import ipywidgets as widgets
from IPython.display import display
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

In [26]:
# Basic logging configuration

# Configuração do arquivo de log, nível de log, modo de arquivo e formato de mensagem
logging.basicConfig(
    filename='./results.log',  # Caminho do arquivo de log
    level=logging.DEBUG,  # Nível de log: DEBUG, INFO, WARNING, ERROR, CRITICAL
    filemode='w',  # Modo de arquivo: 'w' para sobrescrever, 'a' para adicionar
    format='%(name)s - %(levelname)s - %(message)s'  # Formato da mensagem no arquivo de log
)


logging.debug(f"Inicialização de logs - {date.today()} {datetime.now(pytz.timezone('America/Recife'))}")

## Funções

In [27]:
# re.sub("[^a-zA-Z0-9 ]", "", title), remove todos os caracteres
# que não são letras, dígitos ou espaços em branco da variável title.
def clean_title(title):
    title = re.sub("[^a-zA-Z0-9 ]", "", title)
    return title

In [28]:
def find_similar_movies(movie_id):
    """
    Encontra e retorna uma lista de filmes similares com base no ID do filme fornecido.

    Esta função analisa os dados de classificação para encontrar usuários
    que atribuíram uma alta pontuação ao filme especificado. Em seguida,
    identifica outros filmes que esses usuários também classificaram
    positivamente e calcula uma pontuação de similaridade.
    Os filmes com as pontuações de similaridade mais altas são retornados
    como recomendações.

    Args:
        movie_id (int): O ID do filme para o qual se deseja encontrar filmes similares.

    Exemplo:
        find_similar_movies(123)
        # Retorna uma lista de até 10 filmes similares ao filme com o ID 123.

    Retorna:
        pandas.DataFrame: Um DataFrame contendo informações sobre filmes similares,
        incluindo a pontuação de similaridade, título e gêneros.
    """

    # Encontra usuários que deram uma classificação alta (maior que 4) para o
    # filme especificado (movie_id)
    similar_users = ratings[(ratings["movieId"] == movie_id) & (
        ratings["rating"] > 4)]["userId"].unique()

    # Filtra as classificações dos filmes por usuários que também
    # classificaram positivamente outros filmes
    similar_user_recs = ratings[(ratings["userId"].isin(
        similar_users)) & (ratings["rating"] > 4)]["movieId"]

    # Calcula a frequência relativa dos filmes recomendados pelos usuários
    # similares
    similar_user_recs = similar_user_recs.value_counts() / len(similar_users)

    # Filtra filmes que foram recomendados por pelo menos 10% dos usuários
    # similares
    similar_user_recs = similar_user_recs[similar_user_recs > .10]

    # Filtra todas as classificações dos usuários que recomendaram filmes
    # similares
    all_users = ratings[(ratings["movieId"].isin(
        similar_user_recs.index)) & (ratings["rating"] > 4)]

    # Calcula a frequência relativa dos filmes recomendados por todos os
    # usuários
    all_user_recs = all_users["movieId"].value_counts(
    ) / len(all_users["userId"].unique())

    # Cria um DataFrame combinando as frequências dos filmes recomendados
    # pelos usuários similares e por todos os usuários
    rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
    rec_percentages.columns = ["similar", "all"]

    # Calcula uma pontuação de similaridade dividindo as recomendações dos
    # usuários similares pelo total de recomendações
    rec_percentages["score"] = rec_percentages["similar"] / \
        rec_percentages["all"]

    # Ordena os filmes com base na pontuação de similaridade em ordem
    # decrescente
    rec_percentages = rec_percentages.sort_values("score", ascending=False)

    # Seleciona os 10 filmes com as pontuações de similaridade mais altas e mescla com o
    # DataFrame 'movies' para obter informações adicionais retorna um DataFrame contendo
    # as pontuações de similaridade, títulos e gêneros dos 10 filmes mais semelhantes
    return rec_percentages.head(10).merge(
        movies, left_index=True, right_on="movieId")[["score", "title", "genres"]]

In [29]:
def on_type(data):
    """
    Atualiza a lista de recomendações quando o usuário digita um título de filme.

    Esta função é chamada quando o usuário digita um novo título de filme em um campo de entrada.
    Ela pesquisa o título fornecido, exibe filmes similares com base na primeira correspondência
    e os apresenta na lista de recomendações.

    Args:
        data (dict): Um dicionário contendo os dados fornecidos pelo usuário.
            Espera-se que o dicionário tenha uma chave "new" contendo o título do filme inserido
            pelo usuário.

    Exemplo:
        on_type({"new": "Matrix"})
        # Atualiza a lista de recomendações com filmes semelhantes a "Matrix".

    Retorna:
        None
    """
    try:
        with recommendation_list:
            # Limpa a saída anterior da lista de recomendações
            recommendation_list.clear_output()

            # Obtém o título inserido pelo usuário
            title = data["new"]

            # Verifica se o título inserido possui mais de 5 caracteres
            if len(title) > 5:
                # Realiza uma pesquisa com base no título inserido
                results = search(title)

                # Obtém o ID do primeiro filme na lista de resultados
                movie_id = results.iloc[0]["movieId"]

                # Encontra e exibe filmes similares com base no ID do filme
                display(find_similar_movies(movie_id))
                logging.debug("Quantidade de títulos maior que 5")
            else:
                logging.debug("Quantidade de títulos menor ou igual que 5")
    except requests.RequestException as get_exception:
        logging.error("❌ On_type failed: %s",get_exception)

In [30]:
def search(title):
    """
    Realiza uma pesquisa por títulos de filmes semelhantes usando a técnica TF-IDF.

    Esta função recebe um título de filme, limpa e vetoriza o título usando um
    modelo pré-treinado, e em seguida, calcula a similaridade de cosseno entre
    o título inserido e os títulos na base de dados.
    Retorna uma lista dos 5 filmes mais semelhantes ao título fornecido.

    Args:
        title (str): O título do filme para o qual deseja-se encontrar filmes semelhantes.

    Exemplo:
        search("Matrix")
        # Retorna uma lista dos 5 filmes mais semelhantes ao filme "Matrix".

    Retorna:
        pandas.DataFrame: Um DataFrame contendo informações sobre os filmes mais semelhantes,
        incluindo título, gêneros e outras informações relevantes.
    """
    # Limpa o título removendo caracteres especiais e transforma para
    # minúsculas
    title = clean_title(title)

    # Converte o título em um vetor usando o modelo de vetorização previamente
    # treinado (vectorizer)
    query_vec = vectorizer.transform([title])

    # Calcula a similaridade de cosseno entre o título inserido e os títulos
    # na base de dados (tfidf)
    similarity = cosine_similarity(query_vec, tfidf).flatten()

    # Obtém os índices dos 5 filmes mais semelhantes
    indices = np.argpartition(similarity, -5)[-5:]

    # Reordena os resultados para mostrar os filmes mais semelhantes primeiro
    results = movies.iloc[indices].iloc[::-1]

    return results

In [31]:
movies = pd.read_csv("ml-25m/movies.csv")
ratings = pd.read_csv("ml-25m/ratings.csv")
# Converte uma coleção de documentos em uma matriz de recursos do TF-IDF.
vectorizer = TfidfVectorizer(ngram_range=(1, 2))
movies["clean_title"] = movies["title"].apply(clean_title)
tfidf = vectorizer.fit_transform(movies["clean_title"])

## Testes unitários

In [32]:
ratings.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

In [33]:
movies.dtypes

movieId         int64
title          object
genres         object
clean_title    object
dtype: object

In [34]:
movies

Unnamed: 0,movieId,title,genres,clean_title
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
1,2,Jumanji (1995),Adventure|Children|Fantasy,Jumanji 1995
2,3,Grumpier Old Men (1995),Comedy|Romance,Grumpier Old Men 1995
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,Waiting to Exhale 1995
4,5,Father of the Bride Part II (1995),Comedy,Father of the Bride Part II 1995
...,...,...,...,...
62418,209157,We (2018),Drama,We 2018
62419,209159,Window of the Soul (2001),Documentary,Window of the Soul 2001
62420,209163,Bad Poems (2018),Comedy|Drama,Bad Poems 2018
62421,209169,A Girl Thing (2001),(no genres listed),A Girl Thing 2001


In [35]:
movie_id = 89745

# def find_similar_movies(movie_id):
movie = movies[movies["movieId"] == movie_id]
movie

Unnamed: 0,movieId,title,genres,clean_title
17067,89745,"Avengers, The (2012)",Action|Adventure|Sci-Fi|IMAX,Avengers The 2012


In [36]:
similar_users = ratings[(ratings["movieId"] == movie_id) &\
                         (ratings["rating"] > 4)]["userId"].unique()
similar_users

array([    21,    187,    208, ..., 162469, 162485, 162532])

In [37]:
similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) &\
                             (ratings["rating"] > 4)]["movieId"]
similar_user_recs

3741           318
3742           527
3743           541
3744           589
3745           741
             ...  
24998517     91542
24998518     92259
24998522     98809
24998523    102125
24998524    112852
Name: movieId, Length: 577796, dtype: int64

In [38]:
similar_user_recs = similar_user_recs.value_counts() / len(similar_users)
similar_user_recs = similar_user_recs[similar_user_recs > .10]
similar_user_recs

movieId
89745    1.000000
58559    0.573393
59315    0.530649
79132    0.519715
2571     0.496687
           ...   
47610    0.103545
780      0.103380
88744    0.103048
1258     0.101226
1193     0.100895
Name: count, Length: 193, dtype: float64

In [39]:
all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) &\
                     (ratings["rating"] > 4)]
all_users

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
29,1,4973,4.5,1147869080
48,1,7361,5.0,1147880055
72,2,110,5.0,1141416589
76,2,260,5.0,1141417172
...,...,...,...,...
25000065,162541,5952,5.0,1240952617
25000078,162541,7153,5.0,1240952613
25000081,162541,7361,4.5,1240953484
25000086,162541,31658,4.5,1240953287


In [40]:
all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())
all_user_recs

movieId
318       0.346395
296       0.288146
2571      0.247010
356       0.238136
593       0.228665
            ...   
86332     0.010142
91630     0.009324
122900    0.008573
122926    0.008070
106072    0.005289
Name: count, Length: 193, dtype: float64

In [41]:
rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
rec_percentages.columns = ["similar", "all"]
rec_percentages

Unnamed: 0_level_0,similar,all
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
89745,1.000000,0.040459
58559,0.573393,0.148256
59315,0.530649,0.054931
79132,0.519715,0.132987
2571,0.496687,0.247010
...,...,...
47610,0.103545,0.022770
780,0.103380,0.054723
88744,0.103048,0.010383
1258,0.101226,0.083887


## Recomendações de filmes

In [42]:
movie_name_input = widgets.Text(
    value='Toy Story',
    description='Movie Title:',
    disabled=False
)
recommendation_list = widgets.Output()

movie_name_input.observe(on_type, names='value')

display(movie_name_input, recommendation_list)

Text(value='Toy Story', description='Movie Title:')

Output()

## Filtro de filmes por nome

In [44]:
movie_input = widgets.Text(
    value='Toy Story',
    description='Movie Title:',
    disabled=False
)
movie_list = widgets.Output()

movie_input.observe(on_type, names='value')

display(movie_input, movie_list)

Text(value='Toy Story', description='Movie Title:')

Output()