In [None]:
# Requisitos funcionais
# 1 - escolher filme baseado em uma lista
# 2 - exibir sua lista baseado nos filmes escolhidos
# 3 - ser possível classificar se gostou ou não de um filme
# 4 - remover ou impulsionar filmes baseado na interação do passo anterior

# Função responsável por consultar os filmes baseado nas especificações do usuário

In [15]:
import requests

# https://developer.themoviedb.org/reference/discover-movie

API_KEY = "20b8ac581ae40eadf1488dfcda82471c"
BASE_URL = "https://api.themoviedb.org/3"

def get_movies(genres_ids=None):   
    endpoint = f"{BASE_URL}/discover/movie"
    params = {
        "api_key": API_KEY,
        "language": "pt-BR",
        "sort_by": "vote_average.desc",
        "vote_count.gte": 100,
    }

    if genres_ids:
        params["with_genres"] = genres_ids
        
    response = requests.get(endpoint, params=params)
    movies = response.json().get("results", [])

    return movies


# Algoritmo de classificação
- Após o usuário selecionar os títulos que chamam sua atenção, será realizada uma consulta baseada em características dos filmes, como o gênero, por exemplo.

- Os filmes retornados pela consulta serão exibidos ao usuário. Caso ele goste de algum título, será feita uma análise de similaridade com base nos gêneros dos filmes marcados como "gostei".

- A similaridade será calculada utilizando a distância entre vetores, conforme demonstrado no código abaixo, com o uso da biblioteca sklearn.

    ![image.png](attachment:b3b6ea33-3fc5-44ed-82cf-7acc3f38dcb9.png)

In [54]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

user_id = 1
selected_genres = [28, 12, 18, 10749, 14, 35, 878, 53]

def create_user_list(user, selected_genres):
    movies = get_movies(selected_genres)
#     movie_instances = []
#     for movie in movies:
#         movie_instances.append(
#             MyMovieList(
#                 movie_id=movie["id"],
#                 title=movie["title"],
#                 poster_path=movie.get("poster_path", ""),
#                 vote_average=movie["vote_average"],
#                 genre_ids=",".join(map(str, movie["genre_ids"])),
#                 overview=movie.get("overview", ""),
#                 release_date=movie.get("release_date", "1900-01-01"),
#                 user=user,
#             )
#         )

#     MyMovieList.objects.bulk_create(movie_instances)

#     return f"{len(movie_instances)} movies saved to the database."

def recommend_movies(user_id):
    df_user_list = pd.read_csv("notebook/movies.csv", sep=",")
    priority_map = {
        'LIKE': 1,
        'NONE': 2,
        'DISLIKE': 3,
    }
    
    # classificar prioridade
    df_user_list['priority'] = df_user_list['rating'].map(priority_map)    
    # verificar se pertence a lista do usuario
    df_user_list['is_user'] = (df_user_list['user_id'] == user_id).astype(int)
    
    liked_movies = df_user_list[(df_user_list['rating'] == 'LIKE') & (df_user_list['user_id'] == user_id)]
    df_user_list['genre_ids'] = df_user_list['genre_ids'].astype(str)
    
    # criar vetores para o sklearn calcular a similaridade
    vectorizer = CountVectorizer(token_pattern=r'[^,]+', binary=True)
    genre_matrix = vectorizer.fit_transform(df_user_list['genre_ids'])
    
    liked_movies = df_user_list[(df_user_list['rating'] == 'LIKE') & (df_user_list['user_id'] == user_id)]
    if not liked_movies.empty:
        liked_genres = vectorizer.transform(liked_movies['genre_ids'])
        similarity_scores = cosine_similarity(genre_matrix, liked_genres).mean(axis=1)
    else:
        # caso o usuário não tenha marcado nada como "gostei", definir similaridade padrao
        similarity_scores = [0] * len(df_user_list['genre_ids'])
        
    df_user_list['genre_similarity'] = similarity_scores
    
    # Ordenar os filmes com base nas prioridades:
    # 1. Filmes do usuário atual 
    # 2. Similaridade de gêneros
    # 3. vote_average
    # 4. priority
    df_user_list = df_user_list.sort_values(
        by=['is_user', 'genre_similarity', 'vote_average', 'priority'],
        ascending=[False, False, False, True]
    )

    print(df_user_list.loc[:, ['user_id', 'title', 'rating', 'genre_ids', 'vote_average', 'is_user', 'priority', 'genre_similarity']])
    
    # return df_user_list.to_dict(orient="records")

%config IPCompleter.greedy=True
recommend_movies(1)

    user_id                             title   rating    genre_ids   
12        1          O Silêncio dos Inocentes     LIKE     80,18,53  \
16        1           A Um Passo da Liberdade     NONE     18,53,80   
19        1                      Os Suspeitos     NONE     18,80,53   
1         1             Um Sonho de Liberdade     NONE        18,80   
2         1                 O Poderoso Chefão     LIKE        18,80   
3         1       O Poderoso Chefão: Parte II  DISLIKE        18,80   
7         1              Os Bons Companheiros     NONE        18,80   
8         1                    Cidade de Deus     NONE        18,80   
9         1            Era Uma Vez na América     NONE        18,80   
4         1    Batman: O Cavaleiro das Trevas     NONE  18,28,80,53   
5         1            À Espera de um Milagre     NONE     14,18,80   
13        1                     Céu e Inferno  DISLIKE   18,80,9648   
14        1            Um Dia Quente de Verão     NONE  80,18,10749   
17    