In [None]:
conda activate lenci_enviroment


In [None]:
import sys
print(sys.executable)


In [None]:
import sys
import surprise

from recommenders.utils.timer import Timer
from recommenders.datasets import movielens
from recommenders.datasets.python_splitters import python_random_split
from recommenders.evaluation.python_evaluation import (
    rmse,
    mae,
    rsquared,
    exp_var,
    map_at_k,
    ndcg_at_k,
    precision_at_k,
    recall_at_k,
    get_top_k_items,
)
from recommenders.models.surprise.surprise_utils import (
    predict,
    compute_ranking_predictions,
)
from recommenders.utils.notebook_utils import store_metadata


print(f"System version: {sys.version}")
print(f"Surprise version: {surprise.__version__}")

In [30]:
import pandas as pd
from surprise import Dataset, Reader

# Caminho do arquivo local do MovieLens 100k
file_path = "C:\\Users\\vlenc\\OneDrive\\Documentos\\ml-32m\\ratings.csv"  # ajuste para onde você extraiu o dataset

# Ler o arquivo com pandas
df = pd.read_csv(file_path, sep=",")

# Selecionar apenas as colunas necessárias
df = df[["userId", "movieId", "rating"]]

# Visualizar as primeiras linhas
print(df.head())

# Criar Dataset do Surprise
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df, reader)


   userId  movieId  rating
0       1       17     4.0
1       1       25     1.0
2       1       29     2.0
3       1       30     5.0
4       1       32     5.0


In [None]:
from surprise.model_selection import train_test_split
from surprise import SVD
from surprise import accuracy

# 1️⃣ Dividir os dados em treino e teste (75% treino, 25% teste)
trainset, testset = train_test_split(data, test_size=0.25, random_state=42)

# 2️⃣ Criar o modelo SVD
svd = SVD(
    n_factors=200,   # dimensão dos vetores latentes
    n_epochs=30,     # número de iterações do SGD
    random_state=42,
    verbose=True     # imprime progresso do treino
)

# 3️⃣ Treinar o modelo
svd.fit(trainset)

# 4️⃣ Fazer previsões no conjunto de teste
predictions = svd.test(testset)

# 5️⃣ Avaliar o modelo usando RMSE e MAE
rmse_val = accuracy.rmse(predictions)
mae_val = accuracy.mae(predictions)

print(f"RMSE: {rmse_val}")
print(f"MAE: {mae_val}")


Processing epoch 0
Processing epoch 1
Processing epoch 2
Processing epoch 3
Processing epoch 4
Processing epoch 5
Processing epoch 6
Processing epoch 7
Processing epoch 8
Processing epoch 9
Processing epoch 10
Processing epoch 11
Processing epoch 12
Processing epoch 13
Processing epoch 14
Processing epoch 15
Processing epoch 16
Processing epoch 17
Processing epoch 18
Processing epoch 19
Processing epoch 20
Processing epoch 21
Processing epoch 22
Processing epoch 23
Processing epoch 24
Processing epoch 25
Processing epoch 26
Processing epoch 27
Processing epoch 28
Processing epoch 29


In [None]:
from collections import defaultdict
from surprise.model_selection import train_test_split

# Função auxiliar para pegar os Top-K itens recomendados
def get_top_n(predictions, n=10):
    # Dicionário para armazenar as recomendações por usuário
    user_recommendations = defaultdict(list)

    # Organiza as previsões por usuário
    for user_id, movie_id, true_rating, predicted_rating, _ in predictions:
        user_recommendations[user_id].append((movie_id, predicted_rating))

    # Ordena as predições por nota estimada e pega o Top-N
    for user_id, movie_ratings in user_recommendations.items():
        movie_ratings.sort(key=lambda x: x[1], reverse=True)
        user_recommendations[user_id] = movie_ratings[:n]

    return user_recommendations


# ⚡ Fazer previsões em todos os pares usuário-filme que não estavam no treino
trainset, testset = train_test_split(data, test_size=0.25, random_state=42)
svd.fit(trainset)

# Gera previsões para todos os pares usuário-filme não vistos no treino
all_predictions = svd.test(trainset.build_anti_testset())

# Pega as top-10 recomendações para cada usuário
top_recommendations = get_top_n(all_predictions, n=10)

# Exibir recomendações para os 5 primeiros usuários
for user_id, recommended_movies in list(top_recommendations.items())[:5]:
    print(f"\nUsuário {user_id} - Recomendações:")
    for movie_id, predicted_rating in recommended_movies:
        print(f"  Filme {movie_id} com nota estimada {predicted_rating:.2f}")


In [1]:
import pandas as pd
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from surprise import accuracy
from collections import defaultdict

In [2]:
# ========= 1. Carregar dataset =========
file_path = "C:\\Users\\vlenc\\OneDrive\\Documentos\\ml-latest-small\\ratings.csv"
movies_path = "C:\\Users\\vlenc\\OneDrive\\Documentos\\ml-latest-small\\movies.csv"  # precisa desse para títulos

df = pd.read_csv(file_path, sep=",")
movies = pd.read_csv(movies_path, sep=",")

# Vamos trabalhar só com as colunas necessárias
df = df[["userId", "movieId", "rating"]]

In [7]:
# ========= 2. Simulação de avaliações do usuário =========
import numpy as np

avaliacoes_usuario = []  # guarda (userId, movieId, rating)
print("Responda 0 (não assistiu), 1 (não gostou), 2 (gostou).")
print("Após 10 avaliações válidas (1 ou 2), vamos treinar o modelo.\n")

# Embaralhar os filmes e calcular peso por popularidade
movie_counts = movies.groupby("movieId").size()
movies["weight"] = movies["movieId"].map(movie_counts)

contador_validas = 0
movies_restantes = movies.copy()

while contador_validas < 10 and len(movies_restantes) > 0:
    # Seleciona filme aleatório ponderado
    filme = movies_restantes.sample(n=1, weights="weight").iloc[0]
    movie_id = filme["movieId"]
    title = filme["title"]

    resposta = input(f"Você assistiu '{title}'? (0=Não, 1=Não gostou, 2=Gostou): ")

    if resposta not in ["0", "1", "2"]:
        print("Resposta inválida, tente novamente.")
        continue

    resposta = int(resposta)

    if resposta in [1, 2]:
        avaliacoes_usuario.append((9999, movie_id, resposta))  # userId fixo=9999
        contador_validas += 1

    # Remove o filme da lista para não aparecer novamente
    movies_restantes = movies_restantes[movies_restantes["movieId"] != movie_id]

print("\n✅ Coletamos 10 avaliações válidas do usuário!\n")


Responda 0 (não assistiu), 1 (não gostou), 2 (gostou).
Após 10 avaliações válidas (1 ou 2), vamos treinar o modelo.




✅ Coletamos 10 avaliações válidas do usuário!



In [8]:
# ========= 3. Preparar dataset para Surprise =========
# Criar novo DF juntando dataset original + usuário novo
df_usuario = pd.DataFrame(avaliacoes_usuario, columns=["userId", "movieId", "rating"])
df_final = pd.concat([df, df_usuario], ignore_index=True)

reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df_final[["userId", "movieId", "rating"]], reader)

In [9]:
# ========= 4. Treinar modelo =========
trainset = data.build_full_trainset()
svd = SVD(n_factors=1000, n_epochs=30, random_state=42, verbose=True)
svd.fit(trainset)

Processing epoch 0
Processing epoch 1
Processing epoch 2
Processing epoch 3
Processing epoch 4
Processing epoch 5
Processing epoch 6
Processing epoch 7
Processing epoch 8
Processing epoch 9
Processing epoch 10
Processing epoch 11
Processing epoch 12
Processing epoch 13
Processing epoch 14
Processing epoch 15
Processing epoch 16
Processing epoch 17
Processing epoch 18
Processing epoch 19
Processing epoch 20
Processing epoch 21
Processing epoch 22
Processing epoch 23
Processing epoch 24
Processing epoch 25
Processing epoch 26
Processing epoch 27
Processing epoch 28
Processing epoch 29


<surprise.prediction_algorithms.matrix_factorization.SVD at 0x16b5043e520>

In [10]:
# ========= 5. Gerar recomendações =========
# Criar anti-testset só para o usuário novo
anti_testset = []
for movie_id in movies["movieId"]:
    if movie_id not in df_usuario["movieId"].values:  # só filmes não avaliados
        anti_testset.append((9999, movie_id, 0))  # rating dummy

predictions = svd.test(anti_testset)

# Ordenar por nota estimada
predictions.sort(key=lambda x: x.est, reverse=True)

# Pegar top 10
top_10 = predictions[:10]

print("\n🎬 Recomendações para você:")
for pred in top_10:
    movie_id = pred.iid
    title = movies[movies["movieId"] == int(movie_id)]["title"].values[0]
    print(f"- {title} (nota estimada {pred.est:.2f})")


🎬 Recomendações para você:
- Upside Down: The Creation Records Story (2010) (nota estimada 4.24)
- Blue Velvet (1986) (nota estimada 4.20)
- Three Billboards Outside Ebbing, Missouri (2017) (nota estimada 4.15)
- Once Upon a Time in the West (C'era una volta il West) (1968) (nota estimada 4.15)
- Uncle Buck (1989) (nota estimada 4.10)
- Reservoir Dogs (1992) (nota estimada 4.10)
- Eyes of Tammy Faye, The (2000) (nota estimada 4.09)
- Chaser, The (Chugyeogja) (2008) (nota estimada 4.05)
- Call Me by Your Name (2017) (nota estimada 4.04)
- Ogre, The (Unhold, Der) (1996) (nota estimada 4.03)
