In [None]:
conda activate lenci_enviroment


In [26]:
import pandas as pd
import surprise
from surprise import SVD, Reader
from recommenders.models.surprise.surprise_utils import predict, compute_ranking_predictions
from recommenders.datasets.python_splitters import python_random_split
from recommenders.evaluation.python_evaluation import (
    rmse, mae, rsquared, exp_var, map_at_k, ndcg_at_k, precision_at_k, recall_at_k
)
from collections import defaultdict

In [27]:
# =================== 1. Preparar dataset ===================

file_path = "C:\\Users\\vlenc\\OneDrive\\Documentos\\ml-latest-small\\ratings.csv"
movies_file = "C:\\Users\\vlenc\\OneDrive\\Documentos\\ml-latest-small\\movies.csv"

df = pd.read_csv(file_path)
df = df[["userId", "movieId", "rating"]]
# Padronizar nomes de colunas para Recommenders
df = df.rename(columns={"userId": "userID", "movieId": "itemID", "rating": "rating"})

movies = pd.read_csv(movies_file)
movies = movies.rename(columns={"movieId": "itemID", "title": "title"})
# movies = movies.merge(df.groupby("itemID").size().reset_index(name="num_ratings"), on="itemID")
# movies = movies.sort_values("num_ratings", ascending=False).reset_index(drop=True)

In [28]:
# =================== 2. Selecionar usu√°rio holdout ===================

# --- Selecionar um usu√°rio para teste de fold-in (ser√° removido do treinamento) ---
user_counts = df.groupby("userID").size().reset_index(name="num_ratings")
user_counts = user_counts[user_counts["num_ratings"] >= 20].sort_values("num_ratings", ascending=False)

print("Usu√°rios com mais avalia√ß√µes (candidatos para holdout):")
print(user_counts.head(10))
print()

# Voc√™ pode escolher manualmente ou pegar automaticamente
HOLDOUT_USER_ID = int(user_counts.iloc[10]["userID"])  # Pega o 6¬∫ usu√°rio com mais avalia√ß√µes
# Ou defina manualmente: HOLDOUT_USER_ID = 4

print(f"‚úì Usu√°rio selecionado para holdout (fold-in): {HOLDOUT_USER_ID}")
print(f"  Este usu√°rio N√ÉO participar√° do treinamento.\n")

# Separar dados do usu√°rio holdout
user_holdout_data = df[df["userID"] == HOLDOUT_USER_ID].copy()
df_sem_holdout = df[df["userID"] != HOLDOUT_USER_ID].copy()

print(f"Dataset original: {len(df)} avalia√ß√µes")
print(f"Avalia√ß√µes do usu√°rio holdout: {len(user_holdout_data)}")
print(f"Dataset para treinamento (sem holdout): {len(df_sem_holdout)} avalia√ß√µes\n")

Usu√°rios com mais avalia√ß√µes (candidatos para holdout):
     userID  num_ratings
413     414         2698
598     599         2478
473     474         2108
447     448         1864
273     274         1346
609     610         1302
67       68         1260
379     380         1218
605     606         1115
287     288         1055

‚úì Usu√°rio selecionado para holdout (fold-in): 249
  Este usu√°rio N√ÉO participar√° do treinamento.

Dataset original: 100836 avalia√ß√µes
Avalia√ß√µes do usu√°rio holdout: 1046
Dataset para treinamento (sem holdout): 99790 avalia√ß√µes



In [29]:
# =================== 4. Criar treino/teste (sem o usu√°rio holdout)===================

# A seed √© o que faz a base de treino/teste sempre ser a mesma.
train_df, test_df = python_random_split(df_sem_holdout, 0.8, seed=42)

print(f"Train set: {len(train_df)} avalia√ß√µes")
print(f"Test set: {len(test_df)} avalia√ß√µes\n")

# Criar dataset do Surprise
reader = Reader(rating_scale=(1, 5))

# Adaptar DataFrame 'train_df' para ser utilizado na fun√ß√£o 'SVD'
trainset = surprise.Dataset.load_from_df(train_df, reader).build_full_trainset()

Train set: 79832 avalia√ß√µes
Test set: 19958 avalia√ß√µes



In [30]:
# =================== 5. Treinar SVD ===================
svd = SVD(n_factors=200, n_epochs=30, random_state=42, verbose=True)
svd.fit(trainset)

Processing epoch 0
Processing epoch 1
Processing epoch 2
Processing epoch 3
Processing epoch 4
Processing epoch 5
Processing epoch 6
Processing epoch 7
Processing epoch 8
Processing epoch 9
Processing epoch 10
Processing epoch 11
Processing epoch 12
Processing epoch 13
Processing epoch 14
Processing epoch 15
Processing epoch 16
Processing epoch 17
Processing epoch 18
Processing epoch 19
Processing epoch 20
Processing epoch 21
Processing epoch 22
Processing epoch 23
Processing epoch 24
Processing epoch 25
Processing epoch 26
Processing epoch 27
Processing epoch 28
Processing epoch 29


<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1fb45017220>

In [31]:
# =================== 6. Criar predi√ß√µes ===================
predictions = predict(svd, test_df, usercol="userID", itemcol="itemID")
predictions.head(5)

Unnamed: 0,userID,itemID,prediction
0,68,923,3.167365
1,434,292,3.434771
2,396,783,3.177512
3,399,2959,4.057186
4,500,543,2.871088


In [32]:
# =================== 7. Criar predi√ß√µes com o treinamento para compara√ß√£o ===============

# √â utilizado para avaliar as m√©tricas de ranking (MAP, NDCG, Precision@K, Recall@K).

all_predictions = compute_ranking_predictions(
    svd, train_df, usercol="userID", itemcol="itemID", remove_seen=True
)
all_predictions.head()

# No bloco de c√≥digo seguinte √© feito uma compara√ß√£o entre as predi√ß√µes e as notas reais

Unnamed: 0,userID,itemID,prediction
1,1,2,4.578591
3,1,4,3.953589
4,1,5,3.544043
6,1,7,4.194905
7,1,8,3.911575


In [33]:
# =================== 7. Avalia√ß√£o das predi√ß√µes ====================

# ‚ÄúO modelo acerta a nota que o usu√°rio deu para o filme?‚Äù
eval_rmse = rmse(test_df, predictions)
eval_mae = mae(test_df, predictions)
eval_rsquared = rsquared(test_df, predictions)
eval_exp_var = exp_var(test_df, predictions)

# O modelo est√° colocando os filmes certos (que o usu√°rio realmente gosta) nas primeiras posi√ß√µes das recomenda√ß√µes?
eval_map = map_at_k(test_df, all_predictions, col_prediction="prediction", k=10)
eval_ndcg = ndcg_at_k(test_df, all_predictions, col_prediction="prediction", k=10)
eval_precision = precision_at_k(
    test_df, all_predictions, col_prediction="prediction", k=10
)
eval_recall = recall_at_k(test_df, all_predictions, col_prediction="prediction", k=10)


print(
    "RMSE:\t\t%f" % eval_rmse,
    "MAE:\t\t%f" % eval_mae,
    "rsquared:\t%f" % eval_rsquared,
    "exp var:\t%f" % eval_exp_var,
    sep="\n",
)

print("----")

print(
    "MAP:\t\t%f" % eval_map,
    "NDCG:\t\t%f" % eval_ndcg,
    "Precision@K:\t%f" % eval_precision,
    "Recall@K:\t%f" % eval_recall,
    sep="\n",
)

RMSE:		0.882922
MAE:		0.678920
rsquared:	0.286944
exp var:	0.287220
----
MAP:		0.028756
NDCG:		0.065049
Precision@K:	0.054516
Recall@K:	0.021710


In [34]:
# =================== 8. Fold-in com usu√°rio holdout (cold-start real) ===================
import numpy as np

MIN_AVALIACOES_PARA_FOLDIN = 5
LAMBDA_REG = 0.1
TOP_K = 10
SPLIT_RATIO = 0.8  # 80% para fold-in, 20% para valida√ß√£o

print(f"üé¨ TESTE DE FOLD-IN COM USU√ÅRIO REAL (COLD-START)")

print(f"Usu√°rio holdout: {HOLDOUT_USER_ID}")
print(f"Este usu√°rio N√ÉO participou do treinamento do modelo.\n")

# Verificar se temos dados do usu√°rio
if len(user_holdout_data) == 0:
    raise RuntimeError(f"Nenhuma avalia√ß√£o encontrada para o usu√°rio {HOLDOUT_USER_ID}")

print(f"Total de avalia√ß√µes do usu√°rio: {len(user_holdout_data)}\n")

# --- PASSO 2: Dividir avalia√ß√µes em conhecidas e ocultas ---
user_ratings_shuffled = user_holdout_data.sample(frac=1, random_state=42).reset_index(drop=True)
split_point = int(len(user_ratings_shuffled) * SPLIT_RATIO)

known_ratings = user_ratings_shuffled.iloc[:split_point].copy()
hidden_ratings = user_ratings_shuffled.iloc[split_point:].copy()

print(f"üìä Divis√£o das avalia√ß√µes:")
print(f"  Avalia√ß√µes conhecidas (para fold-in): {len(known_ratings)}")
print(f"  Avalia√ß√µes ocultas (para valida√ß√£o): {len(hidden_ratings)}\n")

# Mostrar algumas avalia√ß√µes conhecidas
print("Exemplos de filmes que o usu√°rio avaliou (conhecidas):")
known_with_titles = known_ratings.merge(movies[["itemID", "title", "genres"]], on="itemID", how="left")
for idx, row in known_with_titles.head(5).iterrows():
    first_genre = row["genres"].split("|")[0] if isinstance(row.get("genres", None), str) else "Desconhecido"
    print(f"  ‚Ä¢ {row['title']} (G√™nero: {first_genre}) ‚Üí Nota: {row['rating']}")
print()

# --- PASSO 3: Filtrar apenas filmes que est√£o no trainset ---
train_raw_ids = [trainset.to_raw_iid(i) for i in range(trainset.n_items)]
known_ratings_in_train = known_ratings[known_ratings["itemID"].isin(train_raw_ids)].copy()

print(f"Avalia√ß√µes conhecidas dispon√≠veis no trainset: {len(known_ratings_in_train)}/{len(known_ratings)}")

if len(known_ratings_in_train) < MIN_AVALIACOES_PARA_FOLDIN:
    print(f"\n‚ö†Ô∏è ERRO: Apenas {len(known_ratings_in_train)} avalia√ß√µes v√°lidas.")
    print(f"Necess√°rio pelo menos {MIN_AVALIACOES_PARA_FOLDIN} para fold-in.")
    print("Sugest√µes:")
    print("  - Escolha um usu√°rio com mais avalia√ß√µes")
    print("  - Reduza MIN_AVALIACOES_PARA_FOLDIN")
    print("  - Aumente SPLIT_RATIO para ter mais avalia√ß√µes conhecidas\n")
else:
    print(f"‚úì Suficiente para fold-in!\n")
    
    # --- PASSO 4: Aplicar fold-in com avalia√ß√µes conhecidas ---
    avaliacoes = [(int(row["itemID"]), float(row["rating"])) 
                  for _, row in known_ratings_in_train.iterrows()]
    
    # Mapear avalia√ß√µes para inner ids
    inner_ids = []
    ratings = []
    erros = 0
    for raw_iid, r in avaliacoes:
        try:
            inner = trainset.to_inner_iid(raw_iid)
            inner_ids.append(inner)
            ratings.append(r)
        except ValueError:
            erros += 1
            continue
    
    print(f"Mapeamento para inner IDs:")
    print(f"  ‚úì Sucesso: {len(inner_ids)}")
    if erros > 0:
        print(f"  ‚úó Falhas: {erros}")
    print()
    
    # Construir Q e y (res√≠duos)
    mu = trainset.global_mean
    k = svd.n_factors
    Q = np.array([svd.qi[i] for i in inner_ids])
    bi = np.array([svd.bi[i] for i in inner_ids])
    y = np.array(ratings) - mu - bi
    
    print("Calculando vetor latente do usu√°rio via fold-in...")
    
    # Resolver (Q^T Q + lambda I) p_u = Q^T y
    A = Q.T.dot(Q) + LAMBDA_REG * np.eye(k)
    b = Q.T.dot(y)
    try:
        p_u = np.linalg.solve(A, b)
    except np.linalg.LinAlgError:
        p_u = np.linalg.pinv(A).dot(b)
    
    # Estimar bias do usu√°rio
    residuals = y - Q.dot(p_u)
    b_u = float(np.mean(residuals)) if residuals.size > 0 else 0.0
    
    print(f"‚úì Vetor latente calculado (dimens√£o: {len(p_u)})")
    print(f"‚úì Bias do usu√°rio: {b_u:.3f}\n")
    
    # --- PASSO 5: Gerar recomenda√ß√µes ---
    print("Gerando predi√ß√µes para todos os filmes do trainset...")
    preds = []
    for inner_j in range(trainset.n_items):
        qj = svd.qi[inner_j]
        bj = svd.bi[inner_j]
        est = mu + bj + b_u + p_u.dot(qj)
        raw_j = trainset.to_raw_iid(inner_j)
        preds.append((raw_j, est))
    
    # Remover itens que o usu√°rio j√° avaliou (conhecidas)
    avaliados_raw = set([raw for raw, _ in avaliacoes])
    preds = [p for p in preds if p[0] not in avaliados_raw]
    
    print(f"‚úì {len(preds)} filmes candidatos (excluindo j√° avaliados)\n")
    
    # Ordenar e pegar top K
    preds.sort(key=lambda x: x[1], reverse=True)
    topk = preds[:TOP_K]
    
    # Exibir recomenda√ß√µes
    print(f"{'='*70}")
    print(f"üé¨ TOP-{TOP_K} RECOMENDA√á√ïES PARA O USU√ÅRIO {HOLDOUT_USER_ID}")
    print(f"{'='*70}\n")
    
    for i, (raw_j, est) in enumerate(topk, 1):
        row = movies[movies["itemID"] == raw_j]
        if not row.empty:
            title = row.iloc[0]["title"]
            genres = row.iloc[0]["genres"] if "genres" in row.columns else ""
            first_genre = genres.split("|")[0] if isinstance(genres, str) and genres else "Desconhecido"
            print(f"{i:2d}. {title}")
            print(f"    G√™nero: {first_genre} | Nota estimada: {est:.2f}\n")
        else:
            print(f"{i:2d}. Item ID {raw_j} | Nota estimada: {est:.2f}\n")
    
    # --- PASSO 6: Avaliar qualidade das recomenda√ß√µes ---
    print(f"{'='*70}")
    print(f"üìä AVALIA√á√ÉO DA QUALIDADE DAS RECOMENDA√á√ïES")
    print(f"{'='*70}\n")
    
    # Filmes recomendados (top K)
    recommended_items = set([raw_j for raw_j, _ in topk])
    
    # Filmes que o usu√°rio realmente gostou nas avalia√ß√µes ocultas (nota >= 4)
    hidden_liked = hidden_ratings[hidden_ratings["rating"] >= 4.0].copy()
    hidden_liked_set = set(hidden_liked["itemID"].tolist())
    
    print(f"Estat√≠sticas:")
    print(f"  ‚Ä¢ Filmes recomendados: {len(recommended_items)}")
    print(f"  ‚Ä¢ Filmes que o usu√°rio gostou nas avalia√ß√µes ocultas (nota ‚â• 4): {len(hidden_liked_set)}\n")
    
    # Verificar quantos filmes recomendados o usu√°rio realmente gostou
    hits = recommended_items.intersection(hidden_liked_set)
    
    if len(hidden_liked_set) > 0:
        precision = len(hits) / len(recommended_items) if len(recommended_items) > 0 else 0
        recall = len(hits) / len(hidden_liked_set)
        f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
        
        print(f"M√©tricas de Performance:")
        print(f"  ‚úì Acertos: {len(hits)} filme(s)")
        print(f"  ‚Ä¢ Precision@{TOP_K}: {precision:.2%}")
        print(f"  ‚Ä¢ Recall@{TOP_K}: {recall:.2%}")
        print(f"  ‚Ä¢ F1-Score@{TOP_K}: {f1:.2%}\n")
        
        if len(hits) > 0:
            print(f"üéØ Filmes recomendados que o usu√°rio REALMENTE gostou:\n")
            for item_id in hits:
                row = movies[movies["itemID"] == item_id]
                if not row.empty:
                    title = row.iloc[0]["title"]
                    actual_rating = hidden_ratings[hidden_ratings["itemID"] == item_id]["rating"].values[0]
                    genres = row.iloc[0]["genres"] if "genres" in row.columns else ""
                    first_genre = genres.split("|")[0] if isinstance(genres, str) and genres else "Desconhecido"
                    print(f"  ‚úì {title}")
                    print(f"    G√™nero: {first_genre} | Nota real: {actual_rating}\n")
        else:
            print("‚ö†Ô∏è Nenhum dos filmes recomendados est√° entre os que o usu√°rio gostou (ocultos).\n")
    else:
        print("‚ö†Ô∏è O usu√°rio n√£o tem filmes com nota alta (‚â•4) nas avalia√ß√µes ocultas.\n")
    
    # An√°lise adicional: distribui√ß√£o de notas nas avalia√ß√µes ocultas
    print(f"Distribui√ß√£o de notas nas avalia√ß√µes ocultas:")
    dist = hidden_ratings["rating"].value_counts().sort_index()
    for nota, count in dist.items():
        print(f"  Nota {nota}: {count} filme(s)")
    
    print(f"\n{'='*70}")
    print("‚úì Fold-in conclu√≠do!")
    print(f"{'='*70}\n")

üé¨ TESTE DE FOLD-IN COM USU√ÅRIO REAL (COLD-START)
Usu√°rio holdout: 249
Este usu√°rio N√ÉO participou do treinamento do modelo.

Total de avalia√ß√µes do usu√°rio: 1046

üìä Divis√£o das avalia√ß√µes:
  Avalia√ß√µes conhecidas (para fold-in): 836
  Avalia√ß√µes ocultas (para valida√ß√£o): 210

Exemplos de filmes que o usu√°rio avaliou (conhecidas):
  ‚Ä¢ 50/50 (2011) (G√™nero: Comedy) ‚Üí Nota: 3.5
  ‚Ä¢ A.I. Artificial Intelligence (2001) (G√™nero: Adventure) ‚Üí Nota: 3.5
  ‚Ä¢ Star Trek (2009) (G√™nero: Action) ‚Üí Nota: 4.0
  ‚Ä¢ Star Wars: Episode II - Attack of the Clones (2002) (G√™nero: Action) ‚Üí Nota: 3.5
  ‚Ä¢ Hunt for the Wilderpeople (2016) (G√™nero: Adventure) ‚Üí Nota: 4.5

Avalia√ß√µes conhecidas dispon√≠veis no trainset: 818/836
‚úì Suficiente para fold-in!

Mapeamento para inner IDs:
  ‚úì Sucesso: 818

Calculando vetor latente do usu√°rio via fold-in...
‚úì Vetor latente calculado (dimens√£o: 200)
‚úì Bias do usu√°rio: 0.088

Gerando predi√ß√µes para todos os fi