In [1]:
import pandas as pd
from scipy.sparse import csr_matrix
import gc  # coleta de lixo para liberar mem√≥ria

  from pandas.core import (


In [2]:
# === 1. Carregamento dos arquivos ===
# ratings = pd.read_csv("bases/USER_RATINGS.csv")
games = pd.read_csv("bases/GAMES.csv")
mechanics = pd.read_csv("bases/MECHANICS.csv")

In [3]:
# ============================================================
# 1. Leitura otimizada da base GAMES (usada para filtro por ano)
# ============================================================

# Filtrar apenas jogos lan√ßados a partir de 1990
modern_games = games[games["YearPublished"] >= 1990]["BGGId"]
modern_games_set = set(modern_games)  # convers√£o para lookup r√°pido
print(f"N√∫mero de jogos modernos (p√≥s 1990): {len(modern_games_set):,}")

N√∫mero de jogos modernos (p√≥s 1990): 19,111


In [4]:
# ============================================================
# 2. Leitura em CHUNKS da base USER_RATINGS (grande, 390 MB)
# ============================================================

chunksize = 1_000_000  # l√™ 1 milh√£o de linhas por vez
filtered_chunks = []

dtypes = {
    "BGGId": "int32",
    "Rating": "float32",
    "Username": "category"
}

for chunk in pd.read_csv(
    "bases/USER_RATINGS.csv",
    usecols=["Username", "BGGId", "Rating"],
    dtype=dtypes,
    chunksize=chunksize
):
    # Filtrar jogos modernos dentro de cada chunk
    chunk = chunk[chunk["BGGId"].isin(modern_games_set)]
    filtered_chunks.append(chunk)

# Concatenar tudo em um √∫nico DataFrame filtrado
ratings = pd.concat(filtered_chunks, ignore_index=True)
del filtered_chunks
gc.collect()

print(f"Ap√≥s o filtro de ano: {len(ratings):,} avalia√ß√µes")

Ap√≥s o filtro de ano: 17,538,477 avalia√ß√µes


In [5]:
# ============================================================
# 3. Filtragem adicional por n√∫mero m√≠nimo de avalia√ß√µes
# ============================================================

# Filtrar usu√°rios com pelo menos 10 avalia√ß√µes
user_counts = ratings["Username"].value_counts()
active_users = user_counts[user_counts >= 10].index
ratings = ratings[ratings["Username"].isin(active_users)]

# Filtrar jogos com pelo menos 20 avalia√ß√µes
game_counts = ratings["BGGId"].value_counts()
popular_games = game_counts[game_counts >= 20].index
ratings = ratings[ratings["BGGId"].isin(popular_games)]

print(f"Base final: {len(ratings):,} avalia√ß√µes, "
      f"{ratings['Username'].nunique():,} usu√°rios e "
      f"{ratings['BGGId'].nunique():,} jogos.")

Base final: 16,958,788 avalia√ß√µes, 217,775 usu√°rios e 19,070 jogos.


In [6]:
import psutil, os

processo = psutil.Process(os.getpid())
print(f"Mem√≥ria usada: {processo.memory_info().rss / 1024 ** 2:.2f} MB")


Mem√≥ria usada: 740.36 MB


### OLD

In [7]:
# === 2. Filtragem temporal ===
# Mant√©m apenas jogos lan√ßados a partir da d√©cada de 1990
# games_modern = games[games["YearPublished"] >= 1990]

In [8]:
# === 3. Filtragem dos ratings ===
# Mant√©m apenas avalia√ß√µes de jogos modernos
#ratings = ratings[ratings["BGGId"].isin(games_modern["BGGId"])]

In [9]:
# # === 4. Filtragem de usu√°rios e jogos com baixa atividade ===
# # Define limites m√≠nimos (ajust√°veis conforme o tamanho final desejado)
# min_user_ratings = 20     # usu√°rios com menos de 20 avalia√ß√µes s√£o removidos
# min_game_ratings = 50     # jogos com menos de 50 avalia√ß√µes s√£o removidos

# user_counts = ratings["Username"].value_counts()
# game_counts = ratings["BGGId"].value_counts()

# ratings = ratings[
#     ratings["Username"].isin(user_counts[user_counts >= min_user_ratings].index)
#     & ratings["BGGId"].isin(game_counts[game_counts >= min_game_ratings].index)
# ]

In [10]:
# === 5. Amostragem controlada (opcional, caso ainda esteja muito grande) ===
# Exemplo: seleciona 10.000 usu√°rios aleatoriamente
# sampled_users = ratings["Username"].drop_duplicates().sample(10000, random_state=42)
# ratings = ratings[ratings["Username"].isin(sampled_users)]

In [11]:
# === 6. Cria√ß√£o da matriz R (usu√°rio x jogo) ===
# Cria √≠ndices num√©ricos para usu√°rios e jogos
user_index = {u: i for i, u in enumerate(ratings["Username"].unique())}
game_index = {g: i for i, g in enumerate(ratings["BGGId"].unique())}

# Mapeia IDs para √≠ndices
ratings["user_idx"] = ratings["Username"].map(user_index)
ratings["game_idx"] = ratings["BGGId"].map(game_index)

# Cria matriz esparsa
R_sparse = csr_matrix(
    (ratings["Rating"], (ratings["user_idx"], ratings["game_idx"])),
    shape=(len(user_index), len(game_index))
)

print(f"Matriz R criada: {R_sparse.shape[0]} usu√°rios x {R_sparse.shape[1]} jogos")
print(f"Densidade: {R_sparse.nnz / (R_sparse.shape[0] * R_sparse.shape[1]):.6f}")

Matriz R criada: 217775 usu√°rios x 19070 jogos
Densidade: 0.004077


# Filtragem Colaborativa Baseada em Modelo

### üéØ Objetivo da se√ß√£o pr√°tica

Voc√™ quer:

1. Criar um **sistema de recomenda√ß√£o funcional** (baseado no teu dataset BGG).
2. Aplicar uma metodologia de **valida√ß√£o experimental** (cross-validation, RMSE, etc).
3. Mostrar resultados interpret√°veis (top-N recomenda√ß√µes, desempenho quantitativo).

### üß† 1. Escolha do tipo de SR

Como voc√™ j√° decidiu usar as tabelas `USER_RATINGS`, `GAMES` e `MECHANICS`, o **modelo base mais apropriado** √© um **Sistema de Filtragem Colaborativa Baseado em Modelos**, usando **fatora√ß√£o de matrizes (Matrix Factorization)**.

üëâ Esse m√©todo √© o mesmo usado no *Netflix Prize* e √© muito s√≥lido para bases grandes como a tua.

---

### ‚öôÔ∏è 2. Prepara√ß√£o dos dados

Antes de treinar o modelo, voc√™ precisa:

* Criar a **matriz ( R_{u,i} )** de avalia√ß√µes dos usu√°rios (`USER_RATINGS`);
* Tratar **ratings nulos (itens n√£o avaliados)** como ‚Äúdesconhecidos‚Äù (n√£o zero!);
* Garantir **balanceamento** (usu√°rios e jogos com n√∫mero m√≠nimo de avalia√ß√µes);
* Dividir os dados em **treino** e **teste**.

### üßÆ 3. Modelo de Fatora√ß√£o de Matrizes (MF)

A ideia √© decompor $( R \approx P Q^T )$,
onde:

* $( P \in \mathbb{R}^{|U| \times k} )$: representa usu√°rios em um espa√ßo latente,
* $( Q \in \mathbb{R}^{|I| \times k} )$: representa itens (jogos),
* $( k )$: n√∫mero de fatores latentes.

A predi√ß√£o √©:
$$
\hat{r}_{ui} = p_u^T q_i
$$

O treinamento consiste em minimizar o erro quadr√°tico regularizado:
$$
\min_{P,Q} \sum_{(u,i) \in \text{Train}} (r_{ui} - p_u^T q_i)^2 + \lambda (||p_u||^2 + ||q_i||^2)
$$


### üìà 5. Valida√ß√£o e an√°lise

Voc√™ pode apresentar os resultados de:

* **RMSE** e **MAE** (precis√£o preditiva);
* Exemplo de **recomenda√ß√µes geradas** (lista top-10 para um usu√°rio);
* Discuss√£o sobre **vantagens e limita√ß√µes pr√°ticas** do modelo (ex: escalabilidade, dados esparsos).

In [None]:
from sklearn.model_selection import train_test_split

# Divis√£o treino/teste
#train, test = train_test_split(ratings, test_size=0.2, random_state=42)

#print(f"Tamanho do treino: {len(train)}, teste: {len(test)}")

Tamanho do treino: 13567030, teste: 3391758


In [16]:
from surprise import Dataset, Reader, SVD
from surprise.model_selection import cross_validate

# Preparar dados para a biblioteca
reader = Reader(rating_scale=(1, 10))
data = Dataset.load_from_df(ratings[['Username', 'BGGId', 'Rating']], reader)

# REALIZAR UMA AMOSTRAGEM REPRESENTATIVA DA BASE PARA TREINAR O MODELO
# Selecionar os 5.000 usu√°rios mais ativos
top_users = ratings['Username'].value_counts().head(5000).index
ratings = ratings[ratings['Username'].isin(top_users)]

# Selecionar os 2.000 jogos mais avaliados
top_games = ratings['BGGId'].value_counts().head(2000).index
ratings = ratings[ratings['BGGId'].isin(top_games)]

train, test = train_test_split(ratings, test_size=0.2, random_state=42)

# Modelo SVD (Singular Value Decomposition)
print("Treinando o modelo SVD...")
model = SVD(n_factors=50, reg_all=0.02, lr_all=0.005, random_state=42)

# Valida√ß√£o cruzada
print("Validando o modelo com 3-fold CV...")
results = cross_validate(model, data, measures=['RMSE', 'MAE'], cv=3, verbose=True)

print("RMSE m√©dio:", results['test_rmse'].mean())
print("MAE m√©dio:", results['test_mae'].mean())


Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    1.0607  1.0603  1.0590  1.0585  1.0596  1.0596  0.0008  
MAE (testset)     0.7906  0.7906  0.7891  0.7893  0.7907  0.7900  0.0007  
Fit time          20.38   20.54   20.41   28.83   22.44   22.52   3.25    
Test time         4.76    4.26    3.76    6.23    3.82    4.57    0.91    
RMSE m√©dio: 1.0596303313574884
MAE m√©dio: 0.7900495903952492


In [None]:
# === 7. Jun√ß√£o com tabela de mec√¢nicas ===
# games_mech = games_modern.merge(mechanics, on="BGGId", how="left")

# # Mant√©m apenas os jogos que est√£o na matriz R
# games_mech = games_mech[games_mech["BGGId"].isin(game_index.keys())]

# # Cria DataFrame de atributos (para modelos baseados em conte√∫do)
# X = games_mech.set_index("BGGId").drop(columns=["Name", "Description"], errors="ignore")

# print(f"Shape dos atributos (MEC√ÇNICAS + METADADOS): {X.shape}")
