In [1]:
from scipy.sparse import csr_matrix
import polars as pl
import implicit

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
train = pl.scan_parquet("train_interactions.parquet")
train = train.filter((pl.col("like") + pl.col("dislike")) >= 1)
train = train.with_columns(weight=pl.col("like") - pl.col("dislike"))
train = train.select("user_id", "item_id", "weight")

In [3]:
train = train.collect()

In [4]:
items_meta = pl.read_parquet("items_meta.parquet")
users_meta = pl.read_parquet("users_meta.parquet")
n_items = items_meta["item_id"].max() + 1
n_users = users_meta["user_id"].max() + 1

In [5]:
train = csr_matrix((train["weight"], 
                    (train["user_id"].to_numpy(), 
                     train["item_id"].to_numpy())),
                   shape=(n_users, n_items))

In [6]:
model = implicit.als.AlternatingLeastSquares(factors=16, 
                                             iterations=10, 
                                             regularization=1, 
                                             alpha=100,
                                             calculate_training_loss=True)
model.fit(train)

  check_blas_config()
100%|██████████| 10/10 [00:18<00:00,  1.87s/it, loss=0.0062] 


In [7]:
test_pairs = pl.read_csv('test_pairs.csv')
test_pairs

user_id,item_id
i64,i64
1,7363
1,73770
1,75700
1,81204
1,110249
…,…
183403,235097
183403,267411
183403,273646
183403,288305


In [8]:
als_predict = (model.user_factors[test_pairs['user_id']] * 
               model.item_factors[test_pairs['item_id']]).sum(axis=1)

In [9]:
test_pairs.with_columns(predict=als_predict).write_csv('sample_submission.csv')

In [14]:
from sklearn.metrics import roc_auc_score


In [15]:
# Проверим распределение весов
print("Распределение весов в исходных данных:")
print(train_df['weight'].value_counts())

# Вычислим пороговое значение (например, будем считать высоким весом значения >= 255)
weight_threshold = 128  # или можно использовать train_df['weight'].mean()

# Модифицируем код для создания сбалансированной выборки
train_df, val_df = train_test_split(
    train_df, 
    test_size=0.2, 
    random_state=42,
    stratify=train_df['weight'] >= weight_threshold  # стратификация по новым бинарным меткам
)

# Создаем sparse matrices
train_matrix = csr_matrix((train_df['weight'], 
                          (train_df['user_id'], train_df['item_id'])),
                         shape=(n_users, n_items))

# Обучаем модель
model.fit(train_matrix)

# Получаем предсказания для валидационной выборки
val_predictions = (model.user_factors[val_df['user_id']] * 
                  model.item_factors[val_df['item_id']]).sum(axis=1)

# Преобразуем веса в бинарные метки с новым порогом
val_true = (val_df['weight'] >= weight_threshold).cast(int)

# Проверим распределение классов
print("\nРаспределение классов в val_true:")
print(pl.Series(val_true).value_counts())

# Считаем ROC AUC
roc_auc = roc_auc_score(val_true, val_predictions)
print(f"\nValidation ROC AUC: {roc_auc:.4f}")

Распределение весов в исходных данных:
shape: (2, 2)
┌────────┬─────────┐
│ weight ┆ count   │
│ ---    ┆ ---     │
│ u8     ┆ u32     │
╞════════╪═════════╡
│ 1      ┆ 4344629 │
│ 255    ┆ 36509   │
└────────┴─────────┘


100%|██████████| 10/10 [00:11<00:00,  1.19s/it, loss=0.00348]



Распределение классов в val_true:
shape: (2, 2)
┌────────┬────────┐
│ weight ┆ count  │
│ ---    ┆ ---    │
│ i64    ┆ u32    │
╞════════╪════════╡
│ 0      ┆ 868926 │
│ 1      ┆ 7302   │
└────────┴────────┘

Validation ROC AUC: 0.3137
