# Imports

In [2]:
import pandas as pd
import numpy as np
import torch

from sklearn.preprocessing import MultiLabelBinarizer

from pathlib import Path
import ast
import typing as tp
import random
from collections import Counter
import warnings

warnings.filterwarnings("ignore", category=DeprecationWarning)
np.random.seed(31337)

# Preprocessing

Тут должны подгружаться файлы, полученые в результате запуска ноутбука EDA.ipynb

In [3]:
# folder = Path("/content/")
folder = Path("data/data_kion")
users_df = pd.read_csv(folder / "users_processed.csv")
items_df = pd.read_csv(folder / "items_processed.csv")
interactions_df = pd.read_csv(folder / "interactions_processed.csv")

## Users preprocessing

In [4]:
users_df.head()

Unnamed: 0,user_id,age,income,sex,kids_flg
0,973171,age_25_34,income_60_90,M,True
1,962099,age_18_24,income_20_40,M,False
2,1047345,age_45_54,income_40_60,F,False
3,721985,age_45_54,income_20_40,F,False
4,704055,age_35_44,income_60_90,F,False


Закодируем возраст и доход числами (по возрастанию от 0), а тем юзерам, у которых они неизвестны, заполним их медианой (категорией, в которую попадает медиана среднего по диапазонам категорий).

In [5]:
sorted_age_categories = sorted(users_df['age'].unique(), key=lambda s: float(s.split('_')[1] if len(s.split('_')) == 3 else np.inf))
age_mapper = {age: id for id, age in enumerate(sorted_age_categories)}
median_age = users_df[users_df['age'] != 'age_unknown']['age'].map(lambda s: (float(s.split('_')[2] if float(s.split('_')[2]) < np.inf else s.split('_')[1]) + float(s.split('_')[1])) / 2).median()
age_fill_value = None
for age_cat in sorted_age_categories:
    low, high = age_cat.split('_')[1:]
    if int(low) < median_age < int(high):
        age_fill_value = age_cat
        break
age_mapper['age_unknown'] = age_mapper[age_fill_value]

sorted_income_categories = sorted(users_df['income'].unique(), key=lambda s: float(s.split('_')[1] if len(s.split('_')) == 3 else np.inf))
income_mapper = {income: id for id, income in enumerate(sorted_income_categories)}
median_income = users_df[users_df['income'] != 'income_unknown']['income'].map(lambda s: (float(s.split('_')[2] if float(s.split('_')[2]) < np.inf else s.split('_')[1]) + float(s.split('_')[1])) / 2).median()
income_fill_value = None
for income_cat in sorted_income_categories:
    low, high = income_cat.split('_')[1:]
    if int(low) < median_income < int(high):
        income_fill_value = income_cat
        break
income_mapper['income_unknown'] = income_mapper[income_fill_value]
income_mapper

sex_mapper = {'M': -1, 'sex_unknown': 0, 'F': 1}

age_mapper, income_mapper, sex_mapper

({'age_18_24': 0,
  'age_25_34': 1,
  'age_35_44': 2,
  'age_45_54': 3,
  'age_55_64': 4,
  'age_65_inf': 5,
  'age_unknown': 2},
 {'income_0_20': 0,
  'income_20_40': 1,
  'income_40_60': 2,
  'income_60_90': 3,
  'income_90_150': 4,
  'income_150_inf': 5,
  'income_unknown': 1},
 {'M': -1, 'sex_unknown': 0, 'F': 1})

In [6]:
users_df['age'] = users_df['age'].map(age_mapper)
users_df['income'] = users_df['income'].map(income_mapper)
users_df['sex'] = users_df['sex'].map(sex_mapper)
users_df['kids_flg'] = users_df['kids_flg']
users_df = users_df.astype(np.int32)
users_df.head()

Unnamed: 0,user_id,age,income,sex,kids_flg
0,973171,1,3,-1,1
1,962099,0,1,-1,0
2,1047345,3,2,1,0
3,721985,3,1,1,0
4,704055,2,3,1,0


In [7]:
users_df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840197 entries, 0 to 840196
Data columns (total 5 columns):
 #   Column    Non-Null Count   Dtype
---  ------    --------------   -----
 0   user_id   840197 non-null  int32
 1   age       840197 non-null  int32
 2   income    840197 non-null  int32
 3   sex       840197 non-null  int32
 4   kids_flg  840197 non-null  int32
dtypes: int32(5)
memory usage: 16.0 MB


## Items preprocessing

In [8]:
items_df['genres'] = items_df['genres'].map(ast.literal_eval)
items_df['countries'] = items_df['countries'].map(lambda s: list(set(s.split(', '))))

In [9]:
items_df.head()

Unnamed: 0,item_id,content_type,title,title_orig,genres,countries,for_kids,age_rating,studios,directors,actors,description,keywords,release_year_cat
0,10711,film,поговори с ней,Hable con ella,"[драмы, детективы, мелодрамы]",[испания],False,16,unknown,педро альмодовар,"Адольфо Фернандес, Ана Фернандес, Дарио Гранди...",Мелодрама легендарного Педро Альмодовара «Пого...,"Поговори, ней, 2002, Испания, друзья, любовь, ...",2000_2010
1,2508,film,голые перцы,Search Party,"[приключения, комедии]",[сша],False,16,unknown,скот армстронг,"Адам Палли, Брайан Хаски, Дж.Б. Смув, Джейсон ...",Уморительная современная комедия на популярную...,"Голые, перцы, 2014, США, друзья, свадьбы, прео...",2010_2020
2,10716,film,тактическая сила,Tactical Force,"[криминал, триллеры, боевики, комедии]",[канада],False,16,unknown,адам п. калтраро,"Адриан Холмс, Даррен Шалави, Джерри Вассерман,...",Профессиональный рестлер Стив Остин («Все или ...,"Тактическая, сила, 2011, Канада, бандиты, ганг...",2010_2020
3,7868,film,45 лет,45 Years,"[драмы, мелодрамы]",[великобритания],False,16,unknown,эндрю хэй,"Александра Риддлстон-Барретт, Джеральдин Джейм...","Шарлотта Рэмплинг, Том Кортни, Джеральдин Джей...","45, лет, 2015, Великобритания, брак, жизнь, лю...",2010_2020
4,16268,film,все решает мгновение,,"[драмы, спорт, мелодрамы]",[ссср],False,12,ленфильм,виктор садовский,"Александр Абдулов, Александр Демьяненко, Алекс...",Расчетливая чаровница из советского кинохита «...,"Все, решает, мгновение, 1978, СССР, сильные, ж...",1970_1980


In [10]:
items_df.columns

Index(['item_id', 'content_type', 'title', 'title_orig', 'genres', 'countries',
       'for_kids', 'age_rating', 'studios', 'directors', 'actors',
       'description', 'keywords', 'release_year_cat'],
      dtype='object')

Закодируем жанры (отдельный бинарный столбец для каждого жанра)

In [11]:
genres_mlb = MultiLabelBinarizer()
genres_one_hot = pd.DataFrame(genres_mlb.fit_transform(items_df['genres']),
                              columns=list(map(lambda s: f'genre_{s}', genres_mlb.classes_)),
                              index=items_df.index,
                              dtype=np.int32)
countries_mlb = MultiLabelBinarizer()
countries_one_hot = pd.DataFrame(countries_mlb.fit_transform(items_df['countries']),
                                 columns=list(map(lambda s: f'country_{s}', countries_mlb.classes_)),
                                 index=items_df.index,
                                 dtype=np.int32)
items_df = pd.concat([items_df, genres_one_hot, countries_one_hot], axis=1).drop(columns=['genres', 'genre_no_genre', 'studios', 'countries'])
items_df.head()

Unnamed: 0,item_id,content_type,title,title_orig,for_kids,age_rating,directors,actors,description,keywords,...,country_хорватия,country_чехия,country_чили,country_швейцария,country_швеция,country_эквадор,country_эстония,country_юар,country_югославия,country_япония
0,10711,film,поговори с ней,Hable con ella,False,16,педро альмодовар,"Адольфо Фернандес, Ана Фернандес, Дарио Гранди...",Мелодрама легендарного Педро Альмодовара «Пого...,"Поговори, ней, 2002, Испания, друзья, любовь, ...",...,0,0,0,0,0,0,0,0,0,0
1,2508,film,голые перцы,Search Party,False,16,скот армстронг,"Адам Палли, Брайан Хаски, Дж.Б. Смув, Джейсон ...",Уморительная современная комедия на популярную...,"Голые, перцы, 2014, США, друзья, свадьбы, прео...",...,0,0,0,0,0,0,0,0,0,0
2,10716,film,тактическая сила,Tactical Force,False,16,адам п. калтраро,"Адриан Холмс, Даррен Шалави, Джерри Вассерман,...",Профессиональный рестлер Стив Остин («Все или ...,"Тактическая, сила, 2011, Канада, бандиты, ганг...",...,0,0,0,0,0,0,0,0,0,0
3,7868,film,45 лет,45 Years,False,16,эндрю хэй,"Александра Риддлстон-Барретт, Джеральдин Джейм...","Шарлотта Рэмплинг, Том Кортни, Джеральдин Джей...","45, лет, 2015, Великобритания, брак, жизнь, лю...",...,0,0,0,0,0,0,0,0,0,0
4,16268,film,все решает мгновение,,False,12,виктор садовский,"Александр Абдулов, Александр Демьяненко, Алекс...",Расчетливая чаровница из советского кинохита «...,"Все, решает, мгновение, 1978, СССР, сильные, ж...",...,0,0,0,0,0,0,0,0,0,0


И так же, как с юзерами, закодируем числами категориальные фичи (которых по одному значению на строку)

In [12]:
content_type_mapper = {'film': 0, 'series': 1}
age_rating_mapper = {v: id for id, v in enumerate(sorted(items_df['age_rating'].unique()))}
release_year_cat_mapper = {y: id for id, y in enumerate(sorted(items_df['release_year_cat'].unique(), key=lambda s: float(s.split('_')[1])))}
content_type_mapper, age_rating_mapper, release_year_cat_mapper

({'film': 0, 'series': 1},
 {np.int64(0): 0,
  np.int64(6): 1,
  np.int64(12): 2,
  np.int64(16): 3,
  np.int64(18): 4,
  np.int64(21): 5},
 {'inf_1920': 0,
  '1920_1930': 1,
  '1930_1940': 2,
  '1940_1950': 3,
  '1950_1960': 4,
  '1960_1970': 5,
  '1970_1980': 6,
  '1980_1990': 7,
  '1990_2000': 8,
  '2000_2010': 9,
  '2010_2020': 10,
  '2020_inf': 11})

In [13]:
items_df['for_kids'] = items_df['for_kids'].astype(np.int32)
items_df['age_rating'] = items_df['age_rating'].map(age_rating_mapper).astype(np.int32)
items_df['content_type'] = items_df['content_type'].map(content_type_mapper).astype(np.int32)
items_df['release_year_cat'] = items_df['release_year_cat'].map(release_year_cat_mapper).astype(np.int32)
items_df = items_df.drop(columns=['title', 'title_orig', 'directors', 'actors', 'description', 'keywords']).astype(np.int32)

items_df.head()

Unnamed: 0,item_id,content_type,for_kids,age_rating,release_year_cat,genre_аниме,genre_биография,genre_боевики,genre_военные,genre_детективы,...,country_хорватия,country_чехия,country_чили,country_швейцария,country_швеция,country_эквадор,country_эстония,country_юар,country_югославия,country_япония
0,10711,0,0,3,9,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
1,2508,0,0,3,10,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,10716,0,0,3,10,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,7868,0,0,3,10,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,16268,0,0,2,6,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [14]:
items_df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15963 entries, 0 to 15962
Data columns (total 125 columns):
 #    Column                    Dtype
---   ------                    -----
 0    item_id                   int32
 1    content_type              int32
 2    for_kids                  int32
 3    age_rating                int32
 4    release_year_cat          int32
 5    genre_аниме               int32
 6    genre_биография           int32
 7    genre_боевики             int32
 8    genre_военные             int32
 9    genre_детективы           int32
 10   genre_детские             int32
 11   genre_для взрослых        int32
 12   genre_документальное      int32
 13   genre_драмы               int32
 14   genre_исторические        int32
 15   genre_комедии             int32
 16   genre_короткометражные    int32
 17   genre_криминал            int32
 18   genre_мелодрамы           int32
 19   genre_музыка              int32
 20   genre_мультфильмы         int32
 21   genre_мюзи

In [15]:
ITEMS_NUM_CAT_FEATURES = 4
ITEMS_NUM_GENRE_FEATURES = len([g for g in items_df.columns if g.startswith('genre_')])

## Interactions preprocessing

In [16]:
interactions_df.head()

Unnamed: 0,user_id,item_id,last_watch_dt,total_dur,watched_pct
0,176549,9506,2021-05-11,4250,72
1,699317,1659,2021-05-29,8317,100
2,656683,7107,2021-05-09,10,0
3,864613,7638,2021-07-05,14483,100
4,964868,9506,2021-04-30,6725,100


Фильтруем малоактивных юзеров и непопулярные фильмы.

In [17]:
interactions_df['item_id'].value_counts(), interactions_df['user_id'].value_counts()

(item_id
 10440    202457
 15297    193123
 9728     132865
 13865    122119
 4151      91167
           ...  
 2435          1
 7978          1
 10642         1
 13008         1
 9286          1
 Name: count, Length: 15706, dtype: int64,
 user_id
 416206     1341
 1010539     764
 555233      685
 11526       676
 409259      625
            ... 
 690921        1
 255412        1
 264195        1
 150067        1
 337469        1
 Name: count, Length: 962179, dtype: int64)

Оставим юзеров, посмотревших хотя бы 5 фильмов, и фильмы, которые посмотрело хотя бы 5 юзеров

In [18]:
before_filtering_users = interactions_df['user_id'].nunique()
before_filtering_items = interactions_df['item_id'].nunique()

interactions_df = interactions_df[interactions_df.watched_pct > 10]

valid_users = []

neg_films_features = Counter(interactions_df['user_id'])
for user_ids, entries in neg_films_features.most_common():
  if entries >= 5:
    valid_users.append(user_ids)

valid_items = []

neg_films_features = Counter(interactions_df['item_id'])
for item_id, entries in neg_films_features.most_common():
  if entries >= 5:
    valid_items.append(item_id)

interactions_df = interactions_df[interactions_df['user_id'].isin(valid_users)]
interactions_df = interactions_df[interactions_df['item_id'].isin(valid_items)]

print(f"Users before filtering: {before_filtering_users:>7}")
print(f"Users after filtering:  {interactions_df['user_id'].nunique():>7}")
print(f"Items before filtering:  {before_filtering_items:>6}")
print(f"Items after filtering:   {interactions_df['item_id'].nunique():>6}")

Users before filtering:  962179
Users after filtering:   207255
Items before filtering:   15706
Items after filtering:     8823


Переведём фичи в 32-битный int

In [19]:
interactions_df['total_dur'].min(), interactions_df['total_dur'].mean(), interactions_df['total_dur'].max()

(np.int64(6), np.float64(11384.85642516867), np.int64(80411672))

In [20]:
interactions_df[['user_id', 'item_id', 'total_dur', 'watched_pct']] = interactions_df[['user_id', 'item_id', 'total_dur', 'watched_pct']].astype(np.int32)
interactions_df.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
Index: 2646592 entries, 0 to 5476249
Data columns (total 5 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   user_id        int32 
 1   item_id        int32 
 2   last_watch_dt  object
 3   total_dur      int32 
 4   watched_pct    int32 
dtypes: int32(4), object(1)
memory usage: 80.8+ MB


Поскольку `nn.Embedding` принимает количество треков `num_tracks`, и считает, что их индексы будут [0; `num_tracks`) (что сейчас не так), нужно перемаппить индексы треков (и юзеров заодно) в этот диапазон  

Про часть юзеров, которые есть в `interactions_df`, у нас нет информации. Заполним информацию про них медианными значениями.

In [21]:
users_df.columns

Index(['user_id', 'age', 'income', 'sex', 'kids_flg'], dtype='object')

In [22]:
users_df

Unnamed: 0,user_id,age,income,sex,kids_flg
0,973171,1,3,-1,1
1,962099,0,1,-1,0
2,1047345,3,2,1,0
3,721985,3,1,1,0
4,704055,2,3,1,0
...,...,...,...,...,...
840192,339025,5,0,1,0
840193,983617,0,1,1,1
840194,251008,2,1,0,0
840195,590706,2,1,1,0


In [23]:
unknown_users = set(interactions_df["user_id"]).difference(users_df['user_id'])
unknown_users_df = pd.DataFrame({'user_id' : list(unknown_users),
                                 'age': [age_mapper['age_unknown']] * len(unknown_users),
                                 'income': [income_mapper['income_unknown']] * len(unknown_users),
                                 'sex': [0] * len(unknown_users),
                                 'kids_flg': [0] * len(unknown_users),
                                 }
                )
users_df = pd.concat([users_df, unknown_users_df], axis=0)
users_df

Unnamed: 0,user_id,age,income,sex,kids_flg
0,973171,1,3,-1,1
1,962099,0,1,-1,0
2,1047345,3,2,1,0
3,721985,3,1,1,0
4,704055,2,3,1,0
...,...,...,...,...,...
39287,524269,2,1,0,0
39288,786421,2,1,0,0
39289,786425,2,1,0,0
39290,524284,2,1,0,0


In [24]:
unique_user_ids = np.unique(np.concat([interactions_df["user_id"], users_df['user_id']]))
unique_item_ids = np.unique(np.concat([interactions_df["item_id"], items_df['item_id']]))

# Create mappings (old ID → new consecutive ID starting from 0)
user_id_map = {old_id: np.int32(new_id) for new_id, old_id in enumerate(unique_user_ids)}
user_id_map_to_orig = {np.int32(new_id): old_id for new_id, old_id in enumerate(unique_user_ids)}
item_id_map = {old_id: np.int32(new_id) for new_id, old_id in enumerate(unique_item_ids)}
item_id_map_to_orig = {np.int32(new_id): old_id for new_id, old_id in enumerate(unique_item_ids)}

In [25]:
len(user_id_map), len(item_id_map)

(879489, 15963)

In [26]:
users_df['user_id'] = users_df['user_id'].map(user_id_map)
items_df['item_id'] = items_df['item_id'].map(item_id_map)
interactions_df['user_id'] = interactions_df['user_id'].map(user_id_map)
interactions_df['item_id'] = interactions_df['item_id'].map(item_id_map)

users_df.set_index('user_id', inplace=True)
items_df.set_index('item_id', inplace=True)
interactions_df.head()

Unnamed: 0,user_id,item_id,last_watch_dt,total_dur,watched_pct
0,141413,9178,2021-05-11,4250,72
1,560236,1604,2021-05-29,8317,100
3,692633,7376,2021-07-05,14483,100
5,826986,6454,2021-05-13,11286,100
6,814480,343,2021-08-14,1672,25


In [27]:
def get_triplets(interactions_df: pd.DataFrame) -> pd.DataFrame:
    """
    Extract triplets (user_id, item_id, watched_pct) from interactions DataFrame.
    """
    positives = interactions_df[interactions_df["watched_pct"] > 80].copy()
    negatives = interactions_df[interactions_df["watched_pct"] < 30].copy()
    positives = positives[["user_id", "item_id"]].rename(columns={"item_id": "film_pos"})

    NUM_NEGATIVE_SAMPLES = 10
    negatives_grouped = (
        negatives.groupby('user_id')
        .apply(lambda x: x.sample(n=min(len(x), NUM_NEGATIVE_SAMPLES), random_state=42))
        .reset_index(drop=True)
        .rename(columns={"item_id": "film_neg"})
    )

    triplets = positives.merge(negatives_grouped, on="user_id", how="inner")
    return triplets

def get_users_with_positive_interactions(interactions_df: pd.DataFrame) -> pd.DataFrame:
    return interactions_df[interactions_df["watched_pct"] > 80][["user_id", "item_id"]].rename(columns={"item_id": "film_pos"}).copy()

In [29]:
interactions_df = interactions_df.sort_values(by=['last_watch_dt'], ascending=True)

train_data = get_triplets(interactions_df.iloc[:int(len(interactions_df) * 0.8)])
val_data = get_users_with_positive_interactions(interactions_df.iloc[int(len(interactions_df) * 0.8):int(len(interactions_df) * 0.9)])
test_data = get_users_with_positive_interactions(interactions_df.iloc[int(len(interactions_df) * 0.9):])

train_val_data = get_triplets(interactions_df.iloc[:int(len(interactions_df) * 0.9)]) # train+val для скоринга на тесте в конце

len(train_data), len(val_data), len(test_data)

(3844820, 113912, 117398)

# Saving

In [30]:
users_df.to_parquet(folder / 'users_final.parquet')
items_df.to_parquet(folder / 'items_final.parquet')

train_data.to_parquet(folder / "train_triplets.parquet", index=False)
val_data.to_parquet(folder / "val_pos.parquet", index=False)
test_data.to_parquet(folder / "test_pos.parquet", index=False)
train_val_data.to_parquet(folder / "train_val_triplets.parquet", index=False)