В процессе решения задачи я столкнулся с несколькими проблемами.
Во-первых, слабообогащённый датасет показал отвратительные значения метрики hitrate@5, благодаря чему пришлось прошерстить огромное количество материалов по приёмам обогащения данных для таких задач, подробности в комментариях ниже.
Во-вторых, по условиям задачи рассчитываемые признаки должны быть экстраполированы на всех пользователей, что логично - ведь мы хотим строить рекомендации для любого пользователя, доступного для нашего задания, а не только для того, на котором обучаемся. Потому я решился на ужасный трюк - если уж мой обучающий датасет это join feed_data, то давайте выкачаем её всю, убедимся, что там содержатся все пользователи, и семплируем преобразованный датасет на 10% с группировкой по юзеру - таким образом мы создадим кусочек, экстраполированный на всех юзеров, по которому можно будет предсказывать рекомендации с хорошей вероятностью.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from catboost import CatBoostClassifier

SQLALCHEMY_DATABASE_URL = "postgresql://robot-startml-ro:pheiph0hahj1Vaif@postgres.lab.karpov.courses:6432/startml"

engine = create_engine(SQLALCHEMY_DATABASE_URL)
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)

In [3]:
user_data = pd.read_sql('SELECT * FROM public.user_data;', engine)
post_text_data = pd.read_sql('SELECT * FROM public.post_text_df;', engine)
feed_data_all = pd.read_csv('feed_data.csv')

In [4]:
user_data

Unnamed: 0,user_id,gender,age,country,city,exp_group,os,source
0,200,1,34,Russia,Degtyarsk,3,Android,ads
1,201,0,37,Russia,Abakan,0,Android,ads
2,202,1,17,Russia,Smolensk,4,Android,ads
3,203,0,18,Russia,Moscow,1,iOS,ads
4,204,0,36,Russia,Anzhero-Sudzhensk,3,Android,ads
...,...,...,...,...,...,...,...,...
163200,168548,0,36,Russia,Kaliningrad,4,Android,organic
163201,168549,0,18,Russia,Tula,2,Android,organic
163202,168550,1,41,Russia,Yekaterinburg,4,Android,organic
163203,168551,0,38,Russia,Moscow,3,iOS,organic


In [5]:
post_text_data

Unnamed: 0,post_id,text,topic
0,1,UK economy facing major risks\n\nThe UK manufa...,business
1,2,Aids and climate top Davos agenda\n\nClimate c...,business
2,3,Asian quake hits European shares\n\nShares in ...,business
3,4,India power shares jump on debut\n\nShares in ...,business
4,5,Lacroix label bought by US firm\n\nLuxury good...,business
...,...,...,...
7018,7315,"OK, I would not normally watch a Farrelly brot...",movie
7019,7316,I give this movie 2 stars purely because of it...,movie
7020,7317,I cant believe this film was allowed to be mad...,movie
7021,7318,The version I saw of this film was the Blockbu...,movie


In [6]:
feed_data_all.shape

(76892800, 6)

In [7]:
len(feed_data_all['user_id'].unique())

163205

Далее мы проведём преобразование над полным датасетом, как в файле с обучением модели

In [8]:
# EDA показал почти идентичное распределение на следующих колонках:

user_data = user_data.drop(columns=['city', 'country', 'os', 'source', 'exp_group', 'gender'])

# Почитаем длину текста вместо TF-IDF и после дропнем текст
post_text_data['text_length'] = post_text_data['text'].apply(lambda x: len(x.split()))
post_text_data = post_text_data.drop(columns=['text'])

In [9]:
# Закодируем топик
le = LabelEncoder()
post_text_data['topic_1'] = le.fit_transform(post_text_data['topic'])

# Объединение таблиц
data = feed_data_all.merge(user_data, on='user_id', how='left')
data = data.merge(post_text_data, on='post_id', how='left')

# Должен получиться огромный датасет
print(data.shape)
data.head()

(76892800, 10)


Unnamed: 0.1,Unnamed: 0,timestamp,user_id,post_id,action,target,age,topic,text_length,topic_1
0,0,2021-10-17 08:54:09,13346,1477,view,1,19,sport,130,5
1,1,2021-10-17 08:54:28,13346,1477,like,0,19,sport,130,5
2,2,2021-10-17 08:54:30,13346,7042,view,0,19,movie,124,3
3,3,2021-10-17 08:57:22,13346,1700,view,0,19,sport,311,5
4,4,2021-10-17 09:00:21,13346,3773,view,0,19,covid,23,1


In [10]:
'''Хитрости номер 1 - калькулятор лайков, кодировка топика'''

# Filter DataFrame for 'like' action
df_likes = data[data['action'] == 'like']

# Generate the pivot table
pivot_df = pd.pivot_table(df_likes, values='action', index='user_id', columns='topic', aggfunc='count', fill_value=0)

# Reset the index to make user_id a column again
pivot_df.reset_index(inplace=True)

# Merge the original dataframe with the pivot dataframe
data = pd.merge(data, pivot_df, how='left', on='user_id')

# Fill NaNs in the like count columns with 0
data.fillna(value=0, inplace=True)

'''Поменяем формат даты в одно число, для простоты возможной фильтрации'''

data['timestamp'] = pd.to_datetime(data['timestamp'])

# Convert datetime to Unix timestamp (seconds since 1970-01-01 00:00:00 UTC)
data['timestamp'] = (data['timestamp'] - pd.Timestamp("1970-01-01")) // pd.Timedelta('1s')

data

Unnamed: 0.1,Unnamed: 0,timestamp,user_id,post_id,action,target,age,topic,text_length,topic_1,business,covid,entertainment,movie,politics,sport,tech
0,0,1634460849,13346,1477,view,1,19,sport,130,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0
1,1,1634460868,13346,1477,like,0,19,sport,130,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0
2,2,1634460870,13346,7042,view,0,19,movie,124,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0
3,3,1634461042,13346,1700,view,0,19,sport,311,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0
4,4,1634461221,13346,3773,view,0,19,covid,23,1,8.0,27.0,5.0,42.0,13.0,16.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76892795,76892795,1633730022,13346,6671,view,0,19,movie,173,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0
76892796,76892796,1633730177,13346,2132,view,0,19,tech,1234,6,8.0,27.0,5.0,42.0,13.0,16.0,6.0
76892797,76892797,1633730231,13346,4014,view,0,19,covid,25,1,8.0,27.0,5.0,42.0,13.0,16.0,6.0
76892798,76892798,1633730264,13346,5885,view,0,19,movie,324,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0


In [11]:
'''Кодировку сделали. Давайте теперь считать процент лайков'''
# Assuming your DataFrame is named as 'data'

# Let's create a subset dataframe with only 'view' actions
views_df = data[data['action'] == 'view']

# Now, let's count views per post
views_per_post = views_df['post_id'].value_counts()

# Let's create a subset dataframe with only 'like' actions
likes_df = data[data['action'] == 'like']

# Now, let's count likes per post
likes_per_post = likes_df['post_id'].value_counts()

# Now, let's merge these two series into a new dataframe
post_stats = pd.DataFrame({
    'views': views_per_post,
    'likes': likes_per_post
})

# Replace NaN values with 0 (assuming that NaN means there were no likes/views)
post_stats.fillna(0, inplace=True)

# Let's calculate the likes percentage for each post from all likes
total_likes = post_stats['likes'].sum() # Total likes across all posts
post_stats['like_percentage'] = (post_stats['likes'] / total_likes) * 100

# Let's reset the index so 'post_id' becomes a column
post_stats.reset_index(inplace=True)
post_stats.rename(columns={'index': 'post_id'}, inplace=True)

# Now we merge this dataframe with the original one, on 'post_id'
# 'left' ensures that all rows in the original data are kept, even if they don't have a match in post_stats
data = pd.merge(data, post_stats, on='post_id', how='left')


data

Unnamed: 0.1,Unnamed: 0,timestamp,user_id,post_id,action,target,age,topic,text_length,topic_1,business,covid,entertainment,movie,politics,sport,tech,views,likes,like_percentage
0,0,1634460849,13346,1477,view,1,19,sport,130,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0,22259,2891,0.035229
1,1,1634460868,13346,1477,like,0,19,sport,130,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0,22259,2891,0.035229
2,2,1634460870,13346,7042,view,0,19,movie,124,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0,17107,2680,0.032658
3,3,1634461042,13346,1700,view,0,19,sport,311,5,8.0,27.0,5.0,42.0,13.0,16.0,6.0,21947,2774,0.033803
4,4,1634461221,13346,3773,view,0,19,covid,23,1,8.0,27.0,5.0,42.0,13.0,16.0,6.0,16963,2618,0.031902
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76892795,76892795,1633730022,13346,6671,view,0,19,movie,173,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0,6715,690,0.008408
76892796,76892796,1633730177,13346,2132,view,0,19,tech,1234,6,8.0,27.0,5.0,42.0,13.0,16.0,6.0,7341,729,0.008883
76892797,76892797,1633730231,13346,4014,view,0,19,covid,25,1,8.0,27.0,5.0,42.0,13.0,16.0,6.0,8563,1091,0.013295
76892798,76892798,1633730264,13346,5885,view,0,19,movie,324,3,8.0,27.0,5.0,42.0,13.0,16.0,6.0,6746,705,0.008591


In [12]:
# Закончили работу с моделью, чистим случайные индексы
data = data.drop(columns=['topic_1', 'topic', 'Unnamed: 0'])

# Данные сэмплируются с action!

In [13]:
# И вот он трюк. Мы отрежем от датасета 3%, но так, чтобы все юзеры были в нём. Таким образом, мы юзеров сохранили всех, обогатив их фичами для работы модели
def sample_3_percent(group):
    frac = 0.03
    return group.sample(frac=frac)

data_sample_3 = data.groupby('user_id', group_keys=False).apply(sample_3_percent)

print(len(data_sample_3['user_id'].unique()))
data_sample_3.to_csv('feed_data_sample_3_action.csv')

163205


А теперь немного тестов
Экспериментальным путём выяснено, что тест КС на шаге 6 работает на не более чем 3% данных оригинальной таблицы.

In [39]:
%%time
# А загружается ли таблица (ошибки), как долго(длительность хол. старта), и что в ней?
from tqdm import tqdm
def batch_load_sql(query: str) -> pd.DataFrame:
    CHUNKSIZE = 100000
    total_rows = 2306849
    engine = create_engine(
        "postgresql://robot-startml-ro:pheiph0hahj1Vaif@"
        "postgres.lab.karpov.courses:6432/startml"
    )
    conn = engine.connect().execution_options(stream_results=True)

    chunks = []
    with tqdm(total=total_rows, desc="Loading data") as pbar:
        for chunk_dataframe in pd.read_sql(query, conn, chunksize=CHUNKSIZE):
            chunks.append(chunk_dataframe)
            pbar.update(CHUNKSIZE)

    conn.close()

    return pd.concat(chunks, ignore_index=True)


def load_features() -> pd.DataFrame:
    query = 'SELECT * FROM igor_makarov_features_lesson_22'
    return batch_load_sql(query)


#model = load_models()
features = load_features()
#print(model)
print(features.head())
print(features.shape)

Loading data: 2400000it [00:48, 49905.43it/s]                                                                                                                                                                                                      


   Unnamed: 0   timestamp  user_id  post_id action  target  age  text_length  \
0     4331434  1640353392      200     4420   view       0   34          145   
1     4331376  1638264796      200        2   view       0   34          448   
2     4331388  1638265544      200     3406   view       0   34           21   
3     4331088  1637450631      200     2270   view       0   34          232   
4     4331429  1639385758      200     1452   view       1   34          563   

   business  covid  entertainment  movie  politics  sport  tech  views  likes  \
0       2.0    9.0            4.0   15.0       4.0    7.0   2.0   6874    710   
1       2.0    9.0            4.0   15.0       4.0    7.0   2.0   7495    637   
2       2.0    9.0            4.0   15.0       4.0    7.0   2.0  22328   2787   
3       2.0    9.0            4.0   15.0       4.0    7.0   2.0  12082    921   
4       2.0    9.0            4.0   15.0       4.0    7.0   2.0  22168   2727   

   like_percentage  
0         0

In [36]:
features[:1]

Unnamed: 0.1,Unnamed: 0,timestamp,user_id,post_id,target,age,text_length,business,covid,entertainment,movie,politics,sport,tech,views,likes,like_percentage
0,4330923,1633533702,200,1422,0,34,126,2.0,9.0,4.0,15.0,4.0,7.0,2.0,21851,2748,0.033486


In [22]:
# А работают ли предикты? Напомню, что модель считалась в файле new_model_train

from_file = CatBoostClassifier()
from_file.load_model('catboost_model.cbm', format='cbm')
from_file.get_params()
from_file.predict_proba(features[:1])

NameError: name 'features' is not defined

In [20]:
def hitrate5(model, X, Y):
    check = pd.concat([Y,
                       pd.Series(model.predict_proba(X)[:,1], index=Y.index, name='probas')],
                      axis=1)
    check = check.reset_index().drop(columns='post_id')
    
    pred_list = [check[check.user_id == user_id].sort_values('probas', ascending=False).iloc[:5]
                 for user_id in check.user_id.unique()]

    return pd.concat(pred_list).groupby('user_id').target.sum().map(lambda x: min(1, x)).mean()



In [41]:
# Эти преобразования нужны исключительно для расчёта метрики. Потому что метрика создавалась сразу после момента обучения, 
# а в обучении датасеты скрывали юзер и пост id чтобы не обучаться на этих числах. Соответственно в метрике висит баг с 
# check = check.reset_index().drop(columns='post_id'), который предполагает работу с y_test, имеющим индекс, т.к.
# перед разделением датасета в решении с обучением модели мы спрятали юзера и пост в индексы. Сымитируем эту ситуацию:
features = features.set_index(['user_id', 'post_id'])

In [42]:
features = features[data_sample_3['action'] == 'view']
features = features.drop(columns=['action'])

In [43]:
X = features.drop(columns='target')
y = features['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.2, shuffle=False)

In [44]:
# не делайте так без нужды. Тут был хитрейт на все 2306849 записей (0.5068). Отрезали 20% на тест
print('Hitrate@5: {:.4f}'.format(hitrate5(from_file, X_test, y_test)))

Hitrate@5: 0.5474


In [None]:
# ячейка для тюнинга модели. Не запускайте, если не хотите ничего тюнить
data_merged = pd.read_csv('feed_data_sample_10.csv') # попробуем по-простому - тюним обучатор на большем датасете и большем кол-ве юзеров
data_merged = data_merged.set_index(['user_id', 'post_id'])
data_merged = data_merged.drop(columns=['Unnamed: 0'])
X = data_merged.drop('target', axis=1)
y = data_merged['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.2, shuffle=False)

In [None]:
from catboost import CatBoostClassifier
from sklearn.pipeline import Pipeline

catboost_model = CatBoostClassifier(
    iterations=1000,  # Modify this parameter as needed
    eval_metric='PRAUC',  # Changed to PR AUC
    verbose=200,  # Output the training process every 200 iterations
    random_seed=42
)

catboost_model.fit(X_train, y_train)

In [None]:
# Save model
catboost_model.save_model('catboost_model_modified.cbm', format='cbm')


In [66]:
from_file = CatBoostClassifier()
from_file.load_model('catboost_model_modified.cbm', format='cbm')

<catboost.core.CatBoostClassifier at 0x1bb6dc81af0>

In [None]:
print('Hitrate@5: {:.4f}'.format(hitrate5(from_file, X_test, y_test)))

Ура, всё работает! Немножко смущает хитрейт - он как будто бы ниже необходимого. При уменьшении теста показатель растёт. Это можно будет подтюнить, если задание не примется по этой метрике
Время писать сервис. Это папочка app и файл app_dc_2.py

Ура, сервис написан, и даже работает с финальным чекером. Ожидаемо подкачала метрика - на тестах задания она вышла 0.513
Время тюнить модель! <br>
Первая попытка тюнинга - расширить кол-во юзеров в датасете. Я ожидаю переобучения, однако, если верно понимаю алгоритм, мы лишь расширим точность предсказаний в модели   <br>
Первый тюн на обучении показал 0.5589. Локальные тесты показывают Hitrate@5: 0.5525

In [38]:
import os
os.getcwd()

'C:\\Users\\realn\\PycharmProjects\\ML_training_course\\00_Final_Call\\notebooks_fc_2'