# **Рекомендательная система | CatBoost**

# Постановка проблемы

Во многих социальных сетях есть лента, которую пользователи могут прокручивать и просматривать случайные посты из разных сообществ. А что, если показывать пользователям не случайные посты, а рекомендовать их каждому пользователю из всего набора постов? Как это сделать и учесть индивидуальные особенности профиля пользователя, его прошлую активность и содержание самих постов? Моей задачей было построить систему рекомендаций для постов в социальной сети. В качестве основных исходных данных я использовала заранее подготовленные таблицы из базы данных "Karpov courses".

# Пайплайн проекта:

**1) Загрузка данных из базы данных (БД) и обзор данных**

   Подключиться к базе данных, выгрузаить необходимые данные для анализа. Цель — понять структуру данных, выявить возможные пропуски или аномалии, а также получить общее представление о распределении и составе данных. Анализ включает изучение признаков (features) и целевой переменной.
   
**2) Создание признаков и формирование обучающей выборки**

На этом этапе я создаю новые признаки, которые могут быть полезны для модели. После генерации признаков формируется обучающая выборка, которая содержит все необходимые данные для последующего обучения модели.

**3) Тренировка модели и оценка её качества**

Используя обучающую выборку, я обучаю модель, выбирая алгоритм и его параметры. После обучения настраиваю модель и проверяю её качество на валидационной выборке. 

**4) Сохранение обученной модели**

**5) Разработка сервиса для использования модели** 

Здесь я создаю сервис, который позволит взаимодействовать с моделью в реальном времени. Сервис включает следующие шаги:

* Загрузка модели: при запуске сервис загружает ранее сохранённую модель из файла.
* Получение признаков: сервис принимает запросы с user_id, на основе которого формирует нужные признаки для предсказания или загружаются уже с таблиц, которые вы загрузили в базу данных КарповКурсес. Признаки в момент предсказания должны совпадать с признаками, которые были в момент обучения модели.
* Предсказание: используя загруженную модель и полученные признаки, сервис делает предсказание — определяет посты, которые, вероятно, понравятся пользователю.
* Возвращение ответа: сервис возвращает ответ с результатами предсказания.

**Описание данных**

Данные хранятся в базе данных в таблицах:
1. **'user data'** - содержит информацию о всех пользователях соц.сети
   * age	Возраст пользователя (в профиле)
   * city	Город пользователя (в профиле)
   * country	Страна пользователя (в профиле)
   * exp_group	Экспериментальная группа: некоторая зашифрованная категория
   * gender	Пол пользователя
   * user_id  Уникальный идентификатор пользователя
   * os	Операционная система устройства, с которого происходит пользование соц.сетью
   * source	Пришел ли пользователь в приложение с органического трафика или с рекламы
2. **'post_text_df'** - содержит информацию о постах и уникальный ID каждой единицы с соответствующим ей текстом и топиком
   * id	Уникальный идентификатор поста
   * text	Текстовое содержание поста
   * topic	Основная тематика
3. **'feed_data'** - Содержит историю о просмотренных постах для каждого юзера в изучаемый период.
   * timestamp	Время, когда был произведен просмотр
   * user_id	id пользователя, который совершил просмотр
   * post_id	id просмотренного поста
   * action	Тип действия: просмотр или лайк
   * target	1 у просмотров, если почти сразу после просмотра был совершен лайк, иначе 0. У действий like пропущенное значение.

Чтобы создать датафрейм, я использую SQL-запросы к базе данных PostgreSQL.'feed_data' - большая таблица, поэтому не загружаем её полностью. 
В 'feed_data' строки упорядочены по временным меткам действий, поэтому id одного пользователя может встречаться много раз подряд. Также распределение целевой переменной неравномерно, поэтому я обращаюсь к 'feed_data' двумя запросами, с помощью которых получаю уникальную информацию о всех пользователях и уменьшаю неравномерность распределения целевой переменной

In [1]:
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading psycopg2_binary-2.9.10-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m34.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.10


In [1]:
import pandas as pd
import psycopg2
database="startml",
user="robot-startml-ro",
password="pheiph0hahj1Vaif",
host="postgres.lab.karpov.courses",
port=6432
conn_uri = "postgresql://robot-startml-ro:pheiph0hahj1Vaif@postgres.lab.karpov.courses:6432/startml"

Посмотрим на 'feed_data'. Строки таблицы упорядочены по временным меткам, поэтому id одного пользователя встречается много раз подряд. Таблица большая, поэтому загружаю её не полностью - чтобы при этом точно получить информацию о всех пользователях создаю 'extra_data'.
Также распределение целевой переменной неравномерно, поэтому я создаю еще один датафрейм с рандомными 1000000 строками и target=1.

In [20]:
feed_data_overview = pd.read_sql("SELECT * FROM public.feed_data limit 100000;", conn_uri)
print(feed_data_overview.head())
print(feed_data_overview['target'].value_counts())

            timestamp  user_id  post_id action  target
0 2021-10-25 10:01:02     3090     6955   view       0
1 2021-10-25 10:03:18     3090     3133   view       0
2 2021-10-25 10:03:45     3090     4550   view       0
3 2021-10-25 10:04:45     3090     4278   view       0
4 2021-10-25 10:06:49     3090     4034   view       0
target
0    89516
1    10484
Name: count, dtype: int64


In [2]:
user_df = pd.read_sql("SELECT * FROM public.user_data;", conn_uri)
post_text_df = pd.read_sql("SELECT * FROM public.post_text_df;", conn_uri)
extra_data = pd.read_sql("SELECT distinct on (user_id, target,feed_data.action,target) timestamp,user_id,post_id,public.feed_data.action,target FROM public.feed_data;", conn_uri)
feed_data = pd.read_sql("SELECT * FROM public.feed_data where target=1 order by random()limit 1000000;", conn_uri)

In [None]:
extra_df = pd.concat([extra_data, feed_data], axis=0)
df = pd.merge(user_df, extra_df, on='user_id',how='left')

Применяю OneHotEncoding и MeanTarget для категориальных фичей

In [None]:
df['timestamp'] = pd.to_datetime(df['timestamp'])

# OneHotEncoding and MeanTarget for categorical features
import pandas as pd
from sklearn.preprocessing import LabelEncoder

for col in df.select_dtypes(include=['object']).columns:
    if df[col].nunique() < 5:
        one_hot = pd.get_dummies(df[col], prefix=col, drop_first=True)
        df = pd.concat((df.drop(col, axis=1), one_hot), axis=1)
    else:
        mean_target = df.groupby(col)['target'].mean()
        df[col] = df[col].map(mean_target)

In [None]:
one_hot = pd.get_dummies(df['exp_group'], prefix=col, drop_first=True)
df = pd.concat((df.drop('exp_group', axis=1), pd.get_dummies(df['exp_group'], prefix=col, drop_first=True)), axis=1)

Применяю MeanTarget к 'age' а также создаю новую фичу - 'post_likes'

In [None]:
# MeanTarget for 'age'
mean_target_2 = df.groupby('age')['target'].mean()
df['age'] = df['age'].map(mean_target_2)

# Popularity of text
df['post_likes'] = df.groupby('post_id')['target'].transform('sum')

In [None]:
import nltk
nltk.download()

In [None]:
#import wordnet
nltk.download('wordnet')

Очистка текста постов для последующего создания TF-IDF

In [None]:
# Clearing text
from nltk.stem import PorterStemmer
import re
import string
nltk.download('stopwords')
from nltk.corpus import stopwords 
from nltk.stem import WordNetLemmatizer  
stop_words = stopwords.words('english')

# Tokenization, stop word removal and lower case conversion
sw = stopwords.words('english')
lemmatizer = WordNetLemmatizer() 

def clean_text(text):
    
    text = text.lower()  
    
    text = re.sub(r"[^a-zA-Z?.!,¿]+", " ", text)
    punctuations = '@#!?+&*[]-%.:/();$=><|{}^' + "'`" + '_'
    
    for p in punctuations:
        text = text.replace(p,'') #Removing punctuations
        
    text = [word.lower() for word in text.split() if word.lower() not in sw]
    
    # Function to remove emojis from text
    def remove_emojis(text):
        return emoji.demojize(text)
   
    text = " ".join(text)
    
    return text

post_text_df['text'] = post_text_df['text'].apply(lambda x: clean_text(x))

# Create TF-IDF matrix
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(max_features = 300)  
tfidf_matrix = tfidf.fit_transform(post_text_df['text'].fillna('unknown'))
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())
tfidf_df.reset_index(drop=True, inplace=True)
post_text_df.reset_index(drop=True, inplace=True)

Применение StandardScaler, PCA и метода ближайших соседей к TF-IDF

In [None]:
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
# Стандартизация данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(tfidf_df)

# Применение PCA
pca = PCA(n_components=50) 
X_pca = pca.fit_transform(X_scaled)
X_pca = pd.DataFrame(X_pca)
X_pca= X_pca.add_prefix('PCA_')

cluster_num = int((len(df))*0.05)
kmeans = KMeans(n_clusters=100, random_state=42).fit(X_pca)
scaler = StandardScaler()
KMeans_scaled = scaler.fit_transform(X_pca)
post_text_df['kmeans_pca'] = kmeans.predict(X=X_pca)

In [None]:
# Новая фича - длина текста 
post_text_df['text_length'] = post_text_df['text'].apply(len)
post_final = post_changed.copy()

In [None]:
# Взаимодействие с топиками
topic_interactions = feed_data.merge(post_text_df[['post_id', 'topic']], left_on='post_id', right_on='post_id', how='left')
topic_interactions = topic_interactions.groupby(['user_id', 'topic']).size().unstack(fill_value=0)

In [None]:
df_catboost = pd.merge(df, topic_interactions, on='user_id', how='left')
df_catboost = pd.merge(df_catboost, post_final, on='post_id', how='left')

In [None]:
# LabelEncoding для 'country' и 'topic'
from sklearn.preprocessing import LabelEncoder

label_encoders = {}
for column in ['country', 'topic']:
    le = LabelEncoder()
    df_catboost[column] = le.fit_transform(df_catboost[column].astype(str))
    label_encoders[column] = le  

Еще одно применение k-means и StandardScaler к 'age','gender', 'topic'

In [None]:
kmeans = KMeans(n_clusters= 20 , random_state=42).fit((df_catboost[['age','gender', 'topic']]))
scaler = StandardScaler()
KMeans_scaled = scaler.fit_transform((df_catboost[['age','gender', 'topic']]))
df_catboost['age_gender_topic_kmeans'] = pd.DataFrame(kmeans.predict(X=df_catboost[['age','gender', 'topic']]))

In [None]:
# Select only numeric columns for conversion
numeric_columns = df_catboost.select_dtypes(include=['float64', 'int64']).columns

# Convert only numeric columns to float32
df_catboost[numeric_columns] = df_catboost[numeric_columns].astype('float32')

Будем оценивать качество модели по метрике HitRate

In [None]:
def calculate_hitrate(y_true, y_pred_proba, threshold=0.5):
     y_pred = (y_pred_proba >= threshold).astype(int)
     return (y_pred == y_true).mean()  

Разделение на обучающую и тестовую выборку

In [None]:
from sklearn.model_selection import train_test_split
# Preparing data for training
X = df_catboost.drop(['target', 'timestamp', 'user_id', 'post_id'], axis=1)
y = df_catboost['target']
user_ids = df_catboost['user_id']

# Splitting data into training and testing samples
X_train, X_test, y_train, y_test, user_train, user_test = train_test_split(X, y, user_ids, test_size=0.2, random_state=42)

Обучение CatBoostClassifier модели с использованием кросс-валидации. 

In [None]:
from sklearn.model_selection import RandomizedSearchCV
import catboost
from sklearn.metrics import accuracy_score
from catboost import CatBoostClassifier
from sklearn.utils.class_weight import compute_class_weight
import numpy as np

def train_catboost(X_train, y_train, param_dist=None, random_state=42):
    
    catboost_model = CatBoostClassifier(loss_function='Logloss', 
                                        verbose=0, 
                                        random_state=random_state,             
                                       )
    param_grid = {
            'depth': [4, 6, 8],
            'learning_rate': [0.01, 0.1, 0.2],
            'iterations': [100, 200],
            'l2_leaf_reg': [1, 3, 5],
        }

    best_hitrate = 0
    best_model = None
    
    kf = KFold(n_splits=2, shuffle=True, random_state=42)

    for train_index, val_index in kf.split(X_train):
        X_train_fold, X_val_fold = X_train.iloc[train_index], X_train.iloc[val_index]
        
        y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]
    
        grid_search = GridSearchCV(catboost_model, param_grid, scoring='roc_auc', cv=5, n_jobs=1)
        print("Starting GridSearchCV...")
        grid_search.fit(X_train_fold, y_train_fold)
        print("Finished GridSearchCV.")
        
        # Оценка HitRate на валидационной выборке
        y_val_pred_proba = grid_search.predict_proba(X_val_fold)[:, 1]
        hitrate = calculate_hitrate(y_val_fold, y_val_pred_proba)
        
        if hitrate > best_hitrate:
            best_hitrate = hitrate
            best_model = grid_search.best_estimator_

    return best_model

In [None]:
X_train_final = X_train.iloc[:1000000]
y_train_final = y_train.iloc[:1000000]

In [None]:
model = train_catboost(X_train_final, y_train_final)

Сохранение модели и фичей 

In [None]:
model.save_model('catboost_model', format="cbm") 

In [None]:
df_for_saving = df_catboost.copy()

In [None]:
from sqlalchemy import create_engine

engine = create_engine(
    "postgresql://robot-startml-ro:pheiph0hahj1Vaif@"
    "postgres.lab.karpov.courses:6432/startml"
)

df_for_saving.to_sql('ulyanas_astrovas_features', engine, if_exists='append', chunksize=1000)