# Импорт библеотек

In [1]:
# проведение пути до собственных модулей
import sys
sys.path.append('../')

In [2]:
# основные модули
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# собственные модулей
from src.utils import prefilter_items
from src.metrics import precision_at_k, recall_at_k, evaluate_pred
# модель для 1го уровня
from src.recommenders import MainRecommender

# модели для 2го уровня
from lightgbm import LGBMClassifier

# отключение предупреждений
import warnings
warnings.filterwarnings('ignore')

# Загрузка данных

In [3]:
# создание датафреймов
train = pd.read_csv('retail_train.csv')
test = pd.read_csv('retail_test1.csv')

# зегрузка фичей
item_features = pd.read_csv('product.csv')
user_features = pd.read_csv('hh_demographic.csv')


# Редактирование датафреймов

In [4]:
# Снижение регистров столбцов
item_features.columns = [col.lower() for col in item_features.columns]
user_features.columns = [col.lower() for col in user_features.columns]

# Переименование столбцов
item_features.rename(columns={'product_id': 'item_id'}, inplace=True)
user_features.rename(columns={'household_key': 'user_id'}, inplace=True)

## добавление фичей

In [5]:
# объединение датафреймов
train_ = train.merge(item_features, on='item_id', how='left')
train_ = train.merge(user_features, on='user_id', how='left')

test_ = test.merge(item_features, on='item_id', how='left')
test_ = test.merge(user_features, on='user_id', how='left')

In [6]:
# префильтрация
train_, test_ = map(prefilter_items, (train_, test_))

# Обучение одноуровневой модели

In [7]:
# обучение одноуровневой модели
recommender_ = MainRecommender(train_)



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))




HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=5001.0), HTML(value='')))




In [8]:
# создание фрейма результатов одноуровневой модели
result_ = test_.groupby('user_id')['item_id'].unique().reset_index()
result_.columns = ['user_id', 'actual']

# удаление тех пользователей, на которых модель не обучалась
result_ = result_[result_['user_id'].isin(train_['user_id'])]
result_.head()

Unnamed: 0,user_id,actual
0,1,"[999999, 883616, 940947, 959219, 991024, 10049..."
1,2,"[999999, 866211, 885023, 899624, 940947, 95141..."
2,3,"[989069, 1130858]"
3,6,"[847738, 999999, 948650, 1082398, 1100159, 127..."
4,7,"[859987, 863407, 895454, 999999, 930918, 95467..."


## подбор числа кондидатов

In [None]:
# подбор числа кандидатов
N_tuple = 50, 100, 200, 400
metric = 'recall@k'

# фрейм результатов прогноза
recall_frame = pd.DataFrame(
    columns=[metric, 'similar_items', 'als', 'own']
).set_index(metric)

# прогнозирование результатов и добавление во фрейм
for N in N_tuple:
    result_['similar_items'] = result_['user_id'].apply(
        lambda x: recommender_.get_similar_items_recommendation(user=x, N=N)
    )# apply

    result_['als'] = result_['user_id'].apply(
        lambda x: recommender_.get_als_recommendations(user=x, N=N)
    )# apply

    result_['own'] = result_['user_id'].apply(
        lambda x: recommender_.get_own_recommendations(user=x, N=N)
    )# apply
    
    recall_frame.loc[N] = evaluate_pred(data=result_, true='actual', metric=metric, k=N)

recall_frame

- 100 кондидатов на модели __own recommendation__ (основанной на Item Item Recommender) будет достаточно

## прогнозирование результатов на трейне (precision@5)

In [None]:
# подбор числа кандидатов
N = 100
k = 5
metric = 'precision@k'

precision_frame = pd.DataFrame(
    columns=[metric, 'similar_items', 'als', 'own']
).set_index(metric)

# прогнозирование результатов и добавление ление во фрейм
result_['similar_items'] = result_['user_id'].apply(
    lambda x: recommender_.get_similar_items_recommendation(user=x, N=N)
)# apply

result_['als'] = result_['user_id'].apply(
    lambda x: recommender_.get_als_recommendations(user=x, N=N)
)# apply

result_['own'] = result_['user_id'].apply(
    lambda x: recommender_.get_own_recommendations(user=x, N=N)
)# apply
    
precision_frame.loc[k] = evaluete_rec(data=result_, true='actual', metric=metric, k=k)

precision_frame

## Вывод:

- Видно что лучший точность у __own recommender__ (Item Item Recommender) однако она все же < 0.27. 
- Попробуем двухуровневую модель с фильтрацией товаров на 1м ровне.

In [None]:
# результат прогноза 100 кондидатов
result_.head()

# Обучение двухуровневой модели

## Обучение 1го уровня модели

In [None]:
# разбиение на тестовые и трейновые фреймы 1го и 2го уровня
weeks = 9

# 1й уровень
train_lvl1 = train_[train_['week_no'] < train_['week_no'].max() - weeks]
test_lvl1 = train_[train_['week_no'] >= train_['week_no'].max() - weeks]

# 2й уровень
train_lvl2 = test_lvl1.copy()

In [None]:
# обучение 1го уровня модели
recommender_lvl1 = MainRecommender(train_lvl1)

In [None]:
# создание фрейма результатов 1го уровня
result_lvl1 = test_lvl1.groupby('user_id')['item_id'].unique().reset_index()
result_lvl1.columns = ['user_id', 'actual']

# удаление тех пользователей, на которых модель не обучалась
result_lvl1 = result_lvl1[result_lvl1['user_id'].isin(train_lvl1['user_id'])]
result_lvl1.head()

In [None]:
# подбор числа кандидатов
N_tuple = 50, 100, 200, 400
metric = 'recall@k'

# фрейм результатов прогноза
recall_lvl1 = pd.DataFrame(columns=[metric, 'similar_items', 'als', 'own']).set_index(metric)

for N in N_tuple:
    result_lvl1['similar_items'] = result_lvl1['user_id'].apply(
        lambda x: recommender_lvl1.get_similar_items_recommendation(user=x, N=N)
    )# apply

    result_lvl1['als'] = result_lvl1['user_id'].apply(
        lambda x: recommender_lvl1.get_als_recommendations(user=x, N=N)
    )# apply

    result_lvl1['own'] = result_lvl1['user_id'].apply(
        lambda x: recommender_lvl1.get_own_recommendations(user=x, N=N)
    )# apply

    recall_lvl1.loc[N] = evaluete_rec(data=result_lvl1, true='actual', metric=metric, k=N)
    
recall_lvl1

- 100 кондидатов на модели __own recommendation__ (основанной на Item Item Recommender) будет достаточно

In [None]:
# подбор числа кандидатов
N = 100
k = 5
metric = 'precision@k'

precision_lvl1 = pd.DataFrame(
    columns=[metric, 'similar_items', 'als', 'own']
).set_index(metric)

# прогнозирование результатов и добавление во фрейм
result_lvl1['similar_items'] = result_lvl1['user_id'].apply(
    lambda x: recommender_lvl1.get_similar_items_recommendation(user=x, N=N)
)# apply

result_lvl1['als'] = result_lvl1['user_id'].apply(
    lambda x: recommender_lvl1.get_als_recommendations(user=x, N=N)
)# apply

result_lvl1['own'] = result_lvl1['user_id'].apply(
    lambda x: recommender_lvl1.get_own_recommendations(user=x, N=N)
)# apply
    
precision_lvl1.loc[k] = evaluete_rec(data=result_lvl1, true='actual', metric=metric, k=k)

precision_lvl1

- Видно, что самое точное прогнозирование у __own recommender__ (Item Item Recommender) - __precision@5 = 0.31__ - его будем использовать для 2го уровня модели.

In [None]:
result_lvl1.head()

## Обучение 2го уровня модели

### Формирование фремов для обучения на train

In [None]:
# формирование фрейма с результатами прогнозирования 1го уровня для 2го уровня
result_lvl2 = pd.DataFrame(train_lvl2['user_id'].unique())
result_lvl2.columns = ['user_id']

# отбор пользователей для горячего старта
train_users = train_lvl1['user_id'].unique()
result_lvl2 = result_lvl2[result_lvl2['user_id'].isin(train_users)]

# Добавление по 100 items которые отбирает 1 уровень модели
result_lvl2['candidates'] = result_lvl2['user_id'].apply(lambda x: recommender_lvl1.get_own_recommendations(x, N=100))

result_lvl2.head()

In [None]:
# формирование фрейма для 2го уровня модели

# вытаскиваем всех пользователей
users_array = result_lvl2['user_id'].values

# вытаскиваем все items
candidates_lists = result_lvl2['candidates']
len_candidates= len(candidates_lists[0])
candidates_array = candidates_lists.values

# формируем фрейм с спрогнозированными результатами
df = pd.DataFrame({'user_id':users_array.repeat(len_candidates),
                   'item_id':np.concatenate(candidates_array)})
df.head()

In [None]:
# Формируем фрейм рекоммендаций user_item

# фиксируем фактическое взаимодействие
targets_train_lvl2 = train_lvl2[['user_id', 'item_id']].copy()
# отмечаем их как 1
targets_train_lvl2['target'] = 1

# объединяем фрейм фактического взаимодействия с предсказанным по совпадению пользователь-товар
targets_train_lvl2 = df.merge(targets_train_lvl2, on=['user_id', 'item_id'], how='left')
# если появятся не зафиксированные взаимодействия, отметим их как 0 
targets_train_lvl2['target'].fillna(0, inplace=True)

targets_train_lvl2

#### Добавление фичей

In [None]:
# Добавляем фичи для user, items и user_items
targets_train_lvl2 = targets_train_lvl2.merge(item_features, on='item_id', how='left')
targets_train_lvl2 = targets_train_lvl2.merge(user_features, on='user_id', how='left')

targets_train_lvl2.head()

#### Разбиваем таргет на X, y

In [None]:
X_train = targets_train_lvl2.drop('target', axis=1)
y_train = targets_train_lvl2[['target']]

# Отмечаем категориальные признаки
cat_feats = X_train.columns[2:].tolist()
X_train[cat_feats] = X_train[cat_feats].astype('category')

### Обучение LightGBM

In [None]:
lgb = LGBMClassifier(objective='binary', max_depth=7, categorical_column=cat_feats)
lgb.fit(X_train, y_train)

# прогнозирование train выборки
train_preds = lgb.predict(X_train)
train_preds

### Оценка обучения 2го уровня модели (train)

In [None]:
def eval_lgbm(targets, preds, k=5):
    targets['recommend'] = preds
    targets = targets[['user_id', 'item_id', 'target', 'recommend']]
    
    target = targets[targets['target'] == 1]
    target = target.groupby('user_id')['item_id'].unique().reset_index()
    target.columns = ['user_id', 'target']
    
    recommend = targets[targets['recommend'] == 1]
    recommend = recommend.groupby('user_id')['item_id'].unique().reset_index()
    recommend.columns = ['user_id', 'recommend']
    
    target_recommend = target.merge(recommend, on='user_id')
    
    result = evaluete_rec(data=target_recommend, true='target', metric='precision@k', k=k)
    
    return result

In [None]:
print(f'precision@5 (train) = {eval_lgbm(targets=targets_train_lvl2, preds=train_preds)[0]}')

## Формирование фремов для прогнозирования на test

In [None]:
targets_test_lvl2 = test[['user_id', 'item_id']].copy()
targets_test_lvl2['target'] = 1

targets_test_lvl2 = df.merge(targets_test_lvl2, on=['user_id', 'item_id'], how='left')

targets_test_lvl2['target'].fillna(0, inplace= True)

targets_test_lvl2

In [None]:
targets_test_lvl2 = targets_test_lvl2.merge(item_features, on='item_id', how='left')
targets_test_lvl2 = targets_test_lvl2.merge(user_features, on='user_id', how='left')

targets_test_lvl2.head()

In [None]:
X_test = targets_test_lvl2.drop('target', axis=1)
y_test = targets_test_lvl2[['target']]

X_test[cat_feats] = X_test[cat_feats].astype('category')

## Прогноз и оценка результатов на test

In [None]:
test_preds = lgb.predict(X_test)
test_preds

In [None]:
print(f'precision@5 (train) = {eval_lgbm(targets=targets_test_lvl2, preds=test_preds)[0]}')

## Вывод

- Двухуровневая модель выдала результат > 0.27 - цель достигнута