## Рекомендательные системы. Часть 2.

В этом задании будем практиковаться в реализации рекомендательных систем.

Воспользуемся небольшим датасетом с Kaggle: [Articles Sharing and Reading from CI&T Deskdrop](https://www.kaggle.com/gspmoreira/articles-sharing-reading-from-cit-deskdrop).

In [None]:
import numpy as np
import scipy
import pandas as pd
import math

%matplotlib inline
import matplotlib.pyplot as plt

from tqdm import tqdm_notebook

## Часть 0. Загрузка данных

Загрузим [Deskdrop dataset](https://www.kaggle.com/gspmoreira/articles-sharing-reading-from-cit-deskdrop), включающийся в себе логи за 1 год платформы, где пользователи читают статьи.

Данные включают в себя 2 файла:  
- **shared_articles.csv**
- **users_interactions.csv**

Как можно догадаться, в одном описания самих статей (нам понадобятся в контентных моделях), а в другом логи пользователей.

#### shared_articles.csv

Так как в файле перечислены даже удалённые статьи, то мы их сразу удалим (на самом деле они могли бы быть нам полезны для подсчёта различных величин, хоть мы и не можем их рекомендовать).

In [None]:
articles_df = pd.read_csv('shared_articles.csv')
articles_df = articles_df[articles_df['eventType'] == 'CONTENT SHARED']
articles_df.head(5)

#### users_interactions.csv

В колонке eventType описаны действия, которые могли совершать пользователи над статьёй:  
- VIEW
- LIKE
- COMMENT CREATED
- FOLLOW
- BOOKMARK

In [None]:
interactions_df = pd.read_csv('users_interactions.csv')
interactions_df.head(10)

In [None]:
interactions_df.personId = interactions_df.personId.astype(str)
interactions_df.contentId = interactions_df.contentId.astype(str)
articles_df.contentId = articles_df.contentId.astype(str)

### Предобработка данных

В логах встречаются различные действия пользователей. Однако мы хотим работать лишь с одной величиной, характеризующей всё взаимодействие пользователя со статьёй. Предлагается задать действиям следующие веса:

In [None]:
event_type_strength = {
   'VIEW': 1.0,
   'LIKE': 2.0, 
   'BOOKMARK': 2.5, 
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

Посчитайте числовую величину "оценки" пользователем статьи с указанными выше весами.

In [None]:
interactions_df['eventStrength'] = interactions_df.eventType.apply(lambda x: event_type_strength[x])

In [None]:
interactions_df.eventStrength.hist(bins=20)

Ремендательные системы подвержены проблеме холодного старта. В рамках данного задания предлагается работать только с теми пользователями, которые взаимодействовали хотя бы с 5 материалами.

Оставьте только таких пользователей. Их должно остаться 1140.

In [None]:
users_interactions_count_df = (
    interactions_df
    .groupby(['personId', 'contentId'])
    .first()
    .reset_index()
    .groupby('personId').size())
print('# users:', len(users_interactions_count_df))

users_with_enough_interactions_df = \
    users_interactions_count_df[users_interactions_count_df >= 5].reset_index()[['personId']]
print('# users with at least 5 interactions:',len(users_with_enough_interactions_df))

In [None]:
# users_interactions_count_df

Оставьте только те взаимодействия, которые касаются только отфильтрованных пользователей.

In [None]:
interactions_from_selected_users_df = \
    interactions_df.loc[
        np.in1d(
            interactions_df.personId,
            users_with_enough_interactions_df)]

In [None]:
print('# interactions before:', interactions_df.shape)
print('# interactions after:', interactions_from_selected_users_df.shape)

In [None]:
users_interactions_count_df.hist(bins=20)

В данной постановке каждый пользователей мог взаимодействовать с каждой статьёй более 1 раза (как минимум совершая различные действия). Предлагается "схлопнуть" все действия в одно взаимодействие с весом, равным сумме весов. 

Однако полученное число будет в том числе тем больше, чем больше действий произвёл человек. Чтобы уменьшить разброс предлагается взять логарифм от полученного числа (можно придумыват другие веса действиям и по-другому обрабатывать значения).

Также сохраним последнее значение времени взаимодействия для разделениея выборки на обучение и контроль.

In [None]:
def smooth_user_preference(x):
    return math.log(1+x, 2)
    
interactions_full_df = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId']).eventStrength.sum()
    .apply(smooth_user_preference)
    .reset_index().set_index(['personId', 'contentId'])
)
interactions_full_df['last_timestamp'] = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId'])['timestamp'].last()
)
        
interactions_full_df = interactions_full_df.reset_index()
interactions_full_df.head(10)

Разобьём выборку на обучение и контроль по времени.

In [None]:
split_ts = 1475519530
interactions_train_df = interactions_full_df.loc[interactions_full_df.last_timestamp < split_ts].copy()
interactions_test_df = interactions_full_df.loc[interactions_full_df.last_timestamp >= split_ts].copy()

print('# interactions on Train set: %d' % len(interactions_train_df))
print('# interactions on Test set: %d' % len(interactions_test_df))

Для удобства подсчёта качества запишем данные в формате, где строка соответствует пользователю, а столбцы будут истинными метками и предсказанями в виде списков.

In [None]:
interactions = (
    interactions_train_df
    .groupby('personId')['contentId'].agg(lambda x: list(x))
    .reset_index()
    .rename(columns={'contentId': 'true_train'})
    .set_index('personId')
)

interactions['true_test'] = (
    interactions_test_df
    .groupby('personId')['contentId'].agg(lambda x: list(x))
)

# заполнение пропусков пустыми списками
interactions.loc[pd.isnull(interactions.true_test), 'true_test'] = [
    list() for x in range(len(interactions.loc[pd.isnull(interactions.true_test), 'true_test']))]

interactions.head(1)

## Часть 1: Baseline (модель по популярности)

Самой простой моделью рекомендаций (при этом достаточно сильной!) является модель, которая рекомендует наиболее популярные предметы. 

Предлагается реализовать её. Давайте считать, что рекомендуем мы по 10 материалов (такое ограничение на размер блока на сайте).

Посчитайте популярность каждой статьи, как сумму всех "оценок" взаимодействий с ней. Отсортируйте материалы по их популярности.

In [None]:
interactions_train_df.head()

In [None]:
popular_content = (
    interactions_train_df
    .groupby('contentId')
    .eventStrength.sum().reset_index()
    .sort_values('eventStrength', ascending=False)
    .contentId.values
)

In [None]:
popular_content

Теперь необходимо сделать предсказания для каждого пользователя. Не забывайте, что надо рекомендовать то, что пользователь ещё не читал (для этого нужно проверить, что материал не встречался в true_train).

In [None]:
top_k = 10

interactions['prediction_popular'] = (
    interactions.true_train
    .apply(
        lambda x:
        popular_content[~np.in1d(popular_content, x)][:top_k]
    )
)

Настало время оценить качество. Посчитайте precision@10 для каждого пользователя (доля угаданных рекомендаций). Усредните по всем пользователям. Везде далее будем считать эту же метрику.

(для каждого пользователя посчитаем долю правильно предсказанных статей (если в ответе их меньше 10ти, то будем нормировать на реальное количество статей)).

In [None]:
def calc_precision(column):
    return (
        interactions
        .apply(
            lambda row:
            len(set(row['true_test']).intersection(
                set(row[column]))) /
            min(len(row['true_test']) + 0.001, 10.0),
            axis=1)).mean()

In [None]:
calc_precision('prediction_popular')

In [None]:
interactions.true_test.apply(len).sum()

## Часть 2. Коллаборативная фильтрация.

Перейдём к более сложному механизму рекомендаций, а именно коллаборативной фильтрации. Суть коллаборативной фильтрации в том, что учитывается схожесть пользователей и товаров между собой, а не факторы, которые их описывают. 

__Предлагается на выбор реализовать один из двух подходов__: memory-based или модель со скрытыми переменные.

Для начала для удобства составим матрицу "оценок" пользователей. Нули будут обозначать отсутствие взаимодействия.

In [None]:
ratings = pd.pivot_table(
    interactions_train_df,
    values='eventStrength',
    index='personId',
    columns='contentId').fillna(0)

In [None]:
ratings.head()

### Memory-based

Посчитайте схожести пользователей с помощью корреляции Пирсона. Для каждой пары учитываем только ненулевые значения.

Для скорости работы лучше переходить от pandas к numpy.

In [None]:
ratings_m = ratings.as_matrix()

In [None]:
similarity_users = np.zeros((len(ratings_m), len(ratings_m)))

for i in tqdm_notebook(range(len(ratings_m)-1)):
    for j in range(i+1, len(ratings_m)):
        
        # nonzero elements of two users
        mask_uv = (ratings_m[i] != 0) & (ratings_m[j] != 0)
        
        # continue if no intersection
        if np.sum(mask_uv) == 0:
            continue
            
        # get nonzero elements
        ratings_v = ratings_m[i, mask_uv]
        ratings_u = ratings_m[j, mask_uv]
        
        # normalization
        # ...
        ratings_v = ratings_v / np.linalg.norm(ratings_v)
        ratings_u = ratings_u / np.linalg.norm(ratings_u)
        
        # for nonzero std
        if len(np.unique(ratings_v)) < 2 or len(np.unique(ratings_u)) < 2:
            continue
        
        similarity_users[i,j] = np.corrcoef(ratings_u, ratings_v)[0][1]
        similarity_users[j,i] = similarity_users[i,j]

Теперь у нас есть матрицы схожести пользователей. Их можно использовать для рекомендаций.

Для каждого пользователя:

1. Найдём пользователей с похожестью больше $\alpha$ на нашего пользователя.
2. Посчитаем для каждой статьи долю пользователей (среди выделенных на первом шаге), которые взаимодействовали со статьёй.
3. Порекомендуем статьи с наибольшими долями со второго шага (среди тех, которые пользователь ещё не видел).

В нашем примере данных не очень много, поэтому возьмём $\alpha = 0$.

После того, как будут сделаны предсказания (новый столбец в interactions), посчитайте качество по той же метрике.

In [None]:
# your code
alpha = 0
Similarities = {}

for i in range(len(similarity_users)):
    Similarities[ratings.index[i]] = []
    for j in range(len(similarity_users)):
        if similarity_users[i,j] > alpha:
            Similarities[ratings.index[i]].append(ratings.index[j])
    Similarities[ratings.index[i]] = list(set(Similarities[ratings.index[i]]))

#interactions['prediction_user_based'] = # your code

Создадим словарь, в котором для каждого пользователя содержатся статьи, которые он смотрел.

In [None]:
from tqdm import tqdm

Viewed = {}

for user, row in ratings.iterrows(): 
    Viewed[user] = interactions.loc[user]['true_train']

In [None]:
Viewed[ratings.index[0]]

In [None]:
# ratings.index - users
# ratings.columns - articles

def get_popular(user, top_k=10):
    sim_users = ratings[ratings.index.isin(Similarities[user])] #оставляем в таблице только похожих
    sim_users = sim_users.drop(Viewed[user], axis=1) #убираем статьи, которые user уже смотрел
    return sim_users.astype(bool).sum(axis=0).sort_values(ascending=False).iloc[:top_k].index
    #считаем количество взаимодействий (=ненулевых элементов)

In [None]:
get_popular(ratings.index[0])

In [None]:
t1 = time.time()
interactions['prediction_user_based1'] = ratings.index.map(get_popular)
t2 = time.time()
print(t2-t1)

In [None]:
import time

t1 = time.time()

prediction_user_based = []
for i in tqdm_notebook(range(len(similarity_users))):
        
    users_sim = similarity_users[i] > 0

    if sum(users_sim) == 0:
        prediction_user_based.append([])
    else:
        tmp_recommend = np.argsort(ratings_m[users_sim].sum(axis=0))[::-1]
        tmp_recommend = ratings.columns[tmp_recommend]
        recommend = np.array(tmp_recommend)[~np.in1d(tmp_recommend, interactions.iloc[i]['true_train'])][:10]
        prediction_user_based.append(list(recommend))

interactions['prediction_user_based2'] = prediction_user_based

t2 = time.time()

print(t2-t1)

In [None]:
calc_precision('prediction_user_based1'), calc_precision('prediction_user_based2')

### Модель со скрытыми переменными

Реализуем подход с разложением матрицы оценок. Для этого сделаем сингулярное разложение (svd в scipy.linalg), на выходе получим три матрицы.

In [None]:
from scipy.linalg import svd

In [None]:
U, sigma, V = svd(ratings)

In [None]:
ratings.shape, U.shape, sigma.shape, V.shape

In [None]:
Sigma = np.zeros((1112, 2366))
Sigma[:1112, :1112] = np.diag(sigma)

In [None]:
new_ratings = U.dot(Sigma).dot(V)

In [None]:
sum(sum((new_ratings - ratings.values) ** 2))

Значения у матрицы с сингулярными числами отсортированы по убыванию. Допустим мы хотим оставить только первые 100 компонент (и получить скрытые представления размерности 100). Для этого необходимо оставить 100 столбцов в матрице U, ***оставить из sigma только первые 100 значений (и сделать из них диагональную матрицу) и 100 столбцов в матрице V. Перемножьте преобразованные матрицы ($\hat{U}, \hat{sigma}, \hat{V^T}$), чтобы получить восстановленную матрицу оценок.***

In [None]:
#your code here
Sigma = np.zeros((1112, 2366))
sigma[100:] = 0
Sigma[:1112, :1112] = np.diag(sigma)

In [None]:
#new_ratings = #your code here
new_ratings = U.dot(Sigma).dot(V)

Посчитайте качество аппроксимации матрицы по норме Фробениуса (среднеквадратичную ошибку между всеми элементами соответствующими элементами двух матриц). Сравните его с простым бейзлайном с константным значением, равным среднему значению исходной матрицы. У аппроксимации ошибка должна получиться ниже.

In [None]:
#your code here
print(sum(sum((new_ratings - ratings.values) ** 2)))

constant_ratings = np.ones(ratings.shape) * np.mean(ratings.values)
print(sum(sum((constant_ratings - ratings.values) ** 2)))

In [None]:
ratings.loc['-1257176162426022931', '-1022885988494278200']

In [None]:
new_ratings = pd.DataFrame(
    new_ratings, index=ratings.index, columns=ratings.columns)

In [None]:
new_ratings.loc['-1257176162426022931', '-1022885988494278200']

Теперь можно делать предсказания по матрице. Сделайте их (не забывайте про то, что уже было просмотрено пользователем), оцените качество. Для этого необходимо для каждого пользователя найти предметы с наибольшими оценками в восстановленной матрице.

Чтобы сделать предсказание для пользователя (personId):
1. возьмите соответствующую ему строку в полученной таблице new_ratings
2. отсортируйте рейтинги по убыванию
3. затем возьмите индексы соответствующих столбцов (это и есть статьи) и преобразуйте их в массив

Добавьте в predictions top_k статей с наибольшими рейтингами, не забудьте выкинуть статьи, которые пользователь уже видел.

In [None]:
predictions = []

for personId in tqdm_notebook(interactions.index):
    prediction = (
        #your code here
        new_ratings.loc[personId].\
        sort_values(ascending=False).\
        index.values
    )
    
    predictions.append(
        #your code here
        list(prediction[~np.in1d(prediction, interactions.loc[personId,'true_train'])])[:10]
    )
    

In [None]:
interactions['prediction_svd'] = predictions

In [None]:
calc_precision('prediction_svd')

(Опционально). До этих пор мы не проводили никаких преобразований с матрицей оценок. Отцентрируйте все ненулевые (!) значения по каждому пользователю. Сделайте предсказания, посчитайте качество.

In [None]:
#your code here

Продублируем функцию calc_precision с добавлением параметра interactions.

In [None]:
def calc_precision(interactions, column):
    return (
        interactions
        .apply(
            lambda row:
            len(set(row['true_test']).intersection(
                set(row[column]))) /
            min(len(row['true_test']) + 0.001, 10.0),
            axis=1)).mean()

Доля правильных предсказаний для пользователей с 10ю и более известными рекомендациями в test.

In [None]:
calc_precision(
    interactions.loc[interactions.true_test.apply(len) >= 10],
    'prediction_svd')

In [None]:
calc_precision(
    interactions.loc[interactions.true_test.apply(len) >= 10],
    'prediction_popular')

In [None]:
calc_precision(
    interactions.loc[interactions.true_test.apply(len) >= 10],
    'prediction_user_based')

## Часть 3. Контентные  модели

В этой части реализуем альтернативный подход к рекомендательным системам — контентные модели.

Теперь мы будем оперировать не матрицей с оценками, а классической для машинного обучения матрицей объекты-признаки. Каждый объект будет характеризовать пару user-item и содержать признаки, описывающие как пользователя, так и товар. Кроме этого признаки могут описывать и саму пару целиком.

Матрица со всеми взаимодействиями уже получена нами на этапа разбиения выборки на 2 части. 

Придумаем и добавим признаков о пользователях и статьях. Сначала добавим информацию о статьях в данные о взаимодействиях.

In [None]:
interactions_train_df = interactions_train_df.merge(articles_df, how='left', on='contentId')
interactions_test_df = interactions_test_df.merge(articles_df, how='left', on='contentId')

In [None]:
# first feature index
features_start = len(interactions_train_df.columns)

После обучения модели нам придётся делать предсказания на тестовой выборке для всех возможных пар статья-пользователь. Подготовим такую матрицу, чтобы параллельно посчитать признаки для неё.

interactions - таблица (сделанная из interactions_train_df), где строка соответствует пользователю, а столбцы являются истинными метками и предсказанями в виде списков.

In [None]:
test_personId = np.repeat(interactions.index, len(articles_df)) 
test_contentId = list(articles_df.contentId) * len(interactions)

test = pd.DataFrame(
    np.array([test_personId, test_contentId]).T,
    columns=['personId', 'contentId'])
test = test.merge(articles_df, how='left', on='contentId')

test.head(1)

Хотим добавить отрицательных примеров. Добавим случайные отсутствующие взаимодействия как отрицательные.

In [None]:
interactions_train_df = pd.concat((
    interactions_train_df,
    test.loc[
        np.random.permutation(test.index)[
            :1*len(interactions_train_df)]]), ignore_index=True)

interactions_train_df.eventStrength.fillna(0, inplace=True)

Добавьте признаки-индикаторы возможных значений contentType.

In [None]:
articles_df.contentType.unique()

In [None]:
interactions_train_df.shape

In [None]:
interactions_train_df['is_HTML'] = #your code here
interactions_train_df['is_RICH'] = #your code here
interactions_train_df['is_VIDEO'] = #your code here

test['is_HTML'] = #your code here
test['is_RICH'] = #your code here
test['is_VIDEO'] = #your code here

Добавьте признаки "длина названия" и "длина текста".

In [None]:
interactions_train_df['title_length'] = #your code here
interactions_train_df['text_length'] = #your code here

test['title_length'] = #your code here
test['text_length'] = #your code here

Добавьте признаки-индикаторы языка.

In [None]:
interactions_train_df.lang.value_counts()

In [None]:
interactions_train_df['is_lang_en'] = #your code here
interactions_train_df['is_lang_pt'] = #your code here

test['is_lang_en'] = #your code here
test['is_lang_pt'] = #your code here

Дополнительные признаки

In [None]:
interactions_train_df['has_new'] = #your code here
interactions_train_df['has_why'] = #your code here
interactions_train_df['has_how'] = #your code here
interactions_train_df['has_ai'] = #your code here

test['has_new'] = #your code here
test['has_why'] = #your code here
test['has_how'] = #your code here
test['has_ai'] = #your code here

In [None]:
interactions_train_df['popularity'] = (
    interactions_train_df.contentId.map(
        interactions_train_df
        .groupby('contentId').eventStrength.sum()))

test['popularity'] = (
    test.contentId.map(
        interactions_train_df
        .groupby('contentId').eventStrength.sum()))

Обучим на полученных признаках градиентный бустинг.

In [None]:
import lightgbm 

regressor = lightgbm.LGBMClassifier()
regressor.fit(interactions_train_df[interactions_train_df.columns[features_start:]],
              interactions_train_df.eventStrength > 0)

Сделайте предсказания на тестовой выборке, сформируйте из них рекомендации. Оцените их качество.

In [None]:
predictions = regressor.predict_proba(test[test.columns[-12:]])[:, 1]

In [None]:
test['predictions'] = predictions

In [None]:
test[['personId', 'contentId', 'predictions']].head()

In [None]:
test = test.sort_values('predictions', ascending=False)

In [None]:
test[['personId', 'contentId', 'predictions']].head()

In [None]:
test.predictions.hist(bins=20)

In [None]:
predictions = test.groupby('personId')['contentId'].aggregate(list)

In [None]:
predictions.head()

In [None]:
tmp_predictions = []

for personId in tqdm_notebook(interactions.index):
    prediction = np.array(predictions.loc[personId])
    
    tmp_predictions.append(
        list(prediction[~np.in1d(
            prediction,
            interactions.loc[personId, 'true_train'])])[:top_k])

In [None]:
interactions['prediction_content'] = tmp_predictions

In [None]:
interactions['prediction_both'] = \
    interactions.apply(
        lambda row:
        list(row['prediction_content'][:5]) +
        list(row['prediction_user_based'][:5]), axis=1)

In [None]:
calc_precision(interactions, 'prediction_popular')

In [None]:
calc_precision(interactions, 'prediction_user_based')

In [None]:
calc_precision(interactions, 'prediction_content')

In [None]:
calc_precision(interactions, 'prediction_both')

In [None]:
calc_precision(interactions, 'prediction_svd')

In [None]:
for c, imp in zip(interactions_train_df.columns, regressor.feature_importances_):
    print(c,imp)

(Опционально) Категориальные переменные с большим количеством значений можно закодировать с помощью mean-target кодирования. Закодируйте так id статьи и пользователя. Обучите новую модель и оцените качество.

In [None]:
# your code

## Факторизационные машины (опционально)

Попробуем факторизационные машины из библиотеки pyFM (так как можно работать прямо из питона). https://github.com/coreylynch/pyFM

In [None]:
from pyfm import pylibfm
from sklearn.feature_extraction import DictVectorizer

Перейдём к обобщению матричных разложений — факторизационным машинам, которые работают могут работать с контентной информацией. Вспомним, какие данные у нас изначально были:

В факторизационную машину можно загрузить "айдишники" пользователей и статей (то есть сделать аналог коллаборативной фильтрации) и одновременно различные признаки.

Удобно обрабатывать категориальные переменные (id и другие) можно с помощью DictVectorizer. Например, процесс может выглядить вот так:

In [None]:
# train = [
#     {"user": "1", "item": "5", "age": 19},
#     {"user": "2", "item": "43", "age": 33},
#     {"user": "3", "item": "20", "age": 55},
#     {"user": "4", "item": "10", "age": 20},
# ]
# v = DictVectorizer()
# X = v.fit_transform(train)
# y = np.repeat(1.0, X.shape[0])
# fm = pylibfm.FM()
# fm.fit(X,y)
# fm.predict(v.transform({"user": "1", "item": "10", "age": 24}))

Сгенерируйте таблицу с признаками в таком виде, где будут id пользователя, статьи и автора статьи и несколько признаков, которые вы сможете придумать. В качестве целевой переменной возьмите "силу" взаимодействия пользователя с каждой статьёй (помним, что у нас там все примеры по сути положительные). Запустите обучение модели на несколько итераций и сделайте предсказания. Какое качество удаётся достичь? 

In [None]:
train_data = []

for i in tqdm_notebook(range(len(interactions_train_df))):
    features = {}
    features['personId'] = str(interactions_train_df.iloc[i].personId)
    features['contentId'] = str(interactions_train_df.iloc[i].contentId)
    
    try:
        article = articles_df.loc[features['contentId']]
        features['authorId'] = str(article.authorPersonId)
        features['authorCountry'] = str(article.authorCountry)
        features['lang'] = str(article.lang)
        
        #generate new features
        
    except:
        features['authorId'] = 'unknown'
        features['authorCountry'] = 'unknown'
        features['lang'] = 'unknown'
    
        #generate new features

    train_data.append(features)

Повторим эту процедуру для тестовой выборки. Заметим, что модель оценивает каждую пару потенциального взаимодействия, а значит, надо подготовить выборку из всех возможных пар из пользователей и статей.

In [None]:
from copy import deepcopy

test_data = []

for i in tqdm_notebook(range(len(interactions))):
    features = {}
    features['personId'] = str(interactions.index[i])  
    for j in range(len(ratings.columns)):
        features['contentId'] = str(ratings.columns[j])
        
        try:
            article = articles_df.loc[features['contentId']]
            features['authorId'] = str(article.authorPersonId)
            features['authorCountry'] = str(article.authorCountry)
            features['lang'] = str(article.lang)
            
            #add generated features
            
        except:
            features['authorId'] = 'unknown'
            features['authorCountry'] = 'unknown'
            features['lang'] = 'unknown'

            #add generated features

        test_data.append(deepcopy(features))

Векторизуем, получим разреженные матрицы.

In [None]:
dv = DictVectorizer()

train_features = dv.fit_transform(
    train_data + list(np.random.permutation(test_data)[:100000]))
test_features = dv.transform(test_data)

In [None]:
train_features

In [None]:
y_train = list(interactions_train_df.eventStrength.values) + list(np.zeros(100000))

In [None]:
train_features.shape, len(y_train)

Укажем размер скрытого представления 10, сделаем 30 итераций.

In [None]:
fm = pylibfm.FM(num_factors=10, num_iter=30, task='regression')
fm.fit(train_features, y_train)

Предскажем, оценим качество.

In [None]:
test_features = dv.transform(test_data)
y_predict = fm.predict(test_features)

new_ratings = y_predict.reshape((1112, 2366))

In [None]:
predictions = []

for i, person in enumerate(interactions.index):
    user_prediction = ratings.columns[np.argsort(new_ratings[i])[::-1]]
    predictions.append(
        user_prediction[~np.in1d(user_prediction,
                                 interactions.loc[person, 'true_train'])][:top_k])
    
interactions['fm_prediction'] = predictions

In [None]:
calc_precision('fm_prediction')

(Опционально) Попробуйте добавить случайные негативные примеры из статей, с которыми пользователь не взаимодействовал. Какое качество удалось достичь?

In [None]:
#your code here