# Введение

В этом задании Вы продолжите работать с данными из семинара [Articles Sharing and Reading from CI&T Deskdrop](https://www.kaggle.com/gspmoreira/articles-sharing-reading-from-cit-deskdrop).

In [17]:
import pandas as pd
import numpy as np
import math

## Загрузка и предобработка данных

Загрузим данные и проведем предобраотку данных как на семинаре.

In [18]:
!wget -q -N https://www.dropbox.com/s/z8syrl5trawxs0n -O articles.zip
!unzip -o -q articles

In [19]:
articles_df = pd.read_csv('articles/shared_articles.csv')
articles_df = articles_df[articles_df['eventType'] == 'CONTENT SHARED']
articles_df.head(2)

Unnamed: 0,timestamp,eventType,contentId,authorPersonId,authorSessionId,authorUserAgent,authorRegion,authorCountry,contentType,url,title,text,lang
1,1459193988,CONTENT SHARED,-4110354420726924665,4340306774493623681,8940341205206233829,,,,HTML,http://www.nytimes.com/2016/03/28/business/dea...,"Ethereum, a Virtual Currency, Enables Transact...",All of this work is still very early. The firs...,en
2,1459194146,CONTENT SHARED,-7292285110016212249,4340306774493623681,8940341205206233829,,,,HTML,http://cointelegraph.com/news/bitcoin-future-w...,Bitcoin Future: When GBPcoin of Branson Wins O...,The alarm clock wakes me at 8:00 with stream o...,en


In [20]:
interactions_df = pd.read_csv('articles/users_interactions.csv')
interactions_df.head(2)

Unnamed: 0,timestamp,eventType,contentId,personId,sessionId,userAgent,userRegion,userCountry
0,1465413032,VIEW,-3499919498720038879,-8845298781299428018,1264196770339959068,,,
1,1465412560,VIEW,8890720798209849691,-1032019229384696495,3621737643587579081,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2...,NY,US


In [21]:
interactions_df.personId = interactions_df.personId.astype(str)
interactions_df.contentId = interactions_df.contentId.astype(str)
articles_df.contentId = articles_df.contentId.astype(str)

In [22]:
# зададим словарь определяющий силу взаимодействия
event_type_strength = {
   'VIEW': 1.0,
   'LIKE': 2.0, 
   'BOOKMARK': 2.5, 
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

interactions_df['eventStrength'] = interactions_df.eventType.apply(lambda x: event_type_strength[x])

Оставляем только тех пользователей, которые произамодействовали более чем с пятью статьями.

In [23]:
users_interactions_count_df = (
    interactions_df
    .groupby(['personId', 'contentId'])
    .first()
    .reset_index()
    .groupby('personId').size())
print('# users:', len(users_interactions_count_df))

users_with_enough_interactions_df = \
    users_interactions_count_df[users_interactions_count_df >= 5].reset_index()[['personId']]
print('# users with at least 5 interactions:',len(users_with_enough_interactions_df))

# users: 1895
# users with at least 5 interactions: 1140


Оставляем только те взаимодействия, которые относятся к отфильтрованным пользователям.

In [24]:
interactions_from_selected_users_df = interactions_df.loc[np.in1d(interactions_df.personId,
            users_with_enough_interactions_df)]

In [25]:
print('# interactions before:', interactions_df.shape)
print('# interactions after:', interactions_from_selected_users_df.shape)

# interactions before: (72312, 9)
# interactions after: (69868, 9)


Объединяем все взаимодействия пользователя по каждой статье и сглажиываем полученный результат, взяв от него логарифм.

In [26]:
def smooth_user_preference(x):
    return math.log(1+x, 2)
    
interactions_full_df = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId']).eventStrength.sum()
    .apply(smooth_user_preference)
    .reset_index().set_index(['personId', 'contentId'])
)
interactions_full_df['last_timestamp'] = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId'])['timestamp'].last()
)
        
interactions_full_df = interactions_full_df.reset_index()
interactions_full_df.head(5)

Unnamed: 0,personId,contentId,eventStrength,last_timestamp
0,-1007001694607905623,-5065077552540450930,1.0,1470395911
1,-1007001694607905623,-6623581327558800021,1.0,1487240080
2,-1007001694607905623,-793729620925729327,1.0,1472834892
3,-1007001694607905623,1469580151036142903,1.0,1487240062
4,-1007001694607905623,7270966256391553686,1.584963,1485994324


Разобьём выборку на обучение и контроль по времени.

In [27]:
from sklearn.model_selection import train_test_split

split_ts = 1475519530
interactions_train_df = interactions_full_df.loc[interactions_full_df.last_timestamp < split_ts].copy()
interactions_test_df = interactions_full_df.loc[interactions_full_df.last_timestamp > split_ts].copy()

print('# interactions on Train set: %d' % len(interactions_train_df))
print('# interactions on Test set: %d' % len(interactions_test_df))

interactions_train_df

# interactions on Train set: 29329
# interactions on Test set: 9777


Unnamed: 0,personId,contentId,eventStrength,last_timestamp
0,-1007001694607905623,-5065077552540450930,1.0,1470395911
2,-1007001694607905623,-793729620925729327,1.0,1472834892
6,-1032019229384696495,-1006791494035379303,1.0,1469129122
7,-1032019229384696495,-1039912738963181810,1.0,1459376415
8,-1032019229384696495,-1081723567492738167,2.0,1464054093
...,...,...,...,...
39099,997469202936578234,9112765177685685246,2.0,1472479493
39100,998688566268269815,-1255189867397298842,1.0,1474567164
39101,998688566268269815,-401664538366009049,1.0,1474567449
39103,998688566268269815,6881796783400625893,1.0,1474567675


Для удобства подсчёта качества запишем данные в формате, где строка соответствует пользователю, а столбцы будут истинными метками и предсказаниями в виде списков.

In [28]:
interactions = (
    interactions_train_df
    .groupby('personId')['contentId'].agg(lambda x: list(x))
    .reset_index()
    .rename(columns={'contentId': 'true_train'})
    .set_index('personId')
)

interactions['true_test'] = (
    interactions_test_df
    .groupby('personId')['contentId'].agg(lambda x: list(x))
)

# заполнение пропусков пустыми списками
interactions.loc[pd.isnull(interactions.true_test), 'true_test'] = [
    list() for x in range(len(interactions.loc[pd.isnull(interactions.true_test), 'true_test']))]

interactions.head(1)

Unnamed: 0_level_0,true_train,true_test
personId,Unnamed: 1_level_1,Unnamed: 2_level_1
-1007001694607905623,"[-5065077552540450930, -793729620925729327]","[-6623581327558800021, 1469580151036142903, 72..."


## Библиотека LightFM

Для рекомендации Вы будете пользоваться библиотекой [LightFM](https://making.lyst.com/lightfm/docs/home.html), в которой реализованы популярные алгоритмы. Для оценивания качества рекомендации, как и на семинаре, будем пользоваться метрикой *precision@10*.

In [29]:
!pip install lightfm
from lightfm import LightFM
from lightfm.evaluation import precision_at_k

Collecting lightfm
[?25l  Downloading https://files.pythonhosted.org/packages/5e/fe/8864d723daa8e5afc74080ce510c30f7ad52facf6a157d4b42dec83dfab4/lightfm-1.16.tar.gz (310kB)
[K     |█                               | 10kB 18.1MB/s eta 0:00:01[K     |██▏                             | 20kB 15.1MB/s eta 0:00:01[K     |███▏                            | 30kB 9.6MB/s eta 0:00:01[K     |████▎                           | 40kB 8.6MB/s eta 0:00:01[K     |█████▎                          | 51kB 5.5MB/s eta 0:00:01[K     |██████▍                         | 61kB 5.3MB/s eta 0:00:01[K     |███████▍                        | 71kB 5.7MB/s eta 0:00:01[K     |████████▌                       | 81kB 6.0MB/s eta 0:00:01[K     |█████████▌                      | 92kB 6.2MB/s eta 0:00:01[K     |██████████▋                     | 102kB 5.2MB/s eta 0:00:01[K     |███████████▋                    | 112kB 5.2MB/s eta 0:00:01[K     |████████████▊                   | 122kB 5.2MB/s eta 0:00:01[K 

## Задание 1. (2 балла)

Модели в LightFM работают с разреженными матрицами. Создайте разреженные матрицы `data_train` и `data_test` (размером количество пользователей на количество статей), такие что на пересечении строки пользователя и столбца статьи стоит сила их взаимодействия, если взаимодействие было, и стоит ноль, если взаимодействия не было.

In [30]:
interactions_train_df.head()

Unnamed: 0,personId,contentId,eventStrength,last_timestamp
0,-1007001694607905623,-5065077552540450930,1.0,1470395911
2,-1007001694607905623,-793729620925729327,1.0,1472834892
6,-1032019229384696495,-1006791494035379303,1.0,1469129122
7,-1032019229384696495,-1039912738963181810,1.0,1459376415
8,-1032019229384696495,-1081723567492738167,2.0,1464054093


In [31]:
inter_train = interactions['true_train']

In [32]:
contents = list(
    set(pd.unique(interactions_train_df.contentId)).union(set(interactions_test_df.contentId.unique()))
)

persons= list(
    set(pd.unique(interactions_train_df['personId'])) | set(interactions_test_df['personId'].unique())
)

In [34]:
data_train = pd.DataFrame(columns=contents)
data_test = pd.DataFrame(columns=contents)

In [36]:
from tqdm import tqdm
from scipy.sparse import csr_matrix

In [38]:
for user in tqdm(persons):
    data_test.loc[user] = 0.
    data_train.loc[user] = 0.

100%|██████████| 1140/1140 [00:16<00:00, 69.42it/s]


In [39]:
for i, row in interactions_train_df.iterrows():
    idx, col = row['personId'], row['contentId']
    data_train.loc[idx][col] = row['eventStrength']

In [40]:
for i, row in interactions_test_df.iterrows():
    idx, col = row['personId'], row['contentId']
    data_test.loc[idx][col] = row['eventStrength']

## Задание 2. (1 балл)

Обучите модель LightFM с `loss='warp'` и посчитайте *precision@10* на тесте.

In [41]:
data_train = csr_matrix(data_train)
data_test = csr_matrix(data_test)
lfm = LightFM(loss='warp').fit(data_train)

precision_at_k(model=lfm, test_interactions=data_test, k=10).mean()

0.003971487

In [42]:
precision_at_k(model=lfm, test_interactions=data_train, k=10).mean()

0.12203238

## Задание 3. (3 балла)

При вызове метода `fit` LightFM позволяет передавать в `item_features` признаковое описание объектов. Воспользуемся этим. Будем получать признаковое описание из текста статьи в виде [TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF) (можно воспользоваться `TfidfVectorizer` из scikit-learn). Создайте матрицу `feat` размером количесвто статей на размер признакового описание и обучите LightFM с `loss='warp'` и посчитайте precision@10 на тесте.

In [43]:
articles_df = articles_df.reset_index()

In [44]:
articles_df

Unnamed: 0,index,timestamp,eventType,contentId,authorPersonId,authorSessionId,authorUserAgent,authorRegion,authorCountry,contentType,url,title,text,lang
0,1,1459193988,CONTENT SHARED,-4110354420726924665,4340306774493623681,8940341205206233829,,,,HTML,http://www.nytimes.com/2016/03/28/business/dea...,"Ethereum, a Virtual Currency, Enables Transact...",All of this work is still very early. The firs...,en
1,2,1459194146,CONTENT SHARED,-7292285110016212249,4340306774493623681,8940341205206233829,,,,HTML,http://cointelegraph.com/news/bitcoin-future-w...,Bitcoin Future: When GBPcoin of Branson Wins O...,The alarm clock wakes me at 8:00 with stream o...,en
2,3,1459194474,CONTENT SHARED,-6151852268067518688,3891637997717104548,-1457532940883382585,,,,HTML,https://cloudplatform.googleblog.com/2016/03/G...,Google Data Center 360° Tour,We're excited to share the Google Data Center ...,en
3,4,1459194497,CONTENT SHARED,2448026894306402386,4340306774493623681,8940341205206233829,,,,HTML,https://bitcoinmagazine.com/articles/ibm-wants...,"IBM Wants to ""Evolve the Internet"" With Blockc...",The Aite Group projects the blockchain market ...,en
4,5,1459194522,CONTENT SHARED,-2826566343807132236,4340306774493623681,8940341205206233829,,,,HTML,http://www.coindesk.com/ieee-blockchain-oxford...,IEEE to Talk Blockchain at Cloud Computing Oxf...,One of the largest and oldest organizations fo...,en
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3042,3117,1487946604,CONTENT SHARED,9213260650272029784,3609194402293569455,7144190892417579456,Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebK...,SP,BR,HTML,https://startupi.com.br/2017/02/liga-ventures-...,"Conheça a Liga IoT, plataforma de inovação abe...","A Liga Ventures, aceleradora de startups espec...",pt
3043,3118,1487947067,CONTENT SHARED,-3295913657316686039,6960073744377754728,-8193630595542572738,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3...,GA,US,HTML,https://thenextweb.com/apps/2017/02/14/amazon-...,Amazon takes on Skype and GoToMeeting with its...,"Amazon has launched Chime, a video conferencin...",en
3044,3119,1488223224,CONTENT SHARED,3618271604906293310,1908339160857512799,-183341653743161643,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0...,SP,BR,HTML,https://code.org/about/2016,Code.org 2016 Annual Report,"February 9, 2017 - We begin each year with a l...",en
3045,3120,1488300719,CONTENT SHARED,6607431762270322325,-1393866732742189886,2367029511384577082,Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53...,MG,BR,HTML,https://www.bloomberg.com/news/articles/2017-0...,JPMorgan Software Does in Seconds What Took La...,"At JPMorgan Chase & Co., a learning machine is...",en


In [46]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer().fit(articles_df['text'])


X = list()
for col in tqdm(contents):
    if col in articles_df['contentId'].values:
        idx = articles_df.index[articles_df['contentId']==col][0]
        X.append(  tfidf.transform(
            [articles_df['title'].loc[idx]]).toarray().reshape((-1,)) 
        )
    else:
        X.append( np.zeros_like(X[0]) )
        
    

100%|██████████| 2984/2984 [00:07<00:00, 410.26it/s]


In [47]:
features = csr_matrix(np.array(X))
lfm = LightFM(no_components=10, loss='warp')
lfm.fit(data_train, item_features=features)
precision_at_k(model=lfm, test_interactions=data_test, item_features=features).mean()

0.0027494908

In [48]:
precision_at_k(model=lfm, test_interactions=data_test, item_features=features).mean()

0.0027494908

In [49]:
precision_at_k(model=lfm, test_interactions=data_train, item_features=features).mean()

0.12976621

## Задание 4. (2 балла)

In [50]:
import re
s = 'as32{ vd"s k!+'
re.sub('[^a-zA-Z]+', ' ', s)

'as vd s k '

В задании 3 мы использовали сырой текст статей. В этом задании необходимо сначала сделать предобработку текста (привести к нижнему регистру, убрать стоп слова, привести слова к номральной форме и т.д.), после чего обучите модель и оценить качество на тестовых данных.

In [51]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize  

In [52]:
lemmatizer = WordNetLemmatizer()
def normalize(input_str):
    input_str = input_str.lower()
    input_str = re.sub('[^a-zA-Z]+', ' ', input_str)
    
    tokens = word_tokenize(input_str)
    lemmas = []
    for token in tokens:
        lemmas.append(lemmatizer.lemmatize(token))
    
    output_str = ' '.join(lemmas)
    return output_str

In [53]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [56]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [58]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(preprocessor=normalize).fit(articles_df['text'])


X = list()
for col in tqdm(contents):
    if col in articles_df['contentId'].values:
        idx = articles_df.index[articles_df['contentId']==col][0]
        X.append(  tfidf.transform(
            [articles_df['title'].loc[idx]]).toarray().reshape((-1,)) 
        )
    else:
        X.append( np.zeros_like(X[0]) )
        
    

100%|██████████| 2984/2984 [00:30<00:00, 97.25it/s] 


In [59]:
features = csr_matrix(np.array(X))
lfm = LightFM(no_components=10, loss='warp')
lfm.fit(data_train, item_features=features)
precision_at_k(model=lfm, test_interactions=data_test, item_features=features).mean()

0.0024439918

In [60]:
features.shape

(2984, 61495)

Улучшилось ли качество предсказания?
Нет, так как, видимо, нужно подобрать гипермараметры, а не работать на тех же с измененным текстом

## Задание 5. (2 балла)

Подберите гиперпараметры модели LightFM (`n_components` и др.) для улучшения качества модели.

In [70]:
params = {}
best_val = 0
for n in range(5, 35, 5):
    for k in range(4, 10):
        for item_alpha in [10e-4, 10e-3, 10e-2]:
            
            
            
            lfm = LightFM(loss='warp', no_components=n, k=k, item_alpha=item_alpha)
            lfm.fit(data_train, item_features=features)

            score = precision_at_k(model=lfm, test_interactions=data_test, item_features=features).mean()
            if score > best_val:
                best_val = score
                params = (
                    {
                    'no_components' : n,
                    'k' : k,
                    'item_alpha' : item_alpha
                    }
                )
                print(best_val)
                

0.0018329939
0.0046843183
0.005702648
0.006720978
0.0076374747
0.010285133


## Бонусное задание. (3 балла)

Выше мы использовали достаточно простое представление текста статьи в виде TF-IDF. В этом задании Вам нужно представить текст статьи (можно вместе с заголовком) в виде эмбеддинга полученного с помощью рекуррентной сети или трансформера (можно использовать любую предобученную модель, которая Вам нравится). Обучите модель с ипользованием этих эмеддингов и сравните результаты с предыдущими.

In [None]:
# Ваш код здесь