<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению. Сессия № 2
</center>
Автор материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий. Материал распространяется на условиях лицензии [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала.

# <center>Домашнее задание № 8
## <center> Vowpal Wabbit в задаче прогнозирования популярности статьи на хабре

В этом задании надо побить бенчмарк в [соревновании](https://www.kaggle.com/c/habr-num-bookmarks) на Kaggle Inclass. Как это делать – ограничений нет (кроме, конечно, ручной разметки), прочитать правила можно [тут](https://www.kaggle.com/c/habr-num-bookmarks/rules). Ниже описаны инструкции, как это сделать с Vowpal Wabbit.

Дедлайн: 31 октября 23:59 UTC +3. Решение надо будет загрузить по [ссылке](https://www.dropbox.com/request/g5WOPrxwvcYwADZCuoY7). В этом соревновании нет задачи победить. Цель – побить бенчмарк и продвинуться в [соревновании](https://mlcourse.arktur.io) по прогнозу популярности статьи на Medium. 

In [56]:
import numpy as np
import pandas as pd
import json
from tqdm import tqdm_notebook
from sklearn.metrics import mean_absolute_error
import datetime
import re

In [58]:
!cd data/vw & unzip train.json.zip

Archive:  train.json.zip
  inflating: train.json              


In [3]:
!cd data/vw & unzip test.json.zip

Archive:  test.json.zip
  inflating: test.json               


Посмотрим на одну из строчек в JSON-файле: считаем ее с помощью библиотеки json. Эта строчка соответствует [7-ой статье](https://habrahabr.ru/post/7/) на Хабре.

In [4]:
!head -1 data/vw/train.json > data/vw/train1.json

'head' is not recognized as an internal or external command,
operable program or batch file.


In [3]:
with open('data/vw/train1.json') as inp_json:
    first_json = json.load(inp_json)

In [4]:
first_json.keys()

dict_keys(['_id', '_timestamp', 'url', 'domain', 'published', 'title', 'content', 'polling', 'post_id', 'flags', 'hubs', 'flow', 'tags', 'author', 'link_tags', 'meta_tags'])

Видим 16 полей, перечислим некоторые из них:
- _id, url - URL статьи
- published – время публикации статьи
- domain – сайт (например, habrahahbr.ru или geektimes.ru)
- title – название статьи
- content – текст статьи
- hubs - перечисление хабов, к которым относится статья
- tags – теги статьи
- author – автор статьи, его ник и ссылка на профиль

In [5]:
first_json['_id']

'https://habrahabr.ru/post/7/'

In [6]:
first_json['_timestamp']

1493192186.0903192

In [7]:
first_json['url']

'https://habrahabr.ru/post/7/'

In [8]:
first_json['domain']

'habrahabr.ru'

In [9]:
first_json['published']

{'$date': '2006-07-15T01:48:00.000Z'}

In [10]:
first_json['title']

'Самопроизвольное разлогинивание'

In [11]:
first_json['content']

'У меня такое ощущение, что logout время от времени происходит самопроизвольно, несмотря на то, что чекбокс про логине включен.<br>\r\n<br>\r\nВозможно, это происходит при смене IP-адреса, но я не уверен.'

In [12]:
first_json['polling']

In [13]:
first_json['post_id']

7

In [14]:
first_json['flags']

[]

In [15]:
first_json['hubs']

[{'id': 'hub/habr',
  'title': 'Хабрахабр',
  'url': 'https://habrahabr.ru/hub/habr/'}]

In [16]:
first_json['flow']

In [17]:
first_json['tags']

['логин', 'login']

In [18]:
first_json['author']

{'name': 'Павел Титов',
 'nickname': '@ptitov',
 'url': 'https://habrahabr.ru/users/ptitov'}

In [19]:
first_json['link_tags']

{'alternate': 'https://habrahabr.ru/rss/post/7/',
 'apple-touch-icon-precomposed': '/images/favicons/apple-touch-icon-152x152.png',
 'canonical': 'https://habrahabr.ru/post/7/',
 'icon': '/images/favicons/favicon-16x16.png',
 'image_src': 'https://habrahabr.ru/i/habralogo.jpg',
 'stylesheet': 'https://habracdn.net/habr/styles/1493134745/_build/global_main.css'}

In [20]:
first_json['meta_tags']

{'al:android:app_name': 'Habrahabr',
 'al:android:package': 'ru.habrahabr',
 'al:android:url': 'habrahabr://post/7',
 'al:windows_phone:app_id': '460a6bd6-8955-470f-935e-9ea1726a6060',
 'al:windows_phone:app_name': 'Habrahabr',
 'al:windows_phone:url': 'habrahabr://post/7',
 'apple-mobile-web-app-title': 'Хабрахабр',
 'application-name': 'Хабрахабр',
 'description': 'У меня такое ощущение, что logout время от времени происходит самопроизвольно, несмотря на то, что чекбокс про логине включен.\r\n\r\nВозможно, это происходит при смене IP-адреса, но я не уверен.',
 'fb:app_id': '444736788986613',
 'keywords': 'логин, login',
 'msapplication-TileColor': '#FFFFFF',
 'msapplication-TileImage': 'mstile-144x144.png',
 'og:description': 'У меня такое ощущение, что logout время от времени происходит самопроизвольно, несмотря на то, что чекбокс про логине включен.  Возможно, это происходит при...',
 'og:image': 'https://habrahabr.ru/i/habralogo.jpg',
 'og:title': 'Самопроизвольное разлогинивание'

Загрузим ответы на обучающей выборке.

In [5]:
train_target = pd.read_csv('data/vw/train_target.csv',
                          index_col='url')

In [6]:
train_target.head()

Unnamed: 0_level_0,target
url,Unnamed: 1_level_1
https://habrahabr.ru/post/7/,0.693147
https://geektimes.ru/post/11/,1.098612
https://geektimes.ru/post/112/,0.0
https://geektimes.ru/post/1127/,0.0
https://geektimes.ru/post/12664/,0.0


Сформируйте обучающую выборку для Vowpal Wabbit, выберите признаки title, tags, domain, flow, author, и hubs из JSON-файла.
От самого текста для начала просто возьмем его длину: постройте признак content_len – длина текста в миллионах символов.
Также постройте признаки: час и месяц публикации статьи. Еще, конечно же, возьмите ответы на обучающей выборке из `train_target`. Ниже пример того, как могут выглядеть первые две строки нового файла.

In [23]:
!head -2 ../../data/habr_train.vw

0.6931470000000001 |title Самопроизвольное разлогинивание |tags логин login |domain habrahabr.ru |flow None |author @ptitov |hubs Хабрахабр |num content_len:0.0 month:7 hour:1
1.0986120000000001 |title Stand-along cообщества против сообществ в рамках социальных сетей |tags сообщества интернет-сообщество социальные сети нишевой бренд |domain geektimes.ru |flow None |author @AlexBruce |hubs Чёрная дыра |num content_len:0.0 month:7 hour:14


In [11]:
train_target['target']['https://habrahabr.ru/post/7/']

0.69314700000000007

In [395]:
from collections import Counter
def getMonthF(month):
    out = ''
    for i in range(12):
        out += 'month'+str(i)+':'+str(1 if month==i+1 else 0)+' '
    return out
def getDayF(day):
    out = ''
    for i in range(7):
        out += 'day{day}:{value} '.format(day = i, value = (1 if day==i+1 else 0))
    return out
def getHourF(hour):
    out = ''
    for i in range(24):
        out += 'hour{hour}:{value} '.format(hour = i, value = (1 if hour==i else 0))
    return out
def json2vw(data_json, useTarget = True, targetTag = False):
    counter = Counter(re.findall('\w{5,}',data_json['content']))
    content = sorted(counter, key=counter.get, reverse=True)[:20]
    if useTarget:
        target = int(np.round(train_target['target'][data_json['url']]))
    else:
        target = 1
    date = datetime.datetime.strptime(data_json['published']['$date'], "%Y-%m-%dT%H:%M:%S.%fZ")
    s = u'{target} {targettag}|title {title} | content {content} |tags {tags} |domain {domain} |flow {flow} |author {author} |hubs {hubs} |num content_len:{content_len} content_len_w:{content_len_w} passed:{passed} month:{monthn} {month} day:{dayn} {day} hour:{hourn} {hour}\n'\
    .format(target = target, 
            targettag = (data_json['url'] if targetTag else ''),
            title = ' '.join(re.findall('\w{3,}', data_json['title'])),
            content = ' '.join(content),
            tags = ' '.join(re.findall('\w{3,}',' '.join(data_json['tags']))), #да, именно так)))
            domain = data_json['domain'], 
            flow = data_json['flow'], 
            author = data_json['author']['nickname'], 
            hubs = ' '.join([re.search('\w+',h['title']).group(0) for h in data_json['hubs']]), 
            content_len = np.round(len(data_json['content'])/10**6,1),
            content_len_w = len(re.findall('\w{5,}',data_json['content'])),
            monthn = date.month,
            month = getMonthF(date.month),
            dayn = date.day,
            day = getDayF(date.day),
            hourn = date.hour,
            hour = getHourF(date.hour),
            passed = (datetime.datetime.now()-date).days)
    return s

In [396]:
i = 0
with open('data/vw/train.json', encoding='utf-8') as inp_json, \
     open('data/vw/habr_train.vw', 'w', encoding='utf-8') as out_vw:
    for line in tqdm_notebook(inp_json):
        data_json = json.loads(line)
        s = json2vw(data_json, True, False)
        out_vw.writelines(s)
        #i +=1
        #if i>5:
        #print(s)
        #break

Widget Javascript not detected.  It may not be installed or enabled properly.


Проделайте все то же с тестовой выборкой, вместо ответов подсовывая что угодно, например, единицы.

In [397]:
with open('data/vw/test.json', encoding='utf-8') as inp_json, \
     open('data/vw/habr_test.vw', 'w', encoding='utf-8') as out_vw:
    for line in tqdm_notebook(inp_json):
        data_json = json.loads(line)
        s = json2vw(data_json, False, True)
        out_vw.writelines(s)
        #print(s)
        #break

Widget Javascript not detected.  It may not be installed or enabled properly.


In [187]:
import os
if os.environ['PATH'].find('c:\\program files\\git\\bin')==-1:
    print('added')
    os.environ['PATH'] += ';c:\\program files\git\bin'

In [24]:
!head -2 ../../data/habr_test.vw

1 |title День Пи! |tags Пи Pi |domain geektimes.ru |flow None |author @Timursan |hubs Чёрная дыра |num content_len:0.0 month:3 hour:3
1 |title Скрипт для разбиения образов музыкальных CD на треки и конвертации в формат FLAC |tags bash lossless |domain geektimes.ru |flow None |author @da3mon |hubs Чёрная дыра |num content_len:0.01 month:3 hour:0


Выбор того, как валидировать модель, остается за Вами. Проще всего, конечно, сделать отложенную выборку. Бенчмарк, который Вы видите в соревновании (**vw_baseline.csv**) и который надо побить, получен с Vowpal Wabbit, 3 проходами по выборке (не забываем удалять кэш), биграммами и настроенными гиперпараметрами `bits`, `learning_rate` и `power_t`. 

In [422]:
#!rm data/vw/habr_cache.vw
!vw -k -d data/vw/habr_train.vw \
-b 6 \
--cache_file data/vw/habr_cache.vw --passes 10 \
--adaptive --normalized \
--loss_function quantile \
--quantile_tau 0.45 \
--l1 0.001 \
--l2 0.001 \
--power_t 0.6 \
--holdout_period 5 \
-q ff \
-l 0.1 \
--hash strings \
-f habr_model.vw --quiet \
--ngram t3

In [423]:
!vw -i habr_model.vw -t -d data/vw/habr_test.vw \
-p data/vw/habr_predictions.txt

Generating 3-grams for t namespaces.
creating quadratic features for pairs: ff 
only testing
predictions = data/vw/habr_predictions.txt
Num weight bits = 6
learning rate = 0.5
initial_t = 0
power_t = 0.5
using no cache
Reading datafile = data/vw/habr_test.vw
num sources = 1
average  since         example        example  current  current  current
loss     last          counter         weight    label  predict features
0.094148 0.094148            1            1.0   1.0000   0.6932       30
0.087740 0.081333            2            2.0   1.0000   1.2852       63
0.052896 0.018051            4            4.0   1.0000   1.1015       55
0.177696 0.302496            8            8.0   1.0000   1.2524       55
0.206556 0.235416           16           16.0   1.0000   1.0839       49
0.166084 0.125611           32           32.0   1.0000   1.1563       55
0.154466 0.142848           64           64.0   1.0000   1.2891       58
0.130209 0.105951          128          128.0   1.0000   1.3412     

In [417]:
pred = pd.read_csv('data/vw/habr_predictions.txt', sep=' ', header=None)
pred.columns = ['target','url']
pred.to_csv('vw_sub.csv',index=False)
pred.head()

Unnamed: 0,target,url
0,0.80398,https://geektimes.ru/post/87455/
1,1.431787,https://geektimes.ru/post/87452/
2,0.911656,https://geektimes.ru/post/87459/
3,1.274118,https://habrahabr.ru/post/87461/
4,1.279097,https://habrahabr.ru/post/5754/


In [25]:
sample_sub = pd.read_csv('../../data/sample_submission.csv', 
                         index_col='url')

In [26]:
sample_sub.head()

Unnamed: 0_level_0,target
url,Unnamed: 1_level_1
https://geektimes.ru/post/87455/,11.620054
https://geektimes.ru/post/87452/,4.822528
https://geektimes.ru/post/87459/,0.921104
https://habrahabr.ru/post/87461/,1.632126
https://habrahabr.ru/post/5754/,1.952122


In [None]:
your_submission = sample_sub.copy()
your_submission['target'] = # Ваш код здесь
your_submission.to_csv('submission.csv')

Для получения баллов в #mlcourse_open команда (из 1 человека) должна называться в точном соответствии с тем, как оно записано в рейтинге.