# Интро и полезная литература

### Литература

- [Word2vec в картинках](https://habr.com/ru/post/446530/). Статья на хабре от 2019 года.
- [Презентация](http://www.machinelearning.ru/wiki/images/b/b3/Word2Vec.pdf) (2017 год) с примерами реализации кода на библиотеке gensim
 
Так как Word2Vec - это уже не просто единичная реализация, а группа алгоритмов для получения векторных представлений слов, то существует масса различных пакетов на эту тему. Мы будем пользоваться gensim.

- [Gensim – Руководство для начинающих](https://webdevblog.ru/gensim-rukovodstvo-dlya-nachinajushhih/). Здесь нужно изучить ряд терминов, чтобы понимать принцип работы библиотеки. Статья 2019 года.
- [A Beginner’s Guide to Word Embedding with Gensim Word2Vec Model](https://towardsdatascience.com/a-beginners-guide-to-word-embedding-with-gensim-word2vec-model-5970fa56cc92). Статья 2019 года. По ней хорошо учиться писать код.

### Термины

- **Токен** обычно означает «слово»
- **Документ** обычно может относиться как к «предложению» так и к «абзацу»
- **Корпус** обычно представляет собой «собрание документов» в виде пакета слов или как его еще называют мешка слов 

# Импорт локальных констант и функций

Вначале перейдём на уровень рутового пути репозитория
(в дальнейшем всегда пишем пути от корня репозитория)

In [1]:
cd ..

/Users/n.barsukov/WebstormProjects/ml-bug-detector


Заимпортируем всё, что нам пригодится в дальнейшем

In [2]:
from shared.helpers import (
    filter_tokens_fo_Word2Vec,
    get_tokenized_scripts_json_paths, # получаем список путей к json файлам с токенами
    transform_json_file_to_train_data  # преобразует к формату, который принимает word2Vec модель
)

from shared.consts import PATH_TO_WORD2VEC_MODEL

Также внешние библиотеки подключим сразу

In [3]:
from os import walk
import pandas as pd
import json

from gensim.models.word2vec import Word2Vec
from multiprocessing import cpu_count
from tqdm.notebook import tqdm

# Готовим данные перед построением модели

Так как токенизация была разбита на микрозадачи (чтобы хватило мощностей компьютера), то и json у нас много теперь.

In [4]:
tokenized_scripts_jsons_paths = get_tokenized_scripts_json_paths()

Можно было бы пытаться объединить их все в одну, но опять же тут в зависимости от мощностей компьютера, может просто не хватить оперативки держать столько данных в памяти.

Благо word2Vec может учить постепенно: вначале на одних данных, потом "доучить" другим набором данных.

Поэтому вначале учим на первом наборе данных, а потом доучиваем оставшимися постепенно.

**ВАЖНОЕ УТОЧНЕНИЕ:**
Формируется словарь только на первом этапе обучения. Дальше он будет фиксированнным и будут лишь уточняться веса при online learning / resume learning.

In [5]:
NUMBER_JSON_FILES_TO_FORM_VOCABULARY = 20
tokenized_scripts_list_of_lists = []

for json_index in tqdm(range(NUMBER_JSON_FILES_TO_FORM_VOCABULARY)):
    train_json_path = tokenized_scripts_jsons_paths[json_index]

    tokenized_scripts_list_of_lists = [
        *tokenized_scripts_list_of_lists,
        *transform_json_file_to_train_data(train_json_path)
    ]

HBox(children=(FloatProgress(value=0.0, max=20.0), HTML(value='')))




In [6]:
len(tokenized_scripts_list_of_lists)

10000

# Build Word2Vec model

Теперь бы нужно построить модель и настроить гиперпараметры.

[Эта статья](https://habr.com/ru/post/446530/) говорит, что embedding_size устанавливают обычно на 300.

In [7]:
word2VecModel = Word2Vec(
    # list of lists. Например: [["cat", "say", "meow"], ["dog", "say", "woof"]]
    sentences=tokenized_scripts_list_of_lists,
    
    # The number of dimensions of the embeddings and the default is 100
    size=300, 
    
    #The maximum distance between a target word and words around the target word. The default window is 5.
    window=10,
    
    # финальный размер словаря
    max_final_vocab=50000, 
    
    # игнорировать слова с частотностью ниже, чем эта (регулируется автоматически, если установлено max_final_vocab)
    min_count = 5, 
    
    workers=cpu_count(),
    
    # The training algorithm, either CBOW(0) or skip gram(1). The default training algorithm is CBOW
    sg=0
)

Смотрим, какие наиболее близкие вектора будут к функции с названием **setTimeout** (это встроенная функция в js, которая на вход принимает функцию первым аргументом, которую нужно исполнить через заданное кол-во времени в миллисекундах, которые будут переданы вторым аргументом).

Число напротив каждого слова - процент близости векторов.

In [8]:
word2VecModel.wv.most_similar('setTimeout', topn=20)

[('setInterval', 0.8018025755882263),
 ('clearTimeout', 0.7607487440109253),
 ('clearInterval', 0.7517813444137573),
 ('5000', 0.6796495318412781),
 ('500', 0.6773567199707031),
 ('timer', 0.674269437789917),
 ('fadeOut', 0.6735672950744629),
 ('delay', 0.6688687801361084),
 ('timerId', 0.6392707228660583),
 ('timeoutId', 0.632976770401001),
 ('resizeTimer', 0.6231238842010498),
 ('clearTimer', 0.62161785364151),
 ('focusInput', 0.6208832859992981),
 ('1000', 0.6190392374992371),
 ('detectingSelectAll', 0.6161224842071533),
 ('wait', 0.6130335927009583),
 ('_timeout', 0.610053539276123),
 ('timeout_id', 0.6002113223075867),
 ('_interval', 0.5937585830688477),
 ('play', 0.5898452997207642)]

Видим, что модель на маленьком кусочке данных ($\frac{4}{53}$ от всех токенов) показывает крайне странные результаты. Да, в каждом слове можно "натянуть" смысл, но это все будет не то.

Посмотрим лучше, какие будут результаты у модели, когда она "доучиться" на остальных данных.

# Resume learning

API библиотеки gensim предоставил возможность продолжать обучение модели на новых данных

In [9]:
additional_data_jsons_paths = tokenized_scripts_jsons_paths[NUMBER_JSON_FILES_TO_FORM_VOCABULARY:]

for jsonPathIndex in tqdm(range(len(additional_data_jsons_paths))):
    try:
        new_data = transform_json_file_to_train_data(additional_data_jsons_paths[jsonPathIndex])
    except:
        print('Не получилось расспарсить json:', additional_data_jsons_paths[jsonPathIndex])
        continue
    
    word2VecModel.build_vocab(new_data, update=True)
    word2VecModel.train(new_data, total_examples=word2VecModel.corpus_count, epochs=word2VecModel.epochs)

HBox(children=(FloatProgress(value=0.0, max=233.0), HTML(value='')))




In [10]:
word2VecModel.wv.most_similar('setTimeout', topn=20)

[('setInterval', 0.4968993663787842),
 ('clearTimeout', 0.4316636621952057),
 ('clearInterval', 0.42752915620803833),
 ('sleep', 0.4216229319572449),
 ('updateDelay', 0.4196251928806305),
 ('syncTimeout', 0.41300684213638306),
 ('_poll', 0.38573092222213745),
 ('requestTimeout', 0.3823191523551941),
 ('_onIdle', 0.3805527985095978),
 ('resetTimerDuration', 0.3804885149002075),
 ('focus', 0.3775176703929901),
 ('checkInterval', 0.37666934728622437),
 ('_hidingTimer', 0.3753202259540558),
 ('_finalize', 0.37514758110046387),
 ('"execAsap"', 0.3741986155509949),
 ('_delay', 0.37360188364982605),
 ('cancelTimer', 0.3729148507118225),
 ('5000', 0.37226998805999756),
 ('pump_', 0.37133264541625977),
 ('apiSetTimerX', 0.3699921667575836)]

Результаты стали гораздо более впечатляющими!

- clearTimeout - обрывает запланированный вызов функции
- timeout - через какое время исполнить функцию (один из агрументов всегда)

# Сохранение и загрузка модели

In [11]:
word2VecModel.save(PATH_TO_WORD2VEC_MODEL)

In [12]:
from gensim.models.word2vec import Word2Vec
from shared.consts import PATH_TO_WORD2VEC_MODEL

word2VecModel = Word2Vec.load(PATH_TO_WORD2VEC_MODEL)

In [13]:
word2VecModel.wv.most_similar('setTimeout', topn=20)

[('setInterval', 0.4968993663787842),
 ('clearTimeout', 0.4316636621952057),
 ('clearInterval', 0.42752915620803833),
 ('sleep', 0.4216229319572449),
 ('updateDelay', 0.4196251928806305),
 ('syncTimeout', 0.41300684213638306),
 ('_poll', 0.38573092222213745),
 ('requestTimeout', 0.3823191523551941),
 ('_onIdle', 0.3805527985095978),
 ('resetTimerDuration', 0.3804885149002075),
 ('focus', 0.3775176703929901),
 ('checkInterval', 0.37666934728622437),
 ('_hidingTimer', 0.3753202259540558),
 ('_finalize', 0.37514758110046387),
 ('"execAsap"', 0.3741986155509949),
 ('_delay', 0.37360188364982605),
 ('cancelTimer', 0.3729148507118225),
 ('5000', 0.37226998805999756),
 ('pump_', 0.37133264541625977),
 ('apiSetTimerX', 0.3699921667575836)]

In [14]:
print('В нашем словаре теперь', len(word2VecModel.wv.vocab), 'слов')

В нашем словаре теперь 460009 слов
