# Check list

1. Create train (text, enteties) / valid set (text, enteties, extracted_text) **done**

2. Create Score functional

# Введение
В Контуре мы много работаем с документами: арбитражные иски, госзакупки, исполнительные производства. В данном задании мы предлагаем вам сделать модель, которая поможет отделу госзакупок извлекать 
нужный кусок текста из документа для того, чтобы сформировать анкету заявки. То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу.
Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:
- обеспечение исполнения контракта
- обеспечение гарантийных обязательств

Соответственно, ваша модель, принимая на вход `текст документа` и `наименование одного из двух пунктов`, должна возвращать `соответствующий кусочек текста из текста документа`.

# Данные

### train.json 
Данные для обучения в формате json имеют следующие поля:
- `id`: int - id документа
-  `text`: str - текст документа, в котором может содержаться фрагмент текста, соответствующий пункту анкеты из поля `label`
- `label`: str - название пункта анкеты. Может принимать одно из двух значений: `обеспечение исполнения контракта` или `обеспечение гарантийных обязательств`
- `extracted_part`: dict следующего формата:
    ```
    {
        'text': [фрагмент текста из поля `text`, соответствующий пункту анкеты], 
        'answer_start': [индекс символа начала фрагмента текста в тексте документа],
        'answer_end': [индекс символа конца фрагмента текста в тексте документа]
    }
   ```
  
### test.json

Для демонстрации работы модели используйте данные из файла `test.json`. В нем есть все те же поля, что и в файле `train.json`, кроме поля `extracted_part` - именно его вам и нужно будет добавить,
для того, чтобы мы смогли оценить качество вашей модели.

# Тестовое задание

Для выполнения тестового задания требуется разработать модель, которая будет способна по паре `текст документа` и `пункт анкеты` извлекать из текста документа нужный фрагмент текста. 
Обучив модель, добавьте в файл `test.json` поле `extracted_part` в том же формате, что и в файле `train.json`. Новый файл назовите `predictions.json`

**Подсказка**: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля `extracted_part` с `answer_start` и
`answer_end` равными нулю). Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании
файла с ответами.

# Критерии оценки
1. Для оценки финального решения будет использоваться метрика `Accuracy`: доля наблюдений, в которых извлеченный моделью фрагмент текста полностью соответствует фактически
   требуемому фрагменту.
2. Чистота кода, оформление и понятность исследования.

# Требования к решению
В качестве решения мы ожидаем zip-архив со всеми *.py и *.ipynb файлами в папке solution и файлом `predictions.json` в корне. Формат имени zip-архива: LastName_FirstName.zip (пример Ivanov_Ivan.zip).
Файл `predictions.json` должен включать в себя колонки `id`, `text`, `label`, содержащие те же данные, что и исходный файл `test.json`, а также колонку `extracted_part` в том же
формате, что и в файле `train.json`
Разметка тестового набора данных и включение его в обучение/валидацию запрещены.

В папке solution должно быть отражено исследование и весь код, необходимый для воспроизведения исследования.

Успехов!


In [33]:
# based
import json
import random
import numpy as np
import pandas as pd
import string
import multiprocessing
import subprocess
import sys

# spacy
import spacy
from spacy.scorer import Scorer
from spacy.tokens import Doc, DocBin
from collections import Counter
from spacy.training.example import Example


# nltk
import nltk
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

# gensim
from gensim.parsing.preprocessing import remove_stopwords, preprocess_string
import gensim
from gensim import corpora
from gensim.models import KeyedVectors
from gensim.models import Word2Vec
from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.test.utils import datapath, get_tmpfile

#sklearn
from sklearn.metrics import accuracy_score

from tqdm import tqdm

In [18]:
def load_data(file):
    
    '''
    Description:
    Функция чтения данных
    
    input:
    file -> path to json file
    
    output:
    data -> json file
    '''
    
    with open(file, "r", encoding="utf-8") as f:
        data = json.load(f)
    return data

def save_data(file, data):
    '''
    Description:
    Функция сохранение данных
    
    input:
    file -> directory for save json file
    
    output:
    data -> json file
    '''
    
    with open (file, "w", encoding="utf-8") as f:
        json.dump(data, f, indent=4)
        
def create_train_valid(file):
    
    '''
    Description:
    функция принимает тренировочный файл с 
    обязательными колонками text, extracted_part, label
    и разделяет их на train и valid выборки
    
    input:
    file -> directory for save json file
    
    output:
    train_data, valid_data -> list
        
    '''
    
    train = pd.read_json(file)
        
    N = len(train)
    valid_idx = np.random.randint(N, size=N//5)
    train_idx = list(set(np.arange(N))-set(valid_idx))
        
    train_data = []
    valid_data = []
    for i in train_idx:
        train_data.append(
        [train.loc[i, 'text'], {'entities': [(train.loc[i, 'extracted_part']['answer_start'][0], 
                                                    train.loc[i, 'extracted_part']['answer_end'][0], 
                                                    train.loc[i, 'label'])]}]
    )
    
    for i in valid_idx:
        valid_data.append(
        [train.loc[i, 'text'], {'entities': [(train.loc[i, 'extracted_part']['answer_start'][0], 
                                                    train.loc[i, 'extracted_part']['answer_end'][0], 
                                                    train.loc[i, 'label'])]}]
    )
    
    #valid_data = train.loc[valid_idx, ['text', 'label', 'extracted_part']] # data frame
    print(f'Размер тренировачной выборки: {len(train_data)}')
    print(f'Размер валидационной выборки: {len(valid_data)}')
    return train_data, valid_data

In [19]:
main_train = load_data('data/TRAINING_DATA.json')

In [20]:
# формируем train/valid выборки
train_data, valid_data = create_train_valid('data/main_train.json')

Размер тренировачной выборки: 1479
Размер валидационной выборки: 359


In [16]:
nlp = spacy.blank("ru")
def create_training(data):
    
    TRAIN_DATA = data
    
    # идентификация базовой модели для русского языка
    
    
    db = DocBin()
    
    for text, annot in tqdm(TRAIN_DATA):
        doc = nlp.make_doc(text)
        ents = []
        for start, end, label in annot['entities']:
            span = doc.char_span(start, end, label=label, alignment_mode='contract')
            if span is None:
                print('Skipping entity')
            else:
                ents.append(span)
        doc.ents = ents
        db.add(doc)
    return db

In [17]:
# конфертируем тренировочные и обучающие файлы

train_model = create_training(train_data)
#train_model.to_disk('./data/train_data.spacy')
valid_model = create_training(valid_data)
#valid_model.to_disk('./data/valid_data.spacy')

NameError: name 'train_data' is not defined

# Word2Vec

In [30]:
def preprocess(text, STOPWORDS=stopwords.words('russian')):
    
    '''
    Describe:
    Функция приводит данные в надлежащий вид и форму
    
    input:
    text -> str
    STOPWORDS -> list of stopwords
    
    output:
    sencente -> list of seqence
    '''
    
    text = text.lower()
    
    for sent in sent_tokenize(text):
        sentence = preprocess_string(remove_stopwords(sent, stopwords=STOPWORDS))

    return sentence

def training(model_name):
    '''
    Description:
    Показывает ближайшие слова к заданному слову
    
    Input:
    model_name -> str (path to save model)
    
    output:
    trained word2vec model 
    '''
    
    with open('data/work_vec_text.json', "r", encoding="utf-8") as f:
        texts = json.load(f)
    sentences = texts
    cores = multiprocessing.cpu_count()
    
    w2v_model = Word2Vec(min_count=5,
                         window=3,
                         vector_size=500,
                         sample=6e-5,
                         alpha=0.03,
                         min_alpha=0.0007,
                         negative=20,
                         workers=cores-1    
                        )
    w2v_model.build_vocab(texts)
    w2v_model.train(texts, 
                    total_examples=w2v_model.corpus_count,
                   epochs=30)
    w2v_model.save(f'word_vectors/{model_name}.model')
    w2v_model.wv.save_word2vec_format(f'word_vectors/word2vec_{model_name}.txt')
    
def gensim_similary(word, model_name):
    
    '''
    Description:
    Показывает ближайшие слова к заданному слову
    
    Input:
    word - str
    model_name -> str (path to txt file)
    
    output:
    list of closest word vectors to a given word
    '''
    model = KeyedVectors.load_word2vec_format(model_name,
                                             binary=False)
    results = model.most_similar(positive=[word])
    print(results)

In [31]:
# тренируем word_2_vec модель
training('contur_train_count_5')

In [32]:
# отображения ближайших векторов
gensim_similary('контракт', 'word_vectors/word2vec_contur_train_count_5.txt')

[('отдельно', 0.9632689952850342), ('заключаемого', 0.9627524018287659), ('извещении', 0.9575595855712891), ('требование', 0.9559670090675354), ('заявке', 0.9552162289619446), ('прилагается', 0.9540984034538269), ('файлом', 0.9508460760116577), ('составляет', 0.945363461971283), ('прикладывается', 0.9432919025421143), ('предложение', 0.9430250525474548)]


# формирование выборки

In [15]:
def upsampling(data):
    '''
    Description:
    Функция увеличивает количество записей в 2 раза 
    переводя весь текст в нижний регистр.
    
    input:
    data -> list
    
    output:
    train_data -> list
    '''
    
    train_data = data
    
    print(f'Размер тренировочного датасета до upsampling: {len(train_data)}')
    
    for i in range(len(train_data)):
        train_data.append([train_data[0][0].lower(), 
                         train_data[0][1]])
        
    print(f'Размер тренировочного датасета после upsampling: {len(train_data)}')
    return train_data

In [16]:
# проводим upsampling
#train_data = upsampling(train_data)

# Train model

def train_spacy(data, iterations):
    '''
    Description:
    Обучение модели nlp для решения задачи NER.
        
    input:
    data -> list
    iterations -> int
    
    output:
    nlp -> spacy.lang.ru.Russian
    '''
    
    TRAIN_DATA = data
    # идентификация базовой модели для русского языка
    nlp = spacy.blank("ru")
    # настройка пайплайна обучения
    if "ner" not in nlp.pipe_names:
        ner = nlp.add_pipe("ner", last=True)
    for _, annotations in TRAIN_DATA:
        for ent in annotations.get('entities'):
            ner.add_label(ent[2])
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]
    with nlp.disable_pipes(*other_pipes):
        optimizer = nlp.begin_training()
        for itn in range(iterations):
            print("Starting iteration " + str(itn))
            random.shuffle(TRAIN_DATA)
            losses = {}
            for batch in spacy.util.minibatch(TRAIN_DATA, size=2):
                for text, annotations in batch:
                    # создание образца
                    doc = nlp.make_doc(text)
                    example = Example.from_dict(doc, annotations)
                    nlp.update([example], sgd=optimizer, losses=losses, drop=0.2)
                
            print(losses)
    return nlp

In [18]:
def train_spacy_test(data, iterations):
    '''
    Description:
    Обучение модели nlp для решения задачи NER.
        
    input:
    data -> list
    iterations -> int
    
    output:
    nlp -> spacy.lang.ru.Russian
    '''
    
    TRAIN_DATA = data
    # идентификация базовой модели для русского языка
    nlp = spacy.blank("ru")
    # настройка пайплайна обучения
    if "ner" not in nlp.pipe_names:
        ner = nlp.add_pipe("ner", last=True)
    for _, annotations in TRAIN_DATA:
        for ent in annotations.get('entities'):
            ner.add_label(ent[2])
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]
    with nlp.disable_pipes(*other_pipes):
        optimizer = nlp.begin_training()
        for itn in range(iterations):
            print("Starting iteration " + str(itn))
            random.shuffle(TRAIN_DATA)
            losses = {}
            for text, annotations in TRAIN_DATA:
                # создание образца
                doc = nlp.make_doc(text)
                nlp.update((text, annotations),
                           sgd=optimizer, 
                           losses=losses, 
                           drop=0.2
                          )
                
            print(losses)
    return nlp

## Тренировка через консоль

## Инициализация векторов 

In [48]:
# инициализируем вектора
!python -m spacy init vectors ru word_vectors/word2vec_contur_train_count_5.txt --name word_vectors_model models/word_vectors_model 

[38;5;4m[i] Creating blank nlp object for language 'ru'[0m
[38;5;2m[+] Successfully converted 1423 vectors[0m
[38;5;2m[+] Saved nlp object with vectors to output directory. You can now use
the path to it in your config as the 'vectors' setting in [initialize].[0m
E:\DS\Jupyter_notebook_directory\Tests progects\Contur\models\word_vectors_model


2023-04-16 15:14:40.821432: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 15:14:40.821500: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2023-04-16 15:14:46.168920: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 15:14:46.169548: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublas64_11.dll'; dlerror: cublas64_11.dll not found
2023-04-16 15:14:46.170104: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublasLt64_11.dll'; dlerror: cublasLt64_11.dll not found
2023-04-16 15:14:46.170700: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cu

In [7]:
!python -m spacy train models/01/config.cfg --output models/04 --paths.train data/train_data.spacy --paths.dev data/valid_data.spacy --paths.vectors models/01

[38;5;4m[i] Saving to output directory: models\04[0m
[38;5;4m[i] Using CPU[0m
[1m
[38;5;2m[+] Initialized pipeline[0m
[1m
[38;5;4m[i] Pipeline: ['ner'][0m
[38;5;4m[i] Initial learn rate: 0.001[0m
E    #       LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  --------  ------  ------  ------  ------
  0       0    188.40    0.00    0.00    0.00    0.00
  0     200   7347.68    1.59    1.51    1.68    0.02
  0     400   6984.73    6.70    7.06    6.38    0.07
  0     600   1240.24   46.21   50.00   42.95    0.46
  0     800    602.40   51.38   62.50   43.62    0.51
  0    1000    459.90   54.47   66.83   45.97    0.54
  0    1200    524.13   56.00   75.14   44.63    0.56
  0    1400    482.12   58.22   54.55   62.42    0.58
  1    1600    288.51   53.22   52.44   54.03    0.53


2023-04-16 06:23:22.718991: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 06:23:22.719032: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2023-04-16 06:23:27.356587: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 06:23:27.357318: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublas64_11.dll'; dlerror: cublas64_11.dll not found
2023-04-16 06:23:27.358113: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublasLt64_11.dll'; dlerror: cublasLt64_11.dll not found
2023-04-16 06:23:27.359416: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cu

  1    1800    316.70   59.24   56.36   62.42    0.59
  1    2000    352.77   55.20   56.06   54.36    0.55
  1    2200    317.35   64.78   68.54   61.41    0.65
  1    2400    498.44   56.70   66.07   49.66    0.57
  1    2600    442.04   59.84   56.38   63.76    0.60
  1    2800    234.77   63.24   59.01   68.12    0.63
  2    3000    467.55   59.01   62.31   56.04    0.59
  2    3200    357.80   53.65   48.26   60.40    0.54
  2    3400    314.79   67.43   66.13   68.79    0.67
  2    3600    330.64   67.39   62.46   73.15    0.67
  2    3800    221.36   61.84   67.06   57.38    0.62
  2    4000    283.56   65.95   70.34   62.08    0.66
  2    4200    265.09   67.90   75.93   61.41    0.68
  2    4400    514.21   58.29   60.73   56.04    0.58
  3    4600    211.12   68.22   67.66   68.79    0.68
  3    4800    349.76   67.01   67.93   66.11    0.67
  3    5000    279.51   65.56   65.02   66.11    0.66
  3    5200    271.58   65.49   68.89   62.42    0.65
  3    5400    228.87   64.7

# Инициализируем вектора

In [21]:
# формируем train/valid выборки
train_data, valid_data = create_train_valid('data/main_train.json')

Размер тренировачной выборки: 1467
Размер валидационной выборки: 359


In [22]:
# загружаем "пустую модель", но с кастомными векторами
#nlp = spacy.load('models/04/model-best')

In [49]:
nlp = spacy.load('models/word_vectors_model')

In [62]:
nlp.to_disk('models/word_vectors_model')

# Тренируем модель

In [71]:
!python -m spacy train models/word_vectors_model/config.cfg --output models/06 --paths.train data/train_data.spacy --paths.dev data/valid_data.spacy --paths.vectors models/word_vectors_model

[38;5;4m[i] Saving to output directory: models\06[0m
[38;5;4m[i] Using CPU[0m
[1m
[38;5;2m[+] Initialized pipeline[0m
[1m
[38;5;4m[i] Pipeline: ['ner'][0m
[38;5;4m[i] Initial learn rate: 0.001[0m
E    #       LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  --------  ------  ------  ------  ------
  0       0    188.40    0.00    0.00    0.00    0.00
  0     200   7347.68    1.59    1.51    1.68    0.02
  0     400   6984.73    6.70    7.06    6.38    0.07
  0     600   1240.24   46.21   50.00   42.95    0.46
  0     800    602.40   51.38   62.50   43.62    0.51
  0    1000    459.90   54.47   66.83   45.97    0.54
  0    1200    524.13   56.00   75.14   44.63    0.56
  0    1400    482.12   58.22   54.55   62.42    0.58
  1    1600    288.51   53.22   52.44   54.03    0.53
  1    1800    316.70   59.24   56.36   62.42    0.59
  1    2000    352.77   55.20   56.06   54.36    0.55
  1    2200    317.35   64.78   68.54   61.41    0.65
  1    2400    498.44   56.70   66.0

2023-04-16 15:51:54.250498: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 15:51:54.250545: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2023-04-16 15:51:59.409676: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found
2023-04-16 15:51:59.410329: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublas64_11.dll'; dlerror: cublas64_11.dll not found
2023-04-16 15:51:59.410968: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cublasLt64_11.dll'; dlerror: cublasLt64_11.dll not found
2023-04-16 15:51:59.411594: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cu

# Test model (validation)

## Оценка точности

In [72]:
nlp = spacy.load('models/06/model-best')

In [73]:
def extract_text(row):
    text = row['text'][row['extracted_part']['entities'][0][0]:row['extracted_part']['entities'][0][1]]
    return text

In [74]:
def predict_text(row):
    '''
    Description:
    Функция возвращает именованную сущность 
    если таковая существует в иначе возвращает пустую строку
    
    input:
    row -> str
    
    output:
    ent.text -> str
    '''
    
    if len(nlp(row).ents) > 0:
        return nlp(row).ents[0]
    else:
        return ''

In [75]:
# формируем датасет для оценки точности
valid = pd.DataFrame(valid_data, columns=['text', 'extracted_part'])

In [76]:
# заполняем колонку с текстом
valid['extracted_text'] = valid.apply(lambda row: extract_text(row), axis=1)

In [77]:
# заполняем колонку ответами
valid['predict'] = valid['text'].apply(lambda row: str(predict_text(row)))

In [78]:
# точность предсказаний
accuracy_score(valid['extracted_text'], valid['predict'])

0.754874651810585

# Результаты исследований

Модель и её результаты:

## work_model_30_iter (надо переобучить)

Допущена ошибка и обучающая выборка не была разбита на train/valid

**Результаты на valid:**

Accuracy: 0.84 (анулированы из-за ошибки)


## work_model_upsampling_30_iter

**Пайплайн:**
* Разбить выборку на train/valid

* Провести **upsampling** на train выборке

**Результаты на valid:**

Accuracy: 0.6573816155988857

## work_model_30_iter_train_valid

**Пайплайн:**
* Разбить выборку на train/valid

**Результаты на valid:**

Accuracy: 0.7103064066852368

## models/02/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:
!python -m spacy train models/01/config.cfg --output models/02 --paths.train models/data/train_data.spacy --paths.dev models/data/valid_data.spacy --paths.vectors models/01

* batch_size = 1000

**Результаты на valid:**

Accuracy: 0.7214484679665738

## models/02/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:
!python -m spacy train models/01/config.cfg --output models/02 --paths.train models/data/train_data.spacy --paths.dev models/data/valid_data.spacy --paths.vectors models/01

* batch_size = 2

**Результаты на valid:**

Accuracy: 0.7214484679665738



## models/03/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:
!python -m spacy train models/01/config.cfg --output models/02 --paths.train models/data/train_data.spacy --paths.dev models/data/valid_data.spacy --paths.vectors models/01

* window_size = 1 >>> window_size = 2

**Результаты на valid:**

Accuracy: 0.72

## models/04/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:
!python -m spacy train models/01/config.cfg --output models/02 --paths.train models/data/train_data.spacy --paths.dev models/data/valid_data.spacy

* удалили кастомные вектора из обучающего пайплайна 

remove: --paths.vectors models/01 

**Результаты на valid:**

Accuracy: 0.754874651810585

## models/05/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:

* * инициилизировали вектора

!python -m spacy init vectors ru word_vectors/word2vec_contur_train_count_5.txt --name word_vectors_model models/word_vectors_model 

* * обучили модель 

!python -m spacy train models/word_vectors_model/config.cfg --output models/05 --paths.train data/train_data.spacy --paths.dev data/valid_data.spacy --paths.vectors models/word_vectors_model

**Результаты на valid:**

Accuracy: 0.7576601671309192

## models/06/model-best

**Пайплайн**
* Предварительно обучили w2v модель и интегрировали кастомные вектора в нашу модель.

* Разбили выборку на  train/valid 

* запустили скрипт:

* * инициилизировали вектора

!python -m spacy init vectors ru word_vectors/word2vec_contur_train_count_5.txt --name word_vectors_model models/word_vectors_model 

* * обучили модель 

!python -m spacy train models/word_vectors_model/config.cfg --output models/05 --paths.train data/train_data.spacy --paths.dev data/valid_data.spacy --paths.vectors models/word_vectors_model

поменяли количество эпох на 30 

**Результаты на valid:**

Accuracy: 0.754874651810585