In [1]:
import time

In [2]:
import numpy as np
from tqdm import tqdm_notebook as tqdm

In [3]:
from CountVectorizer.Python.PythonVectorizer import Vectorizer

In [4]:
from CountVectorizer.Cython.CythonVectorizer import CythonTypedVectorizer, CythonVectorizer

In [5]:
from CountVectorizer.Nuitka.NuitkaVectorizerPack.NuitkaVectorizer import NuitkaVectorizer

# WordEmbeding [CountVectorizer]
В данном пункте сравним скорости работы простого векторного представления предложений. В качестве базового решения выбран ```CountVectorizer``` из пакета ```sklearn```.

На основе ```CountVectorizer``` был написан сообвественый класс ```Vectorizer``` на python. Данный класс повторяет базовые возможности класса ```CountVectorizer```, такие как ```fit``` и ```transform```.

Сревнение производительности проводится для класса ```Vectorizer``` который работает в следующих случаях:
* Vectorizer --- простая реалзиция на python без компиляции;
* PyPyVectorizer --- компииляция функции с помощью pypy3;
* NuitkaVectorizer --- компииляция функции с помощью nuitka;
* CythonVectorizer --- простая компиляция класса при помощи cython без использования типизации;
* CythonTypedVectorizer --- простая компиляция класса при помощи cython c использованием типизации.

## Data

In [6]:
with open('../data/ru.tok', 'r') as f:
    corpus = f.read().lower().splitlines()

## Comparison
В эксперименте сравнивается время метода ```fit```, а также метода ```transform``` для всех моделей. Для оценки времени производится усреднение по нескольким независимым вызовам данных методов. Каждый раз вызов метода ```fit``` производится на новом объекте рассматриваемого класса. Метод ```transform``` вызывается также каждый раз на новом объекте рассматриваемого класса после вызова метода ```fit```.

In [7]:
number_of_experiment = 200

#### Python Vectorizer
Реализация дефолтного ```CountVectorizer``` на python без компиляциии кода.

In [8]:
list_of_fit_times = []
list_of_transform_times = []
############################################

iterable = tqdm(range(number_of_experiment))
for _ in iterable:
    model = Vectorizer()
    
    start = time.time()
    model.fit(corpus)
    end = time.time()
    
    list_of_fit_times.append(end-start)
    
    start = time.time()
    _ = model.transform(corpus)
    end = time.time()
    
    list_of_transform_times.append(end-start)
    
    iterable.set_postfix_str('(fit={}, transform={})'.format(np.mean(list_of_fit_times), np.mean(list_of_transform_times)))

print('(fit={}±{}, transform={}±{})'.format(np.mean(list_of_fit_times), 
                                            np.std(list_of_fit_times), 
                                            np.mean(list_of_transform_times),
                                            np.std(list_of_transform_times)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))


(fit=0.4870743989944458±0.012483059208673923, transform=1.6063056838512422±0.012364059708701853)


#### Cython Vectorizer
Реализация дефолтного ```CountVectorizer``` на python с дальнешей cython компиляцией кода.

In [9]:
list_of_fit_times = []
list_of_transform_times = []
############################################

iterable = tqdm(range(number_of_experiment))
for _ in iterable:
    model = CythonVectorizer()
    
    start = time.time()
    model.fit(corpus)
    end = time.time()
    
    list_of_fit_times.append(end-start)
    
    start = time.time()
    _ = model.transform(corpus)
    end = time.time()
    
    list_of_transform_times.append(end-start)
    
    iterable.set_postfix_str('(fit={}, transform={})'.format(np.mean(list_of_fit_times), np.mean(list_of_transform_times)))

print('(fit={}±{}, transform={}±{})'.format(np.mean(list_of_fit_times), 
                                            np.std(list_of_fit_times), 
                                            np.mean(list_of_transform_times),
                                            np.std(list_of_transform_times)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))


(fit=0.46493925333023073±0.01144521278753481, transform=1.499713158607483±0.012112613888684927)


#### Cython Vectorizer with Typing
Реализация дефолтного ```CountVectorizer``` на cython с использованием типиизации объектов с дальнешей cython компиляцией кода.

In [10]:
list_of_fit_times = []
list_of_transform_times = []
############################################

iterable = tqdm(range(number_of_experiment))
for _ in iterable:
    model = CythonTypedVectorizer()
    
    start = time.time()
    model.fit(corpus)
    end = time.time()
    
    list_of_fit_times.append(end-start)
    
    start = time.time()
    _ = model.transform(corpus)
    end = time.time()
    
    list_of_transform_times.append(end-start)
    
    iterable.set_postfix_str('(fit={}, transform={})'.format(np.mean(list_of_fit_times), np.mean(list_of_transform_times)))

print('(fit={}±{}, transform={}±{})'.format(np.mean(list_of_fit_times), 
                                            np.std(list_of_fit_times), 
                                            np.mean(list_of_transform_times),
                                            np.std(list_of_transform_times)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))


(fit=0.4094876837730408±0.00811198914661061, transform=1.4650929474830627±0.012166617731037083)


#### Nuitka Vectorizer
Реализация дефолтного ```CountVectorizer``` с компиляцией кода с помощью nuitka.

In [11]:
list_of_fit_times = []
list_of_transform_times = []
############################################

iterable = tqdm(range(number_of_experiment))
for _ in iterable:
    model = NuitkaVectorizer()
    
    start = time.time()
    model.fit(corpus)
    end = time.time()
    
    list_of_fit_times.append(end-start)
    
    start = time.time()
    _ = model.transform(corpus)
    end = time.time()
    
    list_of_transform_times.append(end-start)
    
    iterable.set_postfix_str('(fit={}, transform={})'.format(np.mean(list_of_fit_times), np.mean(list_of_transform_times)))

print('(fit={}±{}, transform={}±{})'.format(np.mean(list_of_fit_times), 
                                            np.std(list_of_fit_times), 
                                            np.mean(list_of_transform_times),
                                            np.std(list_of_transform_times)))


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  """


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))


(fit=0.5539614439010621±0.02277020746388094, transform=1.5527407383918763±0.04169238386189927)


Оценка времени выполнялась для выборки, которая состояла из $79582$ строк ($16.8$mb текста). Всего в данном тексте содержится $76777$ различных токенов, которые были найдены всемы моделями и добавлены в словарь.


Для чистоты эксперимента время предаставленное в таблице является устредненным по $200$ вызовам функции ```fit``` и $200$ вызовам функции ```transform```.

| Функция  | Время fit | Время transform |
| ------------- | ------------- | ------------- |
| Vectorizer  | 487±12 ms | 1606±12 ms |
| CythonVectorizer  | 465±11 ms | 1500±12 ms |
| CythonTypedVectorizer  | 409±8 ms | 1465±12 ms |
| NuitkaVectorizer  | 554±23 ms | 1553±42 ms |
