## Examples of vw wrapper usage

<font color='red'>Attention!</font> If work with wrapper is done within jupyter-notebook then parameter <font color='red'> log_stderr_to_file=True </font> should be passed on classifier instance creation. Later, after work is done, temporary directories with cache, temporary models and stdin/stdout should be <font color='red'> deleted </font> (check out this notebook's last cells).


## Header dictionary overview

One necessary parameter "header_dict" should be passed to classifier(or regressor) constructor when instance is created. This parameter contains dictionary with input features data mapping.

Header dictionary example:
<pre>
header_dict = {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')}
</pre>


Header dictionary format:
- keys are indexes of columns in input numpy array X (which would be passed to fit method). <font color='red'> Attention! </font> amount of keys should be same as number of columns in input feature-array X. Also they should be in range 0 - t-1 if there are t columns in input data X.  
- values of dictionary are triples:
    - feature type - 'n' for numerical feature, 'с' for categorical.
    - feature namespace. 
    - feature name. If feture type is numerical in header_dict, this name would be used for generating vw line (for example, ('n', 'Y', 'y0') would be converted to : ... |Y y0:{float_val} ... )

## Примеры работы с обертками для vw

<font color='red'>Внимание!</font> При работе из jupyter-notebook необходимо передавать параметр<font color='red'> log_stderr_to_file=True </font> при создании инстанса классификатора. Затем, при окончании работы, <font color='red'> удалить </font> временные папки с кешами, stdout и stderr vw (см. конец данного ноутбука)


## Описание словаря

Обязательным параметром является header_dict - это словарь, содержащий описание входных данных (которые будут переданы в numpy-массиве X). 

Пример словаря:
<pre>
header_dict = {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')}
</pre>


Формат словаря-заголовка:
- ключами являются номера полей во входном numpy-массиве (который будет передан в fit). <font color='red'> Внимание! </font> количество ключей должно совпадать с количеством столбцов в массиве, при этом нумерацию необходимо начинать с нуля.  
- значениями являются тройки, состоящи из:
    - тип фичи. 'n' - если фича является числовой, 'с' - если фича является категориальной
    - домен фичи. 
    - название фичи. Если выбран числовой тип фичи, то это название будет внутри домена при подаче строк в vw. (Например, при ('n', 'Y', 'y0') в vw будет подана строчка : ... |Y y0:{float_val} ... )

## Binary logistic regression
## Логистическая бинарная регрессия

In [4]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import roc_auc_score
from sklearn.utils import shuffle
from itertools import chain
import numpy as np

from led_wabbit.models import LogisticRegressionBinary


if __name__ == '__main__':
    X1 = [[0, 1, 1] for i in range(40)]
    X2 = [[0, 2, 0] for i in range(40)]
    X3 = [[1, 0, 1] for i in range(40)]
    X4 = [[0, 2, 2] for i in range(3)]

    X = np.array([x for x in chain(X1, X2, X3, X4)])

    Y1 = [0 for i in range(40)]
    Y2 = [1 for i in range(40)]
    Y3 = [0 for i in range(40)]
    Y4 = [1 for i in range(3)]

    Y = np.array([y for y in chain(Y1, Y2, Y3, Y4)])

    X, Y = shuffle(X, Y)
    
    X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.1)

    header_dict = {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')}

    clf = LogisticRegressionBinary(passes=5, header_dict=header_dict)# loss='logistic',

    params = {'passes':[50, 100], 'header_dict':[header_dict],\
              'learning_rate':[0.5, 0.2, 0.8],'log_stderr_to_file':[True]} # 'loss':['logistic'],
    gs = GridSearchCV(clf, params, scoring='roc_auc', n_jobs=4)

    gs.fit(X_train, y_train)
    
    print(gs.best_score_)
    print(gs.best_params_)



1.0
{'header_dict': {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')}, 'learning_rate': 0.5, 'log_stderr_to_file': True, 'passes': 100}




In [6]:
print(gs.cv_results_)

{'mean_fit_time': array([0.04922907, 0.06672017, 0.04654511, 0.06028541, 0.0368065 ,
       0.05125666]), 'std_fit_time': array([0.00585093, 0.00986627, 0.00288262, 0.00605127, 0.00532435,
       0.00267359]), 'mean_score_time': array([0.01877586, 0.01990628, 0.01903725, 0.01651239, 0.01622359,
       0.01614849]), 'std_score_time': array([0.00278521, 0.00045301, 0.0017257 , 0.00107927, 0.00118341,
       0.00112373]), 'param_header_dict': masked_array(data=[{0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')},
                   {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')},
                   {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')},
                   {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')},
                   {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')},
                   {0: ('n', 'X', 'x0'), 1: ('n', 'Y', 'y0'), 2: ('n', 'Z', 'z0')}],
             mask=[False, False, False, False, Fals

## Linear regression
## Линейная регрессия

In [9]:
from sklearn.model_selection import GridSearchCV

from led_wabbit.models import LinearRegression

import numpy as np
from sklearn import datasets

# Load the diabetes dataset
diabetes = datasets.load_diabetes()

if __name__ == '__main__':
    diabetes_X = diabetes.data[:, np.newaxis, 2]

    # Split the data into training/testing sets
    diabetes_X_train = diabetes_X[:-20]
    diabetes_X_test = diabetes_X[-20:]

    # Split the targets into training/testing sets
    diabetes_y_train = diabetes.target[:-20]
    diabetes_y_test = diabetes.target[-20:]

    header_dict = {0: ('n', 'X', 'x0')}

    # Create linear regression object
    regr = LinearRegression(passes=15, header_dict=header_dict)

    params = {'passes': [1, 2, 3, 10, 30, 50, 100, 200, 500], 'header_dict': [header_dict], \
              'learning_rate': [0.2, 0.5, 0.8, 1.0],'log_stderr_to_file':[True]}  # 'loss':['logistic'],

    gs = GridSearchCV(regr, params, scoring='neg_mean_squared_error', n_jobs=4)

    gs.fit(diabetes_X_train, diabetes_y_train)
    print(gs.best_score_)
    print(gs.best_params_)



-4044.4338287944806
{'header_dict': {0: ('n', 'X', 'x0')}, 'learning_rate': 1.0, 'log_stderr_to_file': True, 'passes': 500}


## After completion of work, temporary files containing temporary models, their caches, stdout and stderr files should be deleted
## После окончания всех работ или грид-серча почистим файлы с моделями, кешами, логами ошибок и stdout

### This should be done only if you use wrapper with jupyter or ipython notebook

### Чистку необходимо делать только если работа производится из jupyter-notebook

In [10]:
!rm -rf temp-vw*