In [11]:
import numpy as np
import pandas as pd

from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.externals import joblib
from sklearn.utils import shuffle

#our wrapper for Tomita parser and Tomita helper functions
from ClearNames import TomitaParser, fact_to_string

## Helpers

In [3]:
def create_np_array_from_vector(vector):
    vec_arr = vector.toarray()
    vec_list = []
    
    for i in range(0, vector.shape[1]):
        vec_list.append(vec_arr[0,i])
        
    return np.array(vec_list)

## Clear word - Tomita

In [58]:
#target_word = 'Аккумуляторная дрель BOSCH GSB 18-2-LI'
target_word = 'Фонарь налобный Petzl Tikka 2'

In [59]:
# Create Tomita object and handle target word
tomita = TomitaParser('C:\\Users\\Антон\\AnacondaProjects\\NLP-product-name-cl-work\\tomitaparser.exe', 'C:\\Users\\Антон\\AnacondaProjects\\NLP-product-name-cl-work\\tomita_config\\config.proto', debug=False)
facts, leads = tomita.run(target_word)

clear_name = fact_to_string(facts[0])
print('Clear name is {0}'.format(clear_name))

Clear name is фонарь налобный


## Make vectorization

In [60]:
# load vectorizator and check params
vectorizator_filename = 'vectorizator.sav'
vectorizer = joblib.load(vectorizator_filename)

print('vocabulary is ')
print(vectorizer.vocabulary_)

vocabulary is 
{'конец': 14, 'дрель': 7, 'шина': 32, 'отвертка': 20, 'бур': 4, 'острый': 19, 'яркий': 33, 'комплект': 13, 'автомобильная': 1, 'сменная': 23, '70ый': 0, 'лента': 17, 'колесный': 12, 'аккумуляторная': 2, 'сверло': 22, 'струбцина': 24, 'кассета': 11, 'дальномер': 5, 'ультразвуковой': 27, 'диск': 6, 'фонарь': 30, 'корд': 15, 'лазерный': 16, 'пильная': 21, 'тиски': 25, 'набор': 18, 'карманный': 10, 'устройство': 29, 'ударная': 26, 'зев': 9, 'бензопила': 3, 'цепь': 31, 'зажим': 8, 'уровень': 28}


In [61]:
vector = vectorizer.transform([clear_name])
np_vector = create_np_array_from_vector(vector)

## Load SVM and predict category name

In [62]:
svm_filename = 'svm.sav'
clf = joblib.load(svm_filename)

In [63]:
predicted_value = clf.predict(np_vector)
print(predicted_value)

[114637]




In [64]:
category_dict = {114636: 'Дрели', 1: 'Шины', 2: 'Диски', 1630: 'Дальномеры', 114637: 'Фонари', 114838: 'Струбцина и зажимы', 
                 114856: 'цепи для инструментов', 114862: 'Бензопилы', 114903: 'Корды для триммеров', 114906: 'Газонокосилки',
                 115047: 'Буры', 115117: 'Сверла'}

In [65]:
print('Target category is {}'.format(category_dict[predicted_value[0]]))

Target category is Фонари
