# Возьмем готовую разбивку номенклатур по категориям

In [1]:
import pandas
import numpy as np
import codecs
import sklearn
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LogisticRegressionCV
from sklearn import cross_validation, grid_search, linear_model, metrics

colnames = ['name', 'id', 'class']
data = pandas.read_csv('nameCatIdCatName.csv', names=colnames, encoding='utf8')
data.dropna()
names = data['name'].tolist()
classes = data['class'].tolist()



In [None]:
# todo k1s сделать выборку сбалансированной

In [4]:
x, test_data, y, test_labels = \
cross_validation.train_test_split(names,  classes, test_size = 0.3, random_state = 0)

# Найдем параметры регресии

In [4]:
vectorizer =  TfidfVectorizer()
corpus = vectorizer.fit_transform(names)
clf = LogisticRegressionCV(n_jobs=-1, max_iter=100, refit=True)
clf.fit(corpus, classes)

LogisticRegressionCV(Cs=10, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=-1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

# Построим по ним модель и проверим

In [6]:
clf = LogisticRegression(C=10.0, class_weight='balanced', dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=-1, penalty='l2', random_state=None,
           solver='lbfgs', tol=0.0001)
log = Pipeline([('vectorizer', TfidfVectorizer()),
                      ('classifier', clf)])
log.fit(x, y)

Pipeline(steps=[('vectorizer', TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_id...enalty='l2', random_state=None,
          solver='lbfgs', tol=0.0001, verbose=0, warm_start=False))])

In [8]:
score = log.score(test_data, test_labels)
print(score)

0.933885274985


# Полученная точность 93%

# Посмотрим что может получиться с помощью нейронных сетей:

In [5]:
from sklearn.neural_network import MLPClassifier
clf = MLPClassifier(solver = 'adam', activation = 'relu', early_stopping = True, validation_fraction = 0.01)

log = Pipeline([('vectorizer', TfidfVectorizer()), ('clf', clf)])

log_params = {
'clf__warm_start' : [True, False],
'clf__hidden_layer_sizes' : [(42,), (55,), (33,)],
'clf__alpha': [0.0001, 0.001, 0.1, 0.000001],
'clf__learning_rate' : ['constant', 'invscaling', 'adaptive'],
'clf__learning_rate_init' : [0.0001, 0.001, 0.1, 0.000001]
}
cv = cross_validation.StratifiedShuffleSplit(y, n_iter = 3, test_size = 0.2, random_state = 0)

grid_cv = grid_search.GridSearchCV(log, log_params, scoring = 'accuracy', cv = cv, n_jobs = -1)
grid_cv.fit(x, y)
print grid_cv.best_score_
# 0.915262112956
print grid_cv.best_params_
# {'clf__hidden_layer_sizes': 42, 'clf__activation': 'relu', 'clf__solver': 'adam'}

<bound method Pipeline.get_params of Pipeline(steps=[('vectorizer', TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_id...      solver='lbfgs', tol=0.0001, validation_fraction=0.1, verbose=False,
       warm_start=False))])>


In [5]:
from sklearn.neural_network import MLPClassifier

clf_mlp = MLPClassifier(hidden_layer_sizes = (22,), activation = 'relu', solver = 'adam')

log_mlp = Pipeline([('vectorizer', TfidfVectorizer()), ('clf', clf_mlp)])
log_mlp.fit(x, y)

score = log_mlp.score(test_data, test_labels)
print(score)
# 0.927439384979



0.92862211709


# С помощью нейросети не удалось добиться сильно лучшей точности, к тому же обычная логистическая регрессия работает куда быстрее

# Раз уж мы тут все собрались, то посмотрим, что все это значит для наших  номенклатур

In [9]:
content = codecs.open("nom3utf.csv", 'r', 'utf8')
lines = [x.replace("\\", "") for x in content.readlines()]
real_test = np.random.choice(np.array(lines), size = 10)

In [11]:
predicts = log.predict_proba(real_test)
for x, predict in zip(real_test, predicts):
    print(x)
    for p, l in zip(predict, log.classes_):
        if (p > 0.3):
            print(p)
            print(l)
    print('\n')

Доксазозин табл. 4мг бл. N30 Вектор-Медика

0.674059532483
ЛЕКАРСТВА ПО РЕЦЕПТАМ


КОЛГЕЙТ з/паста Тройное действие 100мл 

0.84114776728
УХОД ЗА ПОЛОСТЬЮ РТА


Шприц Жане катетерн. 100мл Huaian City Hengchun Medical Product

0.360317053464
ЛЕКАРСТВА ПО РЕЦЕПТАМ
0.546526298699
МЕДИЦИНСКАЯ ТЕХНИКА


Вальдоксан 25мг таб п/о №14

0.877578752254
ЛЕКАРСТВА ПО РЕЦЕПТАМ


Сиалор 2% спрей для взрослых 10мл

0.578008657368
СРЕДСТВА ОТ ПРОСТУДЫ


Джес табл. п.п.о. флекс-картр. N30 Bayer Schering Pharma AG

0.336991001629
БИОЛОГИЧЕСКИ-АКТИВНЫЕ ДОБАВКИ


Черники Плоды пачка 50г (Иван Чай ЗАО)

0.743966131321
НАРОДНЫЕ СРЕДСТВА


Уролесан капс. бл. N40 Pharmaceutical Balkans

0.608698474776
ГИНЕКОЛОГИЯ И УРОЛОГИЯ


Каламин лосьон успокаивающ. 100мл Ben Shimon Floris

0.473309769353
УХОД ЗА ТЕЛОМ


Наша Мама МК бандаж Идеал до и по/род р3 белый

0.636746883582
МАМА И МАЛЫШ




# Ну, не так уж и плохо