In [1]:
import numpy as np
import pandas as pd
from tqdm import tqdm_notebook

import fasttext

from matplotlib import pyplot as plt

In [2]:
train_data = pd.read_csv('names_and_rubrics_learn.tsv', sep='\t', names=['name', 'category'])

In [3]:
train_data.head()

Unnamed: 0,name,category
0,Автобусная компания Транспорт52,Автобусные междугородные перевозки
1,Мастерок,Строительный магазин
2,Суши-бар,Суши-бар
3,Экспром,Металлоизделия
4,Универсам Бегемот,Супермаркет


In [4]:
train_X = np.asarray(train_data['name'])
train_y = np.asarray(train_data['category'])

---
###### Преобразуем целевую переменную в число

In [5]:
categories = np.unique(train_y)

cnt = 0
cat_id = {}
for c in categories:
    cat_id[c] = cnt
    cnt += 1
    
train_y = np.array(list(map(lambda x: cat_id[x], train_y)))

---
###### Запишем все слова в файл

In [5]:
words_name = [c for t in tqdm_notebook(list(train_X)) for c in t.split(' ')]
words_category = [c for t in tqdm_notebook(list(train_y)) for c in t.split(' ')]

HBox(children=(IntProgress(value=0, max=8908449), HTML(value='')))




HBox(children=(IntProgress(value=0, max=8908449), HTML(value='')))




In [10]:
open('words.txt', 'w').write(' '.join(words_name + words_category))

354107087

---
###### Преобразуем названия организаций в эмбеддинг

In [6]:
%%time

model = fasttext.train_unsupervised('words.txt', ws=1, dim=100, epoch=30)

CPU times: user 2h 15min 11s, sys: 18.9 s, total: 2h 15min 30s
Wall time: 46min 30s


In [None]:
model.save_model('model_embedding')

In [6]:
model = fasttext.load_model('model_embedding')




In [7]:
%%time
train_X = np.array([np.mean([model[w] for w in s.split(' ')], axis=0) for s in train_X])

CPU times: user 5min 23s, sys: 3.09 s, total: 5min 26s
Wall time: 5min 26s


---
###### Обучим классификатор

In [8]:
%%time

from sklearn.neural_network import MLPClassifier

agent = MLPClassifier(
    hidden_layer_sizes=(20, 20),
    activation='tanh',
)

# initialize agent to the dimension of state space and number of actions
agent.fit(train_X[:500000], train_y[:500000])

CPU times: user 2h 43min 27s, sys: 8min 56s, total: 2h 52min 23s
Wall time: 45min 52s




MLPClassifier(activation='tanh', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(20, 20), learning_rate='constant',
              learning_rate_init=0.001, max_iter=200, momentum=0.9,
              n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
              random_state=None, shuffle=True, solver='adam', tol=0.0001,
              validation_fraction=0.1, verbose=False, warm_start=False)

---
###### Получим предсказания на тесте

In [9]:
test_data = pd.read_csv('names_and_rubrics_test_no_rubric.csv', sep=',')
test_data.columns = ['Id', 'Name']

In [10]:
test_X = test_data['Name']

In [11]:
%%time
test_X = np.array([np.mean([model[w] for w in s.split(' ')], axis=0) for s in test_X])

CPU times: user 39.9 s, sys: 1.86 s, total: 41.7 s
Wall time: 1min 5s


In [13]:
%%time
predictions = []
for i in tqdm_notebook(range(test_X.shape[0])):
    predictions.append(agent.predict([test_X[i]]))

HBox(children=(IntProgress(value=0, max=1000000), HTML(value='')))


CPU times: user 12min 36s, sys: 42.4 s, total: 13min 18s
Wall time: 4min 1s


In [15]:
id_cat = {}

for k, v in cat_id.items():
    id_cat[v] = k

In [19]:
test_data['Category'] = list(map(lambda x: id_cat[x[0]], predictions))

In [20]:
test_data.head(20)

Unnamed: 0,Id,Name,Category
0,1,Arena Stem,Магазин одежды
1,2,Муниципальное дошкольное образовательное бюдже...,Детский сад
2,3,Апартаменты на переулке Пилотов 10,Апартаменты
3,4,Обсерватория Вологодского университета,ВУЗ
4,5,Фармальянс,Аптека
5,6,Фирма Бриз,Автомобильные грузоперевозки
6,7,Завод Квант,Производственное предприятие
7,8,Рэго,Остановка общественного транспорта
8,9,Диагностика,"Автосервис, автотехцентр"
9,10,Алазейский Наслег,Остановка общественного транспорта


In [21]:
test_data[['Id', 'Category']].to_csv('result.csv', index=False)

---
###### Данное  решение получает 42% accuracy на тесте

Посмотрим на примеры правильных и неправильных классификаций

In [23]:
%%time
train_predictions = []

for i in tqdm_notebook(range(1000)):
    train_predictions.append(agent.predict([train_X[i]])[0])

HBox(children=(IntProgress(value=0, max=1000), HTML(value='')))


CPU times: user 784 ms, sys: 41.3 ms, total: 825 ms
Wall time: 257 ms


In [28]:
example_predictions = train_data.iloc[np.arange(1000)].copy()

In [29]:
example_predictions['Prediction'] = list(map(lambda x: id_cat[x], train_predictions))

In [31]:
mask = (example_predictions['category'] == example_predictions['Prediction'])

In [35]:
example_predictions.loc[mask == True].head(20)

Unnamed: 0,name,category,Prediction
1,Мастерок,Строительный магазин,Строительный магазин
2,Суши-бар,Суши-бар,Суши-бар
4,Универсам Бегемот,Супермаркет,Супермаркет
7,"Ростов Арена, блок D418",Блок стадиона,Блок стадиона
8,Детские игровые залы и площадки,Детские игровые залы и площадки,Детские игровые залы и площадки
9,ДЮСШ,Спортивная школа,Спортивная школа
11,Администрация Найфельдского Сельского Поселени...,Администрация,Администрация
12,Детские игровые залы и площадки,Детские игровые залы и площадки,Детские игровые залы и площадки
16,МАОУ СОШ № 20 Городского Округа г. Стерлитамак РБ,Общеобразовательная школа,Общеобразовательная школа
18,Автосалон,Автосалон,Автосалон


In [36]:
example_predictions.loc[mask == False].head(20)

Unnamed: 0,name,category,Prediction
0,Автобусная компания Транспорт52,Автобусные междугородные перевозки,Автомобильные грузоперевозки
3,Экспром,Металлоизделия,Строительная компания
5,Русстрой,Кровля и кровельные материалы,Остановка общественного транспорта
6,Прародомысл,Юридические услуги,Администрация
10,Корпорация Енисей,Магазин автозапчастей и автотоваров,Строительная компания
13,Обнова,Магазин обуви,Магазин одежды
14,Казань-елки.рф,Ёлочный базар,Остановка общественного транспорта
15,AROMAgroup - Барнаул,"Очистители, увлажнители и ароматизаторы воздуха",Остановка общественного транспорта
17,Стальпром,Металлические заборы и ограждения,АЗС
20,414 Км,Непассажирская станция,Железнодорожная станция


---
###### Как видим, достаточно часто неправильные предсказания близки к правильным