In [55]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [56]:
df = pd.read_csv('preprocessed_dataset.csv')
df.head()

Unnamed: 0,id,text,classes,text_final,FMCG,HoReCa,"Автомобили, мотоциклы",Аптеки,"Банковские, финансовые услуги",Бытовая и цифровая техника,...,Сенсорные технологии,Строительство,Телефония,Товары для животных,"Услуги по доставке, курьерские услуги",Фармацевтика,"Финансовые, банковские услуги",Химическая промышленность,Хранение,Частная медицина
0,28C2BJvmEsQKiS4AEO2eIE,"['за', 'период', 'с', 'сентября', '2017', 'год...",['FMCG'],период сентябрь 2017 год октябрь 2018 год росс...,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,65s7gPkLFmgkeIQQWCCcWW,"['также', 'аналитики', 'knight', 'frank', 'про...","['Недвижимость', 'Хранение']",также аналитика knight frank прогнозировать ко...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,2ldCvrzcf6wcwOMwiI2A4U,"['несмотря', 'на', 'то', 'что', 'основные', 'э...",['FMCG'],несмотря основной экономический показатель нах...,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,SlQ8gdBQCiQwgUuQMaY0g,"['россия', 'обладает', 'мощным', 'сегментом', ...","['FMCG', 'Пищевая промышленность']",россия обладать мощный сегмент хлебопекарный п...,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5KWOefdhVC8ai4qQOmCoco,"['доля', 'свободных', 'офисных', 'площадей', '...",['Недвижимость'],доля свободный офисный площадь уменьшиться ква...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Формирование обучающей и тестовой выборки

In [57]:
train, test = train_test_split(df, random_state=42, test_size=0.33, shuffle=True)

In [58]:
X_train = train.text_final
X_test = test.text_final

In [59]:
print(X_train.shape)
print(X_test.shape)

(91,)
(46,)


In [60]:
train_text = train['text_final']
test_text = test['text_final']

### Формирование векторов для обучения

In [78]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Преобразование данных из таблицы в вектор свойств TF-IDF
vectorizer = TfidfVectorizer(strip_accents='unicode', analyzer='word', ngram_range=(1,3), norm='l2')
vectorizer.fit(train_text)
vectorizer.fit(test_text)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 3), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents='unicode', sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [62]:
x_train = vectorizer.transform(train_text)
y_train = train.drop(labels = ['id', 'text', 'text_final', 'classes'], axis=1)

x_test = vectorizer.transform(test_text)
y_test = test.drop(labels = ['id', 'text', 'text_final', 'classes'], axis=1)

In [63]:
x_train

<91x47893 sparse matrix of type '<class 'numpy.float64'>'
	with 26038 stored elements in Compressed Sparse Row format>

In [64]:
y_train[:10]

Unnamed: 0,FMCG,HoReCa,"Автомобили, мотоциклы",Аптеки,"Банковские, финансовые услуги",Бытовая и цифровая техника,Деревообработка,Инвестиции,Интернет-торговля,Кадры,...,Сенсорные технологии,Строительство,Телефония,Товары для животных,"Услуги по доставке, курьерские услуги",Фармацевтика,"Финансовые, банковские услуги",Химическая промышленность,Хранение,Частная медицина
15,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
86,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
39,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
22,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
55,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
73,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
97,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
47,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
30,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
80,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [65]:
categories = list(df.columns.values)
categories = categories[4:]
categories

['FMCG',
 'HoReCa',
 'Автомобили, мотоциклы',
 'Аптеки',
 'Банковские, финансовые услуги',
 'Бытовая и цифровая техника',
 'Деревообработка',
 'Инвестиции',
 'Интернет-торговля',
 'Кадры',
 'Лесное хозяйство',
 'Мебель, товары для дома и ремонта',
 'Напитки',
 'Недвижимость',
 'Одежда, обувь, аксессуары',
 'Пищевая промышленность',
 'Программное обеспечение',
 'Производство транспортных средств',
 'Промышленное оборудование',
 'Растениеводство',
 'Реклама',
 'Рестораны',
 'Салоны красоты и SPA',
 'Сенсорные технологии',
 'Строительство',
 'Телефония',
 'Товары для животных',
 'Услуги по доставке, курьерские услуги',
 'Фармацевтика',
 'Финансовые, банковские услуги',
 'Химическая промышленность',
 'Хранение',
 'Частная медицина']

### Задача классификации

Задача относится к классификации по нескольким меткам (Multi Label Text Classification).
Метки не являются взаимоисключающими.

Существует два основных метода решения проблемы классификации по нескольким меткам: 
методы преобразования проблем и методы адаптации алгоритмов.

Методы преобразования задач преобразуют проблему с несколькими метками в набор задач двоичной классификации, 
которые затем могут быть обработаны с использованием классификаторов одного класса.

### Логистическая регрессия (OneVsRest) 

https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html

или метод бинарной релевантности.

Каждая метка представлена своим собственным классификатором и обучение всех классификаторов проводится независимо друг от друга. Это наиболее часто используемая стратегия для multiclass и multilabel классификации и является справедливым выбором по умолчанию.

In [66]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score
from sklearn.multiclass import OneVsRestClassifier

In [67]:
LogReg_pipeline = Pipeline([
    ('clf', OneVsRestClassifier(LogisticRegression(solver='sag'), n_jobs=-1)),
])

for category in categories:
    print('**Processing {} comments...**'.format(category))
    
    # Тренировка модели
    LogReg_pipeline.fit(x_train, train[category])
    
    # вычисление точности
    prediction = LogReg_pipeline.predict(x_test)
    print('Test accuracy is {}'.format(accuracy_score(test[category], prediction)))
    print("\n")

**Processing FMCG comments...**
Test accuracy is 0.6956521739130435


**Processing HoReCa comments...**
Test accuracy is 0.9782608695652174


**Processing Автомобили, мотоциклы comments...**
Test accuracy is 1.0


**Processing Аптеки comments...**
Test accuracy is 1.0


**Processing Банковские, финансовые услуги comments...**
Test accuracy is 0.8913043478260869


**Processing Бытовая и цифровая техника comments...**
Test accuracy is 0.9565217391304348


**Processing Деревообработка comments...**
Test accuracy is 1.0


**Processing Инвестиции comments...**
Test accuracy is 0.9782608695652174


**Processing Интернет-торговля comments...**
Test accuracy is 0.8043478260869565


**Processing Кадры comments...**
Test accuracy is 1.0


**Processing Лесное хозяйство comments...**
Test accuracy is 1.0


**Processing Мебель, товары для дома и ремонта comments...**
Test accuracy is 1.0


**Processing Напитки comments...**
Test accuracy is 1.0


**Processing Недвижимость comments...**
Test accurac

### Multiple Binary Classifications

http://scikit.ml/api/skmultilearn.problem_transform.br.html
    
BinaryRelevance преобразует задачу классификации с несколькими N метками в N отдельные задачm с двоичной классификацией с одной меткой, используя тот же базовый классификатор, который предоставляется в конструкторе.

In [68]:
%%time

# using binary relevance
from skmultilearn.problem_transform import BinaryRelevance
from sklearn.naive_bayes import GaussianNB

# в качестве базового классификатора используется гаусовский наивный байесовский классификатор
classifier = BinaryRelevance(GaussianNB())

# тренировка
classifier.fit(x_train, y_train)

predictions = classifier.predict(x_test)

print("Accuracy = ",accuracy_score(y_test,predictions))
print("\n")

Accuracy =  0.2826086956521739


CPU times: user 2.61 s, sys: 968 ms, total: 3.58 s
Wall time: 3.6 s


### LabelPowerset

http://scikit.ml/api/skmultilearn.problem_transform.lp.html#skmultilearn.problem_transform.LabelPowerset

Преобразует задачу multi-label в задачу multi-class, при этом один многоклассовый классификатор обучается по всем уникальным комбинациям меток, найденным в данных обучения.
Этот подход учитывает возможные корреляции между метками классов. Данный классификатор имеет квадратическую скорость обучения.

In [69]:
# using Label Powerset
from skmultilearn.problem_transform import LabelPowerset

In [70]:
%%time

classifier = LabelPowerset(LogisticRegression())

# тренировка
classifier.fit(x_train, y_train)

predictions = classifier.predict(x_test)

print("Accuracy = ",accuracy_score(y_test,predictions))
print("\n")



Accuracy =  0.32608695652173914


CPU times: user 257 ms, sys: 68.7 ms, total: 326 ms
Wall time: 280 ms


### Multilabel k Nearest Neighbours (k-ближайших соседей для multilabel)

http://scikit.ml/api/skmultilearn.adapt.mlknn.html#skmultilearn.adapt.MLkNN

Метод k-ближайших соседей адаптированный для multilabel классификации.

In [71]:
from skmultilearn.adapt import MLkNN
from scipy.sparse import csr_matrix, lil_matrix

In [72]:
%%time

classifier_new = MLkNN(k=10)

x_train = lil_matrix(x_train).toarray()
y_train = lil_matrix(y_train).toarray()
x_test = lil_matrix(x_test).toarray()

classifier_new.fit(x_train, y_train)

predictions_new = classifier_new.predict(x_test)

print("Accuracy = ",accuracy_score(y_test,predictions_new))
print("\n")

Accuracy =  0.391304347826087


CPU times: user 1.23 s, sys: 46.8 ms, total: 1.28 s
Wall time: 1.06 s


Для проведения качественного обучения обучающая выборка крайне мала. Для улучшения качества результата я бы расширил корпус данными из других аналогичных источников.
Так же, для решения проблемы классификации можно алгоритмы глубокого обучения.

### Сохранение обученной модели

In [73]:
import pickle

In [74]:
model = classifier_new

In [75]:
pkl_filename = "pickle_model.pkl"  
with open(pkl_filename, 'wb') as file:  
    pickle.dump(model, file)

Загрузка модели из файла

In [76]:
with open(pkl_filename, 'rb') as file:  
    pickle_model = pickle.load(file)

Расчет точности и предсказание результата

In [77]:
score = pickle_model.score(x_test, y_test)  
print("Test score: {0:.2f} %".format(100 * score))  
Ypredict = pickle_model.predict(x_test)  

Test score: 39.13 %
