In [2]:
import numpy as np
from sklearn.svm import LinearSVC
import pickle
from joblib import dump, load
from sklearn.model_selection import train_test_split

In [3]:
def load_file(name, path_n):
    """ Loads prepared data from files saving data structure """
    with open('{path}/{name}.pickle'.format(name=name, path=path_n), 'rb') as handle:
        b = pickle.load(handle)
    return b

### Forming dataset for training and testing model

In [4]:
# load data from files

path = 'prepared_data'

positive_reviews = load_file('data_positive',path)
neutral_reviews = load_file('data_neutral',path)
negative_reviews = load_file('data_negative',path)

In [5]:
# form general corpus "X"

data = np.concatenate((positive_reviews,neutral_reviews))
data = np.concatenate((data,negative_reviews))

In [6]:
# form labels "Y"

labels_positive = np.ones(len(positive_reviews))
labels_neutral = [-(n ** 0) for n in range(len(neutral_reviews))] # define rating 3 as negative review
labels_negative = [-(n ** 0) for n in range(len(negative_reviews))]


Y = np.concatenate((labels_positive,labels_neutral))
Y = np.concatenate((Y,labels_negative))

In [7]:
# Splitting general dataset into training and test datasets

X_train, X_test, y_train, y_test = train_test_split(data, Y, test_size=0.15, random_state=42)

In [8]:
# Vectorize training dataset

vectorizer = load('vectorizer.joblib')
X_train = vectorizer.transform(X_train)

### Initialize and train model

In [9]:
svc = LinearSVC(dual='auto')
X_svc = svc.fit(X_train,y_train)

### Check resulting model

In [10]:
x_all = vectorizer.transform(X_test)
y_all = X_svc.predict(x_all)

In [11]:
list(map(int,y_all))
sum = 0
for i in range(len(y_test)):
    if y_test[i] == y_all[i]:
        sum += 1

print('Estimator accuracy is',"{:2.4f}".format(sum/len(y_test) * 100) + '%')

Estimator accuracy is 87.7389%


In [12]:
index = 34

In [13]:
x = vectorizer.transform([X_test[index]])
y = int(X_svc.predict(x)[0])

In [14]:
print('Review: ')
X_test[index]

Review: 


'прислать отделение сменить телефон один другой при смена телефон прийти смс подтверждениеть смена этот же день совершить сбп перевод смс прийти старый телефон написать чат где очень некомпетентный сотрудник не понимать он хотеть итог сообщить ошибка теперь всё работать далее онлайн ничего не оплачивать проверить не возможность сегодня попатыться оплатить госпошлина госуслуга смс не приходить чат опять сотрудник сказать смс приходить старый номер сказать опять идти отделение чтобы опять менять номер онлайн они ничего сделать не есть отделение работать некомпетентный специалист не сменить номер система не работать работать ошибка номер уведомление нельзя нормально сменить чат тоже работать обманщик игнорировать вопрос выходить произвольно чат _ смс не приходить _ где опять старый телефон'

In [15]:
if y == 1: print('Положительный')
elif y == 0: print('Нейтральный')
else: print('Негативный')

Негативный


### Saving model

In [16]:
dump(X_svc, 'SVC_model.joblib')

['SVC_model.joblib']