In [32]:
import pandas as pd
from string import punctuation
from stop_words import get_stop_words
from pymorphy2 import MorphAnalyzer
import re
import nltk
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

import numpy as np
import keras
from keras.models import Sequential, Model
from keras.layers import Dense, Dropout, Activation, Input, Embedding, Conv1D, GlobalMaxPool1D
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.callbacks import TensorBoard 
from keras.objectives import categorical_crossentropy
from keras.callbacks import EarlyStopping  

In [2]:
max_words = 2000
max_len = 40
num_classes = 1

# Training
epochs = 20
batch_size = 512
print_batch_n = 100

In [3]:
data = pd.read_excel("/home/alex/Downloads/nlp/5/отзывы за лето.xls")

In [4]:
data.head()

Unnamed: 0,Rating,Content,Date
0,5,It just works!,2017-08-14
1,4,В целом удобноное приложение...из минусов хотя...,2017-08-14
2,5,Отлично все,2017-08-14
3,5,Стал зависать на 1% работы антивируса. Дальше ...,2017-08-14
4,5,"Очень удобно, работает быстро.",2017-08-14


In [5]:
exclude = set(punctuation)
sw = set(get_stop_words("ru"))
morpher = MorphAnalyzer()

def preprocess_text(txt):
    txt = str(txt)
    txt = "".join(c for c in txt if c not in exclude)
    txt = txt.lower()
    txt = re.sub("\sне", "не", txt)
    txt = [morpher.parse(word)[0].normal_form for word in txt.split() if word not in exclude]
    return " ".join(txt)

data['text'] = data['Content'].apply(preprocess_text)
data = data[data['Rating'] != 3]
data['target'] = data['Rating'] > 3

In [6]:
data['target'] = data['target'].astype(int)
data.head()

Unnamed: 0,Rating,Content,Date,text,target
0,5,It just works!,2017-08-14,it just works,1
1,4,В целом удобноное приложение...из минусов хотя...,2017-08-14,в целое удобноной приложениеиз минус хотеть сл...,1
2,5,Отлично все,2017-08-14,отлично весь,1
3,5,Стал зависать на 1% работы антивируса. Дальше ...,2017-08-14,стать зависать на 1 работа антивирус далёкий н...,1
4,5,"Очень удобно, работает быстро.",2017-08-14,очень удобно работать быстро,1


In [10]:
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['target'], test_size=0.2,
                                                    random_state=13, stratify=data['target'])

In [12]:
train_corpus = " ".join(X_train)
train_corpus = train_corpus.lower()

In [13]:
train_corpus

'классно невозможно использовать на рутованный телефон работать хорошо без нарекание отлично ян мочь понять почему заблокировать мой аккаунт классный приложение очень удобный в использовании👍 постоянно запускаться сам при запуск программа или игра бесить и напрягать удалить удобный приложение позволять в мгновение око выполнить перевод средство пополнить баланс телефон и просто смотреть сумма на карта удобно надёжно приятно отличный приложение и отдельный спасибо антивирус очень удобно когда под рука находиться мобильный банкперевод деньга можно осущесьалятьня выходить из дом весь огонь нормальный приложение довольно удобно с пиво попрать не мочь установить после вирус самый нужный приложение в мыть телефон безний как без рука весь ок удобноработать без зависанийя давольный работа это приложение im not happy with the app it lags and and not user friendly it should make life easy instead it creates more problems очень удобно спасибо только приходиться отключать антивирус чтобы зайти в п

In [14]:
tokens = word_tokenize(train_corpus)

In [15]:
tokens_filtered = [word for word in tokens if word.isalnum()]

In [16]:
from nltk.probability import FreqDist
dist = FreqDist(tokens_filtered)
tokens_filtered_top = [pair[0] for pair in dist.most_common(max_words-1)]

In [52]:
tokens_filtered_top

['приложение',
 'весь',
 'и',
 'очень',
 'удобно',
 'в',
 'я',
 'на',
 'работать',
 'удобный',
 'с',
 'что',
 'отлично',
 'спасибо',
 'нравиться',
 'хороший',
 'отличный',
 'это',
 'хорошо',
 'телефон',
 'по',
 'супер',
 'после',
 'но',
 'раз',
 'мочь',
 'быть',
 'а',
 'за',
 'быстро',
 'просто',
 'обновление',
 'при',
 'пользоваться',
 'как',
 'так',
 'у',
 'антивирус',
 'устраивать',
 'вы',
 'сбербанк',
 'только',
 'не',
 'пароль',
 'пока',
 'карта',
 'то',
 'свой',
 'нормальный',
 'для',
 'прошивка',
 'вход',
 'без',
 'банк',
 'из',
 'рута',
 'перевод',
 'норма',
 'есть',
 'один',
 'сделать',
 'программа',
 'деньга',
 'разработчик',
 'счёт',
 'проблема',
 'писать',
 'время',
 'ошибка',
 'довольный',
 'бы',
 'ваш',
 'можно',
 'ок',
 'платёж',
 'или',
 'к',
 'мой',
 'он',
 'до',
 'стать',
 'другой',
 'постоянно',
 'приходиться',
 'через',
 'уже',
 'два',
 'понятно',
 'вводить',
 'если',
 'этот',
 'ещё',
 'исправить',
 'надо',
 'нужно',
 'тот',
 'функция',
 'долго',
 'код',
 'ни',
 'во

In [17]:
vocabulary = {v: k for k, v in dict(enumerate(tokens_filtered_top, 1)).items()}

In [18]:
vocabulary

{'приложение': 1,
 'весь': 2,
 'и': 3,
 'очень': 4,
 'удобно': 5,
 'в': 6,
 'я': 7,
 'на': 8,
 'работать': 9,
 'удобный': 10,
 'с': 11,
 'что': 12,
 'отлично': 13,
 'спасибо': 14,
 'нравиться': 15,
 'хороший': 16,
 'отличный': 17,
 'это': 18,
 'хорошо': 19,
 'телефон': 20,
 'по': 21,
 'супер': 22,
 'после': 23,
 'но': 24,
 'раз': 25,
 'мочь': 26,
 'быть': 27,
 'а': 28,
 'за': 29,
 'быстро': 30,
 'просто': 31,
 'обновление': 32,
 'при': 33,
 'пользоваться': 34,
 'как': 35,
 'так': 36,
 'у': 37,
 'антивирус': 38,
 'устраивать': 39,
 'вы': 40,
 'сбербанк': 41,
 'только': 42,
 'не': 43,
 'пароль': 44,
 'пока': 45,
 'карта': 46,
 'то': 47,
 'свой': 48,
 'нормальный': 49,
 'для': 50,
 'прошивка': 51,
 'вход': 52,
 'без': 53,
 'банк': 54,
 'из': 55,
 'рута': 56,
 'перевод': 57,
 'норма': 58,
 'есть': 59,
 'один': 60,
 'сделать': 61,
 'программа': 62,
 'деньга': 63,
 'разработчик': 64,
 'счёт': 65,
 'проблема': 66,
 'писать': 67,
 'время': 68,
 'ошибка': 69,
 'довольный': 70,
 'бы': 71,
 'ваш'

In [19]:
def text_to_sequence(text, maxlen):
    result = []
    tokens = word_tokenize(text.lower())
    tokens_filtered = [word for word in tokens if word.isalnum()]
    for word in tokens_filtered:
        if word in vocabulary:
            result.append(vocabulary[word])
    padding = [0]*(maxlen-len(result))
    return padding + result[-maxlen:]

In [20]:
x_train = np.asarray([text_to_sequence(text, max_len) for text in X_train], dtype=np.int32)
x_test = np.asarray([text_to_sequence(text, max_len) for text in X_test], dtype=np.int32)

In [21]:
x_train

array([[  0,   0,   0, ...,   0,   0, 267],
       [  0,   0,   0, ...,   8, 998,  20],
       [  0,   0,   0, ...,  19,  53, 480],
       ...,
       [  0,   0,   0, ...,   0,   0,   5],
       [  0,   0,   0, ...,   0,   0,  22],
       [  0,   0,   0, ...,   0,   2,  19]], dtype=int32)

In [23]:
num_classes = 2
y_train = keras.utils.to_categorical(y_train, num_classes)
y_val = keras.utils.to_categorical(y_test, num_classes)

In [24]:
model = Sequential()
model.add(Embedding(input_dim=max_words, output_dim=128, input_length=max_len))
model.add(Conv1D(128, 3))
model.add(Activation("relu"))
model.add(GlobalMaxPool1D())
model.add(Dense(10))
model.add(Activation("relu"))
model.add(Dense(num_classes))
model.add(Activation('softmax'))

Instructions for updating:
If using Keras pass *_constraint arguments to layers.


In [25]:
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [26]:
tensorboard=TensorBoard(log_dir='./logs', write_graph=True, write_images=True)
early_stopping=EarlyStopping(monitor='val_loss')  


history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_split=0.1,
                    callbacks=[tensorboard, early_stopping])


Train on 14218 samples, validate on 1580 samples


Epoch 1/20

Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20


In [29]:
score = model.evaluate(x_test, y_val, batch_size=batch_size, verbose=1)
print('\n')
print('Test score:', score[0])
print('Test accuracy:', score[1])



Test score: 0.16928679318367681
Test accuracy: 0.9255695939064026


In [30]:
results = model.predict(x_test, batch_size=batch_size, verbose=1)



In [37]:
roc_auc_score(y_test, results[:, 1])

0.9664220682157901

# 2

In [38]:
from gensim.models import Word2Vec

In [40]:
sentences = X_train.apply(lambda x: x.split())

In [44]:
sentences.values

array([list(['классно']),
       list(['невозможно', 'использовать', 'на', 'рутованный', 'телефон']),
       list(['работать', 'хорошо', 'без', 'нарекание']), ...,
       list(['удобно']), list(['супер']), list(['весь', 'хорошо'])],
      dtype=object)

In [49]:
modelW2V = Word2Vec(sentences=sentences.values, size=128, window=5, min_count=1)

In [55]:
modelW2V.syn1neg[:max_words].shape

  """Entry point for launching an IPython kernel.


(2000, 128)

In [56]:
model = Sequential()
model.add(Embedding(input_dim=max_words, output_dim=128,
                    input_length=max_len, weights=[modelW2V.syn1neg[:max_words]], trainable=False))
model.add(Conv1D(128, 3))
model.add(Activation("relu"))
model.add(GlobalMaxPool1D())
model.add(Dense(10))
model.add(Activation("relu"))
model.add(Dense(num_classes))
model.add(Activation('softmax'))

  


In [57]:
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [58]:
tensorboard=TensorBoard(log_dir='./logs', write_graph=True, write_images=True)
early_stopping=EarlyStopping(monitor='val_loss')  


history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_split=0.1,
                    callbacks=[tensorboard, early_stopping])

Train on 14218 samples, validate on 1580 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20


In [59]:
results = model.predict(x_test, batch_size=batch_size, verbose=1)



In [60]:
roc_auc_score(y_test, results[:, 1])

0.9076013292319856

При инициализации эмбеддинга предобучеными весами, модель показывает худшее качество

In [61]:
model = Sequential()
model.add(Embedding(input_dim=max_words, output_dim=128,
                    input_length=max_len, weights=[modelW2V.syn1neg[:max_words]]))
model.add(Conv1D(128, 3))
model.add(Activation("relu"))
model.add(GlobalMaxPool1D())
model.add(Dense(10))
model.add(Activation("relu"))
model.add(Dense(num_classes))
model.add(Activation('softmax'))

  This is separate from the ipykernel package so we can avoid doing imports until


In [62]:
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [63]:
tensorboard=TensorBoard(log_dir='./logs', write_graph=True, write_images=True)
early_stopping=EarlyStopping(monitor='val_loss')  


history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_split=0.1,
                    callbacks=[tensorboard, early_stopping])

Train on 14218 samples, validate on 1580 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20


In [64]:
results = model.predict(x_test, batch_size=batch_size, verbose=1)



In [65]:
roc_auc_score(y_test, results[:, 1])

0.9683136295692351

Однако, если использовать их только как отправную точку, и позволить модели их обучать, то на выходе получается качество, несколько выше чем при случайной инициализации.