In [None]:
# matchers
f_matcher = lambda x: x.Пол == 'ж'
m_matcher = lambda x: x.Пол == 'м'        

yl18_matcher = lambda x: x.Год > 2000
y18_27_matcher = lambda x: 1991 <= x.Год <= 2000
y28_40_matcher = lambda x: 1978 <= x.Год <= 1991
yg40_matcher = lambda x: x.Год > 1978

no_level_matcher = lambda x: x.Профессия == '-'
teacher_matcher = lambda x:  x.Профессия == 'учитель'
writer_matcher = lambda x:   x.Профессия == 'писатель'

no_mentality_mantcher = lambda x: x.гумтех == 'без'
humanist_matcher = lambda x: x.гумтех == 'гум'
techie_matcher = lambda x:   x.гумтех == 'тех'


tag_dict = {
    'м': {
        'file':'males.txt',
        'matcher':m_matcher,
        'value':[0]
    },
    'ж': {
        'file':'femalies.txt',
        'matcher':f_matcher,
        'value':[1]
    },
    'моложе_18': {
        'file':'younger_18.txt',
        'matcher':yl18_matcher,
        'value': [0,0,0,1]
    },
    '18_27': {
        'file':'from_18_to_27.txt',
        'matcher':y18_27_matcher,
        'value':[0,0,1,0]
    },
    '28_40': {
        'file':'from_27_to_40.txt',
        'matcher':y28_40_matcher,
        'value':[0,1,0,0]
    },
    'старше_40': {
        'file':'older_41.txt',
        'matcher':yg40_matcher,
        'value':[1,0,0,0]
    },
    'неизв_проф': {
        'file':'unknown_level.txt',
        'matcher':no_level_matcher,
        'value':[0,0,1]
    },
    'учитель': {
        'file':'teachers.txt',
        'matcher':teacher_matcher,
        'value':[0,1,0]
    },
    'писатель': {
        'file':'writers.txt',
        'matcher':writer_matcher,
        'value':[1,0,0]
    },
    'неизв_склад': {
        'file':'unknown_mentality.txt',
        'matcher':no_mentality_mantcher,
        'value':[0,0,1]
    },
    'гуманитарий': {
        'file':'humanists.txt',
        'matcher':humanist_matcher,
        'value':[0,1,0]
    },
    'технарь': {
        'file':'techies.txt',
        'matcher':techie_matcher,
        'value':[1,0,0]
    },
    
}

# TAGS
genders = ['ж', 'м']
years = ['моложе_18', '18_27','28_40', 'старше_40']
level = ['неизв_проф', 'учитель', 'писатель']
mentality = ['неизв_склад', 'гуманитарий', 'технарь']


In [None]:
import numpy as np
import nltk
import pymorphy2
from math import log
from re import sub

morph = pymorphy2.MorphAnalyzer()
rutokenizer = nltk.data.load('russian.pickle')

# utils
def tags_size(tags):
    if len(tags) <= 2:
        return 1
    return len(tags)

def total_sum_word(sentences):
    total_sum = 0
    total_word = 0
    for s in sentences:
        total_sum += sum(len(word) for word in s)
        total_word += len(s)
    return total_sum, total_word

def morph_sentence(sentence):
    clearSentence = sub(r'[\.\—\?\!\n\t\,\«\»\)\(\:\/\=]',' ',sentence)
    return [morph.parse(word.lower())[0].normal_form for word in clearSentence.split()]


# Выделяем признаки
def review_length(sentences):
    total_sum, total_word = total_sum_word(sentences)
    return log(total_word)

def avg_word_len(sentences):
    total_sum, total_word = total_sum_word(sentences)
    return  total_sum / total_word

def avg_sent_len(sentences):
    total_sum, total_word = total_sum_word(sentences)
    return total_word / len(sentences)

def avg_use_of(words, sentences):
    use_count = 0
    total_sum, total_word = total_sum_word(sentences)
    for sent in sentences:
        msent = morph_sentence(sent)
        for w in words:
            if w in msent:
                use_count += 1
    return use_count / (1 + total_word)

def get_flesch_readability_score(sentences):
    def nsyl(word):
        vowels = 'аоиеёэыуюя'
        lowercase = word.lower()
        return max(1, len([x for x in lowercase if x in vowels]))
    def avg(list_list_int):
        total_syl = 0
        total_words = 0
        for list_int in list_list_int:
            total_words += len(list_int)
            total_syl += sum(list_int)
        return total_syl / total_words, total_words / len(list_list_int)
    list_out = []
    for s in sentences:
        list_in = []
        for w in s:
            list_in.append(nsyl(w))
        list_out.append(list_in)
    W, S = avg(list_out)
    K= 206.836 - 65.14 * W - 1.52 * S
    return K

def get_feats(review):
    sentences = rutokenizer.tokenize(review)
    return [avg_word_len(sentences), 
            review_length(sentences),
            avg_use_of('не', sentences),
            get_flesch_readability_score(sentences)]



In [None]:
import codecs

# задаем для воспроизводимости результатов
np.random.seed(2)

In [None]:
# выбираем тэги
# tags = gender[:]
# tags = years[:]
tags = level[:]
# tags = mentality[:]

# генерируем датасет
filecontents = []
for tag in tags:
    with codecs.open('splitted_corpora/' + tag_dict[tag]['file'], 'r', encoding='utf-8') as f:
        filecontents.append(f.read().splitlines())

min_length = min(min(map(len, filecontents)), 100)
train_data = []
label_data = []
for idx, content in enumerate(filecontents):
    label = tag_dict[tags[idx]]['value']
    for row in range(0, min_length):
        feats = get_feats(content[row])
        train_data.append(feats)
        label_data.append(label)

print('FINISHED')

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation

# создаем модели, добавляем слои один за другим
model = Sequential()
model.add(Dense(12, input_dim=4, activation='relu')) # входной слой требует задать input_dim
model.add(Dense(15, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(10, activation='relu'))
model.add(Dense(tags_size(tags), activation='sigmoid')) # сигмоида вместо relu для определения вероятности

# компилируем модель, используем градиентный спуск adam
model.compile(loss="binary_crossentropy", 
              optimizer="adam", metrics=['accuracy'])

# обучаем нейронную сеть
NPARR_TRAINING_DATA = np.array(train_data)
NPARR_LABEL_DATA = np.array(label_data)

model.fit(NPARR_TRAINING_DATA, NPARR_LABEL_DATA, 
          epochs = 1000, batch_size=10)

# оцениваем результат
scores = model.evaluate(NPARR_TRAINING_DATA, NPARR_LABEL_DATA)
print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

In [None]:
# Предсказываем
import operator



review_1='''
Отличная детская фантастика в лучших традициях хорошей отечественной детской литературы. Повесть про погрязжего в бурчании и ворчании мальчика Матвея, которому не повезло случайно угодить в параллельную реальность. Вроде бы вокруг тот же самый мир, только родители Матвея много лет назад родили не мальчика, а девочку. А Матвею в этой реальности, кажется, и места-то нет: никто его не узнает, никто не верит. Придется как-то выбираться из непростой ловушки и возвращаться домой, пока еще есть надежда что-то исправить.

В принципе, если присмотреться, можно разглядеть типичные характеры. Главный герой – эгоистичен, но по ходу дела набивает шишки и перевоспитывается. Его новообретенная сестра-близнец – эдакий пионер, ребятам пример. Добрая, умная, понимающая, отрада родительских глаз. Классный руководитель – идеальный взрослый, умеет общаться с подопечными на равных, но берет на себя ответственность, когда припечет, все понимающий, в меру строгий, надежный, как скала. Веня – нелепый и неуклюжий паренек без друзей, который не так прост на самом деле. Знакомые все лица, но едва ли кто-то обвинит повесть во вторичности. Нет, типажи здесь использованы блестяще, не прикопаешься. Вроде бы узнаваемы, но это новые лица, и они как будто стоят на ступеньку выше других представителей того же племени. Немножко живее, немножко несовершеннее – а эффект совсем другой.

Книга, конечно, несет явный моральный посыл. Фантастическая составляющая и предположения о том, как работают параллельные реальности, уступают первое место темам настоящей дружбы, благодарности родителям, умению отвечать за свои поступки, думать о других, и так далее. И опять же похоже на хорошие советские детские книжки: они обязательно чему-то учат, но так, что за живыми характерами и невероятными приключениями того и не замечаешь.

Не понравилось только, что автор рисует из виртуального мира какого-то во всем виноватого монстра и абсолютное зло, дескать, настоящая жизнь может быть только подальше от компьютера. Очень однобокий и некорректный взгляд, как по мне. Наверное, это в противовес повышенному интересу к виртуальности у современных детей, типа хоть так заставим их оторваться от диванов и пойти на улицу мяч погонять – но мне кажется, однобокий подход скорее навредит, чем поможет.
Но это действительно крохотная ложечка дегтя в огромной бочке меда. Книга чудесная.
'''

review_2='''
Увы, нет, чуда не произошло. Совершенно не моя книга, абсолютно другому читателю адресованная – более романтичному, более легкому, что ли. Мне слишком мешает цинизм и некоторое занудство. Можно еще скрепя сердце поверить, что девушка влюбилась в парня, увидев его на остановке автобуса, за 20 секунд созерцания. Можно даже принять как данность, что и парень тоже ее запомнил в тех же обстоятельствах. Но сколько может длиться этот интерес – неделю? От силы две? Ладно, если уж совсем в жизни нечем заняться – месяц, но это максимум. Лори же практически год ищет вьюношу и сохнет по нему, не имея никакой подпитки после 20 секунд визуального контакта на расстоянии. Потом наконец-то знакомится и, спойлер, еще лет восемь будет страдать. Пожалуй, в 15 лет я бы и сочла это очень романтичным, а сейчас посоветовала бы ей поговорить с психологом и разобраться, откуда ноги растут у нездоровых привязанностей на ровном месте.

Сара, подружка ее, тоже хороша. Во всех подробностях знает о встрече на остановке, едва ли не фоторобот парня в кармане носит, чтобы сверять со всеми встречными мужиками и помочь тем самым Лори обрести любовь. А потом едет с этим парнем в одном лифте и кадрит его, вообще ничего не заподозрив.

И даже это могло бы быть сносным сюжетным костяком для неплохой романтической комедии, но во-первых, там нет комедии, во-вторых, на этот костяк ничего и не крепится, кроме ахов-вздохов о тяжелой жизни. Раскрытия персонажей практически нет, чуть-чуть наметилось было, но автор в ту сторону не пошла, вернулась к охам. Какой-либо интриги нет, финал понятен с первой встречи голубков. Глубины и красоты тоже не заметила. Все действие – герои встречаются, пьют что-то алкогольное и бесконечно одергивают себя «ах, дурак я этакий, дура я тупая, любить нельзя бросить».

Увы, для меня это пустышка.
'''

review_3='''
Никак не ожидал, что понравится подобная книга. Морская тематика - как-то вообще не мое. Но, как и предыдущая прочитанная мною книга в рамках Флешмоба-2018 ("Госпожа Бовари"), эта история превзошла все мои ожидания. Стоит отметить, что это первое мое знакомство с Джеком Лондоном, и после него, безусловно, все-таки ознакомлюсь и с другими.

Слушал я данное произведение в аудио-формате достаточно долгое время, и каждое новое прослушивание ждал с нетерпением. Повествование ведется от человека, можно сказать, нежного, и мы видим его очень реалистичное преображение, преображение его характера. Его антипод - Волк Ларсен, один, наверное, из ярчайших литературных героев. Волк - огонь, буря, сила. Среди этих двух героев мне больше близок первый, Хэмфри, ко второму же я испытывал сильную антипатию на протяжении всего романа, но чтению это не помешало. Противостояние этих двух непохожих во всех смыслах людей, идеалиста и материалиста, проходит сквозь весь сюжет "Морского волка". И лично для себя я не могу сказать, кто победил в этой схватке;

Соглашусь со многими читателями, для меня любовная линия с Мод в романе была лишней, хотя общих впечатлений она не подпортила. Просто не понимаю, к чему она вообще тут. Как-то не совсем вписывается в общую атмосферу, и концовка потому для меня какая-то неоднозначная, будто совершенно из другого произведения, слишком сказочная и романтичная.
'''

review_young = '''
Книга о том, как надо любить своих братьев и сестёр.  Однажды разлетелось зеркало на осколки. Они разлетелись по всему миру. И Каю они попали в глаз и в сердце. Осколки были волшебными, поэтому сердечко мальчика превратилось в кусок льда. Так вот один раз на прогулке Кая забрала Снежная королева! И Герда (сестра Кая) пустилась в путь. Ей старались помочь почти все. Сначала её хотела забрать Цветочная фея. Потом Герда сбежала, и ей повстречался ворон. Ворон рассказал про принца и принцессу. Он думал, что принц это её Кай. Дальше она пошла к принцу и принцессе, но Кая она там не нашла. Попозже ей дали карету и она снова помчалась в путь. Ей повстречались разбойники, которые хотели её убить, но маленькая разбойница защитила Герду. Герда переночевала у неё. Потом разбойница дала ей северного оленя и Герда поехала на олене до Лапландии, в которой жила Снежная королева. И Герда сумела её победить и забрать Кая.   И жили они долго и счастливо!  Книга мне понравилась, потому что она разделена на главы и она про любовь друг к другу.   Книга мне не понравилась, потому что она сначала была скучновата.  Рекомендую эту книгу тем, кто обижает своего брата или сестру (противно звучит). Чтобы они поняли, нужно любить своих родных!  
'''

def to_label(probs):
    index, value = max(enumerate(probs), key=operator.itemgetter(1))
    print('max index {}'.format(index))
    label = [0 for p in probs]
    label[index] = 1
    return label

def predict(model, review):
    l_probs = model.predict(np.array(get_feats(review), ndmin=2), batch_size=10)
    print('probs {}'.format(l_probs[0]))
    l = to_label(l_probs[0])
    for tag in tags:
        if tag_dict[tag]['value'] == l:
            return tag

predicted_tags = [predict(model, review_1), predict(model, review_2), predict(model, review_3), predict(model, review_young)]
print(predicted_tags)