In [1]:
#!pip install pymorphy2==0.8

In [2]:
import tensorflow as tf
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
import nltk
from os.path import join as pathjoin
import tqdm
#nltk.download('stopwords')
print(tf.__version__)

2.3.0


In [3]:
DATA_DIR = '/home/mlepekhin/data'
MODELS_DIR = '/home/mlepekhin/models'

In [4]:
df_ru_train = pd.read_csv(pathjoin(DATA_DIR, 'ru_train'))

In [7]:
target_names = np.unique(df_ru_train.target)
print(target_names)

['A1' 'A11' 'A12' 'A14' 'A16' 'A17' 'A4' 'A7' 'A8' 'A9']


In [8]:
X_train_ru = df_ru_train['text'].values
y_train_ru = df_ru_train['target'].values

### POS extraction

In [16]:
from natasha import Doc, Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger

segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

In [17]:
pos_list = ['ADV', 'ADJ', 'NOUN', 'VERB']

def extract_pos_dataset(X_train):
    result_df = {'ADV': [], 'ADJ': [], 'NOUN': [], 'VERB': []}
    #last_sentence = {'ADV': '', 'ADJ': '', 'NOUN': '', 'VERB': ''}
    
    
    for sent in tqdm.tqdm(X_train):
        doc = Doc(sent)
        doc.segment(segmenter)
        doc.tag_morph(morph_tagger)
        last_sentence = {'ADV': '', 'ADJ': '', 'NOUN': '', 'VERB': ''}
        
        for token in doc.tokens:
            if token.pos in pos_list:
                last_sentence[token.pos] += ' ' + token.text
        for pos, value in last_sentence.items():
            if len(value):
                result_df[pos].append(value)
    return result_df

In [18]:
ru_pos_df = extract_pos_dataset(X_train_ru)

100%|██████████| 1447/1447 [01:47<00:00, 13.41it/s]


In [19]:
print(ru_pos_df['NOUN'][500])

 году месяца кг живот бока здоровьем диету раз коллектив работе тётеньки-сладкоежки катагорически отвесики трубку мама гудка горлом канаве Спасибо филе судака грибами день диеты-это ленивой капец меню ходу дела разнообразие кд результаты января отвес кг объемах меню блюда мясо углеводности настроение поготовить Девочки вопрос консерв рыбные капустой кальмарами консерве содержимое банки состав сахар уксус итд жир-столько-то белок-столько-то Углеводы сахар составе Завтрак яичница яиц колбасой сыром куска курицы уе помидора оругчика сыра уе Чай сахара кола-лайт наела мнения вкуса количествах консервы сахар горбушу банке разнообразия


### Keyword extraction and writing them to csv files

In [20]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import string

def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    sorted_items = sorted_items[:topn]

    score_vals = []
    feature_vals = []
    
    for idx, score in sorted_items:
        score_vals.append(round(score, 3))
        feature_vals.append(feature_names[idx])

    results = {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]] = score_vals[idx]
    return results

def preprocess(text):
    lowercased = text.translate(str.maketrans("", "", string.punctuation)).lower()
    return ''.join([c for c in lowercased if not c.isdigit()])

def get_keywords_df(X_train, y_train, stop_words):
    cv = CountVectorizer(max_df=0.8, stop_words=stop_words)
    word_count_vector = cv.fit_transform(X_train)
    tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)
    tfidf_transformer.fit(word_count_vector)

    topics_doc = {}
    for text, label in zip(X_train, y_train):
        if label not in topics_doc:
            topics_doc[label] = text
        else:
            topics_doc[label] += " " + text

        keywords_df = pd.DataFrame()
        feature_names = cv.get_feature_names()

    for topic_label, topic_text in topics_doc.items():
        topic_text = preprocess(topic_text)
        tf_idf_vector = tfidf_transformer.transform(cv.transform([topic_text]))
        sorted_items = sort_coo(tf_idf_vector.tocoo())
        keywords = extract_topn_from_vector(feature_names, sorted_items, 20)

        print("\n=====Doc=====")
        print(topic_text[:100])
        print("\n===Keywords===")
        for keyword in keywords:
            keywords_df = keywords_df.append({'keyword': keyword, 'topic': topic_label}, ignore_index=True)
            print(keyword, keywords[keyword])
    return keywords_df

In [21]:
keywords_ru_noun = get_keywords_df(ru_pos_df['NOUN'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_adj = get_keywords_df(ru_pos_df['ADJ'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_adv = get_keywords_df(ru_pos_df['ADV'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_verb = get_keywords_df(ru_pos_df['VERB'], y_train_ru, stopwords.words("russian") + ["это"])


=====Doc=====
 оао создания комплекса мощностью млн год директор оао таиф компания группы председатель совета дире

===Keywords===
года 0.314
млрд 0.217
президент 0.207
году 0.172
газа 0.132
словам 0.128
млн 0.122
президента 0.121
власти 0.117
глава 0.113
страны 0.11
время 0.099
ходе 0.099
долларов 0.097
нефть 0.087
марта 0.087
компании 0.086
сентября 0.083
рублей 0.08
апреля 0.078

=====Doc=====
 ходе написания ходатайства образцу постановлений заголовка вводную подозреваемый делу материалы дел

===Keywords===
лет 0.196
людей 0.135
время 0.134
жизни 0.125
смех 0.12
отец 0.116
люди 0.107
жизнь 0.102
спасибо 0.097
человек 0.095
году 0.086
книги 0.086
работа 0.076
психологии 0.073
человека 0.072
год 0.072
мам 0.071
работы 0.07
день 0.07
город 0.069

=====Doc=====
 опливо характеристики испытаний замеров раткая характеристика оборудования котла хема измерений кот

===Keywords===
исследования 0.132
теории 0.117
развития 0.112
личности 0.108
системы 0.103
области 0.098
рис 0.097
др 0.094
н


=====Doc=====
 ранее ранее сильно ранее сегодня сегодня более  ранее  также также так недавно  действительно еще т

===Keywords===
также 0.5
очень 0.277
однако 0.198
поэтому 0.197
например 0.166
сегодня 0.163
включая 0.141
затем 0.139
почему 0.133
наиболее 0.132
вместе 0.127
особенно 0.112
часто 0.11
менее 0.106
пока 0.106
ранее 0.096
назад 0.094
ещё 0.094
снова 0.091
вполне 0.089

=====Doc=====
 потом потом потом неминуемо хватить потому обычно иногда например еще там обычно еще гдето такто  д

===Keywords===
также 0.547
очень 0.237
поэтому 0.18
сегодня 0.172
например 0.163
однако 0.158
особенно 0.143
наиболее 0.141
включая 0.137
действительно 0.134
затем 0.124
вместе 0.121
менее 0.117
полностью 0.113
ещё 0.109
далее 0.102
наверное 0.098
почему 0.089
вправе 0.087
попрежнему 0.085

=====Doc=====
 наиболее очень менее более менее более снаружи где где где где здесь далее здесь далее где где где 

===Keywords===
также 0.576
очень 0.29
включая 0.193
поэтому 0.185
однако 0.176
затем 0.172

отправить 0.067
определяющего 0.063
использовать 0.061
является 0.056
соглашаетесь 0.056


In [23]:
keywords_ru_noun.to_csv(pathjoin(DATA_DIR, 'natasha_keywords_ru_noun.csv'))
keywords_ru_adj.to_csv(pathjoin(DATA_DIR, 'natasha_keywords_ru_adj.csv'))
keywords_ru_adv.to_csv(pathjoin(DATA_DIR, 'natasha_keywords_ru_adv.csv'))
keywords_ru_verb.to_csv(pathjoin(DATA_DIR, 'natasha_keywords_ru_verb.csv'))