In [18]:
#!pip install pymorphy2==0.8

In [30]:
import tensorflow as tf
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
import nltk
from os.path import join as pathjoin
import spacy_udpipe
import tqdm
#nltk.download('stopwords')
print(tf.__version__)

2.3.0


In [2]:
DATA_DIR = '/home/mlepekhin/data'
MODELS_DIR = '/home/mlepekhin/models'

In [3]:
df_en_train = pd.read_csv(pathjoin(DATA_DIR, 'en_train'))
df_ru_train = pd.read_csv(pathjoin(DATA_DIR, 'ru_train'))

In [4]:
df_en_train.values.shape

(1264, 3)

In [5]:
target_names = np.unique(df_en_train.target)
print(target_names)

['A1' 'A11' 'A12' 'A14' 'A16' 'A17' 'A22' 'A4' 'A7' 'A8' 'A9']


In [6]:
X_train_ru = df_ru_train['text'].values
y_train_ru = df_ru_train['target'].values
X_train_en = df_en_train['text'].values
y_train_en = df_en_train['target'].values

### POS extraction

In [49]:
nlp_ru = spacy_udpipe.load("ru")
nlp_en = spacy_udpipe.load("en")

In [48]:
pos_list = ['ADV', 'ADJ', 'NOUN', 'VERB']

def extract_pos_dataset(X_train, model):
    result_df = {'ADV': [], 'ADJ': [], 'NOUN': [], 'VERB': []}
    #last_sentence = {'ADV': '', 'ADJ': '', 'NOUN': '', 'VERB': ''}
    
    
    for sent in tqdm.tqdm(X_train):
        doc = model(sent)
        last_sentence = {'ADV': '', 'ADJ': '', 'NOUN': '', 'VERB': ''}
        for token in doc:
            if token.pos_ in pos_list:
                last_sentence[token.pos_] += ' ' + token.text
        for pos, value in last_sentence.items():
            if len(value):
                result_df[pos].append(value)
    return result_df

In [34]:
ru_pos_df = extract_pos_dataset(X_train_ru, nlp_ru)

100%|██████████| 1447/1447 [17:20<00:00,  1.39it/s] 


In [50]:
en_pos_df = extract_pos_dataset(X_train_en, nlp_en)

100%|██████████| 1264/1264 [19:47<00:00,  1.06it/s]  


In [51]:
print(en_pos_df['NOUN'][500])



### Keyword extraction and writing them to csv files

In [52]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import string

def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    sorted_items = sorted_items[:topn]

    score_vals = []
    feature_vals = []
    
    for idx, score in sorted_items:
        score_vals.append(round(score, 3))
        feature_vals.append(feature_names[idx])

    results = {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]] = score_vals[idx]
    return results

def preprocess(text):
    lowercased = text.translate(str.maketrans("", "", string.punctuation)).lower()
    return ''.join([c for c in lowercased if not c.isdigit()])

def get_keywords_df(X_train, y_train, stop_words):
    cv = CountVectorizer(max_df=0.8, stop_words=stop_words)
    word_count_vector = cv.fit_transform(X_train)
    tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)
    tfidf_transformer.fit(word_count_vector)

    topics_doc = {}
    for text, label in zip(X_train, y_train):
        if label not in topics_doc:
            topics_doc[label] = text
        else:
            topics_doc[label] += " " + text

        keywords_df = pd.DataFrame()
        feature_names = cv.get_feature_names()

    for topic_label, topic_text in topics_doc.items():
        topic_text = preprocess(topic_text)
        tf_idf_vector = tfidf_transformer.transform(cv.transform([topic_text]))
        sorted_items = sort_coo(tf_idf_vector.tocoo())
        keywords = extract_topn_from_vector(feature_names, sorted_items, 20)

        print("\n=====Doc=====")
        print(topic_text[:100])
        print("\n===Keywords===")
        for keyword in keywords:
            keywords_df = keywords_df.append({'keyword': keyword, 'topic': topic_label}, ignore_index=True)
            print(keyword, keywords[keyword])
    return keywords_df

In [53]:
keywords_ru_noun = get_keywords_df(ru_pos_df['NOUN'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_adj = get_keywords_df(ru_pos_df['ADJ'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_adv = get_keywords_df(ru_pos_df['ADV'], y_train_ru, stopwords.words("russian") + ["это"])
keywords_ru_verb = get_keywords_df(ru_pos_df['VERB'], y_train_ru, stopwords.words("russian") + ["это"])


=====Doc=====
 оао создания комплекса мощностью млн т год директор оао компания группы председатель совета директо

===Keywords===
года 0.312
президент 0.22
млрд 0.215
году 0.17
газа 0.131
словам 0.127
президента 0.121
млн 0.121
власти 0.116
страны 0.111
глава 0.11
время 0.1
ходе 0.098
нефть 0.097
долларов 0.097
марта 0.087
компании 0.086
сентября 0.083
рублей 0.079
апреля 0.078

=====Doc=====
 ходе написания ходатайства образцу постановлений заголовка подозреваемый делу материалы дела центру

===Keywords===
br 0.553
лет 0.163
людей 0.112
время 0.111
жизни 0.103
отец 0.096
смех 0.091
люди 0.088
жизнь 0.084
спасибо 0.083
человек 0.079
книги 0.074
году 0.072
работа 0.063
психологии 0.06
человека 0.06
год 0.059
работы 0.058
день 0.058
мама 0.057

=====Doc=====
 характеристики м етодика испытаний замеров характеристика оборудования котла хема измерений котла а

===Keywords===
исследования 0.133
теории 0.116
развития 0.111
личности 0.106
системы 0.101
области 0.098
др 0.091
наука 0.087
нау


=====Doc=====
 ранее ранее сильно больше ранее сегодня сегодня более  ранее  также также так недавно  действительн

===Keywords===
также 0.395
очень 0.265
например 0.256
однако 0.216
затем 0.17
поэтому 0.165
включая 0.163
менее 0.147
вместе 0.142
сегодня 0.138
наиболее 0.122
далее 0.122
вопервых 0.119
почему 0.109
особенно 0.109
полностью 0.109
обычно 0.096
возможно 0.094
вообще 0.093
попрежнему 0.093

=====Doc=====
 потом потом потом неминуемо потому обычно длиннее иногда например еще там обычно еще гдето такто  д

===Keywords===
очень 0.358
также 0.278
затем 0.244
например 0.228
однако 0.194
поэтому 0.191
часто 0.167
наиболее 0.139
полностью 0.131
ранее 0.12
сегодня 0.116
вместе 0.112
аналогично 0.108
назад 0.105
действительно 0.105
точно 0.102
автоматически 0.1
слишком 0.099
немного 0.097
включая 0.096

=====Doc=====
 опливо еречень режимно наиболее очень менее когда более менее более снаружи опливо где где где rо г

===Keywords===
унамуно 0.323
также 0.281
затем 0.226
очень 0.214


In [54]:
keywords_en_noun = get_keywords_df(en_pos_df['NOUN'], y_train_en, stopwords.words("english"))
keywords_en_adj = get_keywords_df(en_pos_df['ADJ'], y_train_en, stopwords.words("english"))
keywords_en_adv = get_keywords_df(en_pos_df['ADV'], y_train_en, stopwords.words("english"))
keywords_en_verb = get_keywords_df(en_pos_df['VERB'], y_train_en, stopwords.words("english"))


=====Doc=====
 indianapolis april disruption travel chaos cities activity air navigation agency air traffic delays

===Keywords===
disarmament 0.148
report 0.143
demobilization 0.129
year 0.127
programme 0.126
club 0.125
budget 0.12
monuc 0.119
committee 0.117
government 0.115
staff 0.111
situation 0.105
forces 0.102
biennium 0.101
police 0.099
meeting 0.098
people 0.096
sex 0.096
parties 0.096
income 0.093

=====Doc=====
 yaws spoof interview state democracy war terror oil stuff comments end withdrawal day newspapers jo

===Keywords===
reconciliation 0.191
people 0.16
countries 0.147
government 0.143
development 0.14
world 0.125
society 0.12
children 0.11
women 0.104
country 0.102
data 0.102
weapons 0.102
state 0.096
security 0.095
work 0.09
law 0.088
community 0.088
education 0.086
justice 0.085
information 0.085

=====Doc=====
 enquiry advice telephone email advice process requirements quote enquiry quotes enquiries day artwo

===Keywords===
cialis 0.27
viagra 0.185
th 0.179
busine


=====Doc=====
 additionally well then also also indoors down not further pretty just when easily  then better so r

===Keywords===
also 0.373
back 0.245
well 0.242
really 0.18
even 0.177
still 0.163
much 0.162
never 0.16
least 0.147
therefore 0.142
together 0.142
first 0.139
however 0.125
almost 0.124
around 0.119
always 0.116
away 0.115
online 0.115
especially 0.114
perhaps 0.111

=====Doc=====
 very as well now so on even just less naturally basically so furthermore bitterly surely already wh

===Keywords===
also 0.499
well 0.229
even 0.212
back 0.154
therefore 0.15
still 0.149
however 0.142
often 0.141
first 0.139
already 0.138
really 0.134
actually 0.128
never 0.112
always 0.108
much 0.108
automatically 0.106
finally 0.106
course 0.103
clearly 0.1
together 0.1

=====Doc=====
 usually always most usually however where when  easily also very always only all  how now just also

===Keywords===
also 0.371
even 0.253
back 0.207
however 0.2
still 0.19
well 0.185
actually 0.181
away 0.161

In [57]:
keywords_en_noun.head()

Unnamed: 0,keyword,topic
0,disarmament,A8
1,report,A8
2,demobilization,A8
3,year,A8
4,programme,A8


In [56]:
keywords_ru_noun.to_csv(pathjoin(DATA_DIR, 'keywords_ru_noun.csv'))
keywords_ru_adj.to_csv(pathjoin(DATA_DIR, 'keywords_ru_adj.csv'))
keywords_ru_adv.to_csv(pathjoin(DATA_DIR, 'keywords_ru_adv.csv'))
keywords_ru_verb.to_csv(pathjoin(DATA_DIR, 'keywords_ru_verb.csv'))

In [58]:
keywords_en_noun.to_csv(pathjoin(DATA_DIR, 'keywords_en_noun.csv'))
keywords_en_adj.to_csv(pathjoin(DATA_DIR, 'keywords_en_adj.csv'))
keywords_en_adv.to_csv(pathjoin(DATA_DIR, 'keywords_en_adv.csv'))
keywords_en_verb.to_csv(pathjoin(DATA_DIR, 'keywords_en_verb.csv'))