In [69]:
import os
import nltk
from pymorphy2 import MorphAnalyzer
m = MorphAnalyzer()
from nltk.tokenize import RegexpTokenizer
from pymorphy2.tokenizers import simple_word_tokenize
tokenizer = RegexpTokenizer(r'\w+')

import RAKE
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = stopwords.words('russian')
rake = RAKE.Rake(stop)
from summa import keywords
import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer


def normalize_text(text):
    lemmas = []
    for t in simple_word_tokenize(text):
        lemmas.append(m.parse(t)[0].normal_form)
    return ' '.join(lemmas)


def normalize(text):
    text = tokenizer.tokenize(text.lower())
    return [m.parse(t)[0].normal_form for t in text]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\qwe\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [70]:
with open('./texts/meta.txt', 'r', encoding='utf-8') as f:
    meta = [normalize(line) for line in f.read().split('\n')]
meta

[['индивидуальный',
  'различие',
  'характеристика',
  'признак',
  'психология',
  'причина',
  'личность'],
 ['психологический',
  'тип',
  'типология',
  'характеристика',
  'различие',
  'группа',
  'характер'],
 ['черта',
  'психологический',
  'характеристика',
  'отличие',
  'концептуализация',
  'свойство',
  'классификация'],
 ['интеллект', 'исследование', 'тип', 'показатель', 'информация', 'память'],
 ['личность', 'темперамент', 'эмоциональность', 'поведение', 'характеристика']]

In [71]:
data = []
for file in os.listdir('./texts'):
    if file.startswith('text'):
        path = os.path.join('./texts/', file)
        with open(path, 'r', encoding='utf-8') as f:
            nb = int(file[4])
            data.append(tuple([f.read(), meta[nb-1]]))

corpus = [d[0] for d in data]       

In [81]:
data = []
for file in os.listdir('./texts'):
    if file.startswith('text'):
        path = os.path.join('./texts/', file)
        with open(path, 'r', encoding='utf-8') as f:
            data.append(tuple([f.read(), meta[nb-1]]))

In [73]:
def textRank(text):
    from gensim.summarization import keywords as kw
    kw(normalize_text(text), pos_filter=[], scores=True)
 
    keywords.keywords(normalize_text(text), additional_stopwords=stop, scores=True)
    G = keywords.get_graph(text)
    for edge in G.edges()[:7]:
        print(edge, G.edge_weight(edge))

In [74]:
 def TfIdf(text):
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform([normalize_text(text)])
    names = vectorizer.get_feature_names()
    words = {}
    for col in X.nonzero()[1]:
        if names[col] not in stop:
            words[names[col]] =  float(X[0, col])
    top = sorted(words.items(), key = lambda x: x[1], reverse=True)
    print(top[:5])

In [78]:
for d in corpus:
    textRank(d)
    print('============')

('предмет', 'психологии') 1
('психологии', 'предмет') 1
('индивидуальных', 'психологии') 1
('психологии', 'индивидуальных') 1
('различий', 'индивидуальных') 1
('индивидуальных', 'различий') 1
('определяя', 'различий') 1
('гл', 'а') 1
('а', 'гл') 1
('в', 'а') 1
('а', 'в') 1
('психологические', 'а') 1
('а', 'психологические') 1
('типы', 'психологические') 1
('черты', 'как') 1
('как', 'черты') 1
('элементы', 'как') 1
('как', 'элементы') 1
('индивидуальности', 'элементы') 1
('элементы', 'индивидуальности') 1
('эволюция', 'индивидуальности') 1
('когнитивные', 'теории') 1
('теории', 'когнитивные') 1
('интеллекта', 'теории') 1
('теории', 'интеллекта') 1
('когнитивные', 'интеллекта') 1
('интеллекта', 'когнитивные') 1
('предполагают', 'интеллекта') 1
('глава', 'темперамент') 1
('темперамент', 'глава') 1
('и', 'темперамент') 1
('темперамент', 'и') 1
('личность', 'и') 1
('и', 'личность') 1
('никакие', 'личность') 1


In [79]:
for d in corpus:
    TfIdf(d)
    print('==================')

[('различие', 0.4314105813833819), ('индивидуальный', 0.3763368901429502), ('психологический', 0.3029053018223745), ('характеристика', 0.25701055912201476), ('человек', 0.20193686788158302)]
[('человек', 0.3462882894815818), ('психологический', 0.19392144210968582), ('характеристика', 0.18006991053042254), ('свой', 0.15236684737189599), ('характер', 0.12466378421336946)]
[('который', 0.25288048254909207), ('человек', 0.25288048254909207), ('черта', 0.24315431014335778), ('свойство', 0.20424962052042053), ('индивидуальный', 0.19452344811468622)]
[('интеллект', 0.6813071598754156), ('интеллектуальный', 0.19216355791357875), ('теория', 0.18342885073568882), ('время', 0.16595943637990893), ('показатель', 0.11355119331256927)]
[('темперамент', 0.5141598130114088), ('реакция', 0.21708969882703927), ('характеристика', 0.21708969882703927), ('свойство', 0.19423815158208776), ('особенность', 0.19423815158208776)]


In [85]:
for d in data:
    print(rake.run(normalize_text(d[0]), minFrequency=2, maxWords=2)[:5])

[('индивидуальный различие', 3.9), ('психологический характеристика', 3.888888888888889), ('группа человек', 3.414285714285714), ('группа ребёнок', 3.0892857142857144), ('группа', 1.7142857142857142)]
[('душевный склад', 4.0), ('человек', 1.5833333333333333), ('понять', 1.3333333333333333), ('спрашивать', 1.3333333333333333), ('группа', 1.2857142857142858)]
[('разный ситуация', 4.0), ('собственный опыт', 4.0), ('общий психология', 4.0), ('музыкальный одарённость', 4.0), ('во-вторых', 4.0)]
[('долговременный память', 4.0), ('приобретение знание', 4.0), ('интеллектуальный сфера', 4.0), ('когнитивный теория', 3.833333333333333), ('балл интеллект', 3.8157894736842106)]
[('разный возраст', 4.0), ('разный автор', 3.857142857142857), ('кроме это', 3.75), ('иначе говорить', 3.666666666666667), ('американский исследователь', 3.666666666666667)]


In [84]:
from sklearn.metrics import f1_score
# a = ['1', '2', '3']
#b = ['1', '2', '4']
# f1_score(a,b, average='micro') 

0.6666666666666666