**Создание таблицы со статистическими признаками произведений корпуса**

Импорт Lensky и необходимых библиотек

In [23]:
from Lensky.lensky import *
import pandas as pd
import seaborn as sns

Загрузка корпуса по адресу

In [24]:
corpus = Corpus('data/corpus_ru')

Loading...


100%|████████████████████████████████████████████████████████████████████████████████| 180/180 [00:05<00:00, 33.19it/s]

Done!





In [25]:
print('Авторов в корпусе:', len(corpus.keys()))
print('Книг в корпусе:', len(corpus.subkeys()))

Авторов в корпусе: 180
Книг в корпусе: 755


Создание pd.DataFrame() с элементами корпуса

In [26]:
df = pd.DataFrame({'filename' : [x + '.txt' for x in corpus.subkeys()], 
                   'book' : list(map(lambda x: x.split('.')[1], corpus.subkeys())),
                   'author' : list(map(lambda x: x.split('.')[0], corpus.subkeys())),
                   'year' : list(map(lambda x: int(x.split('.')[2]), corpus.subkeys()))})
df

Unnamed: 0,filename,book,author,year
0,Авдеев.Варенька.1852.txt,Варенька,Авдеев,1852
1,Авдеев.Иванов.1852.txt,Иванов,Авдеев,1852
2,Авдеев.Тетрадь_из_записок_Тамарина.1852.txt,Тетрадь_из_записок_Тамарина,Авдеев,1852
3,Авенариус.Поветрие.1867.txt,Поветрие,Авенариус,1867
4,Авенариус.Современная_идиллия.1867.txt,Современная_идиллия,Авенариус,1867
...,...,...,...,...
750,Ясинский.Верочка.1887.txt,Верочка,Ясинский,1887
751,Ясинский.Учитель.1888.txt,Учитель,Ясинский,1888
752,Яхина.Дети_мои.2018.txt,Дети_мои,Яхина,2018
753,Яхина.Зулейха_открывает_глаза.2015.txt,Зулейха_открывает_глаза,Яхина,2015


Объявим функцию и по имени файла определим век написания книги

In [27]:
def cent(year):
    if year < 1801:
        return 18
    if year >= 1801 and year < 1901:
        return 19
    if year >= 1901 and year < 2001:
        return 20
    if year >= 2001:
        return 21

In [28]:
cents = []
for year in df['year'].to_numpy():
    cents.append(cent(year))
df['cent'] = cents
df

Unnamed: 0,filename,book,author,year,cent
0,Авдеев.Варенька.1852.txt,Варенька,Авдеев,1852,19
1,Авдеев.Иванов.1852.txt,Иванов,Авдеев,1852,19
2,Авдеев.Тетрадь_из_записок_Тамарина.1852.txt,Тетрадь_из_записок_Тамарина,Авдеев,1852,19
3,Авенариус.Поветрие.1867.txt,Поветрие,Авенариус,1867,19
4,Авенариус.Современная_идиллия.1867.txt,Современная_идиллия,Авенариус,1867,19
...,...,...,...,...,...
750,Ясинский.Верочка.1887.txt,Верочка,Ясинский,1887,19
751,Ясинский.Учитель.1888.txt,Учитель,Ясинский,1888,19
752,Яхина.Дети_мои.2018.txt,Дети_мои,Яхина,2018,21
753,Яхина.Зулейха_открывает_глаза.2015.txt,Зулейха_открывает_глаза,Яхина,2015,21


Определим длину произведений в словах

In [29]:
def sp(text):
    return text.split(' ')

In [30]:
%%time
df['len'] = corpus.apply(sp).apply(len).subvalues()
df

Processing...


100%|████████████████████████████████████████████████████████████████████████████████| 180/180 [00:02<00:00, 79.40it/s]


Done!
Processing...


100%|████████████████████████████████████████████████████████████████████████████████████████| 180/180 [00:00<?, ?it/s]


Done!
Wall time: 3.17 s


Unnamed: 0,filename,book,author,year,cent,len
0,Авдеев.Варенька.1852.txt,Варенька,Авдеев,1852,19,25469
1,Авдеев.Иванов.1852.txt,Иванов,Авдеев,1852,19,27134
2,Авдеев.Тетрадь_из_записок_Тамарина.1852.txt,Тетрадь_из_записок_Тамарина,Авдеев,1852,19,25449
3,Авенариус.Поветрие.1867.txt,Поветрие,Авенариус,1867,19,40545
4,Авенариус.Современная_идиллия.1867.txt,Современная_идиллия,Авенариус,1867,19,48633
...,...,...,...,...,...,...
750,Ясинский.Верочка.1887.txt,Верочка,Ясинский,1887,19,19274
751,Ясинский.Учитель.1888.txt,Учитель,Ясинский,1888,19,19355
752,Яхина.Дети_мои.2018.txt,Дети_мои,Яхина,2018,21,121134
753,Яхина.Зулейха_открывает_глаза.2015.txt,Зулейха_открывает_глаза,Яхина,2015,21,109221


Загрузим предобработанный токенезированный корпус 

In [31]:
corpus_cleared = Corpus('data/corpus_ru_tokenized')

Loading...


100%|████████████████████████████████████████████████████████████████████████████████| 180/180 [00:04<00:00, 43.09it/s]

Done!





Определим количество уникальных слов в произведениях (богатство их словаря)

In [32]:
%%time
df['len_unique'] = corpus_cleared.apply(lambda x: len(np.unique(x.split()))).subvalues()
df

Processing...


100%|████████████████████████████████████████████████████████████████████████████████| 180/180 [00:18<00:00,  9.84it/s]

Done!
Wall time: 18.3 s





Unnamed: 0,filename,book,author,year,cent,len,len_unique
0,Авдеев.Варенька.1852.txt,Варенька,Авдеев,1852,19,25469,6555
1,Авдеев.Иванов.1852.txt,Иванов,Авдеев,1852,19,27134,7549
2,Авдеев.Тетрадь_из_записок_Тамарина.1852.txt,Тетрадь_из_записок_Тамарина,Авдеев,1852,19,25449,6731
3,Авенариус.Поветрие.1867.txt,Поветрие,Авенариус,1867,19,40545,12694
4,Авенариус.Современная_идиллия.1867.txt,Современная_идиллия,Авенариус,1867,19,48633,13909
...,...,...,...,...,...,...,...
750,Ясинский.Верочка.1887.txt,Верочка,Ясинский,1887,19,19274,6392
751,Ясинский.Учитель.1888.txt,Учитель,Ясинский,1888,19,19355,6295
752,Яхина.Дети_мои.2018.txt,Дети_мои,Яхина,2018,21,121134,31275
753,Яхина.Зулейха_открывает_глаза.2015.txt,Зулейха_открывает_глаза,Яхина,2015,21,109221,27269


Воспользуемся новым словарем частотных слов О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. для определения количества слов, не попадающих в 20 000 самых популярных в языке

In [33]:
dic = pd.read_csv('D:\DDPronin\PyCharm\RU Classic Literature graphs\data\LEMMY_FREQ.csv')
dic_words = set(dic['WORD'])

FileNotFoundError: [Errno 2] No such file or directory: 'D:\\DDPronin\\PyCharm\\RU Classic Literature graphs\\data\\LEMMY_FREQ.csv'

In [None]:
def uniq_words_not_in_pop(book):
    book = np.array(book.split())
    uniq = np.unique(book)
    n = 0
    for word in uniq:
        if word not in dic_words and len(book[book==word]) > 3:
            n += 1
    return n

In [None]:
%%time
df['uniq_words_not_in_pop'] = corpus_cleared.apply(uniq_words_not_in_pop).subvalues()
df

С помощью того же словаря оценим среднюю частоту ipm слова в произведении (какова средняя частота употребляемых в книге слов?)

In [None]:
def mean_freq(book):
    book = np.array(book.split())
    top = list(pd.Series(book).value_counts().index)[:1000]
    freqs = 0
    n = 0
    for word in top:
        if word in dic_words:
            freqs += dic[dic['WORD']==word]['FREQ'].to_numpy()[0]
            n += 1
    return freqs/n

In [None]:
%%time
df['mean_freq1k'] = corpus_cleared.apply(mean_freq).subvalues()
df

Воспользуемся библиотекой Dostoyevsky для классификации предложений текстов. Вычислим среднее по тексту для каждого из возможных классов

In [None]:
from razdel import sentenize
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel

tokenizer = RegexTokenizer()
model = FastTextSocialNetworkModel(tokenizer=tokenizer)

def tonalnost(book):
    substrings = list(sentenize(book))
    sents = []
    for i in range(len(substrings)):
        sents.append(substrings[i].text)
    messages = sents
    results = model.predict(messages, k=2)
    neu, pos, neg, sp, sk = 0, 0, 0, 0, 0
    n = 0
    for message, sentiment in zip(messages, results):
        if 'neutral' not in sentiment.keys():
            sentiment['neutral'] = 0
        if 'positive' not in sentiment.keys():
            sentiment['positive'] = 0
        if 'negative' not in sentiment.keys():
            sentiment['negative'] = 0
        if 'speech' not in sentiment.keys():
            sentiment['speech'] = 0
        if 'skip' not in sentiment.keys():
            sentiment['skip'] = 0
        neu += sentiment['neutral']
        pos += sentiment['positive']
        neg += sentiment['negative']
        sp += sentiment['speech']
        sk += sentiment['skip']
        n += 1
    return {'neutral' : neu/n, 'positive' : pos/n, 'negative' : neg/n, 'speech' : sp/n, 'skip' : sk/n}

In [None]:
%%time
res = corpus.apply(tonalnost).subvalues()

In [None]:
neu = []
pos = []
neg = []
sp = []
sk = []
for r in res:
    neu.append(r['neutral'])
    pos.append(r['positive'])
    neg.append(r['negative'])
    sp.append(r['speech'])
    sk.append(r['skip'])
df['dost_neu'] = neu
df['dost_pos'] = pos
df['dost_neg'] = neg
df['dost_sp'] = sp
df['dost_sk'] = sk
df

Найдем долю слов, которая не попадает в список 20 000 самых частотных слов в языке

In [None]:
%%time
df['part_unique'] = df['len_unique']/df['len']
df['part_uniq_words_not_in_pop'] = df['uniq_words_not_in_pop']/df['len_unique']
df

Рассчитаем среднюю длину слова в произведении

In [None]:
from razdel import tokenize, sentenize

def mean_word_len(book):
    subs = list(tokenize(book))
    words = []
    for sub in subs:
        words.append(len(sub.text))
    return np.mean(words)

In [None]:
%%time
df['mean_word_len'] = corpus.apply(mean_word_len).subvalues()
df

Рассчитаем среднюю длину предложения в произведении

In [None]:
def mean_sent_len(book):
    subs = list(sentenize(book))
    sents = []
    for sub in subs:
        sents.append(len(list(tokenize(sub.text)))-1) 
    return np.mean(sents)

In [None]:
%%time
df['mean_sent_len'] = corpus.apply(mean_sent_len).subvalues()
df

Определим долю каждой из частей речи в произведениях

In [None]:
from navec import Navec
from slovnet import Morph
from razdel import tokenize
navec = Navec.load('models//navec_news_v1_1B_250K_300d_100q.tar')
morph = Morph.load('models//slovnet_morph_news_v1.tar')
morph.navec(navec)

def morphing(book):
    tokens = morph([x.text for x in list(tokenize(book))]).tokens
    res = []
    for token in tokens:
        res.append(token.pos)
    len_ = len(book.split())
    return {'ADJ' : res.count('ADJ')/len_, 
           'ADP' : res.count('ADP')/len_,
           'ADV' : res.count('ADV')/len_,
           'AUX' : res.count('AUX')/len_,
           'CCONJ' : res.count('CCONJ')/len_,
           'DET' : res.count('DET')/len_,
           'INTJ' : res.count('INTJ')/len_,
           'NOUN' : res.count('NOUN')/len_,
           'NUM' : res.count('NUM')/len_,
           'PART' : res.count('PART')/len_,
           'PRON' : res.count('PRON')/len_,
           'PROPN' : res.count('PROPN')/len_,
           'PUNCT' : res.count('PUNCT')/len_,
           'SCONJ' : res.count('SCONJ')/len_,
           'PUNCT' : res.count('PUNCT')/len_,
           'SYM' : res.count('SYM')/len_,
           'VERB' : res.count('VERB')/len_,
           'X' : res.count('X')/len_}

In [None]:
%%time
res = corpus.apply(morphing).subvalues()

In [None]:
m = {'ADJ' : [],
'ADP' : [],
'ADV' : [],
'AUX' : [],
'CCONJ' : [],
'DET' : [],
'INTJ' :[],
'NOUN' : [],
'NUM' : [],
'PART' : [],
'PRON' : [],
'PROPN' : [],
'PUNCT' : [],
'SCONJ' : [],
'SYM' : [],
'VERB' : [],
'X' : []}

In [None]:
for r in res:
    for key in m.keys():
        m[key].append(r[key])
for key in m.keys():
        df[key] = m[key]

In [None]:
df

In [None]:
df

Сохраним результаты

In [None]:
df.to_excel('data/RuLitStat.xlsx', index=False)