In [14]:
import pandas as pd
import os
from collections import Counter
import re

In [3]:
dir_in = 'parsed_json_cut'
catalog = pd.read_csv('collection_catalog.csv', sep=';', usecols=['author_id', 'fbusta_id'])

In [5]:
def get_author(book_id, catalog):
    return catalog.loc[catalog['fbusta_id'] == book_id]['author_id'].item()

In [None]:
punct_pos= [
    'Pвнутр', 'Pгран', 'Pтире', 'Pкавычки', 'NL',
]

In [None]:
def avg_sent_len(parsed_json):
    sentences = [[w for w in s.split() if w not in punct_pos] for s in re.split('NL|Pран', parsed_json)]
    sentences_len = [len(s) for s in sentences if len(s) > 0]
    return sum(sentences_len) / len(sentences_len)

In [17]:
def pos_fraction(parsed_json):
    d = Counter(parsed_json.split())
    for k in punct_pos:
        del d[k]
    total = sum(d.values())
    for k in d:
        d[k] /= total
    return d

In [1]:
def type_token_ratio(json):
    vocabulary = Counter()
    for line in json:
        if 'analysis' in line:
            if 'lex' in line['analysis']:
                word = line['analysis']['lex']
                vocabulary[word] += 1
    return len(vocabulary) / sum(vocabulary.values())

In [None]:
def avg_word_len(json):
    sum_len = 0
    n_words = 0
    for line in json:
        if 'analysis' in line:
            sum_len += len(line['analysis']['text'])
            n_words += 1
    return sum_len / n_words

In [50]:
threshold = 10
ncrl = pd.read_csv('1grams-3.txt', sep='\t', header=None)
ncrl = ncrl[(ncrl[0] < threshold)]
def is_russian_alpha(word):
    return re.match('[а-яА-Я]', str(word))
rare_words = [w for w in ncrl[1] if is_russian_alpha(w)]
rare_words

['А-га',
 'АCF',
 'А[нна]',
 'Аnnush',
 'Аpабике',
 'Аpмения',
 'ААЭ',
 'АББА',
 'АВТОВАЗБАНК',
 'АВТОТРАНСПОРТ',
 'АВЯЗОВА',
 'АДМИНИСТРАЦИЯ',
 'АИБЛ',
 'АКИМОВ',
 'АКИРН',
 'АКСУ',
 'АМБ',
 'АМЕРИКАНСКИЙ',
 'АМК',
 'АМНГР',
 'АНГЛИЯ',
 'АНТЕС',
 'АПГ',
 'АПРО',
 'АПТ',
 'АРГК',
 'АРПИ',
 'АРФ',
 'АСММ',
 'АСПИД',
 'АТАКИ',
 'АФАНАСЬЕВ',
 'АХРа',
 'АЧХ',
 'Ааааа',
 'Аап',
 'Ааронова',
 'Абазой',
 'Абалаков',
 'Аббатанджело',
 'Абгаровичу',
 'Абдаллой',
 'Абдаллу',
 'Абдуллаева',
 'Абдулло',
 'Абдуррахмана',
 'Абидонии',
 'Абишевич',
 'Абношкина',
 'Абоненту',
 'Абрамка',
 'Абрамовичи',
 'Абрашин',
 'Абреки',
 'Абрикосовой',
 'Абстрагирование',
 'Абстрактная',
 'Абстрактно',
 'Абуи',
 'Абукир',
 'Абфлекс',
 'Абхазская',
 'Аваева',
 'Авалон',
 'Аванесову',
 'Августовских',
 'Авдотьин',
 'Авек',
 'Авелана',
 'Авене',
 'Авеста',
 'Аветисов',
 'Авиамоторной',
 'Авиахим',
 'Авиационной',
 'Авигдора',
 'Авиньонского',
 'Ависма',
 'Авлиде',
 'Авраамле',
 'Авраамовым',
 'Авраменко',
 'Аврамову

In [None]:
data = []
authors = []
for filename in sorted(os.listdir(dir_in)):
    with open(os.path.join(dir_in, filename), 'r') as book:
        data.append(book.read())
        book_id = int(filename.split('.')[0])
        authors.append(get_author(book_id, catalog))

In [49]:
re.match('[а-яА-Я]', '123')

In [13]:
[[w for w in s.split() if w not in ['WW']] for s in re.split('NL|PR', 'NL NL PR WW WW WW QR PR WE WE PR NL qw wp PR')]

[[], [], [], ['QR'], ['WE', 'WE'], [], ['qw', 'wp'], []]

In [16]:
Counter(' NL NL WW PR WW WE WE WW PR'.split())

Counter({'NL': 2, 'WW': 3, 'PR': 2, 'WE': 2})