In [12]:
import spacy
from spacy import displacy
from collections import Counter

In [10]:
nlp = spacy.load('ru_core_news_sm')

In [15]:
with open('burmistr_1847.txt', 'r') as file:
    text = file.read()

doc = nlp(text)
sentence_spans = list(doc.sents)

roots = []
for sentence in sentence_spans:
        for token in sentence:
            dep = token.dep_
            if dep == 'ROOT':
                roots.append(token)
        counter = Counter(roots)
        most_common = counter.most_common(5)

most_common

[(живет, 1), (водится, 1), (человек, 1), (строг, 1), (обращаться, 1)]

In [5]:
# for sentence in sentence_spans:
#     for token in sentence:
#         print(token.text, token.pos_, token.dep_, token.head, spacy.explain(token.dep_))

#     print('--------------------------------')

In [6]:
#displacy.serve(sentence_spans, style="dep")

In [17]:
class Analys():

    def __init__(self, text):
        self.doc = nlp(text)
        sentence_spans = list(self.doc.sents)
        self.sentence_spans = sentence_spans

    def av_added_words(self):
        non_core = []
        for sentence in self.sentence_spans:
            word_counter = 0
            for token in sentence:
                dep = token.dep_
                if 'ROOT' not in dep and 'punct' not in dep:
                    word_counter += 1
            non_core.append(word_counter)
        return sum(non_core)/len(non_core)
    
    def av_main_words(self):
        av_head = []
        for sentence in self.sentence_spans:
            heads = []
            for token in sentence:
                head = token.head
                heads.append(head)
            set_heads = set(heads)
        av_head.append(len(set_heads))
        return sum(av_head)/len(av_head)
    
    def long_sent(self):
        long = 0
        sent = ''
        for sentence in self.sentence_spans:
            if len(sentence) > long:
                sent = sentence
                long = len(sentence)

        return displacy.render(sent, style="dep")
    
    def common_root(self):
        roots = []
        for sentence in self.sentence_spans:
            for token in sentence:
                dep = token.dep_
                if dep == 'ROOT':
                    roots.append(token)
        counter = Counter(roots)
        most_common = counter.most_common(1)
        return most_common


In [18]:
texts = ['breter_1846.txt', 'burmistr_1847.txt', 'mumu_1854.txt', 'asya_1858.txt', 'otcy_i_deti_1862.txt', 'korol_lir_1870.txt']

for el in texts:
    with open(el, 'r') as file:
        text = file.read()
    book = Analys(text)
    print(f"""КНИГА {el}
        Среднее количество не ROOT слов в предложении: {book.av_added_words()}
        Среднее количество HEAD слов предложения: {book.av_main_words()}
        Самый частый ROOT предложений: {book.common_root()}
        Схема самого длинного предложения выше | {book.long_sent()}
----------------------------------
    """)

КНИГА breter_1846.txt
        Среднее количество не ROOT слов в предложении: 12.355901189387009
        Среднее количество HEAD слов предложения: 1.0
        Самый частый ROOT предложений: [(квартировал, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


КНИГА burmistr_1847.txt
        Среднее количество не ROOT слов в предложении: 13.708029197080291
        Среднее количество HEAD слов предложения: 2.0
        Самый частый ROOT предложений: [(живет, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


КНИГА mumu_1854.txt
        Среднее количество не ROOT слов в предложении: 17.849686847599166
        Среднее количество HEAD слов предложения: 2.0
        Самый частый ROOT предложений: [(жила, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


КНИГА asya_1858.txt
        Среднее количество не ROOT слов в предложении: 11.11093117408907
        Среднее количество HEAD слов предложения: 8.0
        Самый частый ROOT предложений: [(лет, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


КНИГА otcy_i_deti_1862.txt
        Среднее количество не ROOT слов в предложении: 13.080530321630247
        Среднее количество HEAD слов предложения: 22.0
        Самый частый ROOT предложений: [(I, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


КНИГА korol_lir_1870.txt
        Среднее количество не ROOT слов в предложении: 12.647165259348613
        Среднее количество HEAD слов предложения: 1.0
        Самый частый ROOT предложений: [(Нас, 1)]
        Схема самого длинного предложения выше | None
----------------------------------
    


## Выводы

Как можно заметить, сложность и длиня предложений сильнее зависит от длины самого текста, чем от периода карьеры писателя. Благодаря этому, "Отцы и Дети" имеет в среднем самые сложные предложения среди текстов.

Как можно заметить, в текстах нет ROOT, который бы повторялся больше одного раза.