# NLP tasks example with `Natasha`

In [1]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


In [2]:
seg = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

In [3]:
# https://nplus1.ru/news/2018/10/16/asymptotically-safe
# complexity 9.7
text_sm = '''

Асимптотическая безопасность квантовой гравитации связала заряды и массы тяжелых кварков

Matt Cummings / flickr.com

Физики-теоретики из Германии использовали теорию асимптотически безопасной квантовой гравитации, чтобы рассчитать отношение масс двух самых тяжелых кварков — t-кварка и b-кварка. Для этого ученые отталкивались от известных значений абелева гиперзаряда и констант электрослабой и сильной связи и прослеживали поток ренормализационной группы вплоть до планковских масштабов энергии. Кроме того, исследователи показали, что отношения зарядов и масс кварков связаны между собой. Статья опубликована в Physical Review Letters и находится в свободном доступе.

Одно из важнейших свойств Стандартной модели — это перенормируемость, то есть возможность избавляться от бесконечно расходящихся величин. Чтобы понять, в чем заключается идея перенормировок, сначала надо понять, откуда в теории берутся расходимости. Основным объектом Стандартной модели, как и любой квантовой теории поля, являются пропагаторы — функции, которые показывают вероятность перехода между различными конфигурациями квантовых полей. Например, вероятность частицы переместиться между двумя заданными точками за фиксированный промежуток времени. Для свободных теорий, в которых частицы не взаимодействуют друг с другом, найти пропагаторы очень легко — достаточно выписать и решить уравнения теории. Если же добавить в теорию взаимодействие, которое «перемешивает» поля — например, электромагнитное поле и поле электронов, — уравнения резко усложняются, и точно решить их становится невозможно. Чтобы справиться с этой проблемой, физики считают, что поля свободных теорий слабо «цепляются» друг за друга, а затем вычисляют поправки к пропагаторам свободной теории; чем более высокие порядки учитываются, тем точнее получается результат. Наглядно такое вычисление можно представить в виде диаграмм Фейнмана. При низких энергиях этот подход очень хорошо работает — в частности, теоретическое значение магнитного момента электрона совпадает с экспериментом с точностью порядка 10−12.

Свободные пропагаторы в квантовой электродинамике (рисунок 2), вершина, описывающая взаимодействие электрона и фотона (рисунок 1) и процесс рассеяния фотона на электроне в древесном приближении (рисунок 3)

Wikimedia Commons
Поделиться

Петлевые поправки к процессу рассеяния фотона на электроне (рисунок 3 с предыдущей картинки)

Wikimedia Commons
Поделиться

1/2

К сожалению, при больших энергиях (то есть на маленьких расстояниях) поправки к пропагаторам бесконечно растут, что противоречит экспериментальным данным. Чтобы убрать эти расходимости, физики определенным образом «подкручивают» напряженности полей и постоянных теории, которые входили в исходные уравнения движения, заставляя их зависеть от масштаба энергий. Другими словами, в результате этой процедуры ученые выделяют в пропагаторах физически осмысленные вклады и добавляют в исходный лагранжиан теории специально подобранные контрчлены, которые сокращают «нефизичные» расходимости. В этом заключается смысл процедуры перенормировки. Если число контрчленов конечно, то теория «хорошая», и с ее помощью можно рассчитать значения наблюдаемых величин. Стандратная модель относится именно к такому типу теорий. Если же расходимости можно убрать только с помощью бесконечного числа контрчленов, то предсказательная сила теории равна нулю, поскольку она требует вводить бесконечное число свободных параметров. Это случай квантовой гравитации. Физики пытались решить эту проблему, разработав принципиально новые экзотические теории — например, теорию струн или теорию петлевой квантовой гравитации. Тем не менее, до сих пор не существует экспериментов, которые подтвердили бы эти теории.

С другой стороны, в конце 1970-х годов Стивен Вайнберг заметил, что неперенормируемость теории квантовой гравитации не обязательно означает, что с ее помощью нельзя рассчитывать значения наблюдаемых величин. Вместо того чтобы бороться с расходимостями, возникающими в стандартных методах, Вайнберг предложил «зайти» с противоположного конца — описать теорию с помощью конечного числа конечных параметров на больших энергиях, а потом продолжить зависимости в область низких энергий. Такое свойство теории Вайнберг назвал асимптотической безопасностью по аналогии с асимптотической свободой Квантовой хромодинамики, в которой константа связи стремится к нулю на больших энергиях. Математический инструмент, который позволяет выполнить такие расчеты, предложили в начале 1990-х годов Кристоф Веттерих (Christof Wetterich) и Мартин Рейтер (Martin Reuter). В 2009 году Михаил Шапошников и Кристов Веттерих рассчитали с помощью теории асимптотически безопасной гравитации предполагаемую массу бозона Хиггса, которая составила примерно 126 гигаэлектронвольт, что практически в точности совпадает с результатами последовавших измерений на Большом адронном коллайдере. Кроме того, теория с асимптотической безопасностью практически не нужно вводить новые частицы, как это предлагает делать большинство альтернативных теорий вроде теории струн. Это делает идею асимптотической безопасности очень привлекательной для теоретиков.

В новой статье физики Астрид Эйххорн (Astrid Eichhorn) и Аарон Хельд (Aaron Held) использовали асимптотически безопасную гравитацию, чтобы объяснить огромный разрыв масс между двумя самыми массивными кварками — t-кварком (mt ≈ 173 гигаэлектронвольт) и b-кварком (mb ≈ 4,9 гигаэлектронвольт). В Стандартной модели массы кварков возникают из-за того, что частицы «цепляются» за поле Хиггса, равномерно заполняющего Вселенную (подробнее про этот эффект можно прочитать в материале «С днем рождения, БАК!»). Сила, с которой кварки «цепляются» к полю, определяется юкавскими константами связи yb и yt, значения которых невозможно рассчитать в рамках Стандартной модели. С другой стороны, эти константы должны быть связаны с абелевым гиперзарядом соотношением yt2 — yb2 = ⅓gy2, которое выполняется для очень больших энергий (много больше планковского масштаба). В то же время, абелев гиперзаряд связан с параметрами квантовой гравитации. Используя экспериментально измеренное значение этого заряда, вычисляя бета-функцию в однопетлевом приближении и прослеживая поток ренормализационной группы до планковских масштабов энергий, физики рассчитали значение одного из этих параметров. Значение второго параметра ученые зафиксировали исходя из массы b-кварка. Наконец, исследователи рассчитали массу t-кварка, используя найденные значения параметров, и получили величину около mt ≈ 178 гигаэлектронвольт, что хорошо согласуется с экспериментом.

Зависимости параметров Стандартной модели от масштаба энергий, рассчитанные учеными в рамках асимптотически безопасной теории квантовой гравитации

A. Eichhorn & A. Held / Physical Review Letters
Поделиться


Кроме того, из расчетов физиков следует еще три интересных замечания. Во-первых, постоянные квантовой гравитации для абелевых и неабелевых полей должны быть очень близки — это согласуется с тем, что гравитационные поля одинаково сильно взаимодействуют с частицами разной природы, если они имеют одинаковую массу. Во-вторых, характерный масштаб энергий, на которых гравитационные вклады «выключаются», совпадает с планковской энергией. В-третьих, заряды t-кварка и b-кварка должны относиться как Qt/Qb = −2. Если бы хотя бы одно из этих трех предположений не выполнялось, отношение масс кварков получились бы совершенно другим — исправить расхождение не помогло бы даже изменение параметров квантовой гравитации.

Несмотря на то, что эффекты квантовой гравитации должны очень слабо проявляться на наблюдаемых масштабах энергии, физики все равно пытаются их обнаружить, измеряя тонкие эффекты с высокой точностью. Например, отслеживают расстояние до Луны и колебания приливных сил, перепроверяют классические предсказания ОТО и сравнивают временну́ю задержку между фотонами, приходящими от далеких гамма-всплесков. Как и ожидалось, ни один из этих экспериментов не нашел отклонений от Стандартной модели или ОТО.

Дмитрий Трунин
'''
doc_sm = Doc(text_sm)

### Segmentation

In [4]:
doc_sm.segment(seg)
list(map(lambda x: x.text,doc_sm.tokens[:10]))

['Асимптотическая',
 'безопасность',
 'квантовой',
 'гравитации',
 'связала',
 'заряды',
 'и',
 'массы',
 'тяжелых',
 'кварков']

In [5]:
list(map(lambda x: x.text,doc_sm.sents[:10]))

['Асимптотическая безопасность квантовой гравитации связала заряды и массы тяжелых кварков\n\nMatt Cummings / flickr.com\n\nФизики-теоретики из Германии использовали теорию асимптотически безопасной квантовой гравитации, чтобы рассчитать отношение масс двух самых тяжелых кварков — t-кварка и b-кварка.',
 'Для этого ученые отталкивались от известных значений абелева гиперзаряда и констант электрослабой и сильной связи и прослеживали поток ренормализационной группы вплоть до планковских масштабов энергии.',
 'Кроме того, исследователи показали, что отношения зарядов и масс кварков связаны между собой.',
 'Статья опубликована в Physical Review Letters и находится в свободном доступе.',
 'Одно из важнейших свойств Стандартной модели — это перенормируемость, то есть возможность избавляться от бесконечно расходящихся величин.',
 'Чтобы понять, в чем заключается идея перенормировок, сначала надо понять, откуда в теории берутся расходимости.',
 'Основным объектом Стандартной модели, как и любо

### Morphology

In [6]:
doc_sm.tag_morph(morph_tagger)
doc_sm.tokens[:10]

[DocToken(start=2, stop=17, text='Асимптотическая', pos='ADJ', feats=<Acc,Pos,Fem,Sing>),
 DocToken(start=18, stop=30, text='безопасность', pos='NOUN', feats=<Inan,Acc,Fem,Sing>),
 DocToken(start=31, stop=40, text='квантовой', pos='ADJ', feats=<Gen,Pos,Fem,Sing>),
 DocToken(start=41, stop=51, text='гравитации', pos='NOUN', feats=<Inan,Gen,Fem,Sing>),
 DocToken(start=52, stop=59, text='связала', pos='VERB', feats=<Perf,Fem,Ind,Sing,Past,Fin,Act>),
 DocToken(start=60, stop=66, text='заряды', pos='NOUN', feats=<Inan,Acc,Masc,Plur>),
 DocToken(start=67, stop=68, text='и', pos='CCONJ'),
 DocToken(start=69, stop=74, text='массы', pos='NOUN', feats=<Inan,Acc,Fem,Plur>),
 DocToken(start=75, stop=82, text='тяжелых', pos='ADJ', feats=<Gen,Pos,Plur>),
 DocToken(start=83, stop=90, text='кварков', pos='NOUN', feats=<Inan,Gen,Masc,Plur>)]

In [7]:
doc_sm.sents[0].morph.print()

     Асимптотическая ADJ|Case=Acc|Degree=Pos|Gender=Fem|Number=Sing
        безопасность NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
           квантовой ADJ|Case=Gen|Degree=Pos|Gender=Fem|Number=Sing
          гравитации NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
             связала VERB|Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
              заряды NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur
                   и CCONJ
               массы NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Plur
             тяжелых ADJ|Case=Gen|Degree=Pos|Number=Plur
             кварков NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur
                Matt X|Foreign=Yes
            Cummings X|Foreign=Yes
                   / PUNCT
              flickr X|Foreign=Yes
                   . PUNCT
                 com X|Foreign=Yes
    Физики-теоретики PUNCT
                  из ADP
            Германии PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
 

### Lemmatization

In [8]:
for token in doc_sm.tokens:
    token.lemmatize(morph_vocab)

doc_sm.tokens[:10]

[DocToken(start=2, stop=17, text='Асимптотическая', pos='ADJ', feats=<Acc,Pos,Fem,Sing>, lemma='асимптотический'),
 DocToken(start=18, stop=30, text='безопасность', pos='NOUN', feats=<Inan,Acc,Fem,Sing>, lemma='безопасность'),
 DocToken(start=31, stop=40, text='квантовой', pos='ADJ', feats=<Gen,Pos,Fem,Sing>, lemma='квантовый'),
 DocToken(start=41, stop=51, text='гравитации', pos='NOUN', feats=<Inan,Gen,Fem,Sing>, lemma='гравитация'),
 DocToken(start=52, stop=59, text='связала', pos='VERB', feats=<Perf,Fem,Ind,Sing,Past,Fin,Act>, lemma='связать'),
 DocToken(start=60, stop=66, text='заряды', pos='NOUN', feats=<Inan,Acc,Masc,Plur>, lemma='заряд'),
 DocToken(start=67, stop=68, text='и', pos='CCONJ', lemma='и'),
 DocToken(start=69, stop=74, text='массы', pos='NOUN', feats=<Inan,Acc,Fem,Plur>, lemma='масса'),
 DocToken(start=75, stop=82, text='тяжелых', pos='ADJ', feats=<Gen,Pos,Plur>, lemma='тяжелый'),
 DocToken(start=83, stop=90, text='кварков', pos='NOUN', feats=<Inan,Gen,Masc,Plur>, lem

In [9]:
lemms = {_.text: _.lemma for _ in doc_sm.tokens}
lemms['временну́ю'], lemms['t-кварка'], lemms['Физики-теоретики']

('временну́й', 't-кварка', 'физики-теоретики')

In [10]:
target = doc_sm.sents[35]
target.text, target

('Используя экспериментально измеренное значение этого заряда, вычисляя бета-функцию в однопетлевом приближении и прослеживая поток ренормализационной группы до планковских масштабов энергий, физики рассчитали значение одного из этих параметров.',
 DocSent(start=6067, stop=6310, text='Используя экспериментально измеренное значение эт..., tokens=[...]))

In [11]:
' '.join([i.lemma for i in target.tokens])

'использовать экспериментально измерить значение этот заряд , вычислять бета-функция в однопетлевой приближение и прослеживая поток ренормализационный группа до планковский масштаб энергия , физик рассчитать значение один из этот параметр .'

### Syntax

In [12]:
doc_sm.parse_syntax(syntax_parser)
doc_sm.sents[35].syntax.print()

┌──────────────────► Используя          advcl
│                    экспериментально   
│                 ┌─ измеренное         
│               ┌─└► значение           obj
│               │ ┌► этого              det
│ ┌────────────►│ └─ заряда             nmod
│ │             │ ┌► ,                  punct
│ │ ┌─┌─┌───┌─┌─└►└─ вычисляя           acl
│ │ │ │ │   │ │ └──► бета-функцию       obj
│ │ │ │ │   │ │ ┌──► в                  case
│ │ │ │ │   │ │ │ ┌► однопетлевом       amod
│ │ │ │ │ ┌─│ └►└─└─ приближении        obl
│ │ │ │ │ │ │     ┌► и                  cc
│ │ │ │ │ │ └────►└─ прослеживая        conj
│ │ │ │ └►│     ┌─── поток              obj
│ │ │ │   │     │ ┌► ренормализационной amod
│ │ │ │   │     └►└─ группы             nmod
│ │ │ │   └────────► до                 case
│ │ │ │           ┌► планковских        amod
│ │ │ └────────►┌─└─ масштабов          obl
│ │ │           └──► энергий            nmod
│ │ └──────────────► ,                  punct
│ │               ┌► физ

In [59]:
doc_sm.sents[35].syntax

SyntaxMarkup(
    tokens=[SyntaxToken(
         id='36_1',
         text='Используя',
         head_id='36_24',
         rel='advcl'
     ),
     SyntaxToken(
         id='36_2',
         text='экспериментально',
         head_id='36_1',
         rel='advmod'
     ),
     SyntaxToken(
         id='36_3',
         text='измеренное',
         head_id='36_0',
         rel='root'
     ),
     SyntaxToken(
         id='36_4',
         text='значение',
         head_id='36_3',
         rel='obj'
     ),
     SyntaxToken(
         id='36_5',
         text='этого',
         head_id='36_6',
         rel='det'
     ),
     SyntaxToken(
         id='36_6',
         text='заряда',
         head_id='36_26',
         rel='nmod'
     ),
     SyntaxToken(
         id='36_7',
         text=',',
         head_id='36_8',
         rel='punct'
     ),
     SyntaxToken(
         id='36_8',
         text='вычисляя',
         head_id='36_4',
         rel='acl'
     ),
     SyntaxToken(
         id='36_9',
   

In [64]:
doc_sm.sents[10].syntax

SyntaxMarkup(
    tokens=[SyntaxToken(
         id='11_1',
         text='Чтобы',
         head_id='11_2',
         rel='mark'
     ),
     SyntaxToken(
         id='11_2',
         text='справиться',
         head_id='11_8',
         rel='advcl'
     ),
     SyntaxToken(
         id='11_3',
         text='с',
         head_id='11_5',
         rel='case'
     ),
     SyntaxToken(
         id='11_4',
         text='этой',
         head_id='11_5',
         rel='det'
     ),
     SyntaxToken(
         id='11_5',
         text='проблемой',
         head_id='11_2',
         rel='obl'
     ),
     SyntaxToken(
         id='11_6',
         text=',',
         head_id='11_2',
         rel='punct'
     ),
     SyntaxToken(
         id='11_7',
         text='физики',
         head_id='11_8',
         rel='nsubj'
     ),
     SyntaxToken(
         id='11_8',
         text='считают',
         head_id='11_0',
         rel='root'
     ),
     SyntaxToken(
         id='11_9',
         text=',',
      

### NER

In [13]:
doc_sm.tag_ner(ner_tagger)
doc_sm.ner.print()

Асимптотическая безопасность квантовой гравитации связала заряды и 
массы тяжелых кварков
Matt Cummings / flickr.com
Физики-теоретики из Германии использовали теорию асимптотически 
                    LOC─────                                    
безопасной квантовой гравитации, чтобы рассчитать отношение масс двух 
самых тяжелых кварков — t-кварка и b-кварка. Для этого ученые 
отталкивались от известных значений абелева гиперзаряда и констант 
электрослабой и сильной связи и прослеживали поток ренормализационной 
группы вплоть до планковских масштабов энергии. Кроме того, 
исследователи показали, что отношения зарядов и масс кварков связаны 
между собой. Статья опубликована в Physical Review Letters и находится
                                   ORG────────────────────            
 в свободном доступе.
Одно из важнейших свойств Стандартной модели — это перенормируемость, 
то есть возможность избавляться от бесконечно расходящихся величин. 
Чтобы понять, в чем заключается идея перенорм

### Named entity parsing

In [14]:
for span in doc_sm.spans:
    span.normalize(morph_vocab)
    if span.type == PER:
        span.extract_fact(names_extractor)
{_.normal: _.fact.as_dict for _ in doc_sm.spans if _.type == PER and _.fact}

{'Стивен Вайнберг': {'first': 'Стивен', 'last': 'Вайнберг'},
 'Вайнберг': {'last': 'Вайнберг'},
 'Кристоф Веттерих (Christof Wetterich)': {'first': 'Кристоф',
  'last': 'Веттерих'},
 'Мартин Рейтер (Martin Reuter)': {'first': 'Мартин', 'last': 'Рейтер'},
 'Михаил Шапошников': {'first': 'Михаил', 'last': 'Шапошников'},
 'Кристов Веттерих': {'first': 'Веттерих', 'last': 'Кристов'},
 'Астрид Эйххорн (Astrid Eichhorn)': {'first': 'Астрид', 'last': 'Эйххорн'},
 'Аарон Хельд (Aaron Held)': {'first': 'Аарон', 'last': 'Хельд'},
 'Дмитрий Трунин': {'first': 'Дмитрий', 'last': 'Трунин'}}

## Tiny text complexity estimation
    @TinyComplEst

> Estimate complexity of an article using self-defined parameters
> (these are empirical parameters defined after 1 minute of thinking, don't consider them as a real complexity params)

- Morphology: normalized (`token.lemma`) vocabulary size of an article
- Morphology: median size of an each morph type word (`token.pos`)
- Syntax: overlapping of syntax structure in one sent (`sent.syntax`)

Using `nplus1` articles for estimation

In [21]:
import requests as r
import lxml.html as html
import numpy as np

from collections import namedtuple

In [164]:
def load_article(url: str) -> str:
    req = r.get(url)
    if req.status_code == 200:
        tree = html.document_fromstring(req.text)
        ps = tree.xpath("//article//p[text()!='']")
        return ''.join([p.text_content() for p in ps]).replace('\xa0', ' ')
    else:
        raise Exception(req.status_code, req)

def parse_article(page: str) -> Doc:
    doc = Doc(page)
    
    # segmentation for tokent and sents
    doc.segment(seg)
    
    # morph
    doc.tag_morph(morph_tagger)
    
    # lemmatize
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
    
    # syntax
    doc.parse_syntax(syntax_parser)

    return doc


In [212]:
def get_score(doc: Doc) -> float:
    def get_voc_stats(doc: Doc) -> object:
        '''
        Returns basic vocabulary stats
        '''

        stats = ['median_size', 'mean_size',
                 'min_size', 'max_size',
                 'uniq_size', 'uniq_coeff']
        VocStats = namedtuple('VocStats', stats)

        lemms = [t.lemma for t in doc.tokens if len(t.lemma) > 1]
        sizes = np.array([len(t) for t in lemms])
        
        median, mean = np.median(sizes), sizes.mean()
        min_, max_ = sizes.min(), sizes.max()
        
        uniq_lemms = set(lemms)
        uniq_size = len(uniq_lemms)
        uniq_coeff = uniq_size / len(lemms)
        
        stats_vals = [median, mean, min_, max_, uniq_size, uniq_coeff]
        return VocStats(*stats_vals)
    
    def get_morph_stats(doc: Doc) -> object:
        '''
        Returns basic morph parts stats
        
        dict with median size for each morph type
        '''
        
        stats = ['pos_median_sizes']
        MorphStats = namedtuple('MorphStats', stats)
        
        sizes = {}
        for t in doc.tokens:
            if t.pos == 'PUNCT':
                continue
            if t.pos not in sizes:
                sizes[t.pos] = []
            
            sizes[t.pos].append(len(t.lemma))
        
        median_sizes = {k:np.median(v) for k, v in sizes.items()}

        stats_vals = [median_sizes]
        return MorphStats(*stats_vals)
        

    def get_syntax_stats(doc: Doc) -> object:
        '''
        Returns syntax ovelapping stats for each sentence
        '''
        
        stats = ['ovlp_median', 'ovlp_max']
        SyntaxStats = namedtuple('SyntaxStats', stats)
        
        overlappings = []
        for sent in doc.sents:
            
            syntax_intervals = []
            for t in sent.syntax.tokens:
                id = int(t.id.split('_')[1])
                head_id = int(t.head_id.split('_')[1])
                
                if head_id > id:
                    id, head_id = head_id, id
                
                syntax_intervals.append((head_id, 0))
                syntax_intervals.append((id, 1))

            syntax_intervals.sort(key=lambda x: x[0])
            
            # calc max intersections in all syntax intervals
            cnt, mx = 0, 0
            for i in syntax_intervals:
                if i[1]:
                    mx = max(mx, cnt)
                    cnt -= 1
                else:
                    cnt += 1
            
            overlappings.append(mx)
                
        median_overlap = np.median(overlappings)
        max_overlap = np.max(overlappings)
        
        stats_vals = [median_overlap, max_overlap]
        return SyntaxStats(*stats_vals)
    
    def complexity(doc: Doc) -> float:
        '''
        Estimates `complexity` for given document
        returns float in range [0, 1]
        '''
        print('-'*10)
        # RELU = lambda m: lambda x: np.max(0, (x-m))
        SIGM = lambda m, beta: lambda x: 1/(1+np.exp(-beta * (x-m)))

        voc, morph, syntax = get_voc_stats(doc), get_morph_stats(doc), get_syntax_stats(doc)
        print('voc stats\n', voc)
        print('morph stats\n', morph)
        print('syntax stats\n', syntax)
        
        # vocabulary complexity score
        voc_var = (voc.max_size - voc.min_size) * voc.mean_size/voc.median_size
        voc_var *= voc.uniq_coeff
        print('voc_var:', voc_var)
        print()

        voc_score = SIGM(9, 1)(voc_var)
        print('VOC SCORE:', voc_score)
        
        # morph complexity score
        pos_metric = {
            'NOUN': SIGM(6, 1),
            'NUM': SIGM(1, 0.5),
            'ADJ': SIGM(6, 0.7),
            'VERB': SIGM(3, 2),
            'X': SIGM(3, 2),
            'ADV': SIGM(6, 2),
        }
        metrics = [func(morph.pos_median_sizes[part]) for part, func in pos_metric.items() if part in morph.pos_median_sizes]
        morph_var = np.sum(metrics)
        morph_var /= len(metrics)
        
        morph_score = morph_var
        print('MORPH SCORE:', morph_var)
        
        # syntax overlapping score
        sigm = SIGM(syntax.ovlp_median, syntax.ovlp_max/len(doc.sents))
        syntax_score = sigm(syntax.ovlp_max-syntax.ovlp_median)
        print('SYNTAX SCORE:', syntax_score)

        print('-'*10)
        return (voc_score*0.4 + morph_score*0.2 + syntax_score*0.4) * 10
    
    return complexity(doc)

In [176]:
urls = [
    ('https://nplus1.ru/news/2021/11/13/pingu', 1.3),
    ('https://nplus1.ru/news/2021/11/12/mummified-children', 2.2),
    ('https://nplus1.ru/news/2021/10/20/homeland-horse', 3.3),
    ('https://nplus1.ru/news/2021/11/13/birdswings', 4.3),
    ('https://nplus1.ru/news/2021/10/18/domain-video', 5.3),
    ('https://nplus1.ru/news/2021/11/11/black-holes-cosmology-growth', 6.3),
    ('https://nplus1.ru/news/2021/10/29/big-n-ionization', 7.3),
    ('https://nplus1.ru/news/2021/11/09/neutron-oscillation', 8.3),
    ('https://nplus1.ru/news/2018/10/25/link', 9.3),
    ('https://nplus1.ru/news/2016/03/31/methade', 9.6),
]

In [177]:
# loading articles
downloaded_urls = [
    (load_article(url), score) for url, score in urls
]

In [None]:
parsed_articles = [
    (parse_article(art), score) for art, score in downloaded_urls
]
parsed_articles

In [213]:
for doc, score in parsed_articles:
    print('MY SCORE', get_score(doc))
    print('NPLUS1 SCORE', score)
    print()


----------
voc stats
 VocStats(median_size=6.0, mean_size=6.185882352941176, min_size=2, max_size=17, uniq_size=278, uniq_coeff=0.6541176470588236)
morph stats
 MorphStats(pos_median_sizes={'PROPN': 6.0, 'NUM': 3.0, 'NOUN': 7.0, 'X': 7.0, 'ADP': 1.0, 'ADJ': 7.0, 'VERB': 8.0, 'CCONJ': 1.0, 'ADV': 6.0, 'SCONJ': 3.0, 'PRON': 3.0, 'AUX': 4.0, 'PART': 2.0, 'DET': 3.5})
syntax stats
 SyntaxStats(ovlp_median=7.0, ovlp_max=12)
voc_var: 10.115737024221453

VOC SCORE: 0.7531971223166561
MORPH SCORE: 0.7716540302381678
SYNTAX SCORE: 0.2689414213699951
----------
MY SCORE 5.631862235222941
NPLUS1 SCORE 1.3

----------
voc stats
 VocStats(median_size=7.0, mean_size=6.8782383419689115, min_size=2, max_size=19, uniq_size=252, uniq_coeff=0.6528497409326425)
morph stats
 MorphStats(pos_median_sizes={'PROPN': 7.0, 'NUM': 2.0, 'NOUN': 7.0, 'X': 7.0, 'ADV': 5.0, 'VERB': 9.0, 'ADJ': 7.0, 'ADP': 1.0, 'SCONJ': 3.0, 'DET': 3.5, 'CCONJ': 1.0, 'PRON': 3.0, 'AUX': 4.0, 'PART': 2.0, 'SYM': 1.0})
syntax stats
 Syn

In [54]:
doc = parse_article(art)

In [152]:
get_score(doc)

voc stats
 VocStats(median_size=6.0, mean_size=6.718446601941747, min_size=2, max_size=18, uniq_size=313, uniq_coeff=0.5064724919093851)
morph stats
 MorphStats(pos_median_sizes={'NOUN': 7.0, 'NUM': 3.0, 'PROPN': 6.0, 'ADJ': 9.0, 'ADP': 2.0, 'CCONJ': 1.0, 'VERB': 8.0, 'X': 12.0, 'PRON': 3.0, 'SCONJ': 3.0, 'ADV': 8.0, 'DET': 4.0, 'AUX': 4.0, 'PART': 2.0})
syntax stats
 SyntaxStats(ovlp_median=7.0, ovlp_max=14)
voc_var: 9.073889045988208
VOC SCORE: 0.51846386183333
MORPH SCORE: 0.692534037437163
SYNTAX SCORE: 0.9706877692486436


1.0

In [92]:
len(doc.sents)

29

In [163]:
downloaded_urls[0][0]

'\n                        Зоология\n                                            \n            \n                \n                    23:46\n                    13 Нояб. 2021\n                \n            \n        \n            \n                Сложность\n                1.3\n            \n        Пингвин Адели (Pygoscelis adeliae) на Южных Шетландских островах.Wikimedia CommonsВ\xa0Новой Зеландии в\xa0третий раз в\xa0истории встретили пингвина Адели. В норме представители данного вида живут в\xa0Антарктиде и\xa0Субантарктике, в\xa0трех тысячах километров южнее. Специалисты полагают, что к\xa0новозеландскому побережью прибило молодую особь, которая выплыла слишком далеко в\xa0океан и\xa0была подхвачена течением. Как сообщает The Guardian, заблудившегося пингвина осмотрел ветеринар, после чего птицу напоили водой, накормили рыбой и\xa0выпустили на волю.Жителя Новой Зеландии трудно удивить встречей с\xa0пингвином. Только на\xa0главных островах архипелага гнездятся три вида этих птиц,