# NLP tasks example with `Natasha`

In [None]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


In [None]:
seg = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

In [None]:
# https://nplus1.ru/news/2018/10/16/asymptotically-safe
# complexity 9.7
text_sm = '''

Асимптотическая безопасность квантовой гравитации связала заряды и массы тяжелых кварков

Matt Cummings / flickr.com

Физики-теоретики из Германии использовали теорию асимптотически безопасной квантовой гравитации, чтобы рассчитать отношение масс двух самых тяжелых кварков — t-кварка и b-кварка. Для этого ученые отталкивались от известных значений абелева гиперзаряда и констант электрослабой и сильной связи и прослеживали поток ренормализационной группы вплоть до планковских масштабов энергии. Кроме того, исследователи показали, что отношения зарядов и масс кварков связаны между собой. Статья опубликована в Physical Review Letters и находится в свободном доступе.

Одно из важнейших свойств Стандартной модели — это перенормируемость, то есть возможность избавляться от бесконечно расходящихся величин. Чтобы понять, в чем заключается идея перенормировок, сначала надо понять, откуда в теории берутся расходимости. Основным объектом Стандартной модели, как и любой квантовой теории поля, являются пропагаторы — функции, которые показывают вероятность перехода между различными конфигурациями квантовых полей. Например, вероятность частицы переместиться между двумя заданными точками за фиксированный промежуток времени. Для свободных теорий, в которых частицы не взаимодействуют друг с другом, найти пропагаторы очень легко — достаточно выписать и решить уравнения теории. Если же добавить в теорию взаимодействие, которое «перемешивает» поля — например, электромагнитное поле и поле электронов, — уравнения резко усложняются, и точно решить их становится невозможно. Чтобы справиться с этой проблемой, физики считают, что поля свободных теорий слабо «цепляются» друг за друга, а затем вычисляют поправки к пропагаторам свободной теории; чем более высокие порядки учитываются, тем точнее получается результат. Наглядно такое вычисление можно представить в виде диаграмм Фейнмана. При низких энергиях этот подход очень хорошо работает — в частности, теоретическое значение магнитного момента электрона совпадает с экспериментом с точностью порядка 10−12.

Свободные пропагаторы в квантовой электродинамике (рисунок 2), вершина, описывающая взаимодействие электрона и фотона (рисунок 1) и процесс рассеяния фотона на электроне в древесном приближении (рисунок 3)

Wikimedia Commons
Поделиться

Петлевые поправки к процессу рассеяния фотона на электроне (рисунок 3 с предыдущей картинки)

Wikimedia Commons
Поделиться

1/2

К сожалению, при больших энергиях (то есть на маленьких расстояниях) поправки к пропагаторам бесконечно растут, что противоречит экспериментальным данным. Чтобы убрать эти расходимости, физики определенным образом «подкручивают» напряженности полей и постоянных теории, которые входили в исходные уравнения движения, заставляя их зависеть от масштаба энергий. Другими словами, в результате этой процедуры ученые выделяют в пропагаторах физически осмысленные вклады и добавляют в исходный лагранжиан теории специально подобранные контрчлены, которые сокращают «нефизичные» расходимости. В этом заключается смысл процедуры перенормировки. Если число контрчленов конечно, то теория «хорошая», и с ее помощью можно рассчитать значения наблюдаемых величин. Стандратная модель относится именно к такому типу теорий. Если же расходимости можно убрать только с помощью бесконечного числа контрчленов, то предсказательная сила теории равна нулю, поскольку она требует вводить бесконечное число свободных параметров. Это случай квантовой гравитации. Физики пытались решить эту проблему, разработав принципиально новые экзотические теории — например, теорию струн или теорию петлевой квантовой гравитации. Тем не менее, до сих пор не существует экспериментов, которые подтвердили бы эти теории.

С другой стороны, в конце 1970-х годов Стивен Вайнберг заметил, что неперенормируемость теории квантовой гравитации не обязательно означает, что с ее помощью нельзя рассчитывать значения наблюдаемых величин. Вместо того чтобы бороться с расходимостями, возникающими в стандартных методах, Вайнберг предложил «зайти» с противоположного конца — описать теорию с помощью конечного числа конечных параметров на больших энергиях, а потом продолжить зависимости в область низких энергий. Такое свойство теории Вайнберг назвал асимптотической безопасностью по аналогии с асимптотической свободой Квантовой хромодинамики, в которой константа связи стремится к нулю на больших энергиях. Математический инструмент, который позволяет выполнить такие расчеты, предложили в начале 1990-х годов Кристоф Веттерих (Christof Wetterich) и Мартин Рейтер (Martin Reuter). В 2009 году Михаил Шапошников и Кристов Веттерих рассчитали с помощью теории асимптотически безопасной гравитации предполагаемую массу бозона Хиггса, которая составила примерно 126 гигаэлектронвольт, что практически в точности совпадает с результатами последовавших измерений на Большом адронном коллайдере. Кроме того, теория с асимптотической безопасностью практически не нужно вводить новые частицы, как это предлагает делать большинство альтернативных теорий вроде теории струн. Это делает идею асимптотической безопасности очень привлекательной для теоретиков.

В новой статье физики Астрид Эйххорн (Astrid Eichhorn) и Аарон Хельд (Aaron Held) использовали асимптотически безопасную гравитацию, чтобы объяснить огромный разрыв масс между двумя самыми массивными кварками — t-кварком (mt ≈ 173 гигаэлектронвольт) и b-кварком (mb ≈ 4,9 гигаэлектронвольт). В Стандартной модели массы кварков возникают из-за того, что частицы «цепляются» за поле Хиггса, равномерно заполняющего Вселенную (подробнее про этот эффект можно прочитать в материале «С днем рождения, БАК!»). Сила, с которой кварки «цепляются» к полю, определяется юкавскими константами связи yb и yt, значения которых невозможно рассчитать в рамках Стандартной модели. С другой стороны, эти константы должны быть связаны с абелевым гиперзарядом соотношением yt2 — yb2 = ⅓gy2, которое выполняется для очень больших энергий (много больше планковского масштаба). В то же время, абелев гиперзаряд связан с параметрами квантовой гравитации. Используя экспериментально измеренное значение этого заряда, вычисляя бета-функцию в однопетлевом приближении и прослеживая поток ренормализационной группы до планковских масштабов энергий, физики рассчитали значение одного из этих параметров. Значение второго параметра ученые зафиксировали исходя из массы b-кварка. Наконец, исследователи рассчитали массу t-кварка, используя найденные значения параметров, и получили величину около mt ≈ 178 гигаэлектронвольт, что хорошо согласуется с экспериментом.

Зависимости параметров Стандартной модели от масштаба энергий, рассчитанные учеными в рамках асимптотически безопасной теории квантовой гравитации

A. Eichhorn & A. Held / Physical Review Letters
Поделиться


Кроме того, из расчетов физиков следует еще три интересных замечания. Во-первых, постоянные квантовой гравитации для абелевых и неабелевых полей должны быть очень близки — это согласуется с тем, что гравитационные поля одинаково сильно взаимодействуют с частицами разной природы, если они имеют одинаковую массу. Во-вторых, характерный масштаб энергий, на которых гравитационные вклады «выключаются», совпадает с планковской энергией. В-третьих, заряды t-кварка и b-кварка должны относиться как Qt/Qb = −2. Если бы хотя бы одно из этих трех предположений не выполнялось, отношение масс кварков получились бы совершенно другим — исправить расхождение не помогло бы даже изменение параметров квантовой гравитации.

Несмотря на то, что эффекты квантовой гравитации должны очень слабо проявляться на наблюдаемых масштабах энергии, физики все равно пытаются их обнаружить, измеряя тонкие эффекты с высокой точностью. Например, отслеживают расстояние до Луны и колебания приливных сил, перепроверяют классические предсказания ОТО и сравнивают временну́ю задержку между фотонами, приходящими от далеких гамма-всплесков. Как и ожидалось, ни один из этих экспериментов не нашел отклонений от Стандартной модели или ОТО.

Дмитрий Трунин
'''
doc_sm = Doc(text_sm)

### Segmentation

In [None]:
doc_sm.segment(seg)
list(map(lambda x: x.text,doc_sm.tokens[:10]))

In [None]:
list(map(lambda x: x.text,doc_sm.sents[:10]))

### Morphology

In [None]:
doc_sm.tag_morph(morph_tagger)
doc_sm.tokens[:10]

In [None]:
doc_sm.sents[0].morph.print()

### Lemmatization

In [None]:
for token in doc_sm.tokens:
    token.lemmatize(morph_vocab)

doc_sm.tokens[:10]

In [None]:
lemms = {_.text: _.lemma for _ in doc_sm.tokens}
lemms['временну́ю'], lemms['t-кварка'], lemms['Физики-теоретики']

In [None]:
target = doc_sm.sents[35]
target.text, target

In [None]:
' '.join([i.lemma for i in target.tokens])

### Syntax

In [None]:
doc_sm.parse_syntax(syntax_parser)
doc_sm.sents[35].syntax.print()

### NER

In [None]:
doc_sm.tag_ner(ner_tagger)
doc_sm.ner.print()

### Named entity parsing

In [None]:
for span in doc_sm.spans:
    span.normalize(morph_vocab)
    if span.type == PER:
        span.extract_fact(names_extractor)
{_.normal: _.fact.as_dict for _ in doc_sm.spans if _.type == PER and _.fact}

## Tiny text complexity estimation
    @TinyComplEst

> Estimate complexity of an article using self-defined parameters
> (these are empirical parameters defined after 1 minute of thinking, don't consider them as a real complexity params)

- Morphology: normalized (`token.lemma`) vocabulary size of an article
- Morphology: median size of an each morph type word (`token.pos`)
- Syntax: overlapping of syntax structure in one sent (`sent.syntax`)

Using `nplus1` articles for estimation

In [84]:
import requests as r
import lxml.html as html
import numpy as np

In [103]:
def load_article(url: str) -> str:
    req = r.get(url)
    if req.status_code == 200:
        tree = html.document_fromstring(req.text)
        ps = tree.xpath("//article//p[text()!='']")
        return ''.join([p.text_content() for p in ps])
    else:
        raise Exception(req.status_code, req)

def parse_article(page: str) -> Doc:
    doc = Doc(page)
    
    # segmentation for tokent and sents
    doc.segment(seg)
    
    # morph
    doc.tag_morph(morph_tagger)
    
    # lemmatize
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
    
    # syntax
    doc.parse_syntax(syntax_parser)

    return doc

def get_score(doc: Doc) -> float:
    def get_morph_voc_size(doc: Doc) -> int:
        lemms = [t.lemma for t in doc.tokens if len(t.lemma) > 1]
        lemms_sizes = [len(t) for t in lemms]
        print('lemms', lemms)
        print('stats (mid, mean, min, max)', np.median(lemms_sizes), np.mean(lemms_sizes), min(lemms_sizes), max(lemms_sizes))
        print('voc size', len(set(lemms)))
        print('voc size coeff to all tokens', len(set(lemms))/len(lemms))
    
    def get_morph_median_size(doc: Doc) -> dict:
        # returns dict with median size for each morph type
        pass
    
    def get_syntax_overlapping_on_sent(doc: Doc) -> float:
        pass
    
    get_morph_voc_size(doc)
    


In [69]:
art = load_article('https://nplus1.ru/news/2015/05/31/duality')

In [78]:
doc = parse_article(art)

In [104]:
get_score(doc)

lemms ['наука', '11', '33', '31', 'май', '2015', 'сложность', '9.5', 'микроскопический', 'связь', 'между', 'квантовый', 'теория', 'на', 'граница', 'гравитация', 'толща', 'пространство', 'энтропия', 'запутанность', 'между', 'область', 'выражаться', 'через', 'площадь', 'минимальный', 'поверхность', 'оптимальный', 'образ', 'вложить', 'гравитирующий', 'пространство', 'иллюстрация', 'inspirehep', 'повседневный', 'опыт', 'убеждать', 'мы', 'что', 'трехмерный', 'пространство', 'можно', 'разместить', 'предмет', 'более', 'разнообразно', 'чем', 'на', 'плоскость', 'вы', 'мочь', 'уложить', 'слой', 'елочный', 'игрушка', 'на', 'день', 'коробка', 'разный', 'комбинация', 'но', 'это', 'разнообразие', 'меркнуть', 'перед', 'огромный', 'количество', 'вариант', 'заполнение', 'игрушка', 'весь', 'объем', 'коробка', 'какой', 'бы', 'сложный', 'физический', 'система', 'тут', 'ни', 'быть', 'быть', 'это', 'даже', 'квантовый', 'система', 'из', 'многий', 'частица', 'весь', 'равный', 'интуитивно', 'понятный', 'что', 

In [94]:
get_score(doc)

lemms [5, 2, 1, 2, 2, 3, 4, 9, 3, 16, 5, 5, 9, 6, 2, 7, 1, 10, 1, 5, 12, 1, 8, 12, 5, 7, 1, 1, 1, 10, 5, 7, 11, 11, 1, 11, 5, 7, 1, 13, 12, 1, 11, 10, 12, 4, 8, 2, 1, 3, 1, 10, 12, 5, 10, 7, 5, 12, 1, 3, 2, 9, 1, 2, 4, 7, 4, 7, 7, 2, 4, 7, 1, 6, 10, 1, 2, 3, 12, 8, 5, 8, 10, 7, 10, 7, 4, 5, 7, 1, 1, 5, 2, 7, 10, 7, 3, 2, 4, 1, 4, 3, 4, 9, 7, 2, 6, 7, 1, 4, 6, 10, 8, 1, 3, 1, 10, 12, 1, 3, 4, 11, 6, 7, 1, 6, 12, 1, 3, 2, 9, 1, 12, 4, 5, 1, 4, 2, 10, 8, 13, 6, 11, 1, 3, 1, 3, 4, 5, 6, 10, 1, 2, 1, 4, 1, 3, 2, 10, 7, 1, 5, 13, 6, 1, 3, 2, 7, 4, 5, 1, 2, 4, 5, 3, 10, 6, 10, 7, 1, 4, 7, 1, 5, 1, 1, 6, 1, 2, 7, 1, 2, 3, 4, 9, 9, 7, 2, 11, 1, 9, 10, 1, 3, 9, 6, 14, 12, 5, 7, 1, 3, 10, 6, 6, 1, 5, 12, 5, 6, 1, 9, 6, 7, 1, 8, 10, 1, 3, 12, 4, 7, 10, 1, 4, 3, 3, 10, 1, 11, 3, 12, 3, 1, 12, 13, 9, 6, 4, 2, 7, 1, 3, 8, 8, 3, 1, 16, 1, 11, 3, 14, 1, 7, 8, 1, 4, 5, 5, 1, 10, 6, 4, 9, 1, 5, 4, 4, 1, 1, 6, 8, 3, 2, 12, 1, 15, 10, 1, 2, 8, 1, 3, 1, 3, 7, 10, 10, 9, 1, 4, 10, 1, 10, 5, 7, 1, 6, 9, 1, 13