In [9]:
from typing import Iterator, Iterable, Callable

import spacy
from spacy import Errors
from spacy import displacy
from spacy.matcher import DependencyMatcher
from spacy.parts_of_speech import *
from spacy.tokens import Doc
from spacy.tokens import Span
from spacy.tokens import Token

from ttc.language.russian.constants import SPEAKING_VERBS

In [10]:
import ttc.language.russian.pipelines as russian_pipelines
nlp = spacy.load("ru_core_news_sm")
russian_pipelines.register_for(nlp)
# nlp_md = spacy.load("ru_core_news_md")
# russian_pipelines.register_for(nlp_md)
# nlp_lg = spacy.load("ru_core_news_lg")
# russian_pipelines.register_for(nlp_lg)

In [11]:
from spacy.lang.ca.syntax_iterators import noun_chunks as noun_chunks_ca  # #
from spacy.lang.da.syntax_iterators import noun_chunks as noun_chunks_da  # # # # # # # #
from spacy.lang.de.syntax_iterators import noun_chunks as noun_chunks_de  #
from spacy.lang.el.syntax_iterators import noun_chunks as noun_chunks_el  # # #   # #   #
from spacy.lang.en.syntax_iterators import noun_chunks as noun_chunks_en  #         #   #
from spacy.lang.es.syntax_iterators import noun_chunks as noun_chunks_es  #         # # #
from spacy.lang.fa.syntax_iterators import noun_chunks as noun_chunks_fa  #         #   #
from spacy.lang.fi.syntax_iterators import noun_chunks as noun_chunks_fi  #     # #     #
from spacy.lang.fr.syntax_iterators import noun_chunks as noun_chunks_fr  #       # # # #
from spacy.lang.id.syntax_iterators import noun_chunks as noun_chunks_id  #   #   #   #
from spacy.lang.it.syntax_iterators import noun_chunks as noun_chunks_it  #       # # # #
from spacy.lang.ja.syntax_iterators import noun_chunks as noun_chunks_ja  #     #     #
from spacy.lang.nb.syntax_iterators import noun_chunks as noun_chunks_nb  # # #   #
from spacy.lang.nl.syntax_iterators import noun_chunks as noun_chunks_nl  #       # # # #
from spacy.lang.pt.syntax_iterators import noun_chunks as noun_chunks_pt  #       # # # #
from spacy.lang.sv.syntax_iterators import noun_chunks as noun_chunks_sv  #   #   #
from spacy.lang.tr.syntax_iterators import noun_chunks as noun_chunks_tr  #     # # #   #
from ttc.language.russian.extensions.syntax_iterators import (  #         #       #
    noun_chunks as noun_chunks_ru
)

In [12]:
ncfs = [
    ("ru", noun_chunks_ru),
    ("ca", noun_chunks_ca),
    ("da", noun_chunks_da),
    ("de", noun_chunks_de),
    ("el", noun_chunks_el),
    ("en", noun_chunks_en),
    ("es", noun_chunks_es),
    ("fa", noun_chunks_fa),
    ("fi", noun_chunks_fi),
    ("fr", noun_chunks_fr),
    ("id", noun_chunks_id),
    ("it", noun_chunks_it),
    ("ja", noun_chunks_ja),
    ("nb", noun_chunks_nb),
    ("nl", noun_chunks_nl),
    ("pt", noun_chunks_pt),
    ("sv", noun_chunks_sv),
    ("tr", noun_chunks_tr),
]

In [13]:
def p(text):
    FMT = "{:<30}"
    print(text)
    for (i, (name, func)) in enumerate(ncfs):
        nlp.vocab.get_noun_chunks = func
        doc = nlp(text)
        ncs = [str(nc) for nc in doc.noun_chunks]
        format_row = (FMT * (len(ncs) - 1)) + "{}"
        print("{:>2}".format(i + 1),
              "{:>2}".format(name),
              format_row.format(*ncs))
    print()

In [14]:
p("Один из них, худощавый, с подвижным лицом, приблизился к Гусеву и быстро проговорил.")
p("Не получив ответа, Гриша жадно макает свою кудрявую голову в пиво, потом нагибается к Михайле, хлопает его по колену и хрипло говорит.")
# парнишка, мой привет, своим близким
p("Беги, парнишка, домой и передай мой привет своим близким!")
# книга, мне, тайны, природы
p("Поведай, книга, мне тайны природы.")
# о день счастливый, густой туман
p("Засветись, о день счастливый! Разгони густой туман.")
# Казбек, о страж Востока,   я, странник,   свой поклон
p("Тебе, Казбек, о страж Востока, принес я, странник, свой поклон.")
# товарищ мой любезный,   раздор смешной и бесполезный
p("Забудь, товарищ мой любезный, раздор смешной и бесполезный.")
# лёгкие звезды,   пушистого первого снега
p("Здравствуйте, лёгкие звезды пушистого первого снега!")
# умная голова
# p("Отколе, умная, бредёшь ты, голова?")
# князь ты мой прекрасный
# p("Здравствуй, князь ты мой прекрасный!")
# Ты, царевич, мой спаситель, мой могучий избавитель
p("Ты, царевич, мой спаситель, мой могучий избавитель!")

Один из них, худощавый, с подвижным лицом, приблизился к Гусеву и быстро проговорил.
 1 ru Один из них, худощавый        с подвижным лицом             к Гусеву

Не получив ответа, Гриша жадно макает свою кудрявую голову в пиво, потом нагибается к Михайле, хлопает его по колену и хрипло говорит.
 1 ru ответа                        Гриша                         свою кудрявую голову          в пиво                        к Михайле                     его                           по колену                     хрипло

Беги, парнишка, домой и передай мой привет своим близким!
 1 ru парнишка                      мой привет                    своим близким

Поведай, книга, мне тайны природы.
 1 ru книга                         мне                           тайны природы

Засветись, о день счастливый! Разгони густой туман.
 1 ru о день                        Разгони                       густой туман

Тебе, Казбек, о страж Востока, принес я, странник, свой поклон.
 1 ru Тебе, Казбек           

In [19]:
doc = nlp("Один Сафронов остался без сна.")
displacy.render(doc, style="dep")