In [47]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)


import re
import string

In [43]:
text = 'Бурунди'
doc = Doc(text)
doc

Doc(text='Бурунди')

In [24]:
with open('scripts.txt', encoding='utf-8') as f:
    text = f.read()

In [34]:
phrases = [x.split('\n') for x in re.findall(r'(\d\d:\d\d\n.+?)\n', text)]
phrases

[['78:03', 'этого вечера'],
 ['78:05', 'скамейку арбуз как вы сидели под дождем'],
 ['78:09', 'и промокли не надо придумывать за наши'],
 ['78:12', 'воображения'],
 ['78:30', '[музыка]'],
 ['78:33', 'монада'],
 ['78:47', 'как это было сегодня мы точно не забудем'],
 ['78:51', 'о знать'],
 ['78:59', 'гаражи'],
 ['79:03', '[музыка]']]

In [44]:
doc.segment(segmenter)
display(doc)
display(doc.sents[:2])
display(doc.tokens[:5])

Doc(text='Бурунди', tokens=[...], sents=[...])

[DocSent(stop=7, text='Бурунди', tokens=[...])]

[DocToken(stop=7, text='Бурунди')]

In [45]:
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
display(doc.tokens[:5])

[DocToken(stop=7, text='Бурунди', id='1_1', head_id='1_0', rel='root', pos='PROPN', feats=<Inan,Gen,Fem,Sing>)]

In [46]:
doc.tag_ner(ner_tagger)
display(doc.spans[:5])

[DocSpan(stop=7, type='LOC', text='Бурунди', tokens=[...])]

In [None]:
doc.ner.print()

In [51]:
loc_phrases = []
for phrase in phrases:
    doc = Doc(string.capwords(phrase[1]))
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    doc.tag_ner(ner_tagger)
    for span in doc.spans:
        if (span.type == 'LOC') and (len(span.text.split()) == 1):
            loc_phrases.append((phrase, span))

In [53]:
len(loc_phrases)

136

In [54]:
loc_phrases

[(['00:34', 'наконец сделал и покрасил рядом с крошем'],
  DocSpan(start=34, stop=40, type='LOC', text='Крошем', tokens=[...])),
 (['08:57', 'помогает хочешь как известно в трудных'],
  DocSpan(start=31, stop=38, type='LOC', text='Трудных', tokens=[...])),
 (['10:02', 'потерпела кораблекрушение на пустынный'],
  DocSpan(start=29, stop=38, type='LOC', text='Пустынный', tokens=[...])),
 (['18:53', 'пойти прогуляться и выскочит'],
  DocSpan(start=20, stop=28, type='LOC', text='Выскочит', tokens=[...])),
 (['22:30', 'пасмурно'],
  DocSpan(stop=8, type='LOC', text='Пасмурно', tokens=[...])),
 (['30:06', 'судак'], DocSpan(stop=5, type='LOC', text='Судак', tokens=[...])),
 (['35:39', 'мы пропали'],
  DocSpan(start=3, stop=10, type='LOC', text='Пропали', tokens=[...])),
 (['42:51', 'договорились встретиться в лесу около в'],
  DocSpan(start=27, stop=31, type='LOC', text='Лесу', tokens=[...])),
 (['50:11', 'конечно хорошее настроение так и запишем'],
  DocSpan(start=33, stop=40, type='LOC', tex