In [1]:
import pandas as pd
from natasha import (
    Segmenter,
    MorphVocab,

    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,

    PER,
    NamesExtractor,

    Doc
)


In [2]:
from ipymarkup import show_span_ascii_markup, show_dep_ascii_markup, show_span_box_markup

In [3]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
doc = Doc(text)

In [4]:
doc.segment(segmenter)
print(doc.tokens[:5])
print(doc.sents[:5])

[DocToken(stop=5, text='Посол'), DocToken(start=6, stop=13, text='Израиля'), DocToken(start=14, stop=16, text='на'), DocToken(start=17, stop=24, text='Украине'), DocToken(start=25, stop=30, text='Йоэль')]
[DocSent(stop=218, text='Посол Израиля на Украине Йоэль Лион признался, чт..., tokens=[...]), DocSent(start=219, stop=257, text='Свое заявление он разместил в Twitter.', tokens=[...]), DocSent(start=258, stop=424, text='«Я не могу понять, как прославление тех, кто непо..., tokens=[...]), DocSent(start=425, stop=592, text='Украина не должна забывать о преступлениях, совер..., tokens=[...]), DocSent(start=593, stop=798, text='11 декабря Львовский областной совет принял решен..., tokens=[...])]


In [5]:
doc.tag_morph(morph_tagger)
print(doc.tokens[:5])
doc.sents[0].morph.print()

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>), DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>), DocToken(start=14, stop=16, text='на', pos='ADP'), DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>), DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>)]
               Посол NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
             Израиля PROPN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
                  на ADP
             Украине PROPN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing
               Йоэль PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                Лион PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
           признался VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid
                   , PUNCT
                 что SCONJ
              пришел VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tens

In [6]:
doc.tag_ner(ner_tagger)
print(doc.spans[:5])
doc.ner.print()

[DocSpan(start=6, stop=13, type='LOC', text='Израиля', tokens=[...]), DocSpan(start=17, stop=24, type='LOC', text='Украине', tokens=[...]), DocSpan(start=25, stop=35, type='PER', text='Йоэль Лион', tokens=[...]), DocSpan(start=89, stop=106, type='LOC', text='Львовской области', tokens=[...]), DocSpan(start=152, stop=158, type='LOC', text='России', tokens=[...])]
Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав
      LOC────    LOC──── PER───────                                   
 о решении властей Львовской области объявить 2019 год годом лидера 
                   LOC──────────────                                
запрещенной в России Организации украинских националистов (ОУН) 
              LOC─── ORG─────────────────────────────────────── 
Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу 
PER────────────                                ORG────             
понять, как прославление тех, кто непосредственно принимал участие в 
ужасных антисемитск

In [7]:
doc.spans[0]

DocSpan(start=6, stop=13, type='LOC', text='Израиля', tokens=[...])

In [8]:
text2 = 'Председателю Думы города Нефтеюганска, заместителю председателя Думы города Нефтеюганска,                                                            депутату Думы города Нефтеюганска                                                                      по поручению жильцов дома № 1                                              Иванов Иван Иванович                                                          Адрес:   628300, г. Нефтеюганск                                                                       ул. Киевская, дом 1, кв. 1                                                                    Телефон: +70000000000Обращение (предложение, заявление, жалоба) '

In [9]:
doc= Doc(text2)
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
doc.ner.print()

Председателю Думы города Нефтеюганска, заместителю председателя Думы 
ORG──────────────        LOC─────────                           ORG─ 
города Нефтеюганска,
       LOC───────── 
                                                            депутату 
Думы города Нефтеюганска
ORG─        LOC─────────
                                                                      
по поручению жильцов дома № 1
                                              Иванов Иван Иванович
                                              PER─────────────────
                                                          Адрес:   
───────────────────────────────────────────────────────────────    
628300, г. Нефтеюганск                                                
           LOC────────────────────────────────────────────────────────
                       ул. Киевская, дом 1, кв. 1
─────────────────────────                        
                                                                    
Телефон: +700000

In [10]:
show_span_box_markup(doc.text, doc.spans)

In [11]:
for span in doc.spans:
    print(span)
    for token in span.tokens:
        print('  ',token)

DocSpan(stop=17, type='ORG', text='Председателю Думы', tokens=[...])
   DocToken(stop=12, text='Председателю')
   DocToken(start=13, stop=17, text='Думы')
DocSpan(start=25, stop=37, type='LOC', text='Нефтеюганска', tokens=[...])
   DocToken(start=25, stop=37, text='Нефтеюганска')
DocSpan(start=64, stop=68, type='ORG', text='Думы', tokens=[...])
   DocToken(start=64, stop=68, text='Думы')
DocSpan(start=76, stop=88, type='LOC', text='Нефтеюганска', tokens=[...])
   DocToken(start=76, stop=88, text='Нефтеюганска')
DocSpan(start=158, stop=162, type='ORG', text='Думы', tokens=[...])
   DocToken(start=158, stop=162, text='Думы')
DocSpan(start=170, stop=182, type='LOC', text='Нефтеюганска', tokens=[...])
   DocToken(start=170, stop=182, text='Нефтеюганска')
DocSpan(start=327, stop=410, type='PER', text='Иванов Иван Иванович                             ..., tokens=[...])
   DocToken(start=327, stop=333, text='Иванов')
   DocToken(start=334, stop=338, text='Иван')
   DocToken(start=339, stop=34

In [12]:
text3='Савеловскому межрайонному прокурору г. Москвы Минькову Д. Д. 25284, г. Москва. Хорошёвское шоссе, дом 16, корп. 1 Заявитель: Шулипа Юрий Юрьевич ЗАЯВЛЕНИЕ о возбуждении дела об административном правонарушении в отношении должностного лица, по факту парушения установленного законодательством Российской Федерации порядка рассмотрения обращения гражданина В соответствии со ст. 33 Конституции РФ 10 июля 2012 года, заявитель обратился с письменным обращением по компетенции к начальнику Отдела ОУФМС России в САО по г. Москве Бородину А. Д. (копия обращения прилагается). В силу ч. 1 ст. 9 Федерального закона от 2 мая 2006 г. № 59-ФЗ «О порядке рассмотрения обращений граждан Российской Федерации»; обращение, поступившее в государственный орган, орган местного самоуправления или должностному лицу в соответствии с их компетенцией, подлежит обязательному Согласно п. 1. ч. 1 ст. 10 Федерального закона от 2 мая 2006 г. № 59-ФЗ «О порядке рассмотрению. рассмотрения обращений граждан Российской Федерации» государственный орган, орган местного самоуправления или должностное лицо: обеспечивает объективное, всестороннее и своевременное рассмотрение обращения в случае необходимости с участием гражданина, направившего обращение. Исходя из положения ст. 12 Федерального закона от 2 мая 2006 г. № 59-ФЗ «О порядке рассмотрения обращений граждан Российской Федерации»: письменное обращение, поступившее в государственный орган, орган местного самоуправления или должностному лицу в соответствии с их компетенцией, рассматривается в течение 30 дней со дня регистрации письменного обращения. Со дня регистрации письменного обращения заявителя от 10 июля 2012 года и до настоящего времени прошло более 30 дней. В нарушение ст. 12 Федерального закона от 2 мая 2006 г. № 59-ФЗ «О порядке рассмотрения обращений граждан Российской Федерации», письменный мотивированный ответ на вышеуказанное обращение заявителя за подписью начальника Отдела ОУФМС России в САО по г. Москве Бородина А. Д.. заявителю не был направлен. Кроме парушений вышеуказанных норм действующего законодательства РФ, незаконным бездействием начальника Отдела ОУФМС России в САО по г. Москве Бородина А. Д., грубо нарушены неотъемлемые федеральным законом, конституционные права заявителя, закрепленные в статьях 3 (части 1), 17, 18, 24, 33, 55 (части 3) Конституции РФ. Между тем, согласно ст. 5.59 КоАП РФ нарушение установленного законодательством Российской Федерации порядка рассмотрения обращений граждан должностными лицами государственных органов и органов местного самоуправления, за исключением случаев, предусмотренных статьями 5.39, 5.63 настоящего Кодекса, влечет наложение административного штрафа в размере от пяти тысяч до десяти тысяч рублей. Не представление письменного мотивированного ответа на вышеуказанное обращение заявителя за подписью начальника Отдела ОУФМС России в САО по г.1'

In [13]:
doc = Doc(text3)
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
doc.ner.print()

Савеловскому межрайонному прокурору г. Москвы Минькову Д. Д. 25284, г.
ORG────────────────────────────────    LOC─── PER──────────           
 Москва. Хорошёвское шоссе, дом 16, корп. 1 Заявитель: Шулипа Юрий 
 LOC───  LOC──────────────                             PER─────────
Юрьевич ЗАЯВЛЕНИЕ о возбуждении дела об административном 
─────── ORG──────                                        
правонарушении в отношении должностного лица, по факту парушения 
установленного законодательством Российской Федерации порядка 
                                 LOC─────────────────         
рассмотрения обращения гражданина В соответствии со ст. 33 Конституции
                                  L                                   
 РФ 10 июля 2012 года, заявитель обратился с письменным обращением по 
 LO                                                                   
компетенции к начальнику Отдела ОУФМС России в САО по г. Москве 
                         ORG───────── LOC───   LOC       LOC─── 


In [14]:
show_span_box_markup(doc.text, doc.spans)

In [15]:
for span in doc.spans:
    print(span)
    for token in span.tokens:
        print('  ',token)

DocSpan(stop=35, type='ORG', text='Савеловскому межрайонному прокурору', tokens=[...])
   DocToken(stop=12, text='Савеловскому')
   DocToken(start=13, stop=25, text='межрайонному')
   DocToken(start=26, stop=35, text='прокурору')
DocSpan(start=39, stop=45, type='LOC', text='Москвы', tokens=[...])
   DocToken(start=39, stop=45, text='Москвы')
DocSpan(start=46, stop=59, type='PER', text='Минькову Д. Д', tokens=[...])
   DocToken(start=46, stop=54, text='Минькову')
   DocToken(start=55, stop=56, text='Д')
   DocToken(start=56, stop=57, text='.')
   DocToken(start=58, stop=59, text='Д')
DocSpan(start=71, stop=77, type='LOC', text='Москва', tokens=[...])
   DocToken(start=71, stop=77, text='Москва')
DocSpan(start=79, stop=96, type='LOC', text='Хорошёвское шоссе', tokens=[...])
   DocToken(start=79, stop=90, text='Хорошёвское')
   DocToken(start=91, stop=96, text='шоссе')
DocSpan(start=125, stop=144, type='PER', text='Шулипа Юрий Юрьевич', tokens=[...])
   DocToken(start=125, stop=131, text=

In [16]:
for span in doc.spans:
    if span.type != 'LOC':
        continue
    print(span.text)

Москвы
Москва
Хорошёвское шоссе
Российской Федерации
В
РФ
России
САО
Москве
Российской Федерации
Российской Федерации
Российской Федерации
Российской Федерации
России
САО
Москве
РФ
России
САО
Москве
РФ
РФ
Российской Федерации
России
САО


In [17]:
text4='Директору ГБОУ «Школа № 1527» Кадыковой Елене Владимировне KadykovaEV@edu.mos.ru , 1527@edu.mos.ru Адрес: 115470, г.Москва, пр-кт Андропова, дом 17, корпус 5. Копия: в Южное окружное управление департамента образования города Москвы Адрес: г.Москва, Высокая улица, 14.        от Родителей учеников 6 «В» класса,) указанных ниже в подписях КОЛЛЕКТИВНАЯ ЖАЛОБА Уважаемая Елена Владимировна! С «19» октября 2020 года, с началом введения дистанционного обучения в системе МЭШ для 6-11 классов в связи с эпидемией COVID-19, наши дети, ученики 6 &quot;В&quot; класса не могут ежедневно подключиться к одному или нескольким урокам.'

In [18]:
doc = Doc(text4)
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
doc.ner.print()

Директору ГБОУ «Школа № 1527» Кадыковой Елене Владимировне 
          ORG───────────────  PER───────────────────────── 
KadykovaEV@edu.mos.ru , 1527@edu.mos.ru Адрес: 115470, г.Москва, пр-кт
                                                         LOC───       
 Андропова, дом 17, корпус 5. Копия: в Южное окружное управление 
 PER──────                             ORG───────────────────────
департамента образования города Москвы Адрес: г.Москва, Высокая улица,
────────────                    LOC───          LOC───  LOC────────── 
 14.        от Родителей учеников 6 «В» класса,) указанных ниже в 
подписях КОЛЛЕКТИВНАЯ ЖАЛОБА Уважаемая Елена Владимировна! С «19» 
                                       PER───────────────         
октября 2020 года, с началом введения дистанционного обучения в 
системе МЭШ для 6-11 классов в связи с эпидемией COVID-19, наши дети, 
ученики 6 &quot;В&quot; класса не могут ежедневно подключиться к 
        ORG────  ORG──                                       

In [19]:
show_span_box_markup(doc.text, doc.spans)

In [21]:
import pandas as pd

In [23]:
df = pd.read_csv('../data/train_dataset_train.csv', sep=';')

In [24]:
def num_ner(text):
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_ner(ner_tagger)
    return  len(doc.spans)

In [25]:
df['Текст инцидента'][0]

"'Добрый день. Сегодня, 20.08.22, моя мать шла по улице Ленина между домами 96 и 94. Фонари не горят, упала в яму, которую не видно. Сильно ударилась, остались синяки, очень больно. Благо шла не одна.<br>Уважаемая Администрация, сделайте с этим что-нибудь, да и не только с этим. Ходить опасно не только взрослым, но и детям. Если бы упал маленький ребёнок, было бы намного хуже. Фото прилагаю. Спасибо!"

In [27]:
num_ner(df['Текст инцидента'][2])

0

In [30]:
from tqdm import tqdm

In [32]:
tqdm.pandas()

In [33]:
df['num_ner']=df['Текст инцидента'].progress_apply(lambda claim: num_ner(claim))

100%|██████████| 23128/23128 [01:22<00:00, 280.88it/s]


In [36]:
df1=df[df['num_ner'] > 10]
df1

Unnamed: 0,Исполнитель,Группа тем,Текст инцидента,Тема,num_ner
538,Город Пермь,Памятники и объекты культурного наследия,'Прогуливался недавно по центру исторической П...,Памятники и объекты культурного наследия,11
870,Город Пермь,ЖКХ,'Здравствуйте. Мы жители Индустриального район...,Ненадлежащее качество или отсутствие отопления,13
1126,ИГЖН ПК,ЖКХ,"'Добрый день,вопрос ИГЖН Пермкого края почему ...",Жалобы на управляющие компании,11
1913,Город Пермь,Памятники и объекты культурного наследия,"'Посмотрите, в каком состоянии сейчас находитс...",Памятники и объекты культурного наследия,12
2146,Министерство здравоохранения,Здравоохранение/Медицина,"'Здравствуйте, я проживаю в г. Чусовом. У меня...",★ Оказание медицинской помощи не в полном объе...,14
...,...,...,...,...,...
21453,Город Пермь,Культура,'Добрый день!<br>От лица зрителей Пермского те...,Учреждения культуры,26
21906,Министерство социального развития ПК,Социальное обслуживание и защита,"'Вопрос нашей подписчицы:<br>""В прошлом году п...",Оказание гос. соц. помощи,16
22100,Город Пермь,Экология,"'[club57433185|Пермь Первая], пусть конкретно ...",Выбросы вредных веществ в водоёмы/загрязнение ...,11
22822,Город Пермь,"МФЦ ""Мои документы""",'Здравствуйте. Третий месяц я пытаюсь подать д...,"МФЦ ""Мои документы""",11


In [37]:
df1.to_csv('../data/train_dataset_ner10.csv', sep=';')

In [55]:
df2=df[(df['num_ner'] >= 5) & (df['num_ner'] <= 10)]
df2

Unnamed: 0,Исполнитель,Группа тем,Текст инцидента,Тема,num_ner
9,ИГЖН ПК,Дороги,"'Хотел узнать в Чайковской ""управляйке"" по тел...",★ Нарушение правил очистки дорог от снега и на...,6
35,Министерство здравоохранения,Здравоохранение/Медицина,'1 января примерно в17час моя жена на котке сл...,★ Оказание медицинской помощи не в полном объе...,8
100,Город Пермь,Дороги,"'Нет, это не картинка «найдите 5 отличий»! Так...",★ Нарушение правил очистки дорог от снега и на...,6
113,Министерство здравоохранения,Коронавирус,'Здравствуйте. Хочу получить информацию. о рев...,Порядок и пункты вакцинации,9
126,Город Пермь,Дороги,'Хьюстон на Ленина 23 ( [id628987039|Алексей] ...,★ Нарушение правил очистки дорог от снега и на...,5
...,...,...,...,...,...
22886,Министерство здравоохранения,Здравоохранение/Медицина,'Почему так плохо работают врачи скорой У меня...,★ Оказание медицинской помощи не в полном объе...,5
22899,Министерство здравоохранения,Здравоохранение/Медицина,'Вчера девочка соседка Ева умерла ей было 9 ле...,★ Скорая помощь,5
22907,ИГЖН ПК,ЖКХ,"'Здравствуйте, у меня очень большая проблема в...",Жалобы на управляющие компании,10
22994,Министерство социального развития ПК,Социальное обслуживание и защита,"'доброе утро???!<br>> Добрый день, Эдуард Жакп...",Оказание гос. соц. помощи,5


In [56]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 683 entries, 9 to 23101
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Исполнитель      683 non-null    object
 1   Группа тем       683 non-null    object
 2   Текст инцидента  683 non-null    object
 3   Тема             683 non-null    object
 4   num_ner          683 non-null    int64 
dtypes: int64(1), object(4)
memory usage: 32.0+ KB


In [57]:
df2.to_csv('../data/train_dataset_ner5-10.csv', sep=';')

In [43]:
df1=df1.sort_values(by='num_ner', ascending=False).reset_index()

In [47]:
text = df1['Текст инцидента'][10]
doc = Doc(text)
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
show_span_box_markup(doc.text, doc.spans)

In [45]:
df1['Текст инцидента'][0]

"'Обращение к Губернатору Пермского края Д.Н. МАХОНИНУ от В.К. БЕГУНОВА (Москва), театрального критика, драматурга; обозревателя и члена общественной редколлегии журнала «Современная драматургия», зам. гл. редактора журнала «Клаузура», члена секретариата РОО «Гильдия драматургов России», лауреата российских и международных конкурсов драматургии и прозы.<br>Уважаемый Дмитрий Николаевич!<br>Обращаюсь к Вам по поводу нетерпимой ситуации, которая складывается вокруг совершенно уникального сценического коллектива – Пермского театра «У Моста», созданного и руководимого такой же уникальной творческой личностью – Сергеем Федотовым. Театру необходимо новое помещение; театральное здание, оборудованное на современном уровне и позволяющее максимально раскрыть невероятный творческий потенциал, самобытность и неповторимость творческого направления театра «У Моста» и его художественного руководителя.<br>В Ваших силах и в возможностях Администрации Пермского края преодолеть тот – надеюсь, временный, –

In [48]:
df.head()

Unnamed: 0,Исполнитель,Группа тем,Текст инцидента,Тема,num_ner
0,Лысьвенский городской округ,Благоустройство,"'Добрый день. Сегодня, 20.08.22, моя мать шла ...",★ Ямы во дворах,1
1,Министерство социального развития ПК,Социальное обслуживание и защита,"'Пермь г, +79194692145. В Перми с ноября 2021 ...",Оказание гос. соц. помощи,1
2,Министерство социального развития ПК,Социальное обслуживание и защита,'Добрый день ! Скажите пожалуйста если подовал...,Дети и многодетные семьи,0
3,Город Пермь,Общественный транспорт,'Каждая из них не о чем. Люди на остановках хо...,Содержание остановок,0
4,Министерство здравоохранения,Здравоохранение/Медицина,'В Березниках у сына привитого откоронавируса ...,Технические проблемы с записью на прием к врачу,1


ImportError: matplotlib is required for plotting when the default backend "matplotlib" is selected.