#**NER для русского языка natasha**

In [None]:
!pip install natasha

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)
russian_text = 'Россия возобновила участие в зерновой сделке России, Турции, Украины и ООН. Украина дала России гарантии, что не будет использовать зерновой коридор для ведения боевых действий, говорится в сообщении Минобороны России.«Благодаря участию международной организации, а также содействию Турции удалось получить необходимые письменные гарантии со стороны Украины о неиспользовании гуманитарного коридора и украинских портов, определенных в интересах вывоза сельскохозяйственной продукции, для ведения боевых действий против России, направленные в Совместный координационный центр 1 ноября 2022 года», — сказано в сообщении.'
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

doc = Doc(russian_text)

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)

doc.tag_ner(ner_tagger)
doc.ner.print()
doc.ner

Россия возобновила участие в зерновой сделке России, Турции, Украины и
LOC───                                       LOC───  LOC───  LOC────  
 ООН. Украина дала России гарантии, что не будет использовать зерновой
 ORG  LOC────      LOC───                                             
 коридор для ведения боевых действий, говорится в сообщении Минобороны
                                                            ORG───────
 России.«Благодаря участию международной организации, а также 
 LOC───                                                       
содействию Турции удалось получить необходимые письменные гарантии со 
           LOC───                                                     
стороны Украины о неиспользовании гуманитарного коридора и украинских 
        LOC────                                                       
портов, определенных в интересах вывоза сельскохозяйственной 
продукции, для ведения боевых действий против России, направленные в 
                                

NERMarkup(
    text='Россия возобновила участие в зерновой сделке России, Турции, Украины и ООН. Украина дала России гарантии, что не будет использовать зерновой коридор для ведения боевых действий, говорится в сообщении Минобороны России.«Благодаря участию международной организации, а также содействию Турции удалось получить необходимые письменные гарантии со стороны Украины о неиспользовании гуманитарного коридора и украинских портов, определенных в интересах вывоза сельскохозяйственной продукции, для ведения боевых действий против России, направленные в Совместный координационный центр 1 ноября 2022 года», — сказано в сообщении.',
    spans=[Span(
         start=0,
         stop=6,
         type='LOC'
     ), Span(
         start=45,
         stop=51,
         type='LOC'
     ), Span(
         start=53,
         stop=59,
         type='LOC'
     ), Span(
         start=61,
         stop=68,
         type='LOC'
     ), Span(
         start=71,
         stop=74,
         type='ORG'
  

#NER для руссского языка Stanza


In [None]:
!pip install stanza

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import stanza
stanza.download('ru')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

INFO:stanza:Downloading default packages for language: ru (Russian) ...
INFO:stanza:File exists: /root/stanza_resources/ru/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


In [None]:
def stanza_nlp(text):
  nlp = stanza.Pipeline(lang='ru', processors='tokenize,ner')
  doc = nlp(text)
  print(*[f'entity: {ent.text}\ttype: {ent.type}' for sent in doc.sentences for ent in sent.ents], sep='\n')

In [None]:
stanza_nlp(russian_text)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| ner       | wikiner   |

INFO:stanza:Use device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


entity: Россия	type: LOC
entity: России	type: LOC
entity: Турции	type: LOC
entity: Украины	type: LOC
entity: ООН	type: ORG
entity: Украина	type: LOC
entity: России	type: LOC
entity: Минобороны России	type: ORG
entity: Турции	type: LOC
entity: Украины	type: LOC
entity: России	type: LOC
entity: Совместный координационный центр 1 ноября 2022 года	type: MISC


#NER для русского языка от SpaCy

In [None]:
!python -m spacy download ru_core_news_md

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ru-core-news-md==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.4.0/ru_core_news_md-3.4.0-py3-none-any.whl (41.9 MB)
[K     |████████████████████████████████| 41.9 MB 2.0 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_md')


In [None]:
import ru_core_news_md
nlp = ru_core_news_md.load()
document = nlp(russian_text)
for named_entity in document.ents:
    print(named_entity, named_entity.label_)

  config_value=config["nlp"][key],


Россия LOC
России LOC
Турции LOC
Украины LOC
ООН ORG
Украина LOC
России LOC
Минобороны ORG
России LOC
Турции LOC
Украины LOC
России LOC
Совместный координационный центр ORG


#NER для русского языка от NLTK

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
for sent in nltk.sent_tokenize(russian_text):
   for chunk in nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sent))):
      if hasattr(chunk, 'label'):
         print(chunk)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


(PERSON Россия/JJ)
(GPE Турции/NNP)
(PERSON Украины/NNP)
(PERSON Украина/JJ)
(PERSON России/NNP)
(PERSON Турции/NNP)
(PERSON Украины/NNP)


NLTK для русского языка не точен