# Примеры предобработки текста

## Библиотеки

- [Natural Language Toolkit (NLTK)](https://www.nltk.org/) - одна из наиболее старых и известных библиотек.
- [spacy](https://spacy.io/) - на сегодняшний день одна из наиболее развитых библиотек для обработки естественного языка, в том числе ориентирована на русский язык. Есть [описание на nlpub](https://nlpub.ru/SpaCy) и [статья.](https://habr.com/ru/post/531940/)
- [natasha](https://github.com/natasha/natasha) - изначально создавалась как библиотека для русского языка. [Статья с описанием.](https://habr.com/ru/post/516098/)
- [pymorphy2](https://pymorphy2.readthedocs.io/en/stable/) - основной задачей является лемматизация.
- [pymystem3](https://github.com/nlpub/pymystem3) - надстройка над библиотекой https://yandex.ru/dev/mystem/ Основной задачей также является лемматизация.

In [1]:
text1 = 'Natural Language Toolkit (NLTK) - одна из наиболее старых и известных библиотек. Spacy - на сегодняшний день одна из наиболее развитых библиотек, предназначенных для обработки естественного языка, в том числе ориентированная на русский язык.'
text2 = 'На косой косе Косой косил траву косой косой.'
text3 = 'Москва - столица России, по преданию ее основал князь Юрий Долгорукий в 1147 году.'

## Задача токенизации

### NLTK

Содержит большое количество токенизаторов. На практике они не всегда стабильно работают для русского языка.

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Paladin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from nltk import tokenize
dir(tokenize)[:18]

['BlanklineTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordTokenizer',
 'TweetTokenizer',
 'WhitespaceTokenizer',
 'WordPunctTokenizer']

In [4]:
nltk_tk_1 = nltk.WordPunctTokenizer()
nltk_tk_1.tokenize(text1)

['Natural',
 'Language',
 'Toolkit',
 '(',
 'NLTK',
 ')',
 '-',
 'одна',
 'из',
 'наиболее',
 'старых',
 'и',
 'известных',
 'библиотек',
 '.',
 'Spacy',
 '-',
 'на',
 'сегодняшний',
 'день',
 'одна',
 'из',
 'наиболее',
 'развитых',
 'библиотек',
 ',',
 'предназначенных',
 'для',
 'обработки',
 'естественного',
 'языка',
 ',',
 'в',
 'том',
 'числе',
 'ориентированная',
 'на',
 'русский',
 'язык',
 '.']

In [5]:
# Токенизация по предложениям
nltk_tk_sents = nltk.tokenize.sent_tokenize(text1)
print(len(nltk_tk_sents))
nltk_tk_sents

2


['Natural Language Toolkit (NLTK) - одна из наиболее старых и известных библиотек.',
 'Spacy - на сегодняшний день одна из наиболее развитых библиотек, предназначенных для обработки естественного языка, в том числе ориентированная на русский язык.']

### Spacy

In [6]:
from spacy.lang.ru import Russian
import spacy
nlp = spacy.load('ru_core_news_sm')
spacy_text1 = nlp(text1)
spacy_text1

Natural Language Toolkit (NLTK) - одна из наиболее старых и известных библиотек. Spacy - на сегодняшний день одна из наиболее развитых библиотек, предназначенных для обработки естественного языка, в том числе ориентированная на русский язык.

In [7]:
for t in spacy_text1:
    print(t)

Natural
Language
Toolkit
(
NLTK
)
-
одна
из
наиболее
старых
и
известных
библиотек
.
Spacy
-
на
сегодняшний
день
одна
из
наиболее
развитых
библиотек
,
предназначенных
для
обработки
естественного
языка
,
в
том
числе
ориентированная
на
русский
язык
.


In [8]:
spacy_text2 = nlp(text2)
spacy_text2

На косой косе Косой косил траву косой косой.

In [9]:
spacy_text3 = nlp(text3)
spacy_text3

Москва - столица России, по преданию ее основал князь Юрий Долгорукий в 1147 году.

### Natasha

Для токенизации используется библиотека https://github.com/natasha/razdel

In [10]:
from razdel import tokenize, sentenize

In [11]:
n_tok_text1 = list(tokenize(text1))
n_tok_text1

[Substring(0, 7, 'Natural'),
 Substring(8, 16, 'Language'),
 Substring(17, 24, 'Toolkit'),
 Substring(25, 26, '('),
 Substring(26, 30, 'NLTK'),
 Substring(30, 31, ')'),
 Substring(32, 33, '-'),
 Substring(34, 38, 'одна'),
 Substring(39, 41, 'из'),
 Substring(42, 50, 'наиболее'),
 Substring(51, 57, 'старых'),
 Substring(58, 59, 'и'),
 Substring(60, 69, 'известных'),
 Substring(70, 79, 'библиотек'),
 Substring(79, 80, '.'),
 Substring(81, 86, 'Spacy'),
 Substring(87, 88, '-'),
 Substring(89, 91, 'на'),
 Substring(92, 103, 'сегодняшний'),
 Substring(104, 108, 'день'),
 Substring(109, 113, 'одна'),
 Substring(114, 116, 'из'),
 Substring(117, 125, 'наиболее'),
 Substring(126, 134, 'развитых'),
 Substring(135, 144, 'библиотек'),
 Substring(144, 145, ','),
 Substring(146, 161, 'предназначенных'),
 Substring(162, 165, 'для'),
 Substring(166, 175, 'обработки'),
 Substring(176, 189, 'естественного'),
 Substring(190, 195, 'языка'),
 Substring(195, 196, ','),
 Substring(197, 198, 'в'),
 Substring(

In [12]:
[_.text for _ in n_tok_text1]

['Natural',
 'Language',
 'Toolkit',
 '(',
 'NLTK',
 ')',
 '-',
 'одна',
 'из',
 'наиболее',
 'старых',
 'и',
 'известных',
 'библиотек',
 '.',
 'Spacy',
 '-',
 'на',
 'сегодняшний',
 'день',
 'одна',
 'из',
 'наиболее',
 'развитых',
 'библиотек',
 ',',
 'предназначенных',
 'для',
 'обработки',
 'естественного',
 'языка',
 ',',
 'в',
 'том',
 'числе',
 'ориентированная',
 'на',
 'русский',
 'язык',
 '.']

In [13]:
n_sen_text1 = list(sentenize(text1))
n_sen_text1

[Substring(0,
           80,
           'Natural Language Toolkit (NLTK) - одна из наиболее старых и известных библиотек.'),
 Substring(81,
           241,
           'Spacy - на сегодняшний день одна из наиболее развитых библиотек, предназначенных для обработки естественного языка, в том числе ориентированная на русский язык.')]

In [14]:
[_.text for _ in n_sen_text1], len([_.text for _ in n_sen_text1])

(['Natural Language Toolkit (NLTK) - одна из наиболее старых и известных библиотек.',
  'Spacy - на сегодняшний день одна из наиболее развитых библиотек, предназначенных для обработки естественного языка, в том числе ориентированная на русский язык.'],
 2)

In [15]:
# Этот вариант токенизации нужен для последующей обработки
def n_sentenize(text):
    n_sen_chunk = []
    for sent in sentenize(text):
        tokens = [_.text for _ in tokenize(sent.text)]
        n_sen_chunk.append(tokens)
    return n_sen_chunk

In [16]:
n_sen_chunk_1 = n_sentenize(text1)
n_sen_chunk_1

[['Natural',
  'Language',
  'Toolkit',
  '(',
  'NLTK',
  ')',
  '-',
  'одна',
  'из',
  'наиболее',
  'старых',
  'и',
  'известных',
  'библиотек',
  '.'],
 ['Spacy',
  '-',
  'на',
  'сегодняшний',
  'день',
  'одна',
  'из',
  'наиболее',
  'развитых',
  'библиотек',
  ',',
  'предназначенных',
  'для',
  'обработки',
  'естественного',
  'языка',
  ',',
  'в',
  'том',
  'числе',
  'ориентированная',
  'на',
  'русский',
  'язык',
  '.']]

In [17]:
n_sen_chunk_2 = n_sentenize(text2)
n_sen_chunk_2

[['На', 'косой', 'косе', 'Косой', 'косил', 'траву', 'косой', 'косой', '.']]

In [18]:
n_sen_chunk_3 = n_sentenize(text3)
n_sen_chunk_3

[['Москва',
  '-',
  'столица',
  'России',
  ',',
  'по',
  'преданию',
  'ее',
  'основал',
  'князь',
  'Юрий',
  'Долгорукий',
  'в',
  '1147',
  'году',
  '.']]

## Частеречная разметка (Part-Of-Speech tagging, POS-tagging)

В некоторых библиотеках вначале выполняется частеречная разметка, а далее на ее основе выполняется лемматизация. 

### Spacy

In [19]:
for token in spacy_text1:
    print('{} - {} - {}'.format(token.text, token.pos_, token.dep_))

Natural - X - nsubj
Language - X - flat:foreign
Toolkit - X - flat:foreign
( - PUNCT - punct
NLTK - PROPN - appos
) - PUNCT - punct
- - PUNCT - flat:foreign
одна - NUM - ROOT
из - ADP - case
наиболее - ADV - advmod
старых - ADJ - amod
и - CCONJ - cc
известных - ADJ - conj
библиотек - NOUN - nmod
. - PUNCT - punct
Spacy - PROPN - nsubj
- - X - punct
на - ADP - case
сегодняшний - ADJ - amod
день - NOUN - nmod
одна - NUM - ROOT
из - ADP - case
наиболее - ADV - advmod
развитых - VERB - amod
библиотек - NOUN - nmod
, - PUNCT - punct
предназначенных - VERB - acl
для - ADP - case
обработки - NOUN - obl
естественного - ADJ - amod
языка - NOUN - nmod
, - PUNCT - punct
в - ADP - case
том - DET - det
числе - NOUN - obl
ориентированная - VERB - acl
на - ADP - case
русский - ADJ - amod
язык - NOUN - obl
. - PUNCT - punct


### Natasha

In [20]:
from navec import Navec
from slovnet import Morph

In [21]:
# Файл необходимо скачать по ссылке https://github.com/natasha/navec#downloads
navec = Navec.load('corpus/navec_news_v1_1B_250K_300d_100q.tar')

In [22]:
# Файл необходимо скачать по ссылке https://github.com/natasha/slovnet#downloads
n_morph = Morph.load('corpus/slovnet_morph_news_v1.tar', batch_size=4)

In [23]:
morph_res = n_morph.navec(navec)

In [24]:
def print_pos(markup):
    for token in markup.tokens:
        print('{} - {}'.format(token.text, token.tag))

In [25]:
n_text1_markup = list(_ for _ in n_morph.map(n_sen_chunk_1))
[print_pos(x) for x in n_text1_markup]

Natural - X|Foreign=Yes
Language - X|Foreign=Yes
Toolkit - X|Foreign=Yes
( - PUNCT
NLTK - PROPN|Foreign=Yes
) - PUNCT
- - PUNCT
одна - NUM|Case=Nom|Gender=Fem|Number=Sing
из - ADP
наиболее - ADV|Degree=Pos
старых - ADJ|Case=Gen|Degree=Pos|Number=Plur
и - CCONJ
известных - ADJ|Case=Gen|Degree=Pos|Number=Plur
библиотек - NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur
. - PUNCT
Spacy - PROPN|Foreign=Yes
- - PUNCT
на - ADP
сегодняшний - ADJ|Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing
день - NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing
одна - NUM|Case=Nom|Gender=Fem|Number=Sing
из - ADP
наиболее - ADV|Degree=Pos
развитых - ADJ|Case=Gen|Degree=Pos|Number=Plur
библиотек - NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur
, - PUNCT
предназначенных - VERB|Aspect=Perf|Case=Gen|Number=Plur|Tense=Past|VerbForm=Part|Voice=Pass
для - ADP
обработки - NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
естественного - ADJ|Case=Gen|Degree=Pos|Gender=Masc|Number=Sing
языка - NOUN|Ani

[None, None]

In [26]:
n_text2_markup = list(n_morph.map(n_sen_chunk_2))
[print_pos(x) for x in n_text2_markup]

На - ADP
косой - ADJ|Case=Loc|Degree=Pos|Gender=Fem|Number=Sing
косе - NOUN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing
Косой - PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
косил - VERB|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
траву - NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
косой - ADJ|Case=Ins|Degree=Pos|Gender=Fem|Number=Sing
косой - NOUN|Animacy=Inan|Case=Ins|Gender=Fem|Number=Sing
. - PUNCT


[None]

In [27]:
n_text3_markup = list(n_morph.map(n_sen_chunk_3))
[print_pos(x) for x in n_text3_markup]

Москва - PROPN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
- - PUNCT
столица - NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
России - PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
, - PUNCT
по - ADP
преданию - NOUN|Animacy=Inan|Case=Dat|Gender=Neut|Number=Sing
ее - PRON|Case=Acc|Gender=Fem|Number=Sing|Person=3
основал - VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
князь - NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
Юрий - PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
Долгорукий - PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
в - ADP
1147 - ADJ
году - NOUN|Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing
. - PUNCT


[None]

## Лемматизация

### Spacy

In [28]:
for token in spacy_text1:
      print(token, token.lemma, token.lemma_)

Natural 3743574233330547430 natural
Language 8740476009882919263 language
Toolkit 610130176809897899 toolkit
( 12638816674900267446 (
NLTK 14092725375558560852 nltk
) 3842344029291005339 )
- 9153284864653046197 -
одна 17374840938824299398 одна
из 12183146372738139588 из
наиболее 11475752886483088694 наиболее
старых 4368933178171963056 старый
и 15015917632809974589 и
известных 6532147010109058382 известный
библиотек 9756227122452433198 библиотека
. 12646065887601541794 .
Spacy 10639093010105930009 spacy
- 9153284864653046197 -
на 16191904166009283104 на
сегодняшний 2172878484545997230 сегодняшний
день 3165109007911802612 день
одна 17374840938824299398 одна
из 12183146372738139588 из
наиболее 11475752886483088694 наиболее
развитых 15781964123192032938 развить
библиотек 9756227122452433198 библиотека
, 2593208677638477497 ,
предназначенных 3914971399287163350 предназначить
для 10075485332184864679 для
обработки 4439142451406220892 обработка
естественного 10815020827654897299 естественный


### Natasha

In [29]:
from natasha import Doc, Segmenter, NewsEmbedding, NewsMorphTagger, MorphVocab

In [30]:
def n_lemmatize(text):
    emb = NewsEmbedding()
    morph_tagger = NewsMorphTagger(emb)
    segmenter = Segmenter()
    morph_vocab = MorphVocab()
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
    return doc

In [31]:
n_doc1 = n_lemmatize(text1)
{_.text: _.lemma for _ in n_doc1.tokens}

{'Natural': 'natural',
 'Language': 'language',
 'Toolkit': 'toolkit',
 '(': '(',
 'NLTK': 'nltk',
 ')': ')',
 '-': '-',
 'одна': 'один',
 'из': 'из',
 'наиболее': 'наиболее',
 'старых': 'старый',
 'и': 'и',
 'известных': 'известный',
 'библиотек': 'библиотека',
 '.': '.',
 'Spacy': 'spacy',
 'на': 'на',
 'сегодняшний': 'сегодняшний',
 'день': 'день',
 'развитых': 'развитой',
 ',': ',',
 'предназначенных': 'предназначить',
 'для': 'для',
 'обработки': 'обработка',
 'естественного': 'естественный',
 'языка': 'язык',
 'в': 'в',
 'том': 'тот',
 'числе': 'число',
 'ориентированная': 'ориентировать',
 'русский': 'русский',
 'язык': 'язык'}

In [32]:
n_doc2 = n_lemmatize(text2)
{_.text: _.lemma for _ in n_doc2.tokens}

{'На': 'на',
 'косой': 'коса',
 'косе': 'коса',
 'Косой': 'косой',
 'косил': 'косить',
 'траву': 'трава',
 '.': '.'}

In [33]:
n_doc3 = n_lemmatize(text3)
{_.text: _.lemma for _ in n_doc3.tokens}

{'Москва': 'москва',
 '-': '-',
 'столица': 'столица',
 'России': 'россия',
 ',': ',',
 'по': 'по',
 'преданию': 'предание',
 'ее': 'она',
 'основал': 'основать',
 'князь': 'князь',
 'Юрий': 'юрий',
 'Долгорукий': 'долгорукий',
 'в': 'в',
 '1147': '1147',
 'году': 'год',
 '.': '.'}

## Выделение (распознавание) именованных сущностей, named-entity recognition (NER)

### Spacy

In [34]:
for ent in spacy_text3.ents:
    print(ent.text, ent.label_)

Москва - столица LOC
России LOC
Юрий Долгорукий PER


In [35]:
from spacy import displacy
displacy.render(spacy_text3, style='ent', jupyter=True)

In [36]:
print(spacy.explain("LOC"))

Non-GPE locations, mountain ranges, bodies of water


In [37]:
print(spacy.explain("PER"))

Named person or family.


### Natasha

In [38]:
from slovnet import NER
from ipymarkup import show_span_ascii_markup as show_markup

In [39]:
ner = NER.load('corpus/slovnet_ner_news_v1.tar')

In [40]:
ner_res = ner.navec(navec)

In [41]:
markup_ner3 = ner(text3)

In [42]:
markup_ner3

SpanMarkup(
    text='Москва - столица России, по преданию ее основал князь Юрий Долгорукий в 1147 году.',
    spans=[Span(
         start=0,
         stop=6,
         type='LOC'
     ),
     Span(
         start=17,
         stop=23,
         type='LOC'
     ),
     Span(
         start=54,
         stop=69,
         type='PER'
     )]
)

In [43]:
show_markup(markup_ner3.text, markup_ner3.spans)

Москва - столица России, по преданию ее основал князь Юрий Долгорукий 
LOC───           LOC───                               PER──────────── 
в 1147 году.


## Разбор предложения

### Spacy

In [44]:
from spacy import displacy

In [45]:
displacy.render(spacy_text1, style='dep', jupyter=True)

In [46]:
displacy.render(spacy_text2, style='dep', jupyter=True)

In [47]:
print(spacy.explain("NOUN"))

noun


In [48]:
print(spacy.explain("amod"))

adjectival modifier


In [49]:
displacy.render(spacy_text3, style='dep', jupyter=True)

### Natasha

In [50]:
from natasha import NewsSyntaxParser

In [51]:
emb = NewsEmbedding()
syntax_parser = NewsSyntaxParser(emb)

In [52]:
n_doc1.parse_syntax(syntax_parser)
n_doc1.sents[0].syntax.print()

      ┌────► Natural   nsubj
      │      Language  
      │      Toolkit   
      │   ┌► (         punct
      │ ┌─└─ NLTK      
      │ └──► )         punct
      │   ┌► -         punct
┌─┌───└───└─ одна      
│ │ ┌──────► из        case
│ │ │     ┌► наиболее  advmod
│ │ │ ┌►┌─└─ старых    amod
│ │ │ │ │ ┌► и         cc
│ │ │ │ └►└─ известных conj
│ └►└─└───── библиотек nmod
└──────────► .         punct


In [53]:
n_doc1.parse_syntax(syntax_parser)
n_doc1.sents[1].syntax.print()

               Spacy           
               -               
          ┌──► на              case
          │ ┌► сегодняшний     amod
┌────────►└─└─ день            obl
│     ┌─────── одна            
│     │ ┌────► из              case
│     │ │   ┌► наиболее        advmod
│     │ │ ┌►└─ развитых        amod
│ ┌───└►└─└─── библиотек       nmod
│ │     │   ┌► ,               punct
│ │   ┌─└──►└─ предназначенных acl
│ │   │     ┌► для             case
│ │ ┌─└────►└─ обработки       obl
│ │ │       ┌► естественного   amod
│ │ └──────►└─ языка           nmod
│ │     ┌────► ,               punct
│ │     │ ┌──► в               case
│ │     │ │ ┌► том             det
│ │     │ └─└─ числе           obl
└─└────►└─└─┌─ ориентированная acl
        │ ┌►│  на              case
        │ │ └► русский         obl
        └►└─── язык            obl
               .               


In [54]:
n_doc2.parse_syntax(syntax_parser)
n_doc2.sents[0].syntax.print()

      ┌──► На    case
      │ ┌► косой amod
    ┌►└─└─ косе  obl
    │ └──► Косой appos
┌─┌─└───┌─ косил 
│ │     └► траву obj
│ │     ┌► косой amod
│ └────►└─ косой obl
└────────► .     punct


In [55]:
n_doc3.parse_syntax(syntax_parser)
n_doc3.sents[0].syntax.print()

        ┌──► Москва     nsubj
        │ ┌► -          punct
┌───┌─┌─└─└─ столица    
│   │ │ └──► России     nmod
│   │ └────► ,          punct
│   │     ┌► по         case
│   │   ┌►└─ преданию   obl
│   │   │ ┌► ее         obj
│ ┌─└──►└─└─ основал    acl:relcl
│ │     └►┌─ князь      nsubj
│ │     ┌─└► Юрий       appos
│ │     └──► Долгорукий flat:name
│ │     ┌──► в          case
│ │     │ ┌► 1147       amod
│ └────►└─└─ году       obl
└──────────► .          punct


Для расшифровки обозначений можно использовать https://downloads.cs.stanford.edu/nlp/software/dependencies_manual.pdf