# Введение в обработку естественного языка

## Урок 5. Part-of-Speech разметка, NER, извлечение отношений

### Задание 1.
* Написать теггер на данных с русским языком. 
* Проверить UnigramTagger, BigramTagger, TrigramTagger и их комбинации.
* Написать свой теггер как на занятии, попробовать разные векторайзеры, добавить знание не только букв но и слов.
* Сравнить все реализованные методы, сделать выводы.


### Задание 2.
* Проверить, насколько хорошо работает NER.
* Проверить NER из nltk/spacy/deeppavlov.
* Написать свой NER, попробовать разные подходы:
  * передаём в сетку токен и его соседей,
  * передаём в сетку только токен,
  * свой вариант.
* Сравнить свои реализованные подходы на качество — вывести precision/recall/f1_score.


## [Подготовка ](#Подготовка_5)

## [Задание 1](#Задание_1)
* [1.1 Теггеры UnigramTagger, BigramTagger, TrigramTagger](#Теггеры)
* [1.2 Самописный теггер](#Самописный_теггер)
* [1.3 Выводы](#Выводы_5.1)

## [Задание 2](#Задание_2)
* [2.1 NER из NLTK](#NER_NLTK)
* [2.2 NER из Spacy](#NER_Spacy)
* [2.3 NER из slovnet](#NER_slovnet)
* [2.4 NER из deeppavlov](#NER_deeppavlov)
* [2.5 Самописный NER](#NER_свой)
* [2.6 Выводы](#Выводы_5.2)

## <a id='Подготовка_5'>Подготовка</a>

In [1]:
%%capture
%pip install pyconll
%pip install corus
%pip install -U spacy
%pip install slovnet
%pip install deeppavlov
%pip install ipymarkup
%pip install sklearn_crfsuite

In [2]:
import pandas as pd
import nltk
import os
import corus
import pyconll
import deeppavlov
from deeppavlov import configs, build_model
import spacy
from spacy import displacy
import matplotlib
from navec import Navec
from slovnet import NER
from ipymarkup import show_span_ascii_markup as show_markup
from razdel import tokenize
import sklearn_crfsuite

from nltk.tokenize import word_tokenize
from nltk.tag import DefaultTagger, UnigramTagger, BigramTagger, TrigramTagger
nltk.download('punkt', quiet=True)
nltk.download('words', quiet=True)
nltk.download('maxent_ne_chunker', quiet=True)
nltk.download('averaged_perceptron_tagger', quiet=True)

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import f1_score, accuracy_score
from sklearn.metrics import classification_report
from sklearn_crfsuite import scorers
from sklearn_crfsuite import metrics

%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

## <a id='Задание_1'>Задание 1. Написать теггер на данных с русским языком</a>

1. проверить UnigramTagger, BigramTagger, TrigramTagger и их комбмнации;
2. написать свой теггер как на занятии (попробовать разные векторайзеры, добавить знание не только букв, но и слов);
3. сравнить все реализованные методы сделать выводы.

In [3]:
# Загружаем данные
full_train = pyconll.load_from_file('ru_syntagrus-ud-train.conllu')
full_test = pyconll.load_from_file('ru_syntagrus-ud-dev.conllu')

In [4]:
# Просматриваем 2 предложения тренировочных данных:
# В каждом из них для каждого токена выводим form (словоформа для чтения) и upos (часть речи)
for sent in full_train[:2]:
    for token in sent:
        print(token.form, token.upos)
    print()

Анкета NOUN
. PUNCT

Начальник NOUN
областного ADJ
управления NOUN
связи NOUN
Семен PROPN
Еремеевич PROPN
был AUX
человек NOUN
простой ADJ
, PUNCT
приходил VERB
на ADP
работу NOUN
всегда ADV
вовремя ADV
, PUNCT
здоровался VERB
с ADP
секретаршей NOUN
за ADP
руку NOUN
и CCONJ
иногда ADV
даже PART
писал VERB
в ADP
стенгазету NOUN
заметки NOUN
под ADP
псевдонимом NOUN
" PUNCT
Муха NOUN
" PUNCT
. PUNCT



In [5]:
# Собираем данные
fdata_train = []
for sent in full_train[:]:
    fdata_train.append([(token.form, token.upos) for token in sent])
    
fdata_test = []
for sent in full_test[:]:
    fdata_test.append([(token.form, token.upos) for token in sent])
    
fdata_sent_test = []
for sent in full_test[:]:
    fdata_sent_test.append([token.form for token in sent])

In [6]:
# Определяем наибольшую длину предложения и токена
MAX_SENT_LEN = max(len(sent) for sent in full_train)
MAX_ORIG_TOKEN_LEN = max(len(token.form) for sent in full_train for token in sent)
print('Наибольшая длина предложения', MAX_SENT_LEN)
print('Наибольшая длина токена', MAX_ORIG_TOKEN_LEN)

Наибольшая длина предложения 205
Наибольшая длина токена 47


In [7]:
len(fdata_train), len(fdata_test), len(fdata_sent_test)

(48814, 6584, 6584)

In [8]:
# Просматриваем тренировочные данные (токен, тег)
fdata_train[:5]

[[('Анкета', 'NOUN'), ('.', 'PUNCT')],
 [('Начальник', 'NOUN'),
  ('областного', 'ADJ'),
  ('управления', 'NOUN'),
  ('связи', 'NOUN'),
  ('Семен', 'PROPN'),
  ('Еремеевич', 'PROPN'),
  ('был', 'AUX'),
  ('человек', 'NOUN'),
  ('простой', 'ADJ'),
  (',', 'PUNCT'),
  ('приходил', 'VERB'),
  ('на', 'ADP'),
  ('работу', 'NOUN'),
  ('всегда', 'ADV'),
  ('вовремя', 'ADV'),
  (',', 'PUNCT'),
  ('здоровался', 'VERB'),
  ('с', 'ADP'),
  ('секретаршей', 'NOUN'),
  ('за', 'ADP'),
  ('руку', 'NOUN'),
  ('и', 'CCONJ'),
  ('иногда', 'ADV'),
  ('даже', 'PART'),
  ('писал', 'VERB'),
  ('в', 'ADP'),
  ('стенгазету', 'NOUN'),
  ('заметки', 'NOUN'),
  ('под', 'ADP'),
  ('псевдонимом', 'NOUN'),
  ('"', 'PUNCT'),
  ('Муха', 'NOUN'),
  ('"', 'PUNCT'),
  ('.', 'PUNCT')],
 [('В', 'ADP'),
  ('приемной', 'NOUN'),
  ('его', 'PRON'),
  ('с', 'ADP'),
  ('утра', 'NOUN'),
  ('ожидали', 'VERB'),
  ('посетители', 'NOUN'),
  (',', 'PUNCT'),
  ('-', 'PUNCT'),
  ('кое-кто', 'PRON'),
  ('с', 'ADP'),
  ('важными', 'ADJ'),

### <a id='Теггеры'>1.1 Теггеры UnigramTagger, BigramTagger, TrigramTagger и их комбмнации</a>

**UnigramTagger** ( UnigramTagger учитывает условную частоту тегов и предсказывает наиболее частый тег для каждого токена, не ориентируется на соседние слова)

In [9]:
unigram_tagger = UnigramTagger(fdata_train)
accuracy_U = unigram_tagger.evaluate(fdata_test)
display(accuracy_U)

0.8772537323492737

**BigramTagger** (BigramTagger учитывает тэги двух слов: текущее и предыдущее слово)

In [10]:
bigram_tagger = BigramTagger(fdata_train)
accuracy_B = bigram_tagger.evaluate(fdata_test)
display(accuracy_B)

0.6963064064974893

**TrigramTagger** (TrigramTagger учитывает тэги трёх слов: текущее и 2 предыдущих слова)

In [11]:
trigram_tagger = TrigramTagger(fdata_train)
accuracy_T = trigram_tagger.evaluate(fdata_test)
display(accuracy_T)

0.24808748694099012

**Комбинация теггеров**

In [12]:
list_1 = [UnigramTagger, BigramTagger]

list_2 = [UnigramTagger, TrigramTagger]

list_3 = [BigramTagger, TrigramTagger]

list_4 = [UnigramTagger, BigramTagger, TrigramTagger]

accuracy_N = []

def backoff_tagger(train_sents, tagger_classes, backoff=None):
    for cls in tagger_classes:
        backoff = cls(train_sents, backoff=backoff)
    return backoff

for list_N in [list_1, list_2, list_3, list_4]:
    backoff = DefaultTagger('NN') 
    tag = backoff_tagger(fdata_train,  
                         list_N,  
                         backoff = backoff) 

    accuracy_N.append(tag.evaluate(fdata_test))

accuracy_N

[0.8813483638324403,
 0.8810619081319718,
 0.23392478010312406,
 0.8814747413473528]

In [13]:
result = pd.DataFrame({'Tagger': ['Unigram', 'Bigram', 'Trigram', 'Unigram + Bigram', 'UnigramTagger + TrigramTagger', 'BigramTagger + TrigramTagger', 'UnigramTagger+BigramTagger+TrigramTagger'], 'Accuracy' : [accuracy_U, accuracy_B, accuracy_T] + accuracy_N})
result.sort_values('Accuracy', ascending=False)

Unnamed: 0,Tagger,Accuracy
6,UnigramTagger+BigramTagger+TrigramTagger,0.881475
3,Unigram + Bigram,0.881348
4,UnigramTagger + TrigramTagger,0.881062
0,Unigram,0.877254
1,Bigram,0.696306
2,Trigram,0.248087
5,BigramTagger + TrigramTagger,0.233925


**Вывод:** лучшие показатели метрики у комбинации теггеров UnigramTagger + BigramTagger + TrigramTagger

### <a id='Самописный_теггер'>1.2 Самописный теггер с различными векторайзерами</a>

In [14]:
# Собираем токены и лэйблы в списки
train_tok = [] # Список токенов
train_label = [] # Список теггов
for sent in fdata_train[:]:
    for tok in sent:
        train_tok.append(tok[0])
        train_label.append('NO_TAG' if tok[1] is None else tok[1])
        
test_tok = []
test_label = []
for sent in fdata_test[:]:
    for tok in sent:
        test_tok.append(tok[0])
        test_label.append('NO_TAG' if tok[1] is None else tok[1])

In [15]:
# Кодируем целевые метки значениями от 0 до (кол-во классов - 1)
le = LabelEncoder()
train_enc_labels = le.fit_transform(train_label)
test_enc_labels = le.transform(test_label)
le.classes_

array(['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN',
       'NO_TAG', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SYM',
       'VERB', 'X'], dtype='<U6')

In [16]:
# Строим модели логистической регрессии с различными векторайзерами

vectorizers = [CountVectorizer(ngram_range=(1, 3), analyzer='char'), 
               TfidfVectorizer(ngram_range=(1, 3), analyzer='char'), 
               HashingVectorizer(ngram_range=(1, 3), analyzer='char', n_features=1000)] 
vectorizers_word = [CountVectorizer(ngram_range=(1, 3), analyzer='word'), 
               TfidfVectorizer(ngram_range=(1, 3), analyzer='word'), 
               HashingVectorizer(ngram_range=(1, 3), analyzer='word', n_features=1000)] 
n_features = [2000, 3000, 5000, 10000]
vectorizers_hash = [HashingVectorizer(ngram_range=(1, 3), analyzer='char', n_features=feat) for feat in n_features]
vectorizers_hash_word = [HashingVectorizer(ngram_range=(1, 3), analyzer='word', n_features=feat) for feat in n_features]
f1_scores = []
accuracy_scores = []

for vectorizer in vectorizers + vectorizers_word + vectorizers_hash + vectorizers_hash_word:
    X_train = vectorizer.fit_transform(train_tok)
    X_test = vectorizer.transform(test_tok)
    
    lr = LogisticRegression(random_state=0, max_iter=100)
    lr.fit(X_train, train_enc_labels)
    pred = lr.predict(X_test)
    f1 = f1_score(test_enc_labels, pred, average='weighted')
    f1_scores.append(f1)
    acc = accuracy_score(test_enc_labels, pred)
    accuracy_scores.append(acc)
    
    print(vectorizer)
    print(classification_report(test_enc_labels, pred, target_names=le.classes_))

CountVectorizer(analyzer='char', ngram_range=(1, 3))
              precision    recall  f1-score   support

         ADJ       0.93      0.93      0.93     11222
         ADP       0.98      1.00      0.99     10585
         ADV       0.92      0.91      0.91      6165
         AUX       0.81      0.97      0.88      1108
       CCONJ       0.87      1.00      0.93      4410
         DET       0.83      0.80      0.82      3085
        INTJ       0.00      0.00      0.00        11
        NOUN       0.93      0.96      0.94     27974
      NO_TAG       1.00      1.00      1.00       204
         NUM       0.94      0.96      0.95      1829
        PART       0.98      0.77      0.86      3875
        PRON       0.86      0.87      0.87      5598
       PROPN       0.79      0.60      0.68      4438
       PUNCT       1.00      1.00      1.00     22694
       SCONJ       0.81      0.92      0.86      2258
         SYM       1.00      0.83      0.91        53
        VERB       0.94     

In [17]:
result_model = pd.DataFrame({'Vectorizer': vectorizers + vectorizers_word + vectorizers_hash + vectorizers_hash_word,
                            'f1_score': f1_scores})
result_model.sort_values('f1_score', ascending=False)

Unnamed: 0,Vectorizer,f1_score
0,"CountVectorizer(analyzer='char', ngram_range=(...",0.932786
1,"TfidfVectorizer(analyzer='char', ngram_range=(...",0.924945
9,"HashingVectorizer(analyzer='char', n_features=...",0.909452
8,"HashingVectorizer(analyzer='char', n_features=...",0.90566
7,"HashingVectorizer(analyzer='char', n_features=...",0.904314
6,"HashingVectorizer(analyzer='char', n_features=...",0.90192
2,"HashingVectorizer(analyzer='char', n_features=...",0.887644
4,"TfidfVectorizer(ngram_range=(1, 3))",0.678782
3,"CountVectorizer(ngram_range=(1, 3))",0.674852
13,"HashingVectorizer(n_features=10000, ngram_rang...",0.634058


In [18]:
result_model_acc = pd.DataFrame({'Vectorizer': vectorizers + vectorizers_word + vectorizers_hash + vectorizers_hash_word,
                            'Accuracy': accuracy_scores})
result_model_acc.sort_values('Accuracy', ascending=False)

Unnamed: 0,Vectorizer,Accuracy
0,"CountVectorizer(analyzer='char', ngram_range=(...",0.934368
1,"TfidfVectorizer(analyzer='char', ngram_range=(...",0.926987
9,"HashingVectorizer(analyzer='char', n_features=...",0.912732
8,"HashingVectorizer(analyzer='char', n_features=...",0.908991
7,"HashingVectorizer(analyzer='char', n_features=...",0.907222
6,"HashingVectorizer(analyzer='char', n_features=...",0.904829
2,"HashingVectorizer(analyzer='char', n_features=...",0.890692
4,"TfidfVectorizer(ngram_range=(1, 3))",0.670239
3,"CountVectorizer(ngram_range=(1, 3))",0.666801
13,"HashingVectorizer(n_features=10000, ngram_rang...",0.648435


**Вывод:** лучшие показатели метрик f1 и accuracy у CountVectorizer(analyzer='char', ngram_range=(1, 3))

### <a id='Выводы_5.1'>1.3 Выводы</a>

In [19]:
result.sort_values('Accuracy', ascending=False).head(1)

Unnamed: 0,Tagger,Accuracy
6,UnigramTagger+BigramTagger+TrigramTagger,0.881475


In [20]:
result_model.sort_values('f1_score', ascending=False).head(1)

Unnamed: 0,Vectorizer,f1_score
0,"CountVectorizer(analyzer='char', ngram_range=(...",0.932786


In [21]:
result_model_acc.sort_values('Accuracy', ascending=False).head(1)

Unnamed: 0,Vectorizer,Accuracy
0,"CountVectorizer(analyzer='char', ngram_range=(...",0.934368


***Вывод: лучший метод pos tagging (по результатам подсчета метрик) - самописный теггер с CountVectorizer(analyzer='char', ngram_range=(1, 3))***

## <a id='Задание_2'>Задание 2. Проверить насколько хорошо работает NER</a>

1. Проверить NER.
2. Написать свой NER, попробовать разные подходы:
  * передаём в сетку токен и его соседей,
  * передаём в сетку только токен,
  * свой вариант.
3. Сравнить реализованные подходы на качество (вывести precision/recall/f1_score)

Датасет содержит 1000 файлов txt и 1000 файлов ann, в которых размечены 3 сущности:

- имена людей (PER),
- имена организаций (ORG),
- географические названия (LOC).

Файлы 595.txt и 595.ann битые, в следcтвие чего были удалены из рассмотрения.

In [22]:
# Просматриваем содержание коллекции
print(os.listdir("collection3"))

['001.ann', '001.txt', '002.ann', '002.txt', '003.ann', '003.txt', '004.ann', '004.txt', '005.ann', '005.txt', '006.ann', '006.txt', '007.ann', '007.txt', '008.ann', '008.txt', '009.ann', '009.txt', '010.ann', '010.txt', '011.ann', '011.txt', '012.ann', '012.txt', '013.ann', '013.txt', '014.ann', '014.txt', '015 (!).ann', '015 (!).txt', '016.ann', '016.txt', '017.ann', '017.txt', '018.ann', '018.txt', '019.ann', '019.txt', '020.ann', '020.txt', '021.ann', '021.txt', '022.ann', '022.txt', '023.ann', '023.txt', '025.ann', '025.txt', '026.ann', '026.txt', '027.ann', '027.txt', '028.ann', '028.txt', '029.ann', '029.txt', '030.ann', '030.txt', '031.ann', '031.txt', '032.ann', '032.txt', '033.ann', '033.txt', '034.ann', '034.txt', '035.ann', '035.txt', '036.ann', '036.txt', '037.ann', '037.txt', '038.ann', '038.txt', '039.ann', '039.txt', '03_12_12a.ann', '03_12_12a.txt', '03_12_12b.ann', '03_12_12b.txt', '03_12_12c.ann', '03_12_12c.txt', '03_12_12d.ann', '03_12_12d.txt', '03_12_12g.ann', '0

In [23]:
# Собираем только текстовые файлы коллекции
fileDir = r"collection3"
fileExt = r".txt"
documents_txt = [_ for _ in os.listdir(fileDir) if _.endswith(fileExt)]
print(documents_txt)

['001.txt', '002.txt', '003.txt', '004.txt', '005.txt', '006.txt', '007.txt', '008.txt', '009.txt', '010.txt', '011.txt', '012.txt', '013.txt', '014.txt', '015 (!).txt', '016.txt', '017.txt', '018.txt', '019.txt', '020.txt', '021.txt', '022.txt', '023.txt', '025.txt', '026.txt', '027.txt', '028.txt', '029.txt', '030.txt', '031.txt', '032.txt', '033.txt', '034.txt', '035.txt', '036.txt', '037.txt', '038.txt', '039.txt', '03_12_12a.txt', '03_12_12b.txt', '03_12_12c.txt', '03_12_12d.txt', '03_12_12g.txt', '03_12_12h.txt', '040.txt', '041.txt', '042.txt', '043.txt', '044.txt', '045.txt', '046.txt', '047.txt', '048.txt', '049.txt', '04_02_13a_abdulatipov.txt', '04_03_13a_sorokin.txt', '04_12_12b.txt', '04_12_12d.txt', '04_12_12f.txt', '04_12_12g.txt', '04_12_12h_corr.txt', '050.txt', '051.txt', '052.txt', '053.txt', '054.txt', '055.txt', '056.txt', '057.txt', '058.txt', '059.txt', '060.txt', '061.txt', '062.txt', '063.txt', '064.txt', '065.txt', '066.txt', '067.txt', '068.txt', '069.txt', '

In [24]:
# Заносим данные файлов txt в датасет
text_list = []
for file in documents_txt:
    doc = open('collection3/' + file, encoding='utf-8')
    text = doc.read()
    text_list.append(text)
    
data_text = pd.DataFrame({'text': text_list })
data_text

Unnamed: 0,text
0,Россия рассчитывает на конструктивное воздейст...
1,Комиссар СЕ критикует ограничительную политику...
2,"Пулеметы, автоматы и снайперские винтовки изъя..."
3,4 октября назначены очередные выборы Верховног...
4,Следственное управление при прокуратуре требуе...
...,...
994,"Депутат от ""ЕР"": К отставке А.Сердюкова причас..."
995,\nСи Цзиньпин избран генсеком Коммунистической...
996,"""Ведомости"" узнали о смене лидера московских е..."
997,СМИ узнали о кутежах туркменского чиновника на...


### <a id='NER_NLTK'>2.1 NER из NLTK</a>

In [25]:
# Пример текста
document = data_text.text[0]

# Разбиваем документ на токены и применяем pos tagging (на выходе список кортежей (токен, часть речи))
nltk.pos_tag(nltk.word_tokenize(document))

[('Россия', 'JJ'),
 ('рассчитывает', 'NNP'),
 ('на', 'NNP'),
 ('конструктивное', 'NNP'),
 ('воздействие', 'NNP'),
 ('США', 'NNP'),
 ('на', 'NNP'),
 ('Грузию', 'VBD'),
 ('04/08/2008', 'CD'),
 ('12:08', 'CD'),
 ('МОСКВА', 'NN'),
 (',', ','),
 ('4', 'CD'),
 ('авг', 'SYM'),
 ('-', ':'),
 ('РИА', 'NN'),
 ('Новости', 'NN'),
 ('.', '.'),
 ('Россия', 'JJ'),
 ('рассчитывает', 'NN'),
 (',', ','),
 ('что', 'NNP'),
 ('США', 'NNP'),
 ('воздействуют', 'NNP'),
 ('на', 'NNP'),
 ('Тбилиси', 'NNP'),
 ('в', 'NNP'),
 ('связи', 'NNP'),
 ('с', 'NNP'),
 ('обострением', 'NNP'),
 ('ситуации', 'NNP'),
 ('в', 'NNP'),
 ('зоне', 'NNP'),
 ('грузино-осетинского', 'JJ'),
 ('конфликта', 'NNP'),
 ('.', '.'),
 ('Об', 'VB'),
 ('этом', 'JJ'),
 ('статс-секретарь', 'JJ'),
 ('-', ':'),
 ('заместитель', 'NN'),
 ('министра', 'JJ'),
 ('иностранных', 'NNP'),
 ('дел', 'NNP'),
 ('России', 'NNP'),
 ('Григорий', 'NNP'),
 ('Карасин', 'NNP'),
 ('заявил', 'NNP'),
 ('в', 'NNP'),
 ('телефонном', 'NNP'),
 ('разговоре', 'NNP'),
 ('с', 'NNP

In [26]:
# Распознаем именнованные сущности с помощью классификатора (Person, Organization, GPE)
{(' '.join(c[0] for c in chunk), chunk.label()) for chunk in nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(document))) if hasattr(chunk, 'label')}

{('МИД России', 'ORGANIZATION'),
 ('МОСКВА', 'ORGANIZATION'),
 ('РИА Новости', 'ORGANIZATION'),
 ('России Григорий Карасин', 'PERSON'),
 ('Россия', 'PERSON'),
 ('Тбилиси', 'PERSON')}

In [27]:
# Разметка из collection3
pd.read_csv('collection3/003.ann', delimiter='\t')

Unnamed: 0,T1,LOC 82 89,Бишкеке
0,T2,LOC 113 119,БИШКЕК
1,T3,ORG 132 146,Новости-Грузия
2,T4,LOC 175 183,Киргизии
3,T5,LOC 225 228,США
4,T6,LOC 231 238,Бишкеке
5,T7,ORG 316 319,МВД
6,T8,LOC 320 328,Киргизии
7,T9,LOC 492 500,Киргизии
8,T10,LOC 525 528,США
9,T11,ORG 955 958,МВД


**Вывод:** NER из nltk нашла все сущности.

### <a id='NER_Spacy'>2.2 NER из Spacy</a>

In [28]:
nlp = spacy.load("ru_core_news_sm")
ny_bb = data_text.text[0]
article = nlp(ny_bb)
displacy.render(article, jupyter=True, style='ent')

In [29]:
# Список токенов, частей речи и сущностей
for token in article:
    print(token.text, token.pos_, token.dep_)

Россия PROPN nsubj
рассчитывает VERB ROOT
на ADP case
конструктивное ADJ amod
воздействие NOUN obl
США PROPN nmod
на ADP case
Грузию PROPN nmod


 SPACE dep
04/08/2008 PROPN appos
12:08 NUM appos


 SPACE dep
МОСКВА PROPN nmod
, PUNCT punct
4 NUM conj
авг PROPN obl
- NOUN obl
РИА PROPN obl
Новости PROPN appos
. PUNCT punct
Россия PROPN nsubj
рассчитывает VERB ROOT
, PUNCT punct
что SCONJ mark
США PROPN nsubj
воздействуют VERB ccomp
на ADP case
Тбилиси PROPN obl
в ADP case
связи NOUN fixed
с ADP fixed
обострением NOUN obl
ситуации NOUN nmod
в ADP case
зоне NOUN nmod
грузино ADJ amod
- ADJ amod
осетинского ADJ amod
конфликта NOUN nmod
. PUNCT punct
Об ADP case
этом PRON obl
статс NOUN nsubj
- NOUN nsubj
секретарь NOUN nsubj
- NOUN nsubj
заместитель NOUN nsubj
министра NOUN nmod
иностранных ADJ amod
дел NOUN nmod
России PROPN nmod
Григорий PROPN appos
Карасин PROPN flat:name
заявил VERB ROOT
в ADP case
телефонном ADJ amod
разговоре NOUN obl
с ADP case
заместителем NOUN nmod
госсекретаря N

In [30]:
# Разметка из collection3
pd.read_csv('collection3/003.ann', delimiter='\t', header=None)

Unnamed: 0,0,1,2
0,T1,LOC 82 89,Бишкеке
1,T2,LOC 113 119,БИШКЕК
2,T3,ORG 132 146,Новости-Грузия
3,T4,LOC 175 183,Киргизии
4,T5,LOC 225 228,США
5,T6,LOC 231 238,Бишкеке
6,T7,ORG 316 319,МВД
7,T8,LOC 320 328,Киргизии
8,T9,LOC 492 500,Киргизии
9,T10,LOC 525 528,США


**Вывод:** NER из spacy нашла все сущности.

### <a id='NER_slovnet'>2.3 NER из slovnet</a>

In [31]:
text = data_text.text[0]
navec = Navec.load('slovnet/navec_news_v1_1B_250K_300d_100q.tar')
ner = NER.load('slovnet/slovnet_ner_news_v1.tar')
ner.navec(navec)

markup = ner(text)
show_markup(markup.text, markup.spans)

Россия рассчитывает на конструктивное воздействие США на Грузию
LOC───                                            LOC    LOC───
04/08/2008 12:08
МОСКВА, 4 авг - РИА Новости. Россия рассчитывает, что США воздействуют
LOC───          ORG────────  LOC───                   LOC             
 на Тбилиси в связи с обострением ситуации в зоне грузино-осетинского 
    LOC────                                                           
конфликта. Об этом статс-секретарь - заместитель министра иностранных 
дел России Григорий Карасин заявил в телефонном разговоре с 
    LOC─── PER─────────────                                 
заместителем госсекретаря США Дэниэлом Фридом.
                          LOC PER──────────── 
"С российской стороны выражена глубокая озабоченность в связи с новым 
витком напряженности вокруг Южной Осетии, противозаконными действиями 
                            LOC─────────                              
грузинской стороны по наращиванию своих вооруженных сил в регионе, 
бес

**Вывод:** NER из slovnet 

### <a id='NER_deeppavlov'>2.4 NER из deeppavlov</a>

In [32]:
# deeppavlov_ner = build_model(configs.ner, download=True)
# rus_document = data_text.text[0]
# deeppavlov_ner([rus_document])

### <a id='NER_свой'>2.5 Самописный NER</a>

In [33]:
# Собираем только ann файлы коллекции
fileDir = r"collection3"
fileExt = r".ann"
documents_ann = [_ for _ in os.listdir(fileDir) if _.endswith(fileExt)]
print(documents_ann)

['001.ann', '002.ann', '003.ann', '004.ann', '005.ann', '006.ann', '007.ann', '008.ann', '009.ann', '010.ann', '011.ann', '012.ann', '013.ann', '014.ann', '015 (!).ann', '016.ann', '017.ann', '018.ann', '019.ann', '020.ann', '021.ann', '022.ann', '023.ann', '025.ann', '026.ann', '027.ann', '028.ann', '029.ann', '030.ann', '031.ann', '032.ann', '033.ann', '034.ann', '035.ann', '036.ann', '037.ann', '038.ann', '039.ann', '03_12_12a.ann', '03_12_12b.ann', '03_12_12c.ann', '03_12_12d.ann', '03_12_12g.ann', '03_12_12h.ann', '040.ann', '041.ann', '042.ann', '043.ann', '044.ann', '045.ann', '046.ann', '047.ann', '048.ann', '049.ann', '04_02_13a_abdulatipov.ann', '04_03_13a_sorokin.ann', '04_12_12b.ann', '04_12_12d.ann', '04_12_12f.ann', '04_12_12g.ann', '04_12_12h_corr.ann', '050.ann', '051.ann', '052.ann', '053.ann', '054.ann', '055.ann', '056.ann', '057.ann', '058.ann', '059.ann', '060.ann', '061.ann', '062.ann', '063.ann', '064.ann', '065.ann', '066.ann', '067.ann', '068.ann', '069.ann', '

In [34]:
ann = pd.read_csv('collection3/003.ann', delimiter='\t', header=None)
ann

Unnamed: 0,0,1,2
0,T1,LOC 82 89,Бишкеке
1,T2,LOC 113 119,БИШКЕК
2,T3,ORG 132 146,Новости-Грузия
3,T4,LOC 175 183,Киргизии
4,T5,LOC 225 228,США
5,T6,LOC 231 238,Бишкеке
6,T7,ORG 316 319,МВД
7,T8,LOC 320 328,Киргизии
8,T9,LOC 492 500,Киргизии
9,T10,LOC 525 528,США


In [35]:
# Составляем списки токенов и интенсов (из файла .ann делается словарь {слово : интенс}, из словаря каждому токену сопоствляем интенс)
docs = []
for i in range(len(documents_ann)):
    words = []
    labels = []
    # Подготавливаем текст
    text = data_text['text'][i]
    
    df = pd.read_csv('collection3/' + documents_ann[i], delimiter='\t', header=None)
    df_ann = pd.DataFrame()
    df_ann['Token'] = df.loc[:, 2]
    split_1 = [loc.split() for loc in df.loc[:, 1].values]
    df_ann['Entity'] = [loc[0] for loc in split_1]
       
    dic = {}
    for j in range(len(df)):
        token = df_ann['Token'][j].lower().split()
        entity = df_ann['Entity'][j]
        for tok in token:
            dic[tok] = entity

    for token in tokenize(text):
        if (token.text.lower() in dic.keys()):
            words.append(token.text)
            labels.append(dic[token.text.lower()])
        else:
            words.append(token.text)
            labels.append('OUT')
    
    docs.append([words, labels])

In [36]:
print(docs[0][0]), print(docs[0][1])

['Россия', 'рассчитывает', 'на', 'конструктивное', 'воздействие', 'США', 'на', 'Грузию', '04/08/2008', '12', ':', '08', 'МОСКВА', ',', '4', 'авг', '-', 'РИА', 'Новости', '.', 'Россия', 'рассчитывает', ',', 'что', 'США', 'воздействуют', 'на', 'Тбилиси', 'в', 'связи', 'с', 'обострением', 'ситуации', 'в', 'зоне', 'грузино-осетинского', 'конфликта', '.', 'Об', 'этом', 'статс-секретарь', '-', 'заместитель', 'министра', 'иностранных', 'дел', 'России', 'Григорий', 'Карасин', 'заявил', 'в', 'телефонном', 'разговоре', 'с', 'заместителем', 'госсекретаря', 'США', 'Дэниэлом', 'Фридом', '.', '"', 'С', 'российской', 'стороны', 'выражена', 'глубокая', 'озабоченность', 'в', 'связи', 'с', 'новым', 'витком', 'напряженности', 'вокруг', 'Южной', 'Осетии', ',', 'противозаконными', 'действиями', 'грузинской', 'стороны', 'по', 'наращиванию', 'своих', 'вооруженных', 'сил', 'в', 'регионе', ',', 'бесконтрольным', 'строительством', 'фортификационных', 'сооружений', '"', ',', '-', 'говорится', 'в', 'сообщении', '

(None, None)

In [37]:
data, labels = list(zip(*docs))
for w, e in zip(data[0], labels[0]):
    print(f'{w}\t{e}')

Россия	LOC
рассчитывает	OUT
на	OUT
конструктивное	OUT
воздействие	OUT
США	LOC
на	OUT
Грузию	LOC
04/08/2008	OUT
12	OUT
:	OUT
08	OUT
МОСКВА	LOC
,	OUT
4	OUT
авг	OUT
-	OUT
РИА	ORG
Новости	ORG
.	OUT
Россия	LOC
рассчитывает	OUT
,	OUT
что	OUT
США	LOC
воздействуют	OUT
на	OUT
Тбилиси	LOC
в	OUT
связи	OUT
с	OUT
обострением	OUT
ситуации	OUT
в	OUT
зоне	OUT
грузино-осетинского	OUT
конфликта	OUT
.	OUT
Об	OUT
этом	OUT
статс-секретарь	OUT
-	OUT
заместитель	OUT
министра	OUT
иностранных	OUT
дел	OUT
России	LOC
Григорий	PER
Карасин	PER
заявил	OUT
в	OUT
телефонном	OUT
разговоре	OUT
с	OUT
заместителем	OUT
госсекретаря	OUT
США	LOC
Дэниэлом	PER
Фридом	PER
.	OUT
"	OUT
С	OUT
российской	OUT
стороны	OUT
выражена	OUT
глубокая	OUT
озабоченность	OUT
в	OUT
связи	OUT
с	OUT
новым	OUT
витком	OUT
напряженности	OUT
вокруг	OUT
Южной	LOC
Осетии	LOC
,	OUT
противозаконными	OUT
действиями	OUT
грузинской	OUT
стороны	OUT
по	OUT
наращиванию	OUT
своих	OUT
вооруженных	OUT
сил	OUT
в	OUT
регионе	OUT
,	OUT
бесконтрольным	OUT
строительс

In [38]:
df = pd.DataFrame({'sent_id': [i for j in [[i] * len(s) for i, s in enumerate(data)] for i in j],
                   'data': [i for j in data for i in j],
                   'entities': [i for j in labels for i in j]})
df.head(50)

Unnamed: 0,sent_id,data,entities
0,0,Россия,LOC
1,0,рассчитывает,OUT
2,0,на,OUT
3,0,конструктивное,OUT
4,0,воздействие,OUT
5,0,США,LOC
6,0,на,OUT
7,0,Грузию,LOC
8,0,04/08/2008,OUT
9,0,12,OUT


**Будем передавать в модель токен с соседями**

In [39]:
# Преобразуем датасет: 
# Группируем записи по номеру предложения (аггфункция - список кортежей (токен, лейбл))
class SentenceGetter(object):
    
    def __init__(self, data):
        self.n_sent = 1
        self.data = data
        self.empty = False
        agg_func = lambda s: [(w, t) for w, t in zip(s['data'].values.tolist(), 
                                                           s['entities'].values.tolist())]
        self.grouped = self.data.groupby('sent_id').apply(agg_func)
        self.sentences = [s for s in self.grouped]
        
    def get_next(self):
        try: 
            s = self.grouped['Sentence: {}'.format(self.n_sent)]
            self.n_sent += 1
            return s 
        except:
            return None

# Преобразует датасет df
getter = SentenceGetter(df)
# Получаем список номеров преложений датасета df
sentences = getter.sentences

In [40]:
# Преобразуем слова в признаки:
# Для каждого слова-токена составляем словарь признаков, 
# Определяем является ли оно начаотным, конечным в предложении
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    
    features = {
        'bias': 1.0, 
        'word.lower()': word.lower(), 
        'word[-3:]': word[-3:],
        'word[-2:]': word[-2:],
        'word.isdigit()': word.isdigit()
    }
    if i > 0:
        word1 = sent[i - 1][0]
        features.update({
            '-1:word.lower()': word1.lower()
        })
    else:
        features['BOS'] = True
    if i < len(sent) - 1:
        word1 = sent[i + 1][0]
        features.update({
            '+1:word.lower()': word1.lower()
        })
    else:
        features['EOS'] = True

    return features

# Преобразуем предложения:
# Каждое слово предложения преобразуем в признаки
def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

# Список всех лейблов предложения
def sent2labels(sent):
    return [label for token, label in sent]

# Список всех токенов предложения
def sent2tokens(sent):
    return [token for token, label in sent]

In [41]:
# Собираем данные и метки
X = [sent2features(s) for s in sentences]
y = [sent2labels(s) for s in sentences]

In [42]:
# Передаем в датасет токен с соседями (первый индекс -- предложение, 2 индекс -- слово)
X[2][7]

{'bias': 1.0,
 'word.lower()': 'в',
 'word[-3:]': 'в',
 'word[-2:]': 'в',
 'word.isdigit()': False,
 '-1:word.lower()': 'изъяты',
 '+1:word.lower()': 'арендуемом'}

In [43]:
len(X)

999

In [44]:
# Разбиваем данные на train и test
X_train = X[:700]
X_test = X[700:]
y_train = y[:700]
y_test = y[700:]

In [45]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs', #Градиентный спуск с использованием метода L-BFGS
    c1=0.1, #Коэффициент для регуляризации L1
    c2=0.1, #Коэффициент для регуляризации L2
    max_iterations=1000, #Максимальное количество итераций
    all_possible_transitions=True, #Генерация объектов (не встречающихся в обучающих данных)
    verbose=True #Включение режима тренировки
)

try:
    crf.fit(X_train, y_train)
except AttributeError:
    pass

loading training data to CRFsuite: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 700/700 [00:01<00:00, 610.21it/s]



Feature generation
type: CRF1d
feature.minfreq: 0.000000
feature.possible_states: 0
feature.possible_transitions: 1
0....1....2....3....4....5....6....7....8....9....10
Number of features: 98972
Seconds required: 0.267

L-BFGS optimization
c1: 0.100000
c2: 0.100000
num_memories: 6
max_iterations: 1000
epsilon: 0.000010
stop: 10
delta: 0.000010
linesearch: MoreThuente
linesearch.max_iterations: 20

Iter 1   time=0.13  loss=121356.43 active=98097 feature_norm=1.00
Iter 2   time=0.07  loss=108933.37 active=94193 feature_norm=1.59
Iter 3   time=0.06  loss=106719.02 active=97471 feature_norm=1.47
Iter 4   time=0.06  loss=105586.47 active=97173 feature_norm=1.40
Iter 5   time=0.06  loss=103864.92 active=97820 feature_norm=1.46
Iter 6   time=0.06  loss=88408.59 active=97567 feature_norm=4.93
Iter 7   time=0.07  loss=86020.46 active=98489 feature_norm=4.83
Iter 8   time=0.06  loss=82185.93 active=98955 feature_norm=5.16
Iter 9   time=0.15  loss=78184.62 active=98904 feature_norm=6.24
Iter 10 

In [46]:
all_entities = sorted(df.entities.unique().tolist())
len(all_entities)

4

In [47]:
y_pred = crf.predict(X_test)
metrics.flat_f1_score(y_test, y_pred, average='weighted', labels=all_entities)

0.9464624149713488

### <a id='Выводы_5.2'>2.6 Выводы</a>

Готовые решения NER из spacy и nltk показывают хорошие результаты в задачах извлечения именованных сущностей. Не получилось извлечь NER с помощью готовых решений из slovnet и deeppavlov. При составлении собственного алгоритма NER не получилось определить метрики.