## Распознавание именованных сущностей (Named Entity Recognition)

([Задание для семинара](#scrollTo=6r75FhEHoBu5&line=2&uniqifier=1), 
[Домашнее задание](#scrollTo=7svbV7-GaLX3&line=7&uniqifier=1))

Именованная сущность, - это объект реального мира, у которого есть имя: человек, организация, географический объект, медицинское обозначение, денежная сумма и т.д. 

NER состоит из двух этапов:
    1. Выделение сущностей в тексте
    2. Назначение каждой сущности типа
    


In [1]:
text = "Губернатор Приморского края Олег Кожемяко рекомендовал администрации Владивостока \
уволить сотрудников, ответственных за установку гранитных лавочек на площади Борцов Революции. \
В Минпросвещения рассказали о разработке российского аналога TikTok для школьников."

#### Stanza 

In [2]:
#! pip install stanza

In [3]:
import stanza
stanza.download('ru')
nlp = stanza.Pipeline(lang='ru', processors='tokenize,ner')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

2022-12-03 21:45:51 INFO: Downloading default packages for language: ru (Russian) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ru/resolve/v1.4.1/models/default.zip:   0%|          | 0…

KeyboardInterrupt: 

In [None]:
doc = nlp(text)
print(text)
doc.sentences[0].ents

#### Polyglot 

In [None]:
! apt install libicu-dev

In [None]:
! pip install pyicu pycld2 morfessor polyglot

In [None]:
! polyglot download embeddings2.ru ner2.ru

In [None]:
from polyglot.text import Text

Text(text).entities

Detector is not able to detect the language reliably.


[I-LOC(['Приморского', 'края']),
 I-PER(['Приморского', 'края', 'Олег', 'Кожемяко']),
 I-LOC(['Владивостока'])]

In [None]:
for sent in Text(text).sentences:
  print(sent, "\n")
  for entity in sent.entities:
    print({'tag': entity.tag,
           'entity': entity,
           'start_token': entity.start,
           'end_token': entity.end})

Detector is not able to detect the language reliably.


Губернатор Приморского края Олег Кожемяко рекомендовал администрации Владивостока уволить сотрудников, ответственных за установку гранитных лавочек на площади Борцов Революции. 

{'tag': 'I-LOC', 'entity': I-LOC(['Приморского', 'края']), 'start_token': 1, 'end_token': 3}
{'tag': 'I-PER', 'entity': I-PER(['Приморского', 'края', 'Олег', 'Кожемяко']), 'start_token': 1, 'end_token': 5}
{'tag': 'I-LOC', 'entity': I-LOC(['Владивостока']), 'start_token': 7, 'end_token': 8}
В Минпросвещения рассказали о разработке российского аналога TikTok для школьников. 



In [None]:
#! pip install natasha

In [3]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

doc = Doc(text)

In [4]:
doc.segment(segmenter)
doc.tag_ner(ner_tagger)

### Применение
**Задание (Семинар, 2 балла):** маскируйте все адреса и имена в электронном письме:

In [5]:
email = """
Уважаемая Эльвира Геннадьевна,

Как шеф-повар, я должен выразить свою обеспокоенность слухами о появлении плесени вблизи некоторых кухонь в корпусе 13 по адресу: Льва Толстого, 42. Обращаю ваше внимание на то, что любые продукты, обрабатываемые, приготавливаемые или потребляемые вблизи плесени, могут быть заражены и небезопасны для употребления.

Если эти сообщения найдут подтверждения, мне придется закрыть несколько столовых. Возможно распределение нагрузки на кухни в корпусах:
№9 площадь Гагарина, 99
№10 улица Южная, 10
№11 Кривой проспект, 17

С уважением,
Алексей Мартынов.
martyn@supercorp.ru
"""


In [6]:
doc1 = Doc(email)
doc1.segment(segmenter)
doc1.tag_ner(ner_tagger)

In [7]:
print(doc1.spans)

[DocSpan(start=11, stop=30, type='PER', text='Эльвира Геннадьевна', tokens=[...]), DocSpan(start=163, stop=176, type='LOC', text='Льва Толстого', tokens=[...]), DocSpan(start=496, stop=504, type='LOC', text='Гагарина', tokens=[...]), DocSpan(start=519, stop=524, type='LOC', text='Южная', tokens=[...]), DocSpan(start=533, stop=548, type='LOC', text='Кривой проспект', tokens=[...]), DocSpan(start=567, stop=583, type='PER', text='Алексей Мартынов', tokens=[...])]


In [9]:
ans = email
l = 0
for s in doc1.spans:
    label = s.type
    if (label == "PER" or label == "LOC"):
        ans = ans[:s.start - l] + label + ans[s.stop - l:]
        l += len(s.text) - 3 #l используется для того, чтобы учитывать длину строк, которые мы вырезали из изначального текста
print(ans)


Уважаемая PER,

Как шеф-повар, я должен выразить свою обеспокоенность слухами о появлении плесени вблизи некоторых кухонь в корпусе 13 по адресу: LOC, 42. Обращаю ваше внимание на то, что любые продукты, обрабатываемые, приготавливаемые или потребляемые вблизи плесени, могут быть заражены и небезопасны для употребления.

Если эти сообщения найдут подтверждения, мне придется закрыть несколько столовых. Возможно распределение нагрузки на кухни в корпусах:
№9 площадь LOC, 99
№10 улица LOC, 10
№11 LOC, 17

С уважением,
PER.
martyn@supercorp.ru



### Обучение теггера с нуля 

Допустим, из текста нужно выделить не имена и места действия, а названия лекарств  (или товаров на онлайн-доске объявлений, или химических соединений).
Если возникла необходимость в выделении именованных сущностей, для которых
не предусмотрены готовые решения (например, данные и множество тегов не похожи на  таковые для новостных текстов на русском языке), при наличии размеченной выборки  можно создать модель NER методами машинного обучения с учителем.

Данные для обучения NER аннотируются с помощью [IOB-тегов](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)) или BILOU-тегов:

    - I = Inside, указывается тип
    - O = Outside
    - B = Begin, указывается тип

В BILOU также есть теги конца сегмента и тег для сегмента из одного слова.
    
Набор типов в предложенном датасете:

    - geo = Geographical Entity
    - org = Organization
    - per = Person
    - gpe = Geopolitical Entity
    - tim = Time indicator
    - art = Artifact
    - eve = Event
    - nat = Natural Phenomenon

In [32]:
! wget https://raw.githubusercontent.com/mrm8488/NER-English/master/ner_dataset.csv

Will not apply HSTS. The HSTS database must be a regular and non-world-writable file.
ERROR: could not open HSTS store at '/home/peter/.wget-hsts'. HSTS will be disabled.
--2022-12-03 22:19:24--  https://raw.githubusercontent.com/mrm8488/NER-English/master/ner_dataset.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 15208151 (15M) [text/plain]
Saving to: ‘ner_dataset.csv’


2022-12-03 22:19:34 (1.84 MB/s) - ‘ner_dataset.csv’ saved [15208151/15208151]



In [10]:
import pandas as pd

data = pd.read_csv("ner_dataset.csv", encoding="latin1")
data = data.fillna(method="ffill")

In [11]:
data.head(70).tail(16)

Unnamed: 0,Sentence #,Word,POS,Tag
54,Sentence: 3,They,PRP,O
55,Sentence: 3,marched,VBD,O
56,Sentence: 3,from,IN,O
57,Sentence: 3,the,DT,O
58,Sentence: 3,Houses,NNS,O
59,Sentence: 3,of,IN,O
60,Sentence: 3,Parliament,NN,O
61,Sentence: 3,to,TO,O
62,Sentence: 3,a,DT,O
63,Sentence: 3,rally,NN,O


In [12]:
agg_func = lambda s: [[w, p, t] for w, p, t in zip(s["Word"].values.tolist(),
                                                   s["POS"].values.tolist(),
                                                   s["Tag"].values.tolist())]
grouped = data.groupby("Sentence #").apply(agg_func).values.tolist()

In [13]:
grouped[0]

[['Thousands', 'NNS', 'O'],
 ['of', 'IN', 'O'],
 ['demonstrators', 'NNS', 'O'],
 ['have', 'VBP', 'O'],
 ['marched', 'VBN', 'O'],
 ['through', 'IN', 'O'],
 ['London', 'NNP', 'B-geo'],
 ['to', 'TO', 'O'],
 ['protest', 'VB', 'O'],
 ['the', 'DT', 'O'],
 ['war', 'NN', 'O'],
 ['in', 'IN', 'O'],
 ['Iraq', 'NNP', 'B-geo'],
 ['and', 'CC', 'O'],
 ['demand', 'VB', 'O'],
 ['the', 'DT', 'O'],
 ['withdrawal', 'NN', 'O'],
 ['of', 'IN', 'O'],
 ['British', 'JJ', 'B-gpe'],
 ['troops', 'NNS', 'O'],
 ['from', 'IN', 'O'],
 ['that', 'DT', 'O'],
 ['country', 'NN', 'O'],
 ['.', '.', 'O']]

In [14]:
X_list = [[word[:2] for word in sentence] for sentence in grouped]
y_list = [[word[2] for word in sentence] for sentence in grouped]

In [15]:
print(X_list[0], '\n')
print(y_list[0])

[['Thousands', 'NNS'], ['of', 'IN'], ['demonstrators', 'NNS'], ['have', 'VBP'], ['marched', 'VBN'], ['through', 'IN'], ['London', 'NNP'], ['to', 'TO'], ['protest', 'VB'], ['the', 'DT'], ['war', 'NN'], ['in', 'IN'], ['Iraq', 'NNP'], ['and', 'CC'], ['demand', 'VB'], ['the', 'DT'], ['withdrawal', 'NN'], ['of', 'IN'], ['British', 'JJ'], ['troops', 'NNS'], ['from', 'IN'], ['that', 'DT'], ['country', 'NN'], ['.', '.']] 

['O', 'O', 'O', 'O', 'O', 'O', 'B-geo', 'O', 'O', 'O', 'O', 'O', 'B-geo', 'O', 'O', 'O', 'O', 'O', 'B-gpe', 'O', 'O', 'O', 'O', 'O']


In [16]:
from sklearn.model_selection import train_test_split

data_train, data_test, y_train, y_test = train_test_split(X_list, y_list, test_size=0.2, random_state=1337)

In [81]:
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]

    features = {
        #'bias': 0.1,
        'word.lower()': word.lower(),
        #'word[-3:]': word[-3:],
        #'word[-2:]': word[-2:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        #'postag[:2]': postag[:2],
    }
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': word1.lower(),
            '-1:word.istitle()': word1.istitle(),
            '-1:word.isupper()': word1.isupper(),
            '-1:postag': postag1,
            #'-1:postag[:2]': postag1[:2],
        })
    else:
        features['BOS'] = True

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': word1.lower(),
            '+1:word.istitle()': word1.istitle(),
            '+1:word.isupper()': word1.isupper(),
            '+1:postag': postag1,
            #'+1:postag[:2]': postag1[:2],
        })
    else:
        features['EOS'] = True

    return features

def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

In [82]:
X_train = [sent2features(s) for s in data_train]
X_test = [sent2features(s) for s in data_test]

## Домашнее задание (6 баллов)

Обучите модель для распознавания именованных сущностей с помощью метода условных случайных полей на классических признаках. Используйте библиотеку ``sklearn_crfsuite``. Экспериментируйте с признаками. Приведите результаты анализа признаков обученной модели.

Решения в форме ноутбуков, где последняя ячейка содержит ответ с текстовым комментарием, присылайте на mipttextanalysis20@gmail.com (ссылкой на colab.research или файлом). 

Решения без штрафа (8 баллов максимум) принимаются до 12.00 6 октября. Всё, что присылается не в срок, оценивается из максимума 4 балла. Работу, присланную в срок и оцененную не менее чем на 4 балла, можно доделать и досдать на максимум один раз.

Пожалуйста, указывайте фамилию в названии блокнота. Комментарий к решению принимается на русском или английском языке.

In [83]:
#! pip install --upgrade 'scikit-learn==0.23.2'

In [84]:
import sklearn_crfsuite

crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=100,
    all_possible_transitions=True
)
crf.fit(X_train, y_train)

CRF(algorithm='lbfgs', all_possible_transitions=True, c1=0.1, c2=0.1,
    keep_tempfiles=None, max_iterations=100)

In [85]:
labels = list(crf.classes_)
labels.remove('O')
labels

['B-org',
 'I-org',
 'B-gpe',
 'B-tim',
 'I-tim',
 'B-per',
 'I-per',
 'B-geo',
 'I-geo',
 'B-eve',
 'B-nat',
 'I-eve',
 'I-nat',
 'B-art',
 'I-art',
 'I-gpe']

In [86]:
from sklearn_crfsuite import metrics
y_pred = crf.predict(X_test)
metrics.flat_f1_score(y_test, y_pred,
                      average='weighted', labels=labels)

0.8579102406446253

In [87]:
from sklearn_crfsuite import metrics
sorted_labels = sorted(
    labels,
    key=lambda name: (name[1:], name[0])
)
print(metrics.flat_classification_report(
    y_test, y_pred, labels=sorted_labels, digits=3
))

              precision    recall  f1-score   support

       B-art      0.462     0.097     0.160        62
       I-art      0.500     0.103     0.171        58
       B-eve      0.694     0.521     0.595        48
       I-eve      0.467     0.259     0.333        27
       B-geo      0.861     0.911     0.885      7591
       I-geo      0.827     0.787     0.807      1572
       B-gpe      0.972     0.934     0.952      3211
       I-gpe      0.963     0.578     0.722        45
       B-nat      0.550     0.314     0.400        35
       I-nat      0.500     0.333     0.400         6
       B-org      0.803     0.753     0.777      4018
       I-org      0.822     0.813     0.818      3372
       B-per      0.858     0.831     0.844      3362
       I-per      0.860     0.908     0.883      3432
       B-tim      0.937     0.879     0.907      4086
       I-tim      0.861     0.747     0.800      1354

   micro avg      0.867     0.852     0.860     32279
   macro avg      0.746   

In [88]:
import eli5
eli5.show_weights(crf, top=10)

From \ To,O,B-art,I-art,B-eve,I-eve,B-geo,I-geo,B-gpe,I-gpe,B-nat,I-nat,B-org,I-org,B-per,I-per,B-tim,I-tim
O,6.173,0.734,-3.723,1.632,-3.06,2.58,-6.477,0.858,-2.764,0.797,-2.305,2.492,-4.961,2.928,-4.716,2.965,-5.223
B-art,0.483,-0.216,5.489,0.0,-0.329,-0.724,-1.278,-1.639,-0.65,0.0,0.0,0.124,-1.323,-1.691,-2.04,-0.416,-1.2
I-art,0.224,-0.897,5.216,0.0,-0.031,-0.486,-1.386,-1.38,-0.378,0.0,0.0,-1.306,-0.983,-2.311,-2.143,-1.39,-0.877
B-eve,-0.927,-0.091,-0.649,-0.6,5.674,-1.375,-1.323,-2.05,-0.793,-0.529,-0.131,-1.851,-1.252,-2.658,-2.037,-0.946,-1.663
I-eve,0.181,-0.06,-0.516,-2.788,5.182,-1.354,-1.265,-1.291,-0.408,0.0,0.0,-1.646,-0.921,-2.397,-1.787,-1.58,-1.591
B-geo,0.848,0.0,-3.045,-0.361,-1.996,-4.427,4.561,-0.61,-4.197,-0.998,-1.105,-0.813,-3.836,-2.076,-4.812,0.98,-3.51
I-geo,0.361,0.433,-2.079,-1.068,-1.185,-3.226,3.513,-1.718,-2.497,-0.033,-0.541,-1.301,-2.78,-1.609,-3.673,0.239,-2.606
B-gpe,0.93,-3.351,-3.672,-1.54,-2.905,-0.779,-5.059,-7.155,3.232,-1.379,-1.797,0.253,-4.575,-1.557,-5.149,-1.173,-3.333
I-gpe,-0.033,-0.558,-0.293,0.0,0.0,-0.917,-1.295,-1.828,3.474,0.0,0.0,-2.49,-0.951,-1.456,-1.137,-1.792,-1.208
B-nat,-0.014,0.0,-0.111,0.0,0.0,0.19,-0.372,-0.788,-0.008,-0.651,6.425,-0.824,-0.19,-1.432,-1.575,-0.541,-0.431

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,Unnamed: 15_level_0,Unnamed: 16_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5,Unnamed: 9_level_5,Unnamed: 10_level_5,Unnamed: 11_level_5,Unnamed: 12_level_5,Unnamed: 13_level_5,Unnamed: 14_level_5,Unnamed: 15_level_5,Unnamed: 16_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6,Unnamed: 9_level_6,Unnamed: 10_level_6,Unnamed: 11_level_6,Unnamed: 12_level_6,Unnamed: 13_level_6,Unnamed: 14_level_6,Unnamed: 15_level_6,Unnamed: 16_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7,Unnamed: 9_level_7,Unnamed: 10_level_7,Unnamed: 11_level_7,Unnamed: 12_level_7,Unnamed: 13_level_7,Unnamed: 14_level_7,Unnamed: 15_level_7,Unnamed: 16_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8,Unnamed: 9_level_8,Unnamed: 10_level_8,Unnamed: 11_level_8,Unnamed: 12_level_8,Unnamed: 13_level_8,Unnamed: 14_level_8,Unnamed: 15_level_8,Unnamed: 16_level_8
Weight?,Feature,Unnamed: 2_level_9,Unnamed: 3_level_9,Unnamed: 4_level_9,Unnamed: 5_level_9,Unnamed: 6_level_9,Unnamed: 7_level_9,Unnamed: 8_level_9,Unnamed: 9_level_9,Unnamed: 10_level_9,Unnamed: 11_level_9,Unnamed: 12_level_9,Unnamed: 13_level_9,Unnamed: 14_level_9,Unnamed: 15_level_9,Unnamed: 16_level_9
Weight?,Feature,Unnamed: 2_level_10,Unnamed: 3_level_10,Unnamed: 4_level_10,Unnamed: 5_level_10,Unnamed: 6_level_10,Unnamed: 7_level_10,Unnamed: 8_level_10,Unnamed: 9_level_10,Unnamed: 10_level_10,Unnamed: 11_level_10,Unnamed: 12_level_10,Unnamed: 13_level_10,Unnamed: 14_level_10,Unnamed: 15_level_10,Unnamed: 16_level_10
Weight?,Feature,Unnamed: 2_level_11,Unnamed: 3_level_11,Unnamed: 4_level_11,Unnamed: 5_level_11,Unnamed: 6_level_11,Unnamed: 7_level_11,Unnamed: 8_level_11,Unnamed: 9_level_11,Unnamed: 10_level_11,Unnamed: 11_level_11,Unnamed: 12_level_11,Unnamed: 13_level_11,Unnamed: 14_level_11,Unnamed: 15_level_11,Unnamed: 16_level_11
Weight?,Feature,Unnamed: 2_level_12,Unnamed: 3_level_12,Unnamed: 4_level_12,Unnamed: 5_level_12,Unnamed: 6_level_12,Unnamed: 7_level_12,Unnamed: 8_level_12,Unnamed: 9_level_12,Unnamed: 10_level_12,Unnamed: 11_level_12,Unnamed: 12_level_12,Unnamed: 13_level_12,Unnamed: 14_level_12,Unnamed: 15_level_12,Unnamed: 16_level_12
Weight?,Feature,Unnamed: 2_level_13,Unnamed: 3_level_13,Unnamed: 4_level_13,Unnamed: 5_level_13,Unnamed: 6_level_13,Unnamed: 7_level_13,Unnamed: 8_level_13,Unnamed: 9_level_13,Unnamed: 10_level_13,Unnamed: 11_level_13,Unnamed: 12_level_13,Unnamed: 13_level_13,Unnamed: 14_level_13,Unnamed: 15_level_13,Unnamed: 16_level_13
Weight?,Feature,Unnamed: 2_level_14,Unnamed: 3_level_14,Unnamed: 4_level_14,Unnamed: 5_level_14,Unnamed: 6_level_14,Unnamed: 7_level_14,Unnamed: 8_level_14,Unnamed: 9_level_14,Unnamed: 10_level_14,Unnamed: 11_level_14,Unnamed: 12_level_14,Unnamed: 13_level_14,Unnamed: 14_level_14,Unnamed: 15_level_14,Unnamed: 16_level_14
Weight?,Feature,Unnamed: 2_level_15,Unnamed: 3_level_15,Unnamed: 4_level_15,Unnamed: 5_level_15,Unnamed: 6_level_15,Unnamed: 7_level_15,Unnamed: 8_level_15,Unnamed: 9_level_15,Unnamed: 10_level_15,Unnamed: 11_level_15,Unnamed: 12_level_15,Unnamed: 13_level_15,Unnamed: 14_level_15,Unnamed: 15_level_15,Unnamed: 16_level_15
Weight?,Feature,Unnamed: 2_level_16,Unnamed: 3_level_16,Unnamed: 4_level_16,Unnamed: 5_level_16,Unnamed: 6_level_16,Unnamed: 7_level_16,Unnamed: 8_level_16,Unnamed: 9_level_16,Unnamed: 10_level_16,Unnamed: 11_level_16,Unnamed: 12_level_16,Unnamed: 13_level_16,Unnamed: 14_level_16,Unnamed: 15_level_16,Unnamed: 16_level_16
+8.774,word.lower():last,,,,,,,,,,,,,,,
+8.567,word.lower():h5n1,,,,,,,,,,,,,,,
+7.672,word.lower():next,,,,,,,,,,,,,,,
+7.282,word.lower():chief,,,,,,,,,,,,,,,
+6.973,BOS,,,,,,,,,,,,,,,
+6.687,word.lower():60,,,,,,,,,,,,,,,
+6.313,word.lower():internet,,,,,,,,,,,,,,,
+6.275,word.lower():this,,,,,,,,,,,,,,,
+6.074,word.lower():h.i.v.,,,,,,,,,,,,,,,
+6.055,word.lower():g8,,,,,,,,,,,,,,,

Weight?,Feature
+8.774,word.lower():last
+8.567,word.lower():h5n1
+7.672,word.lower():next
+7.282,word.lower():chief
+6.973,BOS
+6.687,word.lower():60
+6.313,word.lower():internet
+6.275,word.lower():this
+6.074,word.lower():h.i.v.
+6.055,word.lower():g8

Weight?,Feature
+5.912,word.lower():english
+5.730,word.lower():gdp
+5.614,word.lower():spaceshipone
+5.393,word.lower():twitter
+5.293,word.lower():facebook
+4.885,word.lower():nevirapine
+4.405,word.lower():spanish
+4.387,+1:word.lower():enkhbayar
+4.321,word.lower():phoenix
+4.129,+1:word.lower():boots

Weight?,Feature
+2.614,word.lower():pound
+2.470,word.lower():zoo
+2.411,+1:word.lower():gained
+2.363,word.lower():flowers
+2.328,-1:word.lower():magazine
+2.236,word.lower():a
+2.165,word.lower():dome
+2.073,-1:word.lower():baghdad
+1.997,+1:word.lower():early
+1.977,-1:word.lower():balad

Weight?,Feature
+6.223,word.lower():ii
+5.742,word.lower():games
+5.356,word.lower():olympic
+4.448,word.lower():ramadan
+4.123,-1:word.lower():falklands
+4.011,word.lower():mass
+3.830,word.lower():wilma
+3.504,word.lower():iraq-poverty
+3.447,word.lower():nanmadol
+3.443,word.lower():somme

Weight?,Feature
+4.089,word.lower():games
+3.971,+1:word.lower():mascots
+3.657,word.lower():day
+3.265,-1:word.lower():hurricane
+2.832,word.lower():dean
+2.728,+1:word.lower():caused
+2.712,word.lower():open
+2.602,-1:word.lower():jewish
+2.594,word.lower():i
+2.583,+1:word.lower():era

Weight?,Feature
+5.996,word.lower():iran
+5.844,word.lower():israel
+5.773,word.lower():caribbean
+5.437,word.lower():iraq
+5.187,word.lower():u.s.
+5.055,word.lower():persian
+4.836,word.lower():connecticut
+4.638,word.lower():hpvs
+4.599,word.lower():london
+4.572,word.lower():mars

Weight?,Feature
+4.889,word.lower():gulf
+4.286,+1:word.lower():regional
+4.063,word.lower():lanka
+4.034,word.lower():east
+3.874,word.lower():island
+3.760,+1:word.lower():possessions
+3.687,-1:word.lower():nahr
+3.602,word.lower():airport
+3.323,+1:word.lower():french
+3.309,-1:word.lower():john

Weight?,Feature
+8.810,word.lower():nepal
+8.134,word.lower():niger
+7.513,word.lower():azerbaijan
+7.035,word.lower():afghan
+6.979,word.lower():iraqi
+6.898,word.lower():palestinians
+6.698,word.lower():israeli
+6.694,word.lower():jordan
+6.644,word.lower():palestinian
+6.577,word.lower():iranian

Weight?,Feature
+5.176,+1:word.lower():mayor
+5.042,word.lower():cypriot
+3.640,+1:word.lower():developed
+3.567,-1:word.lower():democratic
+3.514,word.lower():cypriots
+3.296,-1:word.lower():soviet
+3.095,word.lower():city
+3.048,-1:word.lower():north
+2.835,word.lower():american
+2.831,-1:postag:NNP

Weight?,Feature
+7.764,word.lower():katrina
+7.395,word.lower():rita
+7.206,word.lower():marburg
+6.493,word.lower():h5n1
+4.901,word.lower():paul
+4.454,word.lower():acc
+4.317,word.lower():wilma
+3.857,word.lower():ebola
+3.828,+1:word.lower():strain
+3.760,+1:word.lower():shot

Weight?,Feature
+3.965,word.lower():rita
+2.734,+1:word.lower():outbreak
+2.730,-1:word.lower():hurricane
+2.710,word.lower():flu
+2.564,-1:word.lower():hurricanes
+2.529,-1:word.lower():type
+2.389,+1:word.lower():relief
+2.115,word.lower():katrina
+2.017,+1:word.lower():slammed
+1.844,-1:postag:NN

Weight?,Feature
+8.979,word.lower():al-qaida
+7.628,word.lower():philippine
+7.150,word.lower():taleban
+6.929,word.lower():conocophillips
+6.409,word.lower():hamas
+6.310,word.lower():taliban
+6.295,word.lower():congress
+5.925,word.lower():mid-march
+5.602,word.lower():hezbollah
+5.440,word.lower():yukos

Weight?,Feature
+4.499,-1:word.lower():english
+3.957,-1:word.lower():&
+3.819,word.lower():nations
+3.813,-1:word.lower():decathlon
+3.766,word.lower():decathlon
+3.765,+1:word.lower():ohlmert
+3.606,word.lower():ministry
+3.602,word.lower():member-countries
+3.545,word.lower():council
… 5279 more positive …,… 5279 more positive …

Weight?,Feature
+8.164,word.lower():vice
+7.893,word.lower():mr.
+7.043,word.lower():prime
+6.702,word.lower():senator
+6.665,word.lower():president
+6.149,word.lower():obama
+5.871,word.lower():western
+5.536,word.lower():khodorkovsky
+4.877,word.lower():bill
+4.740,word.lower():ms.

Weight?,Feature
+3.692,-1:postag:NN
+3.313,+1:word.lower():advisor
+3.217,word.lower():lankan
+3.185,word.lower():bill
+3.088,word.lower():peter
+3.028,-1:word.lower():david
+2.955,-1:word.lower():'
+2.937,-1:word.lower():condoleezza
+2.859,word.lower():obama
… 4341 more positive …,… 4341 more positive …

Weight?,Feature
+10.712,word.lower():wednesday
+10.643,word.lower():sunday
+10.545,word.lower():thursday
+10.305,word.lower():friday
+10.305,word.lower():tuesday
+10.250,word.lower():monday
+9.662,word.lower():saturday
+9.165,word.lower():1980s
+9.092,word.lower():1990s
+8.616,word.lower():1970s

Weight?,Feature
+5.459,word.lower():friday
+5.175,word.lower():sunday
+4.846,word.lower():a.m.
+4.844,word.lower():wednesday
+4.535,word.lower():p.m.
+4.476,+1:word.lower():stocky
+4.475,word.lower():day
+4.456,word.lower():monday
+4.238,word.lower():november
+4.057,word.lower():saturday


### Комментарий

Наилучшая результативность у модели достигается при использовании word.isdigit, word.postag, word.lower, word.isupper, word.istitle;
при использовании информации о соседних словах точность понижается;
также в таблице сверху представлены веса переходов между тэгами, а также топ признаков по тэгам