## Постановка задачи

Используя предоставленные данные, построить модель распознавания заданных именованных сущностей. <br>
Разметка производится при помощи схемы B-I-O. 

Критерии оценки:
Для каждого класса и в среднем - точность, полнота и f1-метрика по извлеченным сущностям. Учитываются только полные совпадения (не частичные). Будем опираться на среднюю f1 для сравнения моделей. 

## Результаты эксперимента.
Результаты приведены в директории NER_experiments. Для каждой модели записана её конфигурация (meta_tags.csv), метрики в течении тренировки (metrics.csv), а также метрики на тестовой выборке (test_report.txt)

### NER_common.ipynb
Для проведения нескольких экспериментов, вынесем сюда общий код.

Средство для метрик. Интересуют точные совпадения предсказанных NE с метками и соответствующие им Precision, Recall и F1.<br>
https://github.com/chakki-works/seqeval


In [24]:
!pip3 install seqeval nltk

You should consider upgrading via the 'pip install --upgrade pip' command.[0m


Упростим прототипирование при помощи pytorch-lightning. Пакет еще сырой, но автоматизирует базовые циклы обучения, чекпоинты, запись метрик.

In [2]:
!pip3 install pytorch-lightning flair

You should consider upgrading via the 'pip install --upgrade pip' command.[0m


Реализация BERT

In [3]:
!pip3 install pytorch-transformers

You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [4]:
import numpy as np
from sklearn.model_selection import train_test_split
from itertools import chain, islice
from collections import Counter
from collections import defaultdict
import seqeval.metrics
from seqeval.metrics.sequence_labeling import get_entities

Чтение файла в заданном формате

In [5]:
def read_data(path, encoding='utf-16'):
    inputs, targets = [],[]
    
    with open(path, encoding=encoding) as f:
        current_input, current_target = [], []
        for line in f:
            line = line.rstrip()
            if line:
                token, tag = line.split()
                current_input.append(token)
                current_target.append(tag)
            else:
                inputs.append(current_input)
                targets.append(current_target)
                current_input, current_target = [], []
        if current_input:
            print("Doesn't end with a empty line")
            inputs.append(current_input)
            targets.append(current_target)
    return inputs, targets

Подсчёт уникальных тегов и их количества

In [6]:
def count_tags(list_of_targets):
    return Counter(chain.from_iterable(list_of_targets))

Извлекаем полные named entity

In [7]:
def obtain_spans(text, tags):
    spans = get_entities(tags)
    
    return [(tag, text[i:j + 1]) for tag, i, j in spans]
            

In [8]:
def count_entities(list_of_targets):
    counts = Counter()
    for tags in list_of_targets:
        for span in get_entities(tags):
            counts[span[0]] += 1
            
    return counts

Получение ограниченного числа образцов на каждый вариант named entity.

In [9]:
def obtain_span_tag_examples(texts, tags, examples_per_tag):
    tag_examples = defaultdict(list)
    filled_tags = {'O'}
#      print(unfilled_tags)
    for tokens, tags in zip(texts, tags):
        for tag, span in obtain_spans(tokens, tags):
            if tag not in filled_tags:
                tag_examples[tag].append(span)
                if len(tag_examples[tag]) >= examples_per_tag:
                    filled_tags.add(tag)
    return tag_examples

Класс словаря, в конечном итоге использовался только для тегов.

In [10]:
class Vocab:
    def __init__(self, word_counts, size, specials, unk_index):
        self._word_list = []
        self._word_list.extend(specials)
        for w,_ in word_counts.most_common(size-len(specials)):
            self._word_list.append(w)
        self._reverse_index = {w:i for i,w in enumerate(self._word_list)}
        self.unk_index = unk_index
        self.n_specials = len(specials)
        
    @classmethod
    def from_id2word(cls,id2word, unk_index, n_specials):
        self = cls.__new__(cls)
        self._word_list = [x for x in id2word]
        self._reverse_index = {w:i for i,w in enumerate(self._word_list)}
        self.unk_index = unk_index
        self.n_specials = n_specials
        return self
    
    @staticmethod
    def build_on_tokens(tokenized_text, specials, max_size, unk_index):
        word_counts = Counter(chain.from_iterable(tokenized_text))
        return Vocab(word_counts, max_size, specials, unk_index)
        
    def word2id(self, w):
        idx = self._reverse_index.get(w)
        if idx is not None:
            return idx
        else:
            return self.unk_index
        
    def id2word(self, idx):
        return self._word_list[idx]
    
    def transform_tokens(self, text, drop_unk=False):
        result = []
        for tok in text:
            idx = self.word2id(tok)
            if idx == self.unk_index and drop_unk:
                continue
            result.append(idx)
        return result
    
    def numericalize(self, texts, drop_unk=False):
        result = []
        for text in texts:
            result.append(self.transform_tokens(text, drop_unk))
        return result
    
    def transform_ids(self, ids):
        return [self.id2word(x) for x in ids]
    
    def denumericalize(self, encoded):
        return [self.transform_ids(ids) for ids in encoded]
            
    def __len__(self):
        return len(self._word_list)

Базовая предобработка - замена URL на спец. слово, расщепление хэштегов, никнеймов (@nickname) и замена чисел на спец.слово.
Маска используется, чтобы разрешать вопрос о теге расщепленного слова. В этом случае будет использоваться тег первой части токена.
<b>TODO: Использовать более продвинутый парсер URL</b>

In [11]:
def split_tag(tag, times):
    if tag.startswith('B-'):
        return [tag] + ['I-' + tag[2:]] * (times - 1)
    else:
        return [tag] * times

In [12]:
def basic_preprocessing(inputs, targets, replace_urls=True, split_hashtags=False, split_mentions=False, replace_numbers=False):
    new_inputs, new_targets = [], []
    target_masks = []
    for tokens, labels in zip(inputs, targets):
        new_tokens = []
        new_labels = []
        mask = []
        for i in range(len(tokens)):
            token, tag = tokens[i], labels[i]
            if replace_urls:
                if token.startswith("https://") or token.startswith("http://"):
                    new_tokens.append('<URL>')
                    new_labels.append(tag)
                    mask.append(True)
                    continue
            if split_hashtags and token.startswith('#') and len(token) > 1:
                new_tokens.append('#')
                new_tokens.append(token[1:])
                new_labels.extend(split_tag(tag, 2))
                mask.extend((True, False))
                continue
            if split_mentions and token.startswith('@') and len(token) > 1:
                new_tokens.append('@')
                new_tokens.append(token[1:])
                new_labels.extend(split_tag(tag, 2))
                mask.extend((True, False))
                continue
            if replace_numbers and token.isnumeric():
                new_tokens.append('<NUM>')
                new_labels.append(tag)
                mask.append(True)
                continue
            new_tokens.append(token)
            new_labels.append(tag)
            mask.append(True)
        new_inputs.append(new_tokens)
        new_targets.append(new_labels)
        target_masks.append(mask)
        
    return new_inputs, new_targets, target_masks

Сплит для сравнения результатов. Чтобы не повторять его в отдельных блокнотах, назначим выборку каждому индексу.<br> Обучающая выборка используется для обучения модели, валидационная - для настройки гиперпараметров, ранней остановки, и отслеживания прогресса.<br> Контрольная выборка используется для окончательного теста, в процессе разработки нужно избежать её использования для обратной связи (поэтому запись результатов в файл производится вслепую).

In [13]:
split_seed = 19450
np.random.seed(split_seed)
training_set_size = 5200
validation_set_size = 843
test_set_size = 1200

train_val_indices, test_indices = train_test_split(np.arange(7243), test_size=test_set_size)
train_indices, val_indices = train_test_split(train_val_indices, test_size=validation_set_size)
assert len(train_indices) == training_set_size

Разбиение массивов, используя выборки индексов. 
Пример split_by_indices([texts, targets], [train, val]) == [texts_train, texts_val, targets_train, targets_val]

In [14]:
def split_by_indices(arrays, splits):
    result = []
    for array in arrays:
        array = np.asarray(array)
        for split in splits:
            split = np.asarray(split)
            result.append(array[split])
    return result

Разбиение iterable на группы по n элементов

In [15]:
def grouper(n, iterable):
    it = iter(iterable)
    while True:
        chunk = tuple(islice(it, n))
        if not chunk:
            return
        yield chunk

Поскольку отслеживать множество переменных вида texts_train, texts_val, targets_test становится затруднительно, для каждого массива создадим словарь с ключами для соотв. выборок.  <br>
Пример выхода: [{'train': texts_train, 'val': texts_val }, {'train': targets_train, 'val': targets_val }]

In [16]:
def split_to_dicts(arrays, splits, split_names):
    assert len(splits) == len(split_names)
    all_splits = split_by_indices(arrays, splits)
    result = []
    for chunk in grouper(len(splits), all_splits):
        d = dict(zip(split_names, chunk))
        result.append(d)
    return result

Проверим, не импортирован ли блокнот. Если нет, проверим код и проведём небольшой анализ.

In [17]:
directly_executed =  __name__ == '__main__' and '__file__' not in globals()

Пример предобработки

In [18]:
if directly_executed:
    inputs, targets = read_data('data/data.txt')
    example_id = 5
    print(inputs[example_id])
    print(targets[example_id])
    preproc_inputs, preproc_targets, preproc_masks = basic_preprocessing(inputs, targets, replace_urls=True, split_hashtags=True, split_mentions=True)
    print(preproc_inputs[example_id])
    print(preproc_targets[example_id])
    print(preproc_masks[example_id])

['RT', '@KianLawley', ':', '@flowerfulkian', 'TOMORROW', 'IS', 'MY', 'LAST', 'DAY', '!!']
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
['RT', '@', 'KianLawley', ':', '@', 'flowerfulkian', 'TOMORROW', 'IS', 'MY', 'LAST', 'DAY', '!!']
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
[True, True, False, True, True, False, True, True, True, True, True, True]


Пример разбиения по индексам.

In [19]:
if directly_executed:
    input_split, target_split = split_to_dicts([inputs, targets],
                                               [train_indices, val_indices, test_indices],
                                               ['train', 'val', 'test'])
    
    preproc_input_split, preproc_target_split = split_to_dicts([preproc_inputs, preproc_targets], 
                                                               [train_indices, val_indices, test_indices],
                                                               ['train', 'val', 'test'])
    print('Inputs: ')
    for k,v in input_split.items():
        print(k, len(v))
        print(v[0])
        
    print('Targets: ')
    for k,v in target_split.items():
        print(k, len(v))
        print(v[0])

Inputs: 
train 5200
['Jan', '19', 'My', 'daily', 'investment', 'tips', 'today', 'for', 'Empire', 'Avenue', '#EAv', '!', 'http://t.co/E14XfhsIIM', 'via', '@wordpressdotcom']
val 843
['RT', '@jeromegodefroy', ':', 'Les', 'catholiques', ',', 'ces', 'fondamentalistes', 'assassins', ':', 'https://t.co/TQ80d9pmHQ']
test 1200
['@YourboyH', 'cool', "I'll", 'check', 'it', 'out', 'when', 'I', 'get', 'home', '.']
Targets: 
train 5200
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-other', 'I-other', 'O', 'O', 'O', 'O', 'O']
val 843
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
test 1200
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


Проверка, насколько сократилось число уникальных слов в обучающей выборке после препроцессинга

In [20]:
if directly_executed:
    unique_words = set(chain.from_iterable(input_split['train']))
    print('Total words in training set (no preprocessing)', len(unique_words))
    unique_words_preproc = set(chain.from_iterable(preproc_input_split['train']))
    print('Total words in training set (no urls, hashtag split, nickname split)', len(unique_words_preproc))

Total words in training set (no preprocessing) 22500
Total words in training set (no urls, hashtag split, nickname split) 19756


Проверим распределение тегов в выборках (используем classification_report для красивой печати)

In [21]:
if directly_executed:
    row_format ="{:>12} {:>12} {:.2f}"
    for split, targets in target_split.items():
        print(split)
        tag_counts = count_entities(targets)
        total_tags = sum(tag_counts.values())
        for tag, count in sorted(tag_counts.items(), key=lambda t: t[0]):
            print(row_format.format(tag, count, count / total_tags))
        print('---------')
        
        

train
     company          608 0.15
    facility          277 0.07
         loc          892 0.22
       movie           54 0.01
 musicartist          206 0.05
       other          664 0.17
      person          781 0.19
     product          287 0.07
  sportsteam          193 0.05
      tvshow           44 0.01
---------
val
     company           84 0.13
    facility           58 0.09
         loc          156 0.24
       movie           17 0.03
 musicartist           33 0.05
       other          110 0.17
      person          131 0.20
     product           38 0.06
  sportsteam           21 0.03
      tvshow           11 0.02
---------
test
     company          139 0.14
    facility           60 0.06
         loc          226 0.23
       movie           12 0.01
 musicartist           48 0.05
       other          167 0.17
      person          190 0.20
     product           55 0.06
  sportsteam           54 0.06
      tvshow           14 0.01
---------


Проверим пропорцию неизвестных слов в тегах. Для этого половину слов из обучающей выборке поместим в словарь. Проверка пропорций осуществляется на валидационной выборке.

In [22]:
if directly_executed:
    word_counts = Counter(chain.from_iterable(input_split['train']))
    tag_counts = Counter(chain.from_iterable(target_split['train']))
    unk_index = 0
    vocab = Vocab(word_counts, size=len(unique_words) // 2, specials=['<UNK>'], unk_index=unk_index)
    total_words = 0
    known_words = 0
    for w in chain.from_iterable(input_split['train']):
        total_words += 1
        if vocab.word2id(w) != unk_index:
            known_words += 1
    
    print('known_words/total_words (training set)', known_words/total_words)
    
    val_total_words = sum(1 for _ in chain.from_iterable(input_split['val']))
    val_known_words = sum(1 for w in chain.from_iterable(input_split['val']) if w in vocab._reverse_index)
    
    print('known_words/total_words (validation set)', val_known_words/val_total_words)
    
    known_words_in_tags = defaultdict(lambda: 0)
    total_words_in_tags = defaultdict(lambda: 0)
    for text, tags in zip(input_split['val'], target_split['val']):
        for tag, span in obtain_spans(text, tags):
            for word in span:
                if vocab.word2id(word) != unk_index:
                    known_words_in_tags[tag] += 1
                total_words_in_tags[tag] += 1
                
    
    
    print('known_words_in_tags/total_words_in_tags (validation set)', 
          sum(known_words_in_tags.values()) / sum(total_words_in_tags.values()))
    
    for tag in total_words_in_tags.keys():
        k, t = known_words_in_tags[tag], total_words_in_tags[tag]
        print(tag, k, t, k/t if t != 0 else 'inf')
        
    
            
            

known_words/total_words (training set) 0.8738804380723918
known_words/total_words (validation set) 0.7763408946364214
known_words_in_tags/total_words_in_tags (validation set) 0.5623318385650224
loc 120 206 0.5825242718446602
company 88 116 0.7586206896551724
product 65 126 0.5158730158730159
person 85 199 0.4271356783919598
other 109 189 0.5767195767195767
facility 90 136 0.6617647058823529
musicartist 28 53 0.5283018867924528
movie 21 39 0.5384615384615384
tvshow 10 20 0.5
sportsteam 11 31 0.3548387096774194


Выведем примеры named entity каждого типа.

In [23]:
if directly_executed:
    tag_examples = obtain_span_tag_examples(input_split['train'], target_split['train'], 10)
    for tag, examples in tag_examples.items():
        print(tag,":",'|'.join([' '.join(ex) for ex in examples]))
        print()
            

other : Empire Avenue|Super Bowl|Christmas|How To Get A Paying Job In The Film Industry|#MemorialDay|GPD|New Year|the Great Exhibition|Quds|#UN

product : Conflicts of Law : Cases and Materials|Sour Patch kids|Lounge22|12 " 3PCS Set Disney Frozen Queenx Elsa Princesses Anna Olaf Snowman Dolls Toys|Lincoln park after dark|Russian navy|Vintage Banner space helmet &amp; goggles|Exo browser|#Chrome|soulful house mix

person : Lea Brilmayer|Jack L|Andrew Michaelis|Tim|ansley|God|nini|Jon T . Tumilson Chief Special Warfare Operator|Obama|Anja Rubik

loc : Minneapolis|Clemson|Auburn|#Budapest|Afghanistan|Australia|U . S .|Mesa|Manchester|Ill

facility : #Keleti|Murray State|OMNIA Nightclub|#Wax Club Bangkok|The Pub|Bedford Farmers Market|Washington Navy Yard|The White House|ROSS TOWNSHIP BUILDING|the oasis

company : G+|Snapchat|BBC News|Playboy|Playboy|NBC|CORT|TalkTalk|Kmart Australia|Kmart Australia

sportsteam : The Wildcats|Bolton|Liverpool|Reds|Colts|Philadelphia Eagles|PERAK|TERENGGANU

Выводы:<br>
1) Имена собственные содержат большую долю редких слов, чем окружающий текст.<br>
2) Регистр букв является значимым признаком. По этой причине его стоит либо сохранить, либо отделить (например, к эмбеддингу слова прибавлять эмбеддинг регистра)<br>
3) Признаки на уровне символов или частей слов также имеют роль. Например, спортивные команды часто заканчиваются на 's'. Хештеги также могут использоваться с named entity.<br>
4) Рассмотреть вариант использования spell-checker <br>
5) Данных не много, поэтому имеет смысл в первую очередь использовать претренированные модели или представления.

Модели, которые планируется протестировать:<br>
Pre-trained embeddings + BiLSTM <br>
Pre-trained embeddings + BiLSTM + CRF <br>
BERT fine-tuning (готово) <br>
Pre-trained embeddings примеры: Flair, Fasttext, BERT, ELMo.