In [1]:
from pathlib import Path
import re

def read_wnut(file_path):
    file_path = Path(file_path)

    raw_text = file_path.read_text().strip()
    raw_docs = re.split(r'\n\t?\n', raw_text)
    token_docs = []
    tag_docs = []
    for doc in raw_docs:
        tokens = []
        tags = []
        for line in doc.split('\n'):
            token, tag = line.split('\t')
            tokens.append(token)
            tags.append(tag)
        token_docs.append(tokens)
        tag_docs.append(tags)

    return token_docs, tag_docs

texts, tags = read_wnut('wnut17train.conll')

In [2]:
texts

[['@paulwalk',
  'It',
  "'s",
  'the',
  'view',
  'from',
  'where',
  'I',
  "'m",
  'living',
  'for',
  'two',
  'weeks',
  '.',
  'Empire',
  'State',
  'Building',
  '=',
  'ESB',
  '.',
  'Pretty',
  'bad',
  'storm',
  'here',
  'last',
  'evening',
  '.'],
 ['From',
  'Green',
  'Newsfeed',
  ':',
  'AHFA',
  'extends',
  'deadline',
  'for',
  'Sage',
  'Award',
  'to',
  'Nov',
  '.',
  '5',
  'http://tinyurl.com/24agj38'],
 ['Pxleyes',
  'Top',
  '50',
  'Photography',
  'Contest',
  'Pictures',
  'of',
  'August',
  '2010',
  '...',
  'http://bit.ly/bgCyZ0',
  '#photography'],
 ['today', 'is', 'my', 'last', 'day', 'at', 'the', 'office', '.'],
 ['4Dbling',
  "'s",
  'place',
  'til',
  'monday',
  ',',
  'party',
  'party',
  'party',
  '.',
  '&lt;',
  '3'],
 ['watching',
  'the',
  'VMA',
  'pre-show',
  'again',
  'lol',
  'it',
  'was',
  "n't",
  'even',
  'a',
  'good',
  'show',
  'the',
  'first',
  'time',
  '...',
  'so',
  'bored',
  '!'],
 ['27',
  'followers',

In [3]:
tags

[['O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'B-location',
  'I-location',
  'I-location',
  'O',
  'B-location',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O'],
 ['O',
  'O',
  'O',
  'O',
  'B-group',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O'],
 ['B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O',
  'O',
  'B-creative-work',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'],
 ['O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O',
  'O'],
 ['O', 'O', 'O', 'O'],
 ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 

In [4]:
from sklearn.model_selection import train_test_split
train_texts, val_texts, train_tags, val_tags = train_test_split(texts, tags, test_size=.2)

In [7]:
x = set()
for doc in tags:
    print("Doc", doc)
    for tag in doc:
        print("Tag", tag)
        x.add(tag)

Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'I-location', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag I-location
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'B-creative-w

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'B-creative-work', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
T

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'O']
Tag O
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Doc ['O', 'O', 'O', 'B-location', 'I-location', 'O', 'B-location']
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Tag B-location
Doc ['O', 'O', 'O

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'B-corporation', 'O', 'O', 'O', 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
T

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-location', 'I-location', 'I-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O']
Tag B-location
Tag I-location
Tag I-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Doc ['O', 'O', 'O']
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Tag

Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'B-corporation', 'O', 'O', 'B-product', 'O', 'O', 'O', 'O', 'B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag B-corporation
Tag O
Tag O
Tag B-product
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-product', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-product
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-location', 'I-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-location
Tag I-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B

Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person', 'O', 'O', 'B-creative-work']

Tag I-creative-work
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person', 'O', 'B-group', 'I-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Tag O
Tag B-group
Tag I-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-group', 'I-group', 'O', 'O', 'B-group', 'I-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-group
Tag I-group
Tag O
Tag O
Tag B-group
Tag I-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O

Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', '

Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'B-group', 'I-group', 'O', 'O', 'O', 'B-group', 'O', 'B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag B-group
Tag I-group
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
T

Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag I-corporation
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-corporation', 'I-corporation', 'I-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag I-corporation
Tag I-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O

Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-corporation', 'O', 'O', 'B-creative-work', 'I-creative-work', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-corporation
Tag O
Tag O
Tag B-creative-work
Tag I-creative-work
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', '

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-person', 'I-person', 'O', 'B-person', 'O', 'B-person', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag I-person
Tag O
Tag B-person
Tag O
Tag B-person
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-product', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-product
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O


Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-product', 'I-product', 'I-product', 'I-product', 'O', 'O', 'O', 'B-product', 'I-product', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-product
Tag I-product
Tag I-product
Tag I-product
Tag O
Tag O
Tag O
Tag B-product
Tag I-product
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-product', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-product
Tag O
Tag O
Doc ['O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'I-group', 'I-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag I-group
Tag I-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-corporation', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'B-location', 'O', 'O', 'O', 'O', 'B-corporation', 'I-corporation', 'O', 'B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O

Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-creative-work', 'I-creative-work'

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-person', 'I-person', 'O', 'O', 'O', 'B-location', 'I-location', 'O', 'B-location', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Tag B-location
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-product', 'I-product', 'O', 'O', 'O', 'O', 'O', 'O', 'B-product', 'I-product', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-product
Tag I-product
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-product
Tag I-product
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'B-location']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag B-location
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'O', 'O', 'B-group', 'O', 'B-creative-work', 'I-creative-work', 'I-creative-work', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Doc ['O

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'B-person', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O


Doc ['O', 'O', 'B-creative-work', 'I-creative-work', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-creative-work', 'O', 'O', 'O', 'O', 'O', 'O', 'B-creative-work', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag B-creative-work
Tag I-creative-work
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-creative-work
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-creative-work
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O']
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'B-group', 'I-group', 'I-group', 'O', 'O', 'O', 'B-group', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag B-group
Tag I-group
Tag I-group
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
T

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Doc ['O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O']
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 

Tag B-group
Tag I-group
Tag I-group
Tag O
Tag O
Tag O
Tag O
Doc ['B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'B-product', 'I-product', 'I-product', 'I-product', 'I-product', 'I-product', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag B-product
Tag

Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'I-location', 'I-location', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag I-location
Tag I-location
Tag O
Tag O
Doc ['B-person', 'I-person', 'O', 'O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person', 'I-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Tag I-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
T

Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'B-corporation', 'I-corporation', 'O', 'B-corporation', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-corporation
Tag I-corporation
Tag O
Tag B-corporation
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O',

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'I-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag I-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag 

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-location', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-location
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-person']
Tag O
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-person
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'B-person', 'O', 'B-person', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag B-person
Tag O
Tag B-person
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-group', 'O', 'O', 'O', 'B-location', 'B-location', 'O', 'O', 'O', 'O']
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag O
Tag B-group
Tag O
Tag O
Tag O
Tag B-location
Tag B-location
Tag O
Tag O
Tag O
Tag O
Doc ['O', 'O', 'O', 'O', 'O', 'O',

In [7]:
unique_tags = set(tag for doc in tags for tag in doc)
tag2id = {tag: id for id, tag in enumerate(unique_tags)}
id2tag = {id: tag for tag, id in tag2id.items()}

In [8]:
from transformers import DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-cased')
train_encodings = tokenizer(train_texts, is_split_into_words=True, return_offsets_mapping=True, padding=True, truncation=True)
val_encodings = tokenizer(val_texts, is_split_into_words=True, return_offsets_mapping=True, padding=True, truncation=True)

In [21]:
train_encodings['offset_mapping']

[[(0, 0),
  (0, 3),
  (0, 4),
  (0, 1),
  (0, 6),
  (0, 2),
  (2, 4),
  (0, 7),
  (0, 2),
  (0, 1),
  (0, 4),
  (0, 2),
  (0, 2),
  (2, 3),
  (3, 5),
  (0, 2),
  (0, 4),
  (4, 5),
  (5, 6),
  (6, 7),
  (7, 8),
  (8, 9),
  (9, 11),
  (11, 12),
  (12, 13),
  (13, 14),
  (14, 15),
  (15, 16),
  (16, 17),
  (17, 18),
  (18, 19),
  (19, 20),
  (20, 21),
  (21, 22),
  (0, 4),
  (4, 5),
  (5, 6),
  (6, 7),
  (7, 8),
  (8, 9),
  (9, 11),
  (11, 12),
  (12, 13),
  (13, 15),
  (15, 16),
  (16, 17),
  (17, 18),
  (18, 19),
  (19, 20),
  (20, 21),
  (21, 22),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0),
  (0, 0)],
 [(0, 0),
  (0, 1),
  (1, 2),
  (0, 1),
  (1, 2),
  (2,