Программно реализовать извлечение стандартных именованных сущностей таких категорий как Person, Location, Organization.
Корпуса с данными:

- [BSNLP 2017 — Balto-Slavic Natural Language Processing](http://bsnlp-2017.cs.helsinki.fi/shared_task_results.html);
- [Ukranian NER annotation project](https://github.com/lang-uk/ner-uk).

Корпус выбирайте любой. Метод решения поставленной задачи тоже любой. Результаты будем обсуждать в пятницу. Удачи!

In [944]:
from nltk import tokenize, word_tokenize, pos_tag, ne_chunk
from nltk.tag import PerceptronTagger, UnigramTagger, BigramTagger
from nltk.data import find
from nltk.corpus import cess_esp as cess

#### Read filenames for train and test part

In [945]:
def get_lines(file):
    return [line.replace('\n', '') for line in file.readlines() if line and not line.isspace()]

with open("ner-uk-master/doc/dev-test-split.txt") as file:
    filenames = get_lines(file)
    train_filenames = filenames[1:156]
    test_filenames = filenames[159:231]

#### Read train and test documents
Fixed filenames in dev-test-split.txt

In [946]:
def get_tags_and_words(line):
    return (line.split("\t")[2], line.split("\t")[1].split(' ')[0])

def read_file(filename):
    with open(filename, encoding='utf-8') as file:
        return [get_tags_and_words(line) for line in get_lines(file)]

def read_data(filenames):
    return [read_file("ner-uk-master/data/" + filename + '.ann') for filename in filenames]

def remove_falsy(lst):
    return [x for x in lst if x]
    
training_corpus = remove_falsy(read_data(train_filenames))
test_corpus = remove_falsy(read_data(test_filenames))

Use the pretrain model (the default constructor)? Or just train?

In [947]:
with open("ner-uk-master/doc/sent-tokenization.txt", encoding="utf-8") as file:
    sentences = get_lines(file)    

In [948]:
unitagger = UnigramTagger(training_corpus)

In [949]:
unitagger.evaluate(test_corpus)

0.21092029942756496

In [950]:
bitagger = BigramTagger(training_corpus, backoff=unitagger)

In [951]:
bitagger.evaluate(test_corpus)

0.21092029942756496

In [952]:
tagger = PerceptronTagger(load=False)
tagger.train(training_corpus)

In [953]:
tagger.evaluate(test_corpus)

0.693967415235579

In [954]:
for sent in sentences:
    if sent and not sent.isspace():
        words = nltk.tokenize.word_tokenize(sent)
        pos_tags_words = pos_tag(words)
        print(pos_tags_words)

[('Це', 'ПЕРС'), ('просте', 'ЛОК'), ('речення', 'ОРГ'), ('.', '.')]
[('Панк-рок', 'ЛОК'), ('—', 'ОРГ'), ('напрям', 'ЛОК'), ('у', 'ОРГ'), ('рок-музиці', 'ЛОК'), (',', ','), ('що', 'ПЕРС'), ('виник', 'ЛОК'), ('у', 'ЛОК'), ('середині', 'ЛОК'), ('1970-х', 'ОРГ'), ('рр', 'ПЕРС'), ('.', '.'), ('у', 'ЛОК'), ('США', 'ЛОК'), ('і', 'ЛОК'), ('Великобританії', 'ПЕРС'), ('.', '.')]
[('Разом', 'ЛОК'), ('із', 'ОРГ'), ('втечами', 'ЛОК'), (',', ','), ('вже', 'ЛОК'), ('у', 'ОРГ'), ('XV', 'ЛОК'), ('ст', 'ОРГ'), ('.', '.'), ('почастішали', 'ОРГ'), ('збройні', 'ЛОК'), ('виступи', 'ОРГ'), ('селян', 'ЛОК'), ('.', '.')]
[('На', 'ПЕРС'), ('початок', 'ЛОК'), ('1994', 'CD'), ('р.', 'ЛОК'), ('державний', 'ПЕРС'), ('борг', 'ЛОК'), ('України', 'ЛОК'), ('становив', 'ЛОК'), ('4,8', 'CD'), ('млрд', 'ЛОК'), ('.', '.'), ('дол', 'ЛОК'), ('.', '.')]
[('Київ', 'ЛОК'), (',', ','), ('вул', 'ЛОК'), ('.', '.'), ('Сагайдачного', 'ПЕРС'), (',', ','), ('буд', 'ЛОК'), ('.', '.'), ('43', 'CD'), (',', ','), ('кв', 'ПЕРС'), ('.', '.'

In [955]:
with open("ner-uk-master/doc/word-tokenization.txt", encoding="utf-8") as file:
    small_sentences = get_lines(file)

In [956]:
for sent in small_sentences:
    if sent and not sent.isspace():
        words = nltk.tokenize.word_tokenize(sent)
        pos_tags_words = pos_tag(words)
        print(pos_tags_words)

[('http', 'NNS'), (':', ':'), ('//youtube.com:80/herewego', 'VB'), ('?', '.'), ('start=11', 'VB'), ('&', 'CC'), ('quality=high', 'VB'), ('%', 'NN'), ('3F', 'CD')]
[('http', 'NNS'), (':', ':'), ('//youtube.com:80/herewego', 'VB'), ('?', '.'), ('start=11', 'VB'), ('&', 'CC'), ('quality=high', 'VB'), ('%', 'NN'), ('3F', 'CD')]
[('300', 'CD'), ('грн', 'ЛОК'), ('на', 'ПЕРС'), ('балансі', 'ЛОК')]
[('300', 'CD'), ('грн', 'ЛОК'), ('на', 'ПЕРС'), ('балансі', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2,2', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2,2', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('84,46', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('84,46', 'CD'), ('мільйона', 'ЛОК')]
[('в', 'ЛОК'), ('1996,1997,1998', 'CD')]
[('в', 'ЛОК'), ('1996', 'CD'), (',', ','), ('1997', 'CD'), (',', ','), ('1998', 'CD')]
[('надійшло', 'ПЕРС'), ('2', 'CD'), ('000', 'CD'), ('тон', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2', 'CD'), ('000', 'CD'), ('тон', 'ЛОК')]
[('сталося', 'ПЕРС'), ('14.07.2001',

In [957]:
import os

filenames = [filename[:-4] for filename in os.listdir('ner-uk-master/data/') \
             if filename.endswith(".ann") and not filename.endswith(".tok.ann")]

tagged_sentences = remove_falsy(read_data(filenames))

idx = int(len(tagged_sentences)*0.2)
print(len(tagged_sentences))
print(idx)

train_sentences = tagged_sentences[idx:]
test_sentences = tagged_sentences[:idx]

tagger = PerceptronTagger(load=False)
tagger.train(train_sentences)

216
43


In [958]:
tagger.evaluate(test_sentences) 

0.506339144215531

In [959]:
for sent in sentences:
    if sent and not sent.isspace():
        words = nltk.tokenize.word_tokenize(sent)
        pos_tags_words = pos_tag(words)
        print(pos_tags_words)      

[('Це', 'ПЕРС'), ('просте', 'ЛОК'), ('речення', 'ОРГ'), ('.', '.')]
[('Панк-рок', 'ЛОК'), ('—', 'ОРГ'), ('напрям', 'ЛОК'), ('у', 'ОРГ'), ('рок-музиці', 'ЛОК'), (',', ','), ('що', 'ПЕРС'), ('виник', 'ЛОК'), ('у', 'ЛОК'), ('середині', 'ЛОК'), ('1970-х', 'ОРГ'), ('рр', 'ПЕРС'), ('.', '.'), ('у', 'ЛОК'), ('США', 'ЛОК'), ('і', 'ЛОК'), ('Великобританії', 'ПЕРС'), ('.', '.')]
[('Разом', 'ЛОК'), ('із', 'ОРГ'), ('втечами', 'ЛОК'), (',', ','), ('вже', 'ЛОК'), ('у', 'ОРГ'), ('XV', 'ЛОК'), ('ст', 'ОРГ'), ('.', '.'), ('почастішали', 'ОРГ'), ('збройні', 'ЛОК'), ('виступи', 'ОРГ'), ('селян', 'ЛОК'), ('.', '.')]
[('На', 'ПЕРС'), ('початок', 'ЛОК'), ('1994', 'CD'), ('р.', 'ЛОК'), ('державний', 'ПЕРС'), ('борг', 'ЛОК'), ('України', 'ЛОК'), ('становив', 'ЛОК'), ('4,8', 'CD'), ('млрд', 'ЛОК'), ('.', '.'), ('дол', 'ЛОК'), ('.', '.')]
[('Київ', 'ЛОК'), (',', ','), ('вул', 'ЛОК'), ('.', '.'), ('Сагайдачного', 'ПЕРС'), (',', ','), ('буд', 'ЛОК'), ('.', '.'), ('43', 'CD'), (',', ','), ('кв', 'ПЕРС'), ('.', '.'

In [960]:
for sent in small_sentences:
    if sent and not sent.isspace():
        words = nltk.tokenize.word_tokenize(sent)
        pos_tags_words = pos_tag(words)
        print(pos_tags_words) 

[('http', 'NNS'), (':', ':'), ('//youtube.com:80/herewego', 'VB'), ('?', '.'), ('start=11', 'VB'), ('&', 'CC'), ('quality=high', 'VB'), ('%', 'NN'), ('3F', 'CD')]
[('http', 'NNS'), (':', ':'), ('//youtube.com:80/herewego', 'VB'), ('?', '.'), ('start=11', 'VB'), ('&', 'CC'), ('quality=high', 'VB'), ('%', 'NN'), ('3F', 'CD')]
[('300', 'CD'), ('грн', 'ЛОК'), ('на', 'ПЕРС'), ('балансі', 'ЛОК')]
[('300', 'CD'), ('грн', 'ЛОК'), ('на', 'ПЕРС'), ('балансі', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2,2', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2,2', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('84,46', 'CD'), ('мільйона', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('84,46', 'CD'), ('мільйона', 'ЛОК')]
[('в', 'ЛОК'), ('1996,1997,1998', 'CD')]
[('в', 'ЛОК'), ('1996', 'CD'), (',', ','), ('1997', 'CD'), (',', ','), ('1998', 'CD')]
[('надійшло', 'ПЕРС'), ('2', 'CD'), ('000', 'CD'), ('тон', 'ЛОК')]
[('надійшло', 'ПЕРС'), ('2', 'CD'), ('000', 'CD'), ('тон', 'ЛОК')]
[('сталося', 'ПЕРС'), ('14.07.2001',