# Лабораторная работа №1 по курсу “Компьютерная лингвистика”
## Создание PoS-теггера 

#### Выполнил: студент группы 381703-4м Четвериков Антон

## Постановка задачи
Предлагается реализовать алгоритм Витерби для создания PoS-тэггера. POS tagging (part-of-speech tagging, частеречная разметка, автоматическая морфологическая разметка) — этап автоматической обработки текста, задачей которого является определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов. POS tagging является одним из первых этапов компьютерного анализа текста.

На языке Python/R необходимо разработать PoS-тэггер на базе скрытых марковских цепей и алгоритма Витерби.

В качестве тренировочной/тестовой выборки необходимо использовать корпуса Universal Dependencies: http://universaldependencies.org/ для хорватского  и японского языков.
Корпуса хранятся в формате CoNLL-U.


Необходимо обучить модель скрытой марковской цепи, а затем испытать её на тестовой и валидационной выборках.
Получить показатели точности для заданных языков (как отношение корректно размеченных тэгов к общему числу тэгов).

## Описание формата CoNLL-U 
CoNLL-U a revised version of the CoNLL-X format. Annotations are encoded in plain text files (UTF-8, using only the LF character as line break, including an LF character at the end of file) with three types of lines:

#### 1.Word lines containing the annotation of a word/token in 10 fields separated by single tab characters; see below.
#### 2.Blank lines marking sentence boundaries.
#### 3.Comment lines starting with hash (#).
Sentences consist of one or more word lines, and word lines contain the following fields:

1.ID: Word index, integer starting at 1 for each new sentence; may be a range for multiword tokens; may be a decimal number for empty nodes.

2.FORM: Word form or punctuation symbol.

3.LEMMA: Lemma or stem of word form.

4.UPOS: Universal part-of-speech tag.

5.XPOS: Language-specific part-of-speech tag; underscore if not available.

6.FEATS: List of morphological features from the universal feature inventory or from a defined language-specific extension; underscore if not available.

7.HEAD: Head of the current word, which is either a value of ID or zero (0).

8.DEPREL: Universal dependency relation to the HEAD (root iff HEAD = 0) or a defined language-specific subtype of one.

9.DEPS: Enhanced dependency graph in the form of a list of head-deprel pairs.

10.MISC: Any other annotation.

В алгоритме используются поля lemma и upostag.

### Universal POS tags:
* ADJ: adjective - имя прилагательное
* ADP: adposition - предлог
* ADV: adverb - наречие
* AUX: auxiliary - вспомогательная часть речи
* CCONJ: coordinating conjunction - координирующие союзы
* DET: determiner - детерминатив (определяющее слово)
* INTJ: interjection - междометие
* NOUN: noun - имя существительное
* NUM: numeral - имя числительное
* PART: particle - частица
* PRON: pronoun - местоимение
* PROPN: proper noun - имя собственное
* PUNCT: punctuation - пунктуационный символ
* SCONJ: subordinating conjunction - подчинительный союз
* SYM: symbol - символ
* VERB: verb - глагол
* X: other - другое

## Хорватский язык
Хорватский язык относится к славянской группе индоевропейской семьи языков. Письменность на основе латинского алфавита. Около 6,2 миллионов говорящих.

Хорватский язык — часть сербско-хорватского языкового континуума. Хорватский язык объединяет литературный стандарт и территориальные диалекты. В число хорватских диалектных групп включают:

* штокавская группа диалектов — 57 % говорящих,
* кайкавская группа диалектов — 31 % говорящих,
* чакавская группа диалектов — 12 % говорящих.

В основе современного хорватского алфавита (gajica) лежит латиница, он состоит из 27 букв и трёх диграфов (составных письменных знаков, состоящих из двух букв и употребляемых для обозначения на письме фонем и их основных вариантов), обычно также считающихся буквами.

In [1]:
import HMM_Viterbi_tagger as tagger
import numpy as np

In [2]:
train_file_hr = "hr_set-ud-train.conllu"    # Train corpus, already POS-tagged
test_file_hr = "hr_set-ud-test.conllu"      # Test corpus

Применяем реализованный алгоритм для тренировочного корпуса:

In [3]:
test_tags = []                              # Tags from corpus
predict_tags = []                           # Tags from algorithm

test_tags, predict_tags = tagger.HMM_Viterbi_POStagger(train_file_hr, train_file_hr)

train_err = 0.
for sent in range(len(test_tags)):
    train_err += np.mean(np.array(test_tags[sent]) != np.array(predict_tags[sent]))

Ошибка на тренировочном корпусе составила:

In [4]:
print("Train error = ", train_err/len(test_tags))

Train error =  0.0206541478685


Применяем реализованный алгоритм для тестового корпуса:

In [5]:
test_tags = []                              # Tags from corpus
predict_tags = []                           # Tags from algorithm

test_tags, predict_tags = tagger.HMM_Viterbi_POStagger(train_file_hr, test_file_hr)

test_err = 0.
for sent in range(len(test_tags)):
    test_err += np.mean(np.array(test_tags[sent]) != np.array(predict_tags[sent]))

Ошибка на тестовом корпусе составила:

In [6]:
print("Test error = ", test_err/len(test_tags))

Test error =  0.0656697207044



Японский язык пока так и не получилось адекватно распарсить, поэтому в качестве замены ему выбран шведский язык.

## Шведский язык
Шведский язык — язык восточной подгруппы скандинавской группы языков, на котором говорят в Швеции, части Финляндии и на автономных Аландских островах. Самый распространённый язык Скандинавии, число носителей превосходит 9 миллионов.

Алфавит шведского языка — латинский, с буквами Å, Ä, и Ö (в таком порядке в конце алфавита), а также É. До 2006 буква W считалась не самостоятельной буквой, а аналогом V, и использовалась лишь в именах иностранного происхождения и заимствованиях. В 2006 году W была включена в алфавит. При широком многообразии диалектов и говоров письменный шведский единообразен и стандартизован.

In [7]:
train_file_sw = "sv_talbanken-ud-train.conllu"    # Train corpus, already POS-tagged
test_file_sw = "sv_talbanken-ud-test.conllu"      # Test corpus

Применяем реализованный алгоритм для тренировочного корпуса:

In [8]:
test_tags = []                                    # Tags from corpus
predict_tags = []                                 # Tags from algorithm

test_tags, predict_tags = tagger.HMM_Viterbi_POStagger(train_file_sw, train_file_sw)

train_err = 0.
for sent in range(len(test_tags)):
    train_err += np.mean(np.array(test_tags[sent]) != np.array(predict_tags[sent]))

Ошибка на тренировочном корпусе составила:

In [9]:
print("Train error = ", train_err/len(test_tags))

Train error =  0.0306882925287


Применяем реализованный алгоритм для тестового корпуса:

In [10]:
test_tags = []                                    # Tags from corpus
predict_tags = []                                 # Tags from algorithm

test_tags, predict_tags = tagger.HMM_Viterbi_POStagger(train_file_sw, test_file_sw)

test_err = 0.
for sent in range(len(test_tags)):
    test_err += np.mean(np.array(test_tags[sent]) != np.array(predict_tags[sent]))

Ошибка на тестовом корпусе составила:

In [7]:
print("Test error = ", test_err/len(test_tags))

Test error =  0.111610126
