Step one: Reformatting corpus data

The data that I'll be using to train the taggers is in .conllu format, and the NLTK taggers require a different format, so the first step will be to change the training data into a usable format for the taggers. 





In [21]:
from conllu import parse

file = open('../../UD_Indonesian-GSD/id_gsd-ud-train.conllu', 'r')
f = file.read()
file.close()

print(f[:1393])


# sent_id = train-s1
# text = Sembungan adalah sebuah desa yang terletak di kecamatan Kejajar, kabupaten Wonosobo, Jawa Tengah, Indonesia.
1	Sembungan	sembungan	PROPN	X--	_	4	nsubj	_	MorphInd=^sembungan<x>_X--$
2	adalah	adalah	AUX	O--	_	4	cop	_	MorphInd=^adalah<o>_O--$
3	sebuah	sebuah	DET	B--	PronType=Ind	4	det	_	MorphInd=^sebuah<b>_B--$
4	desa	desa	NOUN	NSD	Number=Sing	0	root	_	MorphInd=^desa<n>_NSD$
5	yang	yang	PRON	S--	PronType=Rel	6	nsubj:pass	_	MorphInd=^yang<s>_S--$
6	terletak	terletak	VERB	VSP	Number=Sing|Voice=Pass	4	acl	_	MorphInd=^ter+letak<n>_VSP$
7	di	di	ADP	R--	_	8	case	_	MorphInd=^di<r>_R--$
8	kecamatan	kecamatan	NOUN	NSD	Number=Sing	6	obl	_	MorphInd=^ke+camat<n>+an_NSD$
9	Kejajar	kejajar	PROPN	X--	_	8	flat	_	SpaceAfter=No|MorphInd=^kejajar<x>_X--$
10	,	,	PUNCT	Z--	_	8	punct	_	MorphInd=^,<z>_Z--$
11	kabupaten	kabupaten	NOUN	NSD	Number=Sing	8	appos	_	MorphInd=^kabupaten<n>_NSD$
12	Wonosobo	wonosobo	PROPN	X--	_	11	flat	_	SpaceAfter=No|MorphInd=^wonosobo<x>_X--$
13	,	,	PUNCT


Fortunately, there is already a tool for this: Emil Stenstrom's conllu parser (https://github.com/EmilStenstrom/conllu) will turn the .conllu data into a nested dictionary

In [23]:
sentences = parse(f)
print(sentences[:5])

[TokenList<Sembungan, adalah, sebuah, desa, yang, terletak, di, kecamatan, Kejajar, ,, kabupaten, Wonosobo, ,, Jawa, Tengah, ,, Indonesia, .>, TokenList<Sebuah, serangan, pengayauan, biasanya, terjadi, di, ladang, atau, dengan, membakar, sebuah, rumah, dan, memenggal, semua, penghuninya, ketika, mereka, melarikan, diri, .>, TokenList<Perkembangan, ini, diikuti, oleh, helm, Brodie, yang, dipakai, tentara, Imperium, Britania, dan, AS, ,, dan, pada, tahun, 1916, oleh, Stahlhelm, Jerman, dengan, perbaikan, desain, yang, masih, dipakai, sampai, sekarang, .>, TokenList<Dari, jarak, dekat, ,, dua, kapal, perusak, ,, Sterett, dan, O, ', Bannon, menembakkan, beberapa, kali, salvo, ke, bangunan, atas, kapal, Hiei, ., Sebelum, melarikan, diri, ke, dalam, kegelapan, ,, keduanya, mungkin, sempat, menyarangkan, satu, atau, dua, buah, torpedo, ke, bagian, lambung, kapal, Hiei, hingga, makin, memperparah, kerusakan, .>, TokenList<Angka, harapan, hidup, adalah, 73, ,, 4, tahun, ,, yakni, di, bawah, rer

In [25]:
print(sentences[0][0])

Token([('id', 1), ('form', 'Sembungan'), ('lemma', 'sembungan'), ('upos', 'PROPN'), ('xpos', 'X--'), ('feats', None), ('head', 4), ('deprel', 'nsubj'), ('deps', None), ('misc', OrderedDict([('MorphInd', '^sembungan<x>_X--$')]))])


In [28]:
training_data = []

for sentence in sentences:
    tagged_sentence = []
    for token in sentence:
        tagged_sentence.append((token['form'],token['upos']))
    training_data.append(tagged_sentence)
    
print(training_data[:5])

[[('Sembungan', 'PROPN'), ('adalah', 'AUX'), ('sebuah', 'DET'), ('desa', 'NOUN'), ('yang', 'PRON'), ('terletak', 'VERB'), ('di', 'ADP'), ('kecamatan', 'NOUN'), ('Kejajar', 'PROPN'), (',', 'PUNCT'), ('kabupaten', 'NOUN'), ('Wonosobo', 'PROPN'), (',', 'PUNCT'), ('Jawa', 'PROPN'), ('Tengah', 'PROPN'), (',', 'PUNCT'), ('Indonesia', 'PROPN'), ('.', 'PUNCT')], [('Sebuah', 'DET'), ('serangan', 'NOUN'), ('pengayauan', 'NOUN'), ('biasanya', 'ADV'), ('terjadi', 'VERB'), ('di', 'ADP'), ('ladang', 'NOUN'), ('atau', 'CCONJ'), ('dengan', 'ADP'), ('membakar', 'VERB'), ('sebuah', 'DET'), ('rumah', 'NOUN'), ('dan', 'CCONJ'), ('memenggal', 'VERB'), ('semua', 'DET'), ('penghuninya', 'NOUN'), ('ketika', 'SCONJ'), ('mereka', 'PRON'), ('melarikan', 'VERB'), ('diri', 'NOUN'), ('.', 'PUNCT')], [('Perkembangan', 'NOUN'), ('ini', 'DET'), ('diikuti', 'VERB'), ('oleh', 'ADP'), ('helm', 'NOUN'), ('Brodie', 'PROPN'), ('yang', 'PRON'), ('dipakai', 'VERB'), ('tentara', 'NOUN'), ('Imperium', 'PROPN'), ('Britania', 'PR

In [29]:
test_file = open('../../UD_Indonesian-GSD/id_gsd-ud-test.conllu', 'r')
test_f = test_file.read()
test_file.close()

test_sentences = parse(test_f)

test_data = []

for sentence in test_sentences:
    tagged_sentence = []
    for token in sentence:
        tagged_sentence.append((token['form'],token['upos']))
    test_data.append(tagged_sentence)

In [38]:
import nltk

default_tagger = nltk.DefaultTagger('NOUN')

unigram_tagger = nltk.UnigramTagger(training_data, backoff=default_tagger)
unigram_tagger_accuracy = unigram_tagger.evaluate(test_data)

print('Unigram tagger accuracy: ' + str(unigram_tagger_accuracy))

Unigram tagger accuracy: 0.8404074702886248


In [39]:
bigram_tagger = nltk.BigramTagger(training_data, backoff=unigram_tagger)
bigram_tagger_accuracy = bigram_tagger.evaluate(test_data)

print('Bigram tagger accuracy: ' + str(bigram_tagger_accuracy))



Bigram tagger accuracy: 0.8400679117147708


In [37]:

unigram_tagger = nltk.UnigramTagger(training_data, backoff=default_tagger)

bigram_tagger_accuracy = bigram_tagger.evaluate(test_data)
print('Bigram tagger accuracy: ' + str(bigram_tagger_accuracy))

Bigram tagger accuracy: 0.8089983022071308
