In [1]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.tag import CRFTagger

In [2]:
data = open('teks.txt', encoding="utf8")

teks = data.read()

In [3]:
print(teks)

Seorang mahasiswa boleh meminjam beberapa buku. Satu buku boleh dipinjam beberapa mahasiswa. Semua mahasiswa sangat perlu buku sehingga tidak ada yang tidak pernah meminjam ke perpustakaan. Ada buku yang sangat laris dipinjam mahasiswa, namun ada pula buku yang tidak pernah dipinjam sama sekali. Satu buku dapat memiliki beberapa copy, namun untuk copy yang sama memiliki satu nomor buku. Setiap peminjamannya, Semua mahasiswa disiplin mengembalikan buku tepat satu minggu setelah peminjaman.


### Text Preprocessing

#### Case Folding

In [4]:
case_folding = teks.casefold()

In [5]:
print(case_folding)

seorang mahasiswa boleh meminjam beberapa buku. satu buku boleh dipinjam beberapa mahasiswa. semua mahasiswa sangat perlu buku sehingga tidak ada yang tidak pernah meminjam ke perpustakaan. ada buku yang sangat laris dipinjam mahasiswa, namun ada pula buku yang tidak pernah dipinjam sama sekali. satu buku dapat memiliki beberapa copy, namun untuk copy yang sama memiliki satu nomor buku. setiap peminjamannya, semua mahasiswa disiplin mengembalikan buku tepat satu minggu setelah peminjaman.


#### Sentence Segmentation

In [6]:
segmentation = []
segmentation.extend(re.split('[!?.]', case_folding))

# Clear null values in the array
segmentation = [item for item in segmentation if item]

In [7]:
print(segmentation)

['seorang mahasiswa boleh meminjam beberapa buku', ' satu buku boleh dipinjam beberapa mahasiswa', ' semua mahasiswa sangat perlu buku sehingga tidak ada yang tidak pernah meminjam ke perpustakaan', ' ada buku yang sangat laris dipinjam mahasiswa, namun ada pula buku yang tidak pernah dipinjam sama sekali', ' satu buku dapat memiliki beberapa copy, namun untuk copy yang sama memiliki satu nomor buku', ' setiap peminjamannya, semua mahasiswa disiplin mengembalikan buku tepat satu minggu setelah peminjaman']


#### Tokenization

In [8]:
tokenization = []

for line in range(len(segmentation)):
    tokenization.append(nltk.word_tokenize(segmentation[line]))
    if "," in tokenization[line]:
            tokenization[line].remove(",")

In [9]:
for line in range(len(tokenization)):
    print("Kalimat", line+1, ":", tokenization[line])

Kalimat 1 : ['seorang', 'mahasiswa', 'boleh', 'meminjam', 'beberapa', 'buku']
Kalimat 2 : ['satu', 'buku', 'boleh', 'dipinjam', 'beberapa', 'mahasiswa']
Kalimat 3 : ['semua', 'mahasiswa', 'sangat', 'perlu', 'buku', 'sehingga', 'tidak', 'ada', 'yang', 'tidak', 'pernah', 'meminjam', 'ke', 'perpustakaan']
Kalimat 4 : ['ada', 'buku', 'yang', 'sangat', 'laris', 'dipinjam', 'mahasiswa', 'namun', 'ada', 'pula', 'buku', 'yang', 'tidak', 'pernah', 'dipinjam', 'sama', 'sekali']
Kalimat 5 : ['satu', 'buku', 'dapat', 'memiliki', 'beberapa', 'copy', 'namun', 'untuk', 'copy', 'yang', 'sama', 'memiliki', 'satu', 'nomor', 'buku']
Kalimat 6 : ['setiap', 'peminjamannya', 'semua', 'mahasiswa', 'disiplin', 'mengembalikan', 'buku', 'tepat', 'satu', 'minggu', 'setelah', 'peminjaman']


#### Stopword Removal

In [10]:
stop_words = set(stopwords.words('indonesian'))
stopword = tokenization

for line in range(len(tokenization)):
    for text in range(len(tokenization[line])):
        if tokenization[line][text] not in stop_words:
            stopword[line][text] = tokenization[line][text]
        else:
            stopword[line][text] = ""
    while("" in stopword[line]): 
        stopword[line].remove("")

In [11]:
for line in range(len(stopword)):
    print("Kalimat", line+1, ":", stopword[line])

Kalimat 1 : ['mahasiswa', 'meminjam', 'buku']
Kalimat 2 : ['buku', 'dipinjam', 'mahasiswa']
Kalimat 3 : ['mahasiswa', 'buku', 'meminjam', 'perpustakaan']
Kalimat 4 : ['buku', 'laris', 'dipinjam', 'mahasiswa', 'buku', 'dipinjam']
Kalimat 5 : ['buku', 'memiliki', 'copy', 'copy', 'memiliki', 'nomor', 'buku']
Kalimat 6 : ['peminjamannya', 'mahasiswa', 'disiplin', 'mengembalikan', 'buku', 'minggu', 'peminjaman']


In [13]:
# _stopword = StopWord()
# stopword = tokenization

# for line in range(len(tokenization)):
#     for text in range(len(tokenization[line])):
#         stopword[line][text] = _stopword.remove_stopword(tokenization[line][text])

# for line in range(len(tokenization)):
#     while("" in stopword[line]): 
#         stopword[line].remove("")

In [16]:
# for line in range(len(stopword)):
#     print("Kalimat", line+1, ":", stopword[line])

In [27]:
postag = []
crft = CRFTagger()
crft.set_model_file('all_indo_man_tag_corpus_model.crf.tagger')
for word in stopword:
    hasil = ct.tag_sents([word])
    for tag in hasil:
        postag.append(tag)

In [28]:
for line in range(len(postag)):
    print("Kalimat", line+1, ":", postag[line])

Kalimat 1 : [('mahasiswa', 'NN'), ('meminjam', 'VB'), ('buku', 'NN')]
Kalimat 2 : [('buku', 'NN'), ('dipinjam', 'VB'), ('mahasiswa', 'NN')]
Kalimat 3 : [('mahasiswa', 'NN'), ('buku', 'NN'), ('meminjam', 'VB'), ('perpustakaan', 'NN')]
Kalimat 4 : [('buku', 'NN'), ('laris', 'NN'), ('dipinjam', 'VB'), ('mahasiswa', 'NN'), ('buku', 'NN'), ('dipinjam', 'JJ')]
Kalimat 5 : [('buku', 'NN'), ('memiliki', 'VB'), ('copy', 'FW'), ('copy', 'FW'), ('memiliki', 'VB'), ('nomor', 'NN'), ('buku', 'NN')]
Kalimat 6 : [('peminjamannya', 'RB'), ('mahasiswa', 'NN'), ('disiplin', 'NN'), ('mengembalikan', 'VB'), ('buku', 'NN'), ('minggu', 'NN'), ('peminjaman', 'NN')]


In [29]:
def manualisasi(file):
    result = []
    f = open(file, "r", encoding="ANSI")
    lines = f.read().split("\n\n")
    f.close()
    for line in lines:
        kalimat = line.split("\n")
        sen_tag = []
        for kata in kalimat:
            word_tag = kata.split("\t")
            word = word_tag[0]
            tag = word_tag[1]
            if word == "ï»¿Sebuah":
                word = "Sebuah"
            sen_tag.append((word, tag))
        result.append(sen_tag)
    return result

In [33]:
manual = manualisasi("manual.txt")

In [37]:
def accuracy(data_postag,data_manual):
    hitung = 0
    benar = 0
    total = 0
    salah = 0
    manual = []
    for i in data_manual:
        for j in i:
            total += 1
            manual.append(j)
    for i in data_postag:
        for j in i:
            if j in manual:
                benar += 1
                break
            else:
                salah += 1
    hitung = ((total-salah)/total)*100 
    return hitung

In [38]:
akurasi = accuracy(postag,manual)

In [39]:
print('Akurasi dari CRF-Tagger = '+ str(akurasi) +'%')

Akurasi dari CRF-Tagger = 98.73417721518987%
