Mendapatkan dataset bahasa Inggris menggunakan library NLTK (Natural Language Toolkit)

Dataset yang akan digunakan adalah `treebank` (koleksi teks dari Wall Street Journal)
dan untuk tagset menggunakan `universal_tagset` agar labelnya lebih sederhana (misalnya 'NOUN' bukan 'NN')

In [None]:
import nltk

# Download dataset
nltk.download("treebank")
nltk.download("universal_tagset")

dataset_english = nltk.corpus.treebank.tagged_sents(tagset="universal")[:5]

for sentence in dataset_english:
    print(sentence)

[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\hafid\AppData\Roaming\nltk_data...
[nltk_data]   Package treebank is already up-to-date!
[nltk_data] Downloading package universal_tagset to
[nltk_data]     C:\Users\hafid\AppData\Roaming\nltk_data...


[('Pierre', 'NOUN'), ('Vinken', 'NOUN'), (',', '.'), ('61', 'NUM'), ('years', 'NOUN'), ('old', 'ADJ'), (',', '.'), ('will', 'VERB'), ('join', 'VERB'), ('the', 'DET'), ('board', 'NOUN'), ('as', 'ADP'), ('a', 'DET'), ('nonexecutive', 'ADJ'), ('director', 'NOUN'), ('Nov.', 'NOUN'), ('29', 'NUM'), ('.', '.')]
[('Mr.', 'NOUN'), ('Vinken', 'NOUN'), ('is', 'VERB'), ('chairman', 'NOUN'), ('of', 'ADP'), ('Elsevier', 'NOUN'), ('N.V.', 'NOUN'), (',', '.'), ('the', 'DET'), ('Dutch', 'NOUN'), ('publishing', 'VERB'), ('group', 'NOUN'), ('.', '.')]
[('Rudolph', 'NOUN'), ('Agnew', 'NOUN'), (',', '.'), ('55', 'NUM'), ('years', 'NOUN'), ('old', 'ADJ'), ('and', 'CONJ'), ('former', 'ADJ'), ('chairman', 'NOUN'), ('of', 'ADP'), ('Consolidated', 'NOUN'), ('Gold', 'NOUN'), ('Fields', 'NOUN'), ('PLC', 'NOUN'), (',', '.'), ('was', 'VERB'), ('named', 'VERB'), ('*-1', 'X'), ('a', 'DET'), ('nonexecutive', 'ADJ'), ('director', 'NOUN'), ('of', 'ADP'), ('this', 'DET'), ('British', 'ADJ'), ('industrial', 'ADJ'), ('con

[nltk_data]   Unzipping taggers\universal_tagset.zip.


Dataset bahasa Indonesia tidak tersedia langsung di NLTK. Untuk contoh sederhana bisa menggunakan dataset sederhana sendiri.

In [None]:
dataset_indonesia = [
    [
        ("Saya", "PRON"),
        ("belajar", "VERB"),
        ("data", "NOUN"),
        ("sains", "NOUN"),
        (".", "."),
    ],
    [
        ("Anak", "NOUN"),
        ("kucing", "NOUN"),
        ("itu", "DET"),
        ("sangat", "ADV"),
        ("lucu", "ADJ"),
        (".", "."),
    ],
    [
        ("Dia", "PRON"),
        ("membeli", "VERB"),
        ("buku-buku", "NOUN"),
        ("baru", "ADJ"),
        ("di", "ADP"),
        ("toko", "NOUN"),
        (".", "."),
    ],
]

for sentence in dataset_indonesia:
    print(sentence)

[('Saya', 'PRON'), ('belajar', 'VERB'), ('data', 'NOUN'), ('sains', 'NOUN'), ('.', '.')]
[('Anak', 'NOUN'), ('kucing', 'NOUN'), ('itu', 'DET'), ('sangat', 'ADV'), ('lucu', 'ADJ'), ('.', '.')]
[('Dia', 'PRON'), ('membeli', 'VERB'), ('buku-buku', 'NOUN'), ('baru', 'ADJ'), ('di', 'ADP'), ('toko', 'NOUN'), ('.', '.')]


## *Rule-Based Tagger* Sederhana

Membaut serangkaian aturan "jika-maka" untuk menebak *tag* sebuah kata.

Logikanya:
- Jika kata berawalan 'me-' atau 'ber-', kemungkinan besar itu **VERB**.
- Jika kata adalah angka, itu pasti **NUM**.
- Jika kata punya pengulangan (ada tanda '-'), kemungkinan itu **NOUN** jamak.
- Jika tidak ada aturan yang cocok, beri label default, misalnya **NOUN** (karena kata benda paling sering muncul)

In [3]:
def simple_rule_based_tagger(sentence):
    """
    Fungsi ini menerima sebuah kalimat (list of words) dan mengembalikan kalimat yang sudah di-tag berdasarkan aturan sederhana.
    """
    tagged_sentence = []
    # asumsikan kalimat sudah di-split, contoh: ['Saya', 'belajar', 'data']
    for word in sentence:
        lower_word = word.lower()
        tag = "NOUN"  # default rule: anggap semua kata adalah NOUN

        # aturan untuk bahasa Inggris
        if lower_word.isdigit():
            tag = "NUM"
        # ciri VERB dalam bahasa Inggris berakhiran dengan '-ing' atau '-ed'
        elif lower_word.endswith("ing") or lower_word.endswith("ed"):
            tag = "VERB"

        # aturan untuk bahasa Indonesia
        elif (
            lower_word.startswith("me")
            or lower_word.startswith("ber")
            or lower_word.startswith("di")
        ):
            tag = "VERB"
        elif '-' in lower_word:
            tag = "NOUN"
        
        tagged_sentence.append((word, tag))

    return tagged_sentence

In [4]:
# Uji coba bahasa Inggris
english_sentence = "He is running and playing"
english_sentence_split = english_sentence.split()
english_result = simple_rule_based_tagger(english_sentence_split)

print(f"Kalimat Inggris: {english_sentence}")
print(f"Hasil Tagging: {english_result}")

Kalimat Inggris: He is running and playing
Hasil Tagging: [('He', 'NOUN'), ('is', 'NOUN'), ('running', 'VERB'), ('and', 'NOUN'), ('playing', 'VERB')]


In [5]:
# Uji coba bahasa Indonesia
kalimat_indonesia = "Saya membeli buku-buku di toko"
kalimat_indonesia_split = kalimat_indonesia.split()
hasil_indonesia = simple_rule_based_tagger(kalimat_indonesia_split)

print(f"Kalimat Indonesia: {kalimat_indonesia}")
print(f"hasil Tagging: {hasil_indonesia}")

Kalimat Indonesia: Saya membeli buku-buku di toko
hasil Tagging: [('Saya', 'NOUN'), ('membeli', 'VERB'), ('buku-buku', 'NOUN'), ('di', 'VERB'), ('toko', 'NOUN')]
