Mendapatkan dataset bahasa Inggris menggunakan library NLTK (Natural Language Toolkit)

Dataset yang akan digunakan adalah `treebank` (koleksi teks dari Wall Street Journal)
dan untuk tagset menggunakan `universal_tagset` agar labelnya lebih sederhana (misalnya 'NOUN' bukan 'NN')

In [1]:
import nltk

# Download dataset
nltk.download("treebank")
nltk.download("universal_tagset")

dataset_english = nltk.corpus.treebank.tagged_sents(tagset="universal")[:5]

for sentence in dataset_english:
    print(sentence)

[('Pierre', 'NOUN'), ('Vinken', 'NOUN'), (',', '.'), ('61', 'NUM'), ('years', 'NOUN'), ('old', 'ADJ'), (',', '.'), ('will', 'VERB'), ('join', 'VERB'), ('the', 'DET'), ('board', 'NOUN'), ('as', 'ADP'), ('a', 'DET'), ('nonexecutive', 'ADJ'), ('director', 'NOUN'), ('Nov.', 'NOUN'), ('29', 'NUM'), ('.', '.')]
[('Mr.', 'NOUN'), ('Vinken', 'NOUN'), ('is', 'VERB'), ('chairman', 'NOUN'), ('of', 'ADP'), ('Elsevier', 'NOUN'), ('N.V.', 'NOUN'), (',', '.'), ('the', 'DET'), ('Dutch', 'NOUN'), ('publishing', 'VERB'), ('group', 'NOUN'), ('.', '.')]
[('Rudolph', 'NOUN'), ('Agnew', 'NOUN'), (',', '.'), ('55', 'NUM'), ('years', 'NOUN'), ('old', 'ADJ'), ('and', 'CONJ'), ('former', 'ADJ'), ('chairman', 'NOUN'), ('of', 'ADP'), ('Consolidated', 'NOUN'), ('Gold', 'NOUN'), ('Fields', 'NOUN'), ('PLC', 'NOUN'), (',', '.'), ('was', 'VERB'), ('named', 'VERB'), ('*-1', 'X'), ('a', 'DET'), ('nonexecutive', 'ADJ'), ('director', 'NOUN'), ('of', 'ADP'), ('this', 'DET'), ('British', 'ADJ'), ('industrial', 'ADJ'), ('con

[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\hafid\AppData\Roaming\nltk_data...
[nltk_data]   Package treebank is already up-to-date!
[nltk_data] Downloading package universal_tagset to
[nltk_data]     C:\Users\hafid\AppData\Roaming\nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


Dataset bahasa Indonesia tidak tersedia langsung di NLTK. Untuk contoh sederhana bisa menggunakan dataset sederhana sendiri.

In [2]:
dataset_indonesia = [
    [
        ("Saya", "PRON"),
        ("belajar", "VERB"),
        ("data", "NOUN"),
        ("sains", "NOUN"),
        (".", "."),
    ],
    [
        ("Anak", "NOUN"),
        ("kucing", "NOUN"),
        ("itu", "DET"),
        ("sangat", "ADV"),
        ("lucu", "ADJ"),
        (".", "."),
    ],
    [
        ("Dia", "PRON"),
        ("membeli", "VERB"),
        ("buku-buku", "NOUN"),
        ("baru", "ADJ"),
        ("di", "ADP"),
        ("toko", "NOUN"),
        (".", "."),
    ],
]

for sentence in dataset_indonesia:
    print(sentence)

[('Saya', 'PRON'), ('belajar', 'VERB'), ('data', 'NOUN'), ('sains', 'NOUN'), ('.', '.')]
[('Anak', 'NOUN'), ('kucing', 'NOUN'), ('itu', 'DET'), ('sangat', 'ADV'), ('lucu', 'ADJ'), ('.', '.')]
[('Dia', 'PRON'), ('membeli', 'VERB'), ('buku-buku', 'NOUN'), ('baru', 'ADJ'), ('di', 'ADP'), ('toko', 'NOUN'), ('.', '.')]


## *Rule-Based Tagger* Sederhana

Membuat serangkaian aturan "jika-maka" untuk menebak *tag* sebuah kata.

Logikanya:
- Jika kata berawalan 'me-' atau 'ber-', kemungkinan besar itu **VERB**.
- Jika kata adalah angka, itu pasti **NUM**.
- Jika kata punya pengulangan (ada tanda '-'), kemungkinan itu **NOUN** jamak.
- Jika tidak ada aturan yang cocok, beri label default, misalnya **NOUN** (karena kata benda paling sering muncul)

In [3]:
def simple_rule_based_tagger(sentence):
    """
    Fungsi ini menerima sebuah kalimat (list of words) dan mengembalikan kalimat yang sudah di-tag berdasarkan aturan sederhana.
    """
    tagged_sentence = []
    # asumsikan kalimat sudah di-split, contoh: ['Saya', 'belajar', 'data']
    for word in sentence:
        lower_word = word.lower()
        tag = "NOUN"  # default rule: anggap semua kata adalah NOUN

        # aturan untuk bahasa Inggris
        if lower_word.isdigit():
            tag = "NUM"
        # ciri VERB dalam bahasa Inggris berakhiran dengan '-ing' atau '-ed'
        elif lower_word.endswith("ing") or lower_word.endswith("ed"):
            tag = "VERB"

        # aturan untuk bahasa Indonesia
        elif (
            lower_word.startswith("me")
            or lower_word.startswith("ber")
            or lower_word.startswith("di")
        ):
            tag = "VERB"
        elif '-' in lower_word:
            tag = "NOUN"
        
        tagged_sentence.append((word, tag))

    return tagged_sentence

In [4]:
# Uji coba bahasa Inggris
english_sentence = "He is running and playing"
english_sentence_split = english_sentence.split()
english_result = simple_rule_based_tagger(english_sentence_split)

print(f"Kalimat Inggris: {english_sentence}")
print(f"Hasil Tagging: {english_result}")

Kalimat Inggris: He is running and playing
Hasil Tagging: [('He', 'NOUN'), ('is', 'NOUN'), ('running', 'VERB'), ('and', 'NOUN'), ('playing', 'VERB')]


In [5]:
# Uji coba bahasa Indonesia
kalimat_indonesia = "Saya membeli buku-buku di toko"
kalimat_indonesia_split = kalimat_indonesia.split()
hasil_indonesia = simple_rule_based_tagger(kalimat_indonesia_split)

print(f"Kalimat Indonesia: {kalimat_indonesia}")
print(f"hasil Tagging: {hasil_indonesia}")

Kalimat Indonesia: Saya membeli buku-buku di toko
hasil Tagging: [('Saya', 'NOUN'), ('membeli', 'VERB'), ('buku-buku', 'NOUN'), ('di', 'VERB'), ('toko', 'NOUN')]


### Regular Expression (Regex) Tagger

Regex memungkinkan mendefinisikan pola yang lebih canggih daripada sekadar `endswith('ing')`

In [6]:
import nltk

# Definisikan pola
# Format: (pola_regex, tag)
patterns = [
    # kata berakhiran (suffix)
    (r'.*ing$', 'VERB'),
    (r'.*ed$', 'VERB'),
    (r'.*es$', 'VERB'),
    (r'.*ould$', 'VERB'),        # could, should, would
    (r'.*\'s$', 'NOUN'),         # kata posesif
    (r'.*s$', 'NOUN'),           # kata jamak
    (r'^[A-Z][a-z]*$', 'PROPN'), # kata dengan huruf kapital di awal
    (r'^\d+$', 'NUM'),           # angka
    # aturan default
    (r'.*', 'NOUN')
]

In [7]:
# Buat Regex Tagger dengan pola yang sudah didefinisikan
regex_tagger = nltk.RegexpTagger(patterns)

# Uji pada kalimat
kalimat = "Learning POS Tagging is fun"
hasil = regex_tagger.tag(kalimat.split())

print("--- Regex Tagger ---\n")
print(f"Kalimat: {kalimat}")
print(f"Hasil: {hasil}")

--- Regex Tagger ---

Kalimat: Learning POS Tagging is fun
Hasil: [('Learning', 'VERB'), ('POS', 'NOUN'), ('Tagging', 'VERB'), ('is', 'NOUN'), ('fun', 'NOUN')]


## Statistical POS Tagger (N-gram Model)

### Dictionary Tagger

Cara kerjanya:
1. Baca seluruh dataset yang sudah dilabeli.
2. Buat kamus di mana **key** adalah kata, dan **value** adalah tag yang paling sering muncul untuk kata itu.
3. Saat ada kalimat baru, tinggal cek setiap kata di kamus. Jika tidak ada, maka berikan label default.

Di NLTK, ini disebut `UnigramTagger`

In [8]:
# Load dataset sebagai training
try:
    data = list(nltk.corpus.treebank.tagged_sents(tagset='universal'))
except NameError:
    nltk.download('treebank')
    nltk.download('universal_tagset')
    data = list(nltk.corpus.treebank.tagged_sents(tagset='universal'))

train_size = int(len(data) * 0.8)
train_data = data[:train_size]

# Buat dictionary tagger dari data training
dictionary_tagger = nltk.UnigramTagger(train_data)

In [9]:
# Uji pada kalimat
sentence = "The President will book a flight"
result = dictionary_tagger.tag(sentence.split())

print("--- Dictionary Tagger ---")
print(f"\nKalimat: {sentence}")
print(f"Hasil: {result}")

# kata yang tidak dikenal akan diberi label 'None'
unknown_sentence = "Learning POS Tagging is fun"
unknown_result = dictionary_tagger.tag(unknown_sentence.split())
print(f"\nKalimat: {unknown_sentence}")
print(f"Hasil: {unknown_result}")

--- Dictionary Tagger ---

Kalimat: The President will book a flight
Hasil: [('The', 'DET'), ('President', 'NOUN'), ('will', 'VERB'), ('book', 'NOUN'), ('a', 'DET'), ('flight', None)]

Kalimat: Learning POS Tagging is fun
Hasil: [('Learning', 'NOUN'), ('POS', None), ('Tagging', None), ('is', 'VERB'), ('fun', None)]


### HMM Tagger

menggunakan Hidden Markov Model (HMM) untuk POS Tagger

In [10]:
import nltk
import random

# Load dataset
try:
    nltk.data.find("corpora/treebank/tagged")
except nltk.downloader.DownloadError:
    print("Mengunduh dataset 'treebank' dan 'universal_tagset'...")
    nltk.download('treebank')
    nltk.download('universal_tagset')

# Load seluruh data dengan tagset universal
data = list(nltk.corpus.treebank.tagged_sents(tagset='universal'))

random.shuffle(data)

# Bagi data: 80% untuk training, 20% untuk testing
train_size = int(len(data) * 0.8)
train_data = data[:train_size]
test_data = data[train_size:]

print(f"Jumlah kalimat total: {len(data)}")
print(f"Jumlah kalimat training: {len(train_data)}")
print(f"Jumlah kalimat testing: {len(test_data)}")

Jumlah kalimat total: 3914
Jumlah kalimat training: 3131
Jumlah kalimat testing: 783


In [11]:
import numpy as np
nltk.tag.hmm.np = np

# Latih model HMM
print("Mulai melatih HMM Tagger...")
hmm_tagger = nltk.HiddenMarkovModelTagger.train(train_data)
print("Pelatihan selesai!\n")

# Uji model
accuracy = hmm_tagger.accuracy(test_data)
print(f"Akurasi model pada data tes: {accuracy * 100:.2f}%\n")

Mulai melatih HMM Tagger...
Pelatihan selesai!

Akurasi model pada data tes: 92.36%



In [12]:
# Coba kalimat baru
new_sentence = [
    "The President is speaking to the press",
    "I will book a flight to Semarang",
    "Learning POS Tagging is challenging"
]
num_sentence = len(new_sentence)

tagging_result = []
for text in new_sentence:
    result_hmm = hmm_tagger.tag(text.split())
    
    tagging_result.append(result_hmm)

for i in range(num_sentence):
    print(f"\nKalimat: {new_sentence[i]}")
    print(f"Hasil HMM Tagging: {tagging_result[i]}")



Kalimat: The President is speaking to the press
Hasil HMM Tagging: [('The', 'DET'), ('President', 'NOUN'), ('is', 'VERB'), ('speaking', 'X'), ('to', 'PRT'), ('the', 'DET'), ('press', 'NOUN')]

Kalimat: I will book a flight to Semarang
Hasil HMM Tagging: [('I', 'PRON'), ('will', 'VERB'), ('book', 'VERB'), ('a', 'DET'), ('flight', 'X'), ('to', 'PRT'), ('Semarang', 'VERB')]

Kalimat: Learning POS Tagging is challenging
Hasil HMM Tagging: [('Learning', 'NOUN'), ('POS', '.'), ('Tagging', 'PRON'), ('is', 'VERB'), ('challenging', 'VERB')]


NOUN = kata benda
VERB = kata kerja
X = kata lainnya
DET = determiner (memperkenalkan sebuah kata benda)
PRT = partikel

Analisis hasil tagging:
- `('speaking', 'X')` dan `('flight', 'X')` adalah contoh masalah kata yang tidak dikenal
- `('Semarang', 'VERB')` karena kata "Semarang" tidak ada di data latih. Model mungkin menebak berdasarkan konteks. Setelah kata "to", biasa diikuti oleh kata kerja.
- `('POS', '.')` dan `('Tagging', 'PRON')` menunjukkan kebingungan model saat menghadapi istilah teknis atau kata yang diawali huruf besar yang disalahartikan dengan pronoun

Percobaan POS Tagging menggunakan Gemini 2.5 Pro

**Kalimat 1: "The President is speaking to the press"**

Hasil Tagging:
```
[('The', 'DET'), ('President', 'NOUN'), ('is', 'VERB'), ('speaking', 'VERB'), ('to', 'ADP'), ('the', 'DET'), ('press', 'NOUN')]
```

Penjelasan:
- `('speaking', 'VERB')`: Ini adalah kata kerja (bentuk present participle) yang menunjukkan aksi yang sedang berlangsung. HMM Tagger kita salah melabelinya sebagai X karena mungkin kata ini kurang umum di data latihnya.
- `('to', 'ADP')`: Di sini, "to" berfungsi sebagai preposisi (Adposition), yang menghubungkan kata kerja "speaking" dengan objeknya "the press".



**Kalimat 2: "I will book a flight to Semarang"**

Hasil Tagging:
```
[('I', 'PRON'), ('will', 'VERB'), ('book', 'VERB'), ('a', 'DET'), ('flight', 'NOUN'), ('to', 'ADP'), ('Semarang', 'PROPN')]
```

Penjelasan:
- `('book', 'VERB')`: Sangat jelas dari konteks (I will...) bahwa ini adalah kata kerja yang berarti "memesan", bukan kata benda "buku". HMM kita sudah benar di sini, hebat!
- `('flight', 'NOUN')`: Ini adalah kata benda ("penerbangan"). HMM kita salah melabelinya X.
- `('Semarang', 'PROPN')`: Ini adalah Proper Noun (Kata Benda Nama Diri), yaitu nama spesifik dari sebuah lokasi (kota tempatmu sekarang!). HMM salah melabelinya VERB karena sama sekali tidak mengenal kata ini dan hanya menebak dari konteks.



**Kalimat 3: "Learning POS Tagging is challenging"**

Hasil Tagging:
```
[('Learning', 'NOUN'), ('POS', 'PROPN'), ('Tagging', 'PROPN'), ('is', 'VERB'), ('challenging', 'ADJ')]
```

Penjelasan:
- `('Learning', 'NOUN')`: Ini sedikit tricky. "Learning" di sini adalah gerund, yaitu bentuk kata kerja (-ing) yang berfungsi sebagai kata benda. Karena ia menjadi subjek dari kalimat, label NOUN adalah yang paling tepat.
- `('POS', 'PROPN')` dan ('Tagging', 'PROPN'): Keduanya adalah bagian dari nama sebuah konsep spesifik, jadi paling tepat dilabeli sebagai Proper Noun.
- `('challenging', 'ADJ')`: Ini adalah kata sifat (Adjective) yang mendeskripsikan subjek ("Learning POS Tagging"). HMM kita salah menebaknya sebagai VERB.