# Pre-trained

spaCy dan Stanza adalah library NLP modern yang menyediakan berbagai model siap pakai (pre-trained) untuk berbagai tugas, termasuk POS Tagging. Anggap saja mereka adalah "tim ahli NLP" yang sudah dilatih pada miliaran kata dan bisa kamu panggil kapan saja untuk menyelesaikan tugas dengan cepat dan dengan akurasi yang sangat tinggi. Mereka sering digunakan di industri dan akademik sebagai standar pembanding (benchmark).

**Instalasi spaCy**

Unduh model bahasa Inggris yang sudah dilatih. Model `en_core_web_sm` adalah model kecil yang efisien

```bash
pip install spacy
python -m spacy download en_core_web_sm
```

Model spaCy lain bisa dilihat di https://spacy.io/models/en

In [2]:
import spacy

# Muat model bahasa Inggris yang sudah diunduh
nlp = spacy.load("en_core_web_sm")

teks = "Learning POS Tagging is challenging for a reason."

# Proses teks dengan model spaCy
doc = nlp(teks)

print("--- Hasil dari spaCy ---")
# Iterasi setiap token dalam dokumen yang sudah diproses
# .pos_ -> Tag Universal (simpel)
# .tag_ -> Tag detail (spesifik)
for token in doc:
    print(f"'{token.text}' -> Universal: {token.pos_}, Detail: {token.tag_}")

--- Hasil dari spaCy ---
'Learning' -> Universal: VERB, Detail: VBG
'POS' -> Universal: PROPN, Detail: NNP
'Tagging' -> Universal: PROPN, Detail: NNP
'is' -> Universal: AUX, Detail: VBZ
'challenging' -> Universal: VERB, Detail: VBG
'for' -> Universal: ADP, Detail: IN
'a' -> Universal: DET, Detail: DT
'reason' -> Universal: NOUN, Detail: NN
'.' -> Universal: PUNCT, Detail: .


**Instalasi stanza**

```bash
pip install stanza
```

In [5]:
import stanza

# Unduh model bahasa Inggris (hanya perlu sekali)
stanza.download('en') 

# Buat pipeline NLP untuk bahasa Inggris, khusus untuk tokenisasi dan POS tagging
# Ini akan memuat model ke memori
nlp = stanza.Pipeline(lang='en', processors='tokenize,pos')

teks = "Learning POS Tagging is challenging for a reason."

# Proses teks dengan pipeline
doc = nlp(teks)

print("\n--- Hasil dari Stanza ---")
# Iterasi setiap kalimat, lalu setiap kata dalam dokumen
for sentence in doc.sentences:
    for word in sentence.words:
        # .upos -> Tag Universal (Universal POS)
        # .xpos -> Tag spesifik bahasa
        print(f"'{word.text}' -> Universal: {word.upos}, Detail: {word.xpos}")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 432kB [00:00, 12.9MB/s]                    
2025-07-02 21:14:05 INFO: Downloaded file to C:\Users\hafid\stanza_resources\resources.json
2025-07-02 21:14:05 INFO: Downloading default packages for language: en (English) ...
Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.10.0/models/default.zip: 100%|██████████| 526M/526M [00:58<00:00, 9.06MB/s] 
2025-07-02 21:15:05 INFO: Downloaded file to C:\Users\hafid\stanza_resources\en\default.zip
2025-07-02 21:15:08 INFO: Finished downloading models and saved to C:\Users\hafid\stanza_resources
2025-07-02 21:15:08 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 432kB [00:00, 13.9MB/s


--- Hasil dari Stanza ---
'Learning' -> Universal: NOUN, Detail: NN
'POS' -> Universal: NOUN, Detail: NN
'Tagging' -> Universal: NOUN, Detail: NN
'is' -> Universal: AUX, Detail: VBZ
'challenging' -> Universal: ADJ, Detail: JJ
'for' -> Universal: ADP, Detail: IN
'a' -> Universal: DET, Detail: DT
'reason' -> Universal: NOUN, Detail: NN
'.' -> Universal: PUNCT, Detail: .
