## Pembuka 

Blog ini akan membahas teknik sederhana untuk *keyword extraction* atau ekstraksi kata kunci dari dokumen teks. 
Salah satu aplikasi dari *keyword extraction* bisa anda lihat di bagian bawah dari 
berita [detik.com](detik.com). Di setiap artikel dari detik.com tertulis keyword-keyword
yang diambil dari teks berita. Gambar dibawah merupakan contoh yang diambil dari artikel [ini](https://oto.detik.com/mobil/d-4748247/resmi-ini-tampang-toyota-yaris-terbaru-bisa-parkir-sendiri).

![keyword yang muncul di detik.com](keyword-detik.jpg)

Dari contoh diatas bisa kita lihat bahwa *keyword* atau kata kunci yang diekstrak dari teks berita detik diatas bisa menjadi *rangkuman* isi dari berita. Kita bisa simpulkan bahwa artikel diatas membahas tentang toyota yaris tanpa perlu membaca seluruh isi teks. Hal ini menjadi salah satu kegunaan utama dari aplikasi *keyword extraction*.

Nah, di blog ini saya akan coba membahas satu teknik ekstraksi kata kunci atau *keyword extraction* bahasa Indonesia dari dokumen teks. Idenya sederhana: kita hanya memperhitungkan kata kunci yang berjenis *kata benda* atau *frasa benda*. Dari daftar kata/frasa benda yang kita dapatkan, kita ambil beberapa kata/frasa benda yang *penting* saja, karena dari sebuah dokumen sangat mungkin kita mendapatkan ratusan kata/frasa benda, dan tidak mungkin kita mengambil semua kata/frasa benda tersebut menjadi kata kunci. 
Dari sini kita bisa tarik dua pertanyaan besar:

* Bagaimana cara kita mengambil kata/frasa benda dari teks?
* Bagaimana kita mengukur kepentingan dari sebuah kata/frasa benda?

Dua pertanyaan diatas yang akan menjadi topik utama di blog ini.

Implementasi teknik *keyword extraction* ini saya buat menggunakan Python dalam format Jupyter notebook.
Notebook tersebut dapat anda temukan di repo [github](https://github.com/bagasabisena/keyword-extraction) saya.

## Implementasi

Anda memerlukan *library* python `jupyter`, `stanfordnlp`, dan `nltk` untuk menjalankan proyek ini.
Semua bisa anda *install* menggunakan pip

```
pip install jupyter
pip install stanfordnlp
pip install nltk
```

sebelum kita mulai, kita perlu mengunduh *file* model bahasa Indonesia yang diperlukan untuk menjalankan fungsi stanfordnlp. Buka terminal di komputer anda dan jalankan perintah berikut

```
python -c "import stanfordnlp;stanfordnlp.download('id')"
```

Selain itu, kita juga membutuhkan korpus `stopwords` dari NLTK

```
python -m nltk.downloader stopwords
```

Sekarang kita bisa mulai dengan mengimpor *module* yang diperlukan

In [13]:
import stanfordnlp
import string
import nltk
from nltk.corpus import stopwords
from collections import Counter

In [2]:
s = """
Pemberi kerja adalah orang perseorangan, pengusaha, badan hukum, atau badan-badan lainnya yang mempekerjakan tenaga kerja dengan membayar upah atau imbalan dalam bentuk lain.
Pengusaha adalah orang perseorangan, persekutuan, atau badan hukum yang menjalankan suatu perusahaan milik sendiri.
"""

In [3]:
nlp = stanfordnlp.Pipeline(lang='id')

Use device: cpu
---
Loading: tokenize
With settings: 
{'model_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_gsd_tokenizer.pt', 'lang': 'id', 'shorthand': 'id_gsd', 'mode': 'predict'}
---
Loading: pos
With settings: 
{'model_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_gsd_tagger.pt', 'pretrain_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_gsd.pretrain.pt', 'lang': 'id', 'shorthand': 'id_gsd', 'mode': 'predict'}
---
Loading: lemma
With settings: 
{'model_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_gsd_lemmatizer.pt', 'lang': 'id', 'shorthand': 'id_gsd', 'mode': 'predict'}
Building an attentional Seq2Seq model...
Using a Bi-LSTM encoder
Using soft attention for LSTM.
Finetune all embeddings.
[Running seq2seq lemmatizer with edit classifier]
---
Loading: depparse
With settings: 
{'model_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_gsd_parser.pt', 'pretrain_path': '/Users/bagas/stanfordnlp_resources/id_gsd_models/id_

In [4]:
doc = nlp(s)



In [6]:
doc.sentences

[<stanfordnlp.pipeline.doc.Sentence at 0x132313d90>,
 <stanfordnlp.pipeline.doc.Sentence at 0x1098fdd50>]

In [7]:
doc.sentences[0]

<stanfordnlp.pipeline.doc.Sentence at 0x132313d90>

In [8]:
doc.sentences[0].words

[<Word index=1;text=Pemberi;lemma=penberi;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=4;dependency_relation=nsubj>,
 <Word index=2;text=kerja;lemma=kerja;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=1;dependency_relation=compound>,
 <Word index=3;text=adalah;lemma=adalah;upos=AUX;xpos=O--;feats=_;governor=4;dependency_relation=cop>,
 <Word index=4;text=orang;lemma=orang;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=0;dependency_relation=root>,
 <Word index=5;text=perseorangan;lemma=perseorangan;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=4;dependency_relation=compound>,
 <Word index=6;text=,;lemma=,;upos=PUNCT;xpos=Z--;feats=_;governor=7;dependency_relation=punct>,
 <Word index=7;text=pengusaha;lemma=penusaha;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=4;dependency_relation=conj>,
 <Word index=8;text=,;lemma=,;upos=PUNCT;xpos=Z--;feats=_;governor=9;dependency_relation=punct>,
 <Word index=9;text=badan;lemma=badan;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=4;dependency_relatio

In [11]:
for word in doc.sentences[0].words:
    print(word.text, word.upos)

Pemberi NOUN
kerja NOUN
adalah AUX
orang NOUN
perseorangan NOUN
, PUNCT
pengusaha NOUN
, PUNCT
badan NOUN
hukum NOUN
, PUNCT
atau CCONJ
badan-badan NOUN
lainnya ADJ
yang PRON
mempekerjakan VERB
tenaga NOUN
kerja NOUN
dengan ADP
membayar VERB
upah NOUN
atau CCONJ
imbalan NOUN
dalam ADP
bentuk NOUN
lain ADJ
. PUNCT


In [19]:
tagged_words = []
for sentence in doc.sentences:
    tagged = []
    for word in sentence.words:
        tagged.append((word.text, word.upos))
    tagged_words.append(tagged)

In [20]:
tagged_words

[[('Pemberi', 'NOUN'),
  ('kerja', 'NOUN'),
  ('adalah', 'AUX'),
  ('orang', 'NOUN'),
  ('perseorangan', 'NOUN'),
  (',', 'PUNCT'),
  ('pengusaha', 'NOUN'),
  (',', 'PUNCT'),
  ('badan', 'NOUN'),
  ('hukum', 'NOUN'),
  (',', 'PUNCT'),
  ('atau', 'CCONJ'),
  ('badan-badan', 'NOUN'),
  ('lainnya', 'ADJ'),
  ('yang', 'PRON'),
  ('mempekerjakan', 'VERB'),
  ('tenaga', 'NOUN'),
  ('kerja', 'NOUN'),
  ('dengan', 'ADP'),
  ('membayar', 'VERB'),
  ('upah', 'NOUN'),
  ('atau', 'CCONJ'),
  ('imbalan', 'NOUN'),
  ('dalam', 'ADP'),
  ('bentuk', 'NOUN'),
  ('lain', 'ADJ'),
  ('.', 'PUNCT')],
 [('Pengusaha', 'PROPN'),
  ('adalah', 'AUX'),
  ('orang', 'NOUN'),
  ('perseorangan', 'NOUN'),
  (',', 'PUNCT'),
  ('persekutuan', 'NOUN'),
  (',', 'PUNCT'),
  ('atau', 'CCONJ'),
  ('badan', 'NOUN'),
  ('hukum', 'NOUN'),
  ('yang', 'PRON'),
  ('menjalankan', 'VERB'),
  ('suatu', 'DET'),
  ('perusahaan', 'NOUN'),
  ('milik', 'NOUN'),
  ('sendiri', 'ADJ'),
  ('.', 'PUNCT')]]

In [22]:
grammar = "NP: {<NOUN|PROPN>+ <ADJ>*}"
parser = nltk.RegexpParser(grammar)

In [30]:
parse_tree = parser.parse(tagged_words[0])
parse_tree.pprint()

(S
  (NP Pemberi/NOUN kerja/NOUN)
  adalah/AUX
  (NP orang/NOUN perseorangan/NOUN)
  ,/PUNCT
  (NP pengusaha/NOUN)
  ,/PUNCT
  (NP badan/NOUN hukum/NOUN)
  ,/PUNCT
  atau/CCONJ
  (NP badan-badan/NOUN lainnya/ADJ)
  yang/PRON
  mempekerjakan/VERB
  (NP tenaga/NOUN kerja/NOUN)
  dengan/ADP
  membayar/VERB
  (NP upah/NOUN)
  atau/CCONJ
  (NP imbalan/NOUN)
  dalam/ADP
  (NP bentuk/NOUN lain/ADJ)
  ./PUNCT)


In [31]:
parse_tree = parser.parse(tagged_words[1])
parse_tree.pprint()

(S
  (NP Pengusaha/PROPN)
  adalah/AUX
  (NP orang/NOUN perseorangan/NOUN)
  ,/PUNCT
  (NP persekutuan/NOUN)
  ,/PUNCT
  atau/CCONJ
  (NP badan/NOUN hukum/NOUN)
  yang/PRON
  menjalankan/VERB
  suatu/DET
  (NP perusahaan/NOUN milik/NOUN sendiri/ADJ)
  ./PUNCT)


In [33]:
# now we get NP as keywords
# by walking on the parse tree
# keywords if any of the word doesn't contain stopwords
parse_tree = parser.parse(tagged_words[0])
keywords = []
for subtree in parse_tree.subtrees():
    if subtree.label() == 'NP' and len(subtree.leaves()) > 1:
        words = [item[0] for item in subtree.leaves()]
        # this filters out keywords with stop words
        if not bool(set(words).intersection(stopwords.words('indonesian'))):
            keywords.append(' '.join([item[0] for item in subtree.leaves()]))
            
keywords

['Pemberi kerja', 'orang perseorangan', 'badan hukum', 'tenaga kerja']

In [34]:
# now we get NP as keywords
# by walking on the parse tree
# keywords if any of the word doesn't contain stopwords
parse_tree = parser.parse(tagged_words[1])
keywords = []
for subtree in parse_tree.subtrees():
    if subtree.label() == 'NP' and len(subtree.leaves()) > 1:
        words = [item[0] for item in subtree.leaves()]
        # this filters out keywords with stop words
        if not bool(set(words).intersection(stopwords.words('indonesian'))):
            keywords.append(' '.join([item[0] for item in subtree.leaves()]))
            
keywords

['orang perseorangan', 'badan hukum']