Informasi datang dalam berbagai bentuk dan ukuran. Salah satu bentuk penting adalah **data terstruktur**, di mana terdapat relasi teratur antar entitas. Misalnya, ketika kita ingin mencari tempat kerja, bisa jadi kita mungkin tertarik pada hubungan antara perusahaan dan lokasi. Mengingat perusahaan tertentu, kita mengidentifikasi lokasi di mana bisnis dijalankan. Sebaliknya, berdasarkan lokasi, kita bisa mengetahui perusahaan mana yang melakukan bisnis di lokasi tersebut. 

Perhatikan tabel berikut:

| OrgName             | LocationName |
|---------------------|--------------|
| Omnicom             | New York     |
| DDB Needham         | New York     |
| Kaplan Thaler Group | New York     |
| BBDO South          | Atlanta      |
| Georgia-Pacific     | Atlanta      |

Jika tabel di atas diubah ke dalam bentuk list atau tuple, maka muncul pertanyaan,"Perusahaan mana yang lokasinya berada di Atlanta?" Dengan bantuan python, kita bisa menuliskan:
```python
print([e1 for (e1,rel,e2) in data_kota if e2 == 'Atlanta'])
```

In [124]:
data_kota = [
    ('Omnicom','IN','New York'),
    ('DDB Needham','IN','New York'),
    ('Kaplan Thaler Group','IN','New York'),
    ('BBDO South','IN','Atlanta'),
    ('Georgia-Pasific','IN','Atlanta'),
]

hasil = [e1 for (e1,rel,e2) in data_kota if e2 == 'Atlanta']
print(hasil)

['BBDO South', 'Georgia-Pasific']


Dengan model data berupa list, tentu akan mudah dalam mencari kata. Akan tetapi, bila teksnya seperti berikut:

"*The fourth Wells account moving to another agency is the packaged paper-products division of Georgia-Pacific Corp., which arrived at Wells only last fall. Like Hertz and the History Channel, it is also leaving for an Omnicom-owned agency, the BBDO South unit of BBDO Worldwide. BBDO South in Atlanta, which handles corporate advertising for Georgia-Pacific, will assume additional duties for brands like Angel Soft toilet tissue and Sparkle paper towels, said Ken Haldin, a spokesman for Georgia-Pacific in Atlanta.*"

bagaimana cara mengambil informasi terkait perusahaan dan lokasinya? pertanyaan ini akan terjawab pada poin 3 yang membahas tentang Named-Entity Recognition (NER).

Secara umum, arsitektur dari ekstraksi informasi adalah seperti Gambar 1
![image.png](images/alur.png)
*Gambar 1. Arsitektur dan alur ekstraksi informasi*

Pada Gambar 1, tahapan *sentence segmentation* adalah proses mengubah teks menjadi token di mana tiap token adalah satu kalimat. Tahapan ini sudah dituntaskan pada Praktikum 1. Tahapan sisanya, kita bahas pada Praktikum ke-2 ini.

# Tagging Part-of-Speech (POS Tagging) #

**Part of speech** adalah istilah untuk grammar pada susunan kata yang dipakai seperti noun, verbs, adjective, adverbs, etc. Dalam NLP, POS Tagging adalah proses penandaan pada tiap kata berdasarkan *part of speech*. 

Sebagai contoh POS Tagging, kita gunakan kembali variabel `kalimat_token`.

In [125]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('averaged_perceptron_tagger')


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/oddy/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [126]:
kalimat = "The striped bats are hanging on their feet in a dangerous place"
kalimat_token = word_tokenize(kalimat)


In [127]:

kalimat_token_pos_tagged = nltk.pos_tag(kalimat_token)
print(kalimat_token_pos_tagged)

[('The', 'DT'), ('striped', 'JJ'), ('bats', 'NNS'), ('are', 'VBP'), ('hanging', 'VBG'), ('on', 'IN'), ('their', 'PRP$'), ('feet', 'NNS'), ('in', 'IN'), ('a', 'DT'), ('dangerous', 'JJ'), ('place', 'NN')]


Output dari adalah

```cmd
[('The', 'DT'), ('striped', 'JJ'), ('bats', 'NNS'), ('are', 'VBP'), ('hanging', 'VBG'), ('on', 'IN'), ('their', 'PRP$'), ('feet', 'NNS'), ('for', 'IN'), ('best', 'JJS')]
```
Setelah melihat isinya, mungkin kalian kebingungan. Tenang saja. Untuk mengetahui singkatan-singkatan tersebut, jalankan kode berikut

In [128]:
nltk.download('tagsets')
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data] Downloading package tagsets to /home/oddy/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


#### Penjelasan kode ####
1. `nltk.download('averaged_perceptron_tagger')` digunakan untuk mengunduh corpus untuk POS Tagging
1. `nltk.pos_tag(kalimat_token)` digunakan untuk melabel/tagging token dari teks
1. `nltk.download('tagsets')` digunakan untuk mengunduh corpus tagsets
1. `nltk.help.upenn_tagset()` digunakan untuk menampilkan daftar istilah dalam POS Tagging

# Chunking #

## Mungkin kalian bertanya, apa sih kegunaan dari POS Tagging? ##

Dari tahapan awal hingga POS Tagging, yang kita lakukan hanyalah memproses token yang berisi satu kata. Bagaimana jika ada kumpulan kata dengan makna satu atau yang biasa disebut dengan frasa? Nah, di sinilah peran dari POS Tagging. Dengan adanya POS Tagging, kita bisa membuat 'rumus' untuk memilah suatu frasa. 
Contoh frasa dalam bahasa Inggris, yaitu: 'a dangerouse place', 'a beautiful mind', etc. 

Jika menggunakan tokenisasi langsung, maka teks 'a dangerous place' akan dipecah menjadi tiga token. Padahal, teks frasa memiliki satu arti tertentu yang tidak bisa dipisahkan. 

## Bagaimana cara mencari frasa dari teks? ##

Di NLTK ada fitur yang disebut sebagai 'Chunk Grammar'. Chunk Grammar (CG) adalah kumpulan susunan grammar berdasarkan POS Tagging. Pada dasarnya, CG menggunakan regular expression atau Regex.

Contoh dari rumus CG dalam mencari frasa adalah
`grammar = "NP: {<DT>?<JJ>*<NN>}"`

di mana `NP` adalah Noun Phrase atau frasa kata benda, sedangkan `DT` adalah determiner, `JJ` adalah adjective, dan `NN` adalah Noun atau kata benda. Tanda `?` memiliki arti bahwa `DT` itu bersifat opsional atau tidak wajib ada, sedangkan `*` berarti bahwa `JJ` bisa lebih dari satu. Untuk lebih jelasnya, mari kita praktikkan.

In [129]:
grammar = "NP: {<DT>?<JJ>*<NN>}"
chunk_parser = nltk.RegexpParser(grammar)

In [130]:
tree = chunk_parser.parse(kalimat_token_pos_tagged)
#tree.draw() Khusus desktop user, silakan uncomment kode ini jika ingin melihat hasilnya. 

Hasil dari `tree.draw()` adalah seperti pada Gambar 2
![image.png](images/hirarki.png)
*Hirarki Frasa*

# Named Entity Recognition (NER) #

Named Entity (NE) adalah frasa kata benda yang menunjukkan lokasi, nama orang, nama organisasi, dan sebagainya. Dengan NER, kita bisa menemukan NE dari dalam teks dan juga menentukan jenis NE-nya. Tujuan dari NER adalah untuk mengidentifikasi semua penyebutan tekstual dari entitas. NER dapat dipecah menjadi dua tugas, pertama mengidentifikasi batas-batas NE dan mengidentifikasi jenisnya. Selain berfungsi untuk identifikasi **relasi** dalam **Ekstraksi Informasi** NER juga digunakan pada tugas-tugas lain. Misalnya, di Question Answering (QA), informasi yang diambil tidaklah keseluruhan halaman, tetapi hanya bagian-bagian yang berisi jawaban atas pertanyaan pengguna. 

**Sekarang misalkan pertanyaannya adalah Siapa Presiden pertama Indonesia?**, dan salah satu dokumen yang diambil berisi bagian berikut:

"*The National Monument is the most prominent structure in Jakarta and one of the city's early attractions. It was built and initiated by Soekarno, who led the country to independence and then became its first President.*"

Sebelum melakukan NER, kita lakukan preprocessing dulu terhadap teks yang akan diproses. Adapun fungsi dari preprocess adalah:

In [131]:
def preprocess_teks(teks):
    teks = nltk.sent_tokenize(teks)
    list_token = []
    for word in teks:
        kalimat = word_tokenize(word)
        list_token.append(kalimat)
    
    return list_token

In [132]:
# langkah satu
nltk.download('maxent_ne_chunker')
nltk.download('words')

# langkah dua
contoh_teks = "The National Monument is the most prominent structure " \
"in Jakarta and one of the city's early attractions. "\
"It was built and initiated by Soekarno, who led the"\
", who led the country to independence and then became its first President. "

# langkah tiga
for word in preprocess_teks(contoh_teks):
    pos = nltk.pos_tag(word)
    chunks = nltk.ne_chunk(pos)

    # langkah empat
    for chunk in chunks:
        if hasattr(chunk,'label'):
            print(chunk.label(),' '.join(c[0] for c in chunk))


ORGANIZATION National Monument
GPE Jakarta
PERSON Soekarno


[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/oddy/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /home/oddy/nltk_data...
[nltk_data]   Package words is already up-to-date!


Jika Anda mengamati output di atas, NER menemukan total tiga entitas, yaitu ORGANIZATION, GPE (lokasi), dan PERSON (nama), yhanya dengan tiga baris kode python. Mari kita amati kode yang telah terjadi.

1. `nltk.download('maxent_ne_chunker')`
1. `nltk.download('words')`
1. `contoh_teks`
```python
contoh_teks = "The National Monument is the most prominent structure " \
"in Jakarta and one of the city's early attractions. "\
"It was built and initiated by Soekarno, who led the"\
", who led the country to independence and then became its first President. "
```

Langkah satu dan dua sangat mudah; kami telah mengunduh modul yang diperlukan dan mendefinisikan `contoh_teks` sebagai variabel python.

Pada langkah ketiga, kita memanggil fungsi `preprocess_teks` untuk mengubah `contoh_teks` menjadi bentuk token yang sudah di POS Tagging. Output dari fungsi `preprocess_teks` digunakan untuk langkah tiga dalam menghasilkan NER, yaitu dengan menggunakan `chunks = nltk.ne_chunk(pos)`. Variabel `chunks`, berisi semua token yang telah berisi NER.

Langkah keempat sebenarnya sangat sederhana, yaitu hanya memunculkan data yang ada labelnya. Dari langkah empat ini, yang dihasilkan NER dari `contoh_teks` adalah
```cmd
ORGANIZATION National Monument
GPE Jakarta
PERSON Soekarno
```

Demikian praktikum 2, semoga lancar dan penuh berkah belajarnya.

# Referensi #

1. N. Indurkhya and F. J. Damerau, Handbook of Natural Language Processing. CRC Press, 2010.
1. S. Bird, E. Klein, and E. Loper, Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly Media, 2009.
1. https://www.nltk.org/index.html00