In [1]:
# Comments in Bahasa (Indonesia)
# PR 1: Penggunaan Library NLTK/Spacy (Jan 2021)
# Sumber teks: https://www.nytimes.com/2021/01/22/fashion/mens-style/rolex-biden.html

import nltk

In [2]:
# 1. SENTENCE SPLITTER

# Mengubah text menjadi sentence
# Sentence splitter adalah pemisahan teks menjadi kalimat-kalimat
# Contoh penggalan teks dari satu paragraf berita di New York Times

teksinput1 = 'To many, a president wearing a luxury watch might not seem unusual. Shouldn’t the leader of the free world wear a power watch befitting his position? Never mind that it costs the equivalent of dozen or so stimulus checks.'
from nltk.tokenize import sent_tokenize

# Modul 'sent_tokenize' menggunakan algoritma bawaan NLTK untuk melakukan sentence splitter, antara lain untuk
# kalimat diatas adalah tanda titik dan tanda tanya.

pemisahan = sent_tokenize(teksinput1)
print(pemisahan)

# Perhatikan pada output, teks diatas di split menjadi tiga bagian yg dipisahkan dgn tanda koma (,)

['To many, a president wearing a luxury watch might not seem unusual.', 'Shouldn’t the leader of the free world wear a power watch befitting his position?', 'Never mind that it costs the equivalent of dozen or so stimulus checks.']


In [3]:
# 2. TOKENIZATION

# Token atau Kata adalah unit terkecil yang dapat diproses oleh mesin.
# Tokenisasi adalah proses memisahkan string menjadi token yang memiliki arti

teksinput2 = 'To many, a president wearing a luxury watch might not seem unusual.'
from nltk.tokenize import word_tokenize
word_tokenize(teksinput2)

# Modul 'word_tokenize' adalah metode tokenisasi yang umum dipakai untuk berbagai jenis corpus teks
# Perhatikan pada output, teks dipisahkan berdasarkan spasi antar kata, tanda baca adalah termasuk token

['To',
 'many',
 ',',
 'a',
 'president',
 'wearing',
 'a',
 'luxury',
 'watch',
 'might',
 'not',
 'seem',
 'unusual',
 '.']

In [4]:
# 3. STEMMING

# Stemming adalah proses menemukan kata-kata dasar dari sebuah kata dengan rule yang sederhana yaitu dg memotong kata
# Misal kata 'traveling' atau 'traveled' berasal dari kata dasar travel
# Token dipangkas -> Stem (kata dasar)

from nltk.stem import PorterStemmer #import PorterStemmer (utk B. Inggris)
porter = PorterStemmer()
print('present continuous -> wearing :',porter.stem('wearing'))
print('past tense -> wore :',porter.stem('wore'))
print('past participle -> worn :',porter.stem('worn'))

# Perhatikan dari output, kata dasar dari present continuous 'wearing' adalah 'wear' di eksekusi benar
# Namun bentuk past tense 'wore', tetap dituliskan 'wore' di output
# Begitu pula dengan past participle 'worn', tetap dituliskan 'worn' ini adalah kelemahan Stemming

present continuous -> wearing : wear
past tense -> wore : wore
past participle -> worn : worn


In [5]:
# 4. LEMMATIZATION

# Stemming lebih sederhana & cepat, namun tidak mencakup variasi tata-bahasa yang lebih kompleks
# Untuk itu ada Lemmatization, yg lebih robust menerapkan aturan normalisasi utk menentukan akar kata
# atau kata dasar (lemma)

from nltk.stem import WordNetLemmatizer #Import WordNet dan lemmatizer
wnlem = WordNetLemmatizer()
print('present continuous -> wearing :', wnlem.lemmatize('wearing', pos='v'))
print('past tense -> wore :', wnlem.lemmatize('wore', pos='v'))
print('past participle -> worn :', wnlem.lemmatize('worn', pos='v'))

# Perhatikan untuk mendapatkan hasil lemma yang akurat, jenis katanya mesti di tag dahulu
# Untuk contoh diatas pos tag 'wear' adalah verb
# Lemmatization dengan akurat mengeluarkan output kata dasarnya

present continuous -> wearing : wear
past tense -> wore : wear
past participle -> worn : wear


In [6]:
# 5. ENTITY MASKING
# Untuk melakukan masking yang mengikuti regular expression tertentu

import re
email = re.compile('\w+@\w+\.[a-z]{3}') #rule untuk mendeteksi format entity email untuk di masking
teks = "The new US President email is biden@whitehouse.gov and his secretary email is philip@gmail.com"
print('Alamat email di teks : ',email.findall(teks))
teks_mask=email.sub('_email_', teks)
print(teks_mask)

# Dengan rule ini dapat dilakukan masking untuk entity-entity tertentu seseuai regex yang diinginkan

Alamat email di teks :  ['biden@whitehouse.gov', 'philip@gmail.com']
The new US President email is _email_ and his secretary email is _email_


In [7]:
# 6. POS Tagger
# Adalah tool untuk tag pos setiap kata di teks input
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(teksinput2)

# Perhatikan pada output masih ada yang kurang tepat, dimana 'T' di tag NNP
# Begitu juga dg beberapa spasi antara kata juga di labeli Proper Noun

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Wira\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('T', 'NNP'),
 ('o', 'MD'),
 (' ', 'VB'),
 ('m', 'VB'),
 ('a', 'DT'),
 ('n', 'JJ'),
 ('y', 'NN'),
 (',', ','),
 (' ', 'VB'),
 ('a', 'DT'),
 (' ', 'NN'),
 ('p', 'NN'),
 ('r', 'NN'),
 ('e', 'NN'),
 ('s', 'NN'),
 ('i', 'NN'),
 ('d', 'VBP'),
 ('e', 'NN'),
 ('n', 'JJ'),
 ('t', 'NN'),
 (' ', 'NNP'),
 ('w', 'NN'),
 ('e', 'VBZ'),
 ('a', 'DT'),
 ('r', 'NN'),
 ('i', 'NN'),
 ('n', 'VBP'),
 ('g', 'NN'),
 (' ', 'VBP'),
 ('a', 'DT'),
 (' ', 'JJ'),
 ('l', 'NN'),
 ('u', 'JJ'),
 ('x', 'NNP'),
 ('u', 'NN'),
 ('r', 'NN'),
 ('y', 'NN'),
 (' ', 'NNP'),
 ('w', 'VBZ'),
 ('a', 'DT'),
 ('t', 'JJ'),
 ('c', 'NN'),
 ('h', 'NN'),
 (' ', 'NNP'),
 ('m', 'NN'),
 ('i', 'NN'),
 ('g', 'VBP'),
 ('h', 'NN'),
 ('t', 'NN'),
 (' ', 'NNP'),
 ('n', 'CC'),
 ('o', 'JJ'),
 ('t', 'NN'),
 (' ', 'NNP'),
 ('s', 'NN'),
 ('e', 'NN'),
 ('e', 'VBP'),
 ('m', 'NN'),
 (' ', 'NNP'),
 ('u', 'JJ'),
 ('n', 'RB'),
 ('u', 'JJ'),
 ('s', 'NN'),
 ('u', 'IN'),
 ('a', 'DT'),
 ('l', 'NN'),
 ('.', '.')]

In [8]:
# 7. PHRASE CHUNKING
# Mencari semua bentuk frase yang non-rekursif

gram = ("NP: {<DT>?<JJ>*<NN>}") #Grammar yang akan dipakai chunking
kalimat = 'last night i saw a black dog barking at a kid'

chunking = nltk.RegexpParser(gram) #fungsi RegexParser NLTK
kalimat_token = nltk.word_tokenize(kalimat) #tokenisasi kalimat
tagging = nltk.pos_tag(kalimat_token) #pos tag
tagging

tree = chunking.parse(tagging) #proses chunking frase
print(tree)

(S
  (NP last/JJ night/NN)
  (NP i/NN)
  saw/VBD
  (NP a/DT black/JJ dog/NN)
  (NP barking/NN)
  at/IN
  (NP a/DT kid/NN))
