# Part 1: Regex

In [1]:
import re

txt = "Dr. Mirna Adriani bercerita, bahwa Fasilkom UI memiliki mahasiswa sebanyak 1.700 orang, " \
      "dengan jumlah mahasiswi rata-rata 30%. Pada awal berdiri Fasilkom, Juli 1986, " \
      "jumlah mahasiswi hanya mencapai 20% saja! " \
      "20 tahun semenjak berdiri, Fasilkom membuka Prodi Sistem Informasi. " \
      "Sekarang Fasilkom berumur 34. " \
      "Nomor telepon Fasilkom adalah 9999 7777."

txt

'Dr. Mirna Adriani bercerita, bahwa Fasilkom UI memiliki mahasiswa sebanyak 1.700 orang, dengan jumlah mahasiswi rata-rata 30%. Pada awal berdiri Fasilkom, Juli 1986, jumlah mahasiswi hanya mencapai 20% saja! 20 tahun semenjak berdiri, Fasilkom membuka Prodi Sistem Informasi. Sekarang Fasilkom berumur 34. Nomor telepon Fasilkom adalah 9999 7777.'

In [2]:
# Extract all numerical data from text


['1.700', '30%', '20%', '20', '34']

In [None]:
# Extract all capitalized letter

['Dr',
 'Mirna Adriani ',
 'Fasilkom ',
 'Pada ',
 'Fasilkom',
 'Juli ',
 'Fasilkom ',
 'Prodi Sistem Informasi',
 'Sekarang Fasilkom ',
 'Nomor ',
 'Fasilkom ']

In [None]:
# Extract all month-year in the text

[('Juli 1986', 'Juli', '1986')]

In [4]:
# extracting reduplication using backreference

[('rata', '-', 'rata')]
[('rata-rata', 'rata')]


In [5]:
# Segmenting text into sentences, then make it more accurate

['Dr',
 ' Mirna Adriani bercerita, bahwa Fasilkom UI memiliki mahasiswa sebanyak 1',
 '700 orang, dengan jumlah mahasiswi rata-rata 30%',
 ' Pada awal berdiri Fasilkom, Juli 1986, jumlah mahasiswi hanya mencapai 20% saja',
 ' 20 tahun semenjak berdiri, Fasilkom membuka Prodi Sistem Informasi',
 ' Sekarang Fasilkom berumur 34',
 ' Nomor telepon Fasilkom adalah 9999 7777',
 '']

In [None]:
# tokenization with regex, then make it better (e.g. handle the phone number case)

['Dr.',
 'Mirna',
 'Adriani',
 'bercerita,',
 'bahwa',
 'Fasilkom',
 'UI',
 'memiliki',
 'mahasiswa',
 'sebanyak',
 '1']

# Part 2: Available libraries: Stanza, NLTK, Spacy

In [None]:
!pip install stanza



In [None]:
# tokenizer stanza bersifat multilingual dan support bahasa indonesia
import stanza

stanza.download('id', processors='tokenize')
nlp = stanza.Pipeline('id', processors='tokenize')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.1.0.json: 122kB [00:00, 14.5MB/s]                    
2020-09-30 20:31:25 INFO: Downloading these customized packages for language: id (Indonesian)...
| Processor | Package |
-----------------------
| tokenize  | gsd     |

Downloading http://nlp.stanford.edu/software/stanza/1.1.0/id/tokenize/gsd.pt: 100%|██████████| 656k/656k [00:01<00:00, 596kB/s]
2020-09-30 20:31:27 INFO: Finished downloading models and saved to /root/stanza_resources.
2020-09-30 20:31:27 INFO: Loading these models for language: id (Indonesian):
| Processor | Package |
-----------------------
| tokenize  | gsd     |

2020-09-30 20:31:27 INFO: Use device: cpu
2020-09-30 20:31:27 INFO: Loading: tokenize
2020-09-30 20:31:27 INFO: Done loading processors!


In [None]:
txt = "Dr. Mirna Adriani bercerita, bahwa Fasilkom UI memiliki mahasiswa sebanyak 1.700 orang, " \
      "dengan jumlah mahasiswi rata-rata 30%. Pada awal berdiri Fasilkom, Juli 1986, " \
      "jumlah mahasiswi hanya mencapai 20% saja! " \
      "20 tahun semenjak berdiri, Fasilkom membuka Prodi Sistem Informasi. " \
      "Sekarang Fasilkom berumur 34. " \
      "Nomor telepon Fasilkom adalah +62-21 5557 2819."

doc = nlp(txt)
for sentence in doc.sentences:
  print([word.text for word in sentence.words])

['Dr', '.', 'Mirna', 'Adriani', 'bercerita', ',', 'bahwa', 'Fasilkom', 'UI', 'memiliki', 'mahasiswa', 'sebanyak', '1.700', 'orang', ',', 'dengan', 'jumlah', 'mahasiswi', 'rata-rata', '30', '%', '.']
['Pada', 'awal', 'berdiri', 'Fasilkom', ',', 'Juli', '1986', ',', 'jumlah', 'mahasiswi', 'hanya', 'mencapai', '20', '%', 'saja', '!', '20', 'tahun', 'semenjak', 'berdiri', ',', 'Fasilkom', 'membuka', 'Prodi', 'Sistem', 'Informasi', '.']
['Sekarang', 'Fasilkom', 'berumur', '34', '.']
['Nomor', 'telepon', 'Fasilkom', 'adalah', '+62-21', '5557', '2819', '.']


In [None]:
# NLTK memiliki beberapa versi tokenizer
# - Algorithmic: berbasiskan pada punctuation dan spasi, tapi bisa diperkaya dengan regex (RegexpTokenizer) atau frase-frase khusus (MWETokenizer)
# - Berbasiskan model machine-learning ('punkt') yang dilatih secara 'unsupervised'
# - TweetTokenizer: tokenizer spesial yang dilatih dengan data twitter sehingga memperhatikan hal-hal seperti emoticon dan hashtag
# -- Library lain yang khusus untuk twitter dan lebih sophisticated: https://github.com/cbaziotis/ekphrasis
# Model punkt yang tersedia di NLTK dilatih di Bahasa Inggris
# Model punkt ini sudah bekerja dengan cukup baik di Bahasa Indonesia, namun jika ditemukan kesalahan, kita bisa membuat model punkt custom
# contoh kodenya: https://stackoverflow.com/questions/21160310/training-data-format-for-nltk-punkt

!pip install nltk
import nltk
nltk.download('punkt')

sent_text = nltk.sent_tokenize(txt) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
    tokenized_text = nltk.word_tokenize(sentence)
    print(tokenized_text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
['Dr.', 'Mirna', 'Adriani', 'bercerita', ',', 'bahwa', 'Fasilkom', 'UI', 'memiliki', 'mahasiswa', 'sebanyak', '1.700', 'orang', ',', 'dengan', 'jumlah', 'mahasiswi', 'rata-rata', '30', '%', '.']
['Pada', 'awal', 'berdiri', 'Fasilkom', ',', 'Juli', '1986', ',', 'jumlah', 'mahasiswi', 'hanya', 'mencapai', '20', '%', 'saja', '!']
['20', 'tahun', 'semenjak', 'berdiri', ',', 'Fasilkom', 'membuka', 'Prodi', 'Sistem', 'Informasi', '.']
['Sekarang', 'Fasilkom', 'berumur', '34', '.']
['Nomor', 'telepon', 'Fasilkom', 'adalah', '+62-21', '5557', '2819', '.']


In [16]:
# NLTK juga memiliki list of stopwords, di berbagai bahasa
import nltk
nltk.download('stopwords')
print(stopwords.words('english'))
print(stopwords.words('indonesian'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'bo

In [19]:
# Snowball stemmer di NLTK; support beberapa bahasa namun tidak Bahasa Indonesia
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("german")
stemmer.stem("Autobahnen") #highway/jalan tol, plural

'autobahn'

In [21]:
#spacy tokenizers and stopwords are language-specific, but there are no Indonesian yet
from spacy.lang.en import English
nlp = English()

tokens = nlp.tokenizer(txt)
for token in tokens:
  print(token.text)

print(nlp.Defaults.stop_words)

Dr.
Mirna
Adriani
bercerita
,
bahwa
Fasilkom
UI
memiliki
mahasiswa
sebanyak
1.700
orang
,
dengan
jumlah
mahasiswi
rata
-
rata
30
%
.
Pada
awal
berdiri
Fasilkom
,
Juli
1986
,
jumlah
mahasiswi
hanya
mencapai
20
%
saja
!
20
tahun
semenjak
berdiri
,
Fasilkom
membuka
Prodi
Sistem
Informasi
.
Sekarang
Fasilkom
berumur
34
.
Nomor
telepon
Fasilkom
adalah
9999
7777
.
{'just', 'thereupon', 'enough', 'former', 'of', 'throughout', 'therefore', 'own', 'their', 'whereby', 'me', '’re', 'n’t', 'various', 'thence', 'its', 'wherever', 'often', 'towards', 'mostly', 'amongst', 'third', 'except', 'afterwards', 'seemed', 'nowhere', 'has', 'being', 'do', 'more', '‘d', 'meanwhile', 'anyway', 'empty', 'only', 'above', 'done', 'yet', 'against', '’m', 'see', 'will', "'ll", 'after', 'across', '‘ve', '‘ll', 'using', 'next', '‘m', 'rather', 'beyond', 'why', 'then', 'behind', 'these', 'ten', 'besides', 'indeed', 'yours', 'along', 'or', 'beforehand', 'last', 'be', 'so', 'them', 'move', 'while', 'within', 'a', 'anythi