In [1]:
import nltk

In [2]:
## nltk.download()

In [3]:
# Tokenization: word tokenizer or sentence tokenizer
# Tokenization: seperates whole paragraph or article into either words or sentences
# Corpora: Body of text
# Lexicon: Dictionary (words and meanings)

In [4]:
from nltk import sent_tokenize, word_tokenize
from nltk.tokenize import MWETokenizer

In [5]:
simple_text = "Hello everyone. My name is Mr. X and I am learning how to text mine. Yes I am New York. Go Bank Indonesia Sejahtera"

In [6]:
print(sent_tokenize(simple_text))

['Hello everyone.', 'My name is Mr. X and I am learning how to text mine.', 'Yes I am New York.', 'Go Bank Indonesia Sejahtera']


In [7]:
mwe = MWETokenizer([('New', 'York'), ('Hong', 'Kong'), ('Bank', 'Indonesia', 'Sejahtera')], separator='_')

print(mwe.tokenize(word_tokenize(simple_text)))

['Hello', 'everyone', '.', 'My', 'name', 'is', 'Mr.', 'X', 'and', 'I', 'am', 'learning', 'how', 'to', 'text', 'mine', '.', 'Yes', 'I', 'am', 'New_York', '.', 'Go', 'Bank_Indonesia_Sejahtera']


In [8]:
indo_text = "Saya bernama Mr. X dan saya lagi belajar cara koding python. Semoga berhasil, Test Bank Indonesia Sejahtera"

In [9]:
print(sent_tokenize(indo_text))

['Saya bernama Mr. X dan saya lagi belajar cara koding python.', 'Semoga berhasil, Test Bank Indonesia Sejahtera']


In [10]:
print(word_tokenize(indo_text))

['Saya', 'bernama', 'Mr.', 'X', 'dan', 'saya', 'lagi', 'belajar', 'cara', 'koding', 'python', '.', 'Semoga', 'berhasil', ',', 'Test', 'Bank', 'Indonesia', 'Sejahtera']


In [11]:
for i in word_tokenize(indo_text):
    print(i)

Saya
bernama
Mr.
X
dan
saya
lagi
belajar
cara
koding
python
.
Semoga
berhasil
,
Test
Bank
Indonesia
Sejahtera


In [12]:
# Stopwords

In [13]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [14]:
print(indo_text)

Saya bernama Mr. X dan saya lagi belajar cara koding python. Semoga berhasil, Test Bank Indonesia Sejahtera


In [15]:
stop_words = set(stopwords.words("indonesian"))

In [16]:
print(stop_words)

{'dekat', 'bermacam', 'beberapa', 'ditunjuknya', 'selama-lamanya', 'sajalah', 'dong', 'macam', 'artinya', 'sebegitu', 'lama', 'sendirinya', 'bekerja', 'selaku', 'sebuah', 'tertuju', 'pak', 'seluruh', 'kelihatannya', 'kalian', 'memberikan', 'semampunya', 'tandasnya', 'biasanya', 'semasih', 'keterlaluan', 'andalah', 'jawabnya', 'dimaksudkannya', 'jikalau', 'perlukah', 'masihkah', 'sebesar', 'sesaat', 'misalnya', 'diberikan', 'ibaratnya', 'satu', 'hendak', 'apalagi', 'kapankah', 'pertama', 'bakal', 'tentu', 'sinilah', 'bila', 'bagaikan', 'masing-masing', 'pukul', 'caranya', 'bersiap', 'jelaslah', 'menunjukkan', 'serupa', 'memperkirakan', 'inginkan', 'sesampai', 'mengetahui', 'seharusnya', 'nanti', 'setiap', 'disini', 'sebetulnya', 'begitukah', 'menyebutkan', 'sekalipun', 'semata', 'ditunjuk', 'berlebihan', 'dikira', 'amat', 'tanyanya', 'sambil', 'mempersiapkan', 'sudahkah', 'mengucapkan', 'tapi', 'tambah', 'tegasnya', 'khususnya', 'sedikit', 'tersampaikan', 'berdatangan', 'berarti', 'memb

In [17]:
# to make it into an array list
stopwords_arr = stopwords.words("indonesian")

In [18]:
print(stopwords_arr)

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 'berkehendak', 'berkeinginan'

In [19]:
# Adding custom stop words
stopwords_arr.append("Test")
print(stopwords_arr)

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 'berkehendak', 'berkeinginan'

In [20]:
tokenized_word = word_tokenize(indo_text)

In [21]:
filtered_sentence = []
filtered_sentence_test = []

for w in tokenized_word:
    if w not in stop_words:
        filtered_sentence.append(w)

for w in tokenized_word:
    if w not in stopwords_arr:
        filtered_sentence_test.append(w)

In [22]:
print(filtered_sentence)
print(filtered_sentence_test)
print(tokenized_word)

['Saya', 'bernama', 'Mr.', 'X', 'belajar', 'koding', 'python', '.', 'Semoga', 'berhasil', ',', 'Test', 'Bank', 'Indonesia', 'Sejahtera']
['Saya', 'bernama', 'Mr.', 'X', 'belajar', 'koding', 'python', '.', 'Semoga', 'berhasil', ',', 'Bank', 'Indonesia', 'Sejahtera']
['Saya', 'bernama', 'Mr.', 'X', 'dan', 'saya', 'lagi', 'belajar', 'cara', 'koding', 'python', '.', 'Semoga', 'berhasil', ',', 'Test', 'Bank', 'Indonesia', 'Sejahtera']


In [23]:
# shortcut 
filtered_sentence = [w for w in tokenized_word if not w in stop_words]
print(filtered_sentence)

['Saya', 'bernama', 'Mr.', 'X', 'belajar', 'koding', 'python', '.', 'Semoga', 'berhasil', ',', 'Test', 'Bank', 'Indonesia', 'Sejahtera']


In [24]:
from nltk.stem import PorterStemmer

ps = PorterStemmer()

In [25]:
example_words = ["kerja", "berkerja", "mengkerjai", "dikerjai", "kerjain"]

for w in example_words:
    print(ps.stem(w))

kerja
berkerja
mengkerjai
dikerjai
kerjain


In [26]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [27]:
for w in example_words:
    print(stemmer.stem(w))

kerja
kerja
kerja
kerja
kerjain


In [28]:
print(indo_text)
print(stemmer.stem(indo_text))

Saya bernama Mr. X dan saya lagi belajar cara koding python. Semoga berhasil, Test Bank Indonesia Sejahtera
saya nama mr x dan saya lagi ajar cara koding python moga hasil test bank indonesia sejahtera


In [29]:
for w in tokenized_word:
    print(stemmer.stem(w))

saya
nama
mr
x
dan
saya
lagi
ajar
cara
koding
python

moga
hasil

test
bank
indonesia
sejahtera


In [30]:
## Speech Tagging

from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer ## Unsupervised machine learning 

In [31]:
import pycrfsuite

In [32]:
from nltk.tag import CRFTagger
ct = CRFTagger()
ct.set_model_file('all_indo_man_tag_corpus_model.crf.tagger')
hasil = ct.tag_sents([tokenized_word])

for i in hasil[0]:
    print(i)

('Saya', 'PRP')
('bernama', 'VB')
('Mr.', 'NNP')
('X', 'NNP')
('dan', 'CC')
('saya', 'PRP')
('lagi', 'RB')
('belajar', 'VB')
('cara', 'NN')
('koding', 'FW')
('python', 'FW')
('.', 'Z')
('Semoga', 'NNP')
('berhasil', 'VB')
(',', 'Z')
('Test', 'NNP')
('Bank', 'NNP')
('Indonesia', 'NNP')
('Sejahtera', 'NNP')


In [33]:
with open('cerpen.txt', 'r') as file:
    data = file.read()

In [34]:
print(data)

Pergilah Ariel ke pasar menggunakan sepeda bututnya, sesampainya di pasar dibelilah kebutuhan-kebutuhan hidupnya bersama sang ayah yang sakit-sakitan. Setelah semua barang terbeli ia kembali mengayuh sepeda tuanya menuju rumahnya yang hanya berupa gubuk di pinggir sungai.


In [35]:
token_text = sent_tokenize(data)

for i in token_text:
    flat_arr = []
    
    words = nltk.word_tokenize(i)
    hasil = ct.tag_sents([words])
    
    for j in hasil[0]:
        print(j)

('Pergilah', 'NNP')
('Ariel', 'NNP')
('ke', 'IN')
('pasar', 'NN')
('menggunakan', 'VB')
('sepeda', 'VB')
('bututnya', 'RB')
(',', 'Z')
('sesampainya', 'RB')
('di', 'IN')
('pasar', 'NN')
('dibelilah', 'NN')
('kebutuhan-kebutuhan', 'NN')
('hidupnya', 'RB')
('bersama', 'IN')
('sang', 'NN')
('ayah', 'NN')
('yang', 'SC')
('sakit-sakitan', 'NN')
('.', 'Z')
('Setelah', 'SC')
('semua', 'CD')
('barang', 'NN')
('terbeli', 'VB')
('ia', 'PRP')
('kembali', 'VB')
('mengayuh', 'VB')
('sepeda', 'VB')
('tuanya', 'RB')
('menuju', 'VB')
('rumahnya', 'NN')
('yang', 'SC')
('hanya', 'RB')
('berupa', 'VB')
('gubuk', 'NN')
('di', 'IN')
('pinggir', 'NN')
('sungai', 'NN')
('.', 'Z')


In [36]:
# pos tagger and chunking

for i in token_text:
    flat_arr = []
    
    words = nltk.word_tokenize(i)
    hasil = ct.tag_sents([words])
    
    for j in hasil[0]:
        flat_arr.append(j)
        
    chunkGram = r"""Chunk: {<RB.?>*<VB.?>*<NNP>+<NN>?}"""
    chunkParser = nltk.RegexpParser(chunkGram)
    chunked = chunkParser.parse(flat_arr)
    chunked.draw()

In [37]:
# from flair.data_fetcher import NLPTaskDataFetcher, NLPTask
# corpus = NLPTaskDataFetcher.load_corpus(NLPTask.UD_INDONESIAN)

# # membuat library
# tag_type = 'upos'
# tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# # memilih word embedding
# from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, BertEmbeddings
# from typing import List
# embedding_types: List[TokenEmbeddings] = [
#  WordEmbeddings('id-crawl'),
#  WordEmbeddings('id'),
# ]
# embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

# from flair.models import SequenceTagger
# tagger: SequenceTagger = SequenceTagger(hidden_size=256,
#                                         embeddings=embeddings,
#                                       tag_dictionary=tag_dictionary,
#                                         tag_type=tag_type,
#                                         use_crf=True)

# from flair.trainers import ModelTrainer
# trainer: ModelTrainer = ModelTrainer(tagger, corpus)
# trainer.train('resources/taggers/example-universal-pos',
#  learning_rate=0.1,
#  mini_batch_size=32,
#  max_epochs=10)

# from flair.data import Sentence
# sentence = Sentence('saya dan dia kemarin pegi ke pasar bersama untuk membeli jeru')
# tag_pos = SequenceTagger.load('resources/taggers/example-universal-pos/best-model.pt')
# tag_pos.predict(sentence)
# print(sentence.to_tagged_string())
# tag_pos.predict(hasil1)
# print(sentence.to_tagged_string())

In [38]:
# Word embedding - using own made library
from gensim.models import Word2Vec

In [39]:
import numpy as np

new_text = "Halo nama saya X, Halo dan nama saya Y. Kita akan coba belajar word embedding, semoga berhasil. Jangan lupa kita harus coba belajar terus"

token_sent = sent_tokenize(new_text)
token_arry = []

for i, w in enumerate(token_sent):
    hasil = nltk.word_tokenize(w)
    token_arry.append(hasil)

print(token_arry)
    
my_model = Word2Vec(token_arry, min_count=1)

[['Halo', 'nama', 'saya', 'X', ',', 'Halo', 'dan', 'nama', 'saya', 'Y.', 'Kita', 'akan', 'coba', 'belajar', 'word', 'embedding', ',', 'semoga', 'berhasil', '.'], ['Jangan', 'lupa', 'kita', 'harus', 'coba', 'belajar', 'terus']]


In [40]:
print(my_model)

Word2Vec(vocab=21, size=100, alpha=0.025)


In [41]:
words = list(my_model.wv.vocab)

In [42]:
print(words)

['Halo', 'nama', 'saya', 'X', ',', 'dan', 'Y.', 'Kita', 'akan', 'coba', 'belajar', 'word', 'embedding', 'semoga', 'berhasil', '.', 'Jangan', 'lupa', 'kita', 'harus', 'terus']


In [43]:
print(my_model['nama'])

[-3.1281095e-03 -2.7426647e-03 -3.3713915e-04 -1.6807050e-03
 -1.0750657e-03 -3.8327188e-03 -1.0486188e-03 -2.6739563e-03
  3.3349523e-03  3.7141074e-03 -1.1923214e-03  3.3858311e-03
  2.0674739e-03  3.9334531e-04  3.8079456e-03  6.4134115e-04
 -1.5615101e-04  2.6695705e-03 -4.7527859e-03  4.6032346e-03
  4.6863896e-03 -1.3726446e-04  4.7350205e-03 -4.0133432e-03
 -4.2717988e-03 -2.4756172e-03  1.1570901e-03 -1.9302940e-03
  3.6562346e-03  1.7260714e-03 -3.7206388e-03 -2.1103888e-03
 -4.3529607e-03 -2.5644158e-03 -2.9232088e-03 -2.1423071e-03
  3.5886657e-03 -4.3426203e-03 -3.6659061e-03  5.5444654e-04
 -3.1162433e-03  7.4583956e-04  3.0150169e-03 -2.5361478e-03
  2.8724116e-03 -4.3324921e-03  3.1331258e-03  3.4470396e-04
  3.7506738e-04  4.7151325e-03 -2.6717132e-03 -2.2357972e-03
 -2.5609648e-03  2.8331438e-03  4.6447474e-03  4.6677236e-03
  2.4044633e-04 -9.0599165e-04  4.2444994e-03  3.0875225e-03
 -2.2142814e-03  1.9157380e-03  2.8057015e-03 -4.0050922e-03
  3.2982058e-03 -5.33456

  """Entry point for launching an IPython kernel.


In [44]:
my_model.most_similar("nama")

  """Entry point for launching an IPython kernel.


[('.', 0.26926156878471375),
 (',', 0.238109290599823),
 ('Jangan', 0.16989639401435852),
 ('Y.', 0.1291767954826355),
 ('berhasil', 0.11898691207170486),
 ('X', 0.10531222820281982),
 ('terus', 0.07033783197402954),
 ('dan', 0.04165935516357422),
 ('belajar', -0.005909062922000885),
 ('Halo', -0.0070348866283893585)]