In [1]:
# create sample documents
doc_a = "Brokoli bagus untuk dimakan. Adikku suka makan brokoli, tetapi ibuku tidak."
doc_b = "Ibuku menghabiskan banyak waktu berkeliling melihat adikku latihan bisbol."
doc_c = "Beberapa ahli kesehatan menyarankan bahwa mengemudi dapat menyebabkan ketegangan dan tekanan darah meningkat."
doc_d = "Saya sering merasakan tekanan untuk tampil seperti saat presentasi di sekolah."
doc_e = "Profesional kesehatan mengatakan bahwa brokoli itu baik untuk kesehatan."
doc_f = "Teman saya seorang pemain bisbol yang pernah mendapatkan juara."
doc_g = "Pemain bisbol yang bernama Flash itu sangat suka memakan brokoli."
doc_h = "Sopir yang mengemudi taksi itu mendapatkan tekanan dari penumpangnya."
doc_i = "Saat bertanding, olahraga bisbol memberikan ketegangan dan meningkatkan tekanan darah para penonton."
doc_j = "Ibuku menyarankan saya untuk memakan brokoli agar tekanan darah terkontrol."

# compile sample documents into a list
docs = [doc_a, doc_b, doc_c, doc_d, doc_e, doc_f, doc_g, doc_h, doc_i, doc_j]

# POS Tagging

In [2]:
import os
from hmmtagger.tagger import MainTagger
from tokenization import *

mt = None

In [3]:
import pandas as pd
import numpy as np

## Daftar Tagging
Berikut adalah daftar tagging berdasarkan jurnal **HMM Based Part-of-Speech Tagger for Bahasa Indonesia.** (Alfan Farizki & Ayu Purwarianti, 2010)

In [4]:
# daftar tagging
df = pd.DataFrame({'POS' : ['OP', 'CP', 'GM', ';', ':', 
                            '"', '.', ',', '-', '...', 
                            'JJ', 'RB', 'NN', 'NNP','NNG', 
                            'VBI', 'VBT', 'IN', 'MD', 'CC', 
                            'SC', 'DT', 'UH', 'CDO', 'CDC', 
                            'CDP', 'CDI', 'PRP', 'WP', 'PRN', 
                            'PRL', 'NEG', 'SYM', 'RP', 'FW'],
                   'POS Name' : ['Open Parenthesis', 'Close Parenthesis', 'Slash', 'Semicolon', 'Colon', 
                                 'Quotation', 'Sentence Terminator', 'Comma', 'Dash', 'Ellipsis', 
                                 'Adjective', 'Adverb', 'Common Noun', 'Proper Noun', 'Genitive Noun', 
                                 'Intransitive Verb', 'Transitive Verb', 'Preposition', 'Modal', 'Coor-Conjuction', 
                                 'Subor-Conjunction', 'Determiner', 'Interjection', 'Ordinal Numerals', 'Collective Numerals', 
                                 'Primary Numerals', 'Irregular Numerals', 'Personal Pronouns', 'WH-Pronouns', 'Number Pronouns',
                                 'Locative Pronouns', 'Negation', 'Symbol', 'Particles', 'Foreign Word'],
                   'Example' : ['({[', ')}]', '/', ';', ':',
                                '"', '.!?', ',', '-', '...',
                                'Kaya, Manis', 'Sementara, Nanti', 'Mobil', 'Bekasi, Indonesia', 'Bukunya',
                                'Pergi', 'Membeli', 'Di, Ke, Dari', 'Bisa', 'Dan, Atau, Tetapi',
                                'Jika, Ketika', 'Para, Ini, Itu', 'Wah, Aduh, Oi', 'Pertama, Kedua', 'Bertiga',
                                'Satu, Dua', 'Beberapa', 'Saya, Kamu', 'Apa, Siapa', 'Kedua-duanya',
                                'Sini, Situ, Sana', 'Bukan, Tidak', '@#$%^&', 'Pun, Kah', 'Foreign, Word']})

df = df[['POS', 'POS Name', 'Example']]
df.index = np.arange(1, len(df) + 1)
df

Unnamed: 0,POS,POS Name,Example
1,OP,Open Parenthesis,({[
2,CP,Close Parenthesis,)}]
3,GM,Slash,/
4,;,Semicolon,;
5,:,Colon,:
6,"""",Quotation,""""
7,.,Sentence Terminator,.!?
8,",",Comma,","
9,-,Dash,-
10,...,Ellipsis,...


## Pembagian Tagging
Dibagi menjadi 2 yaitu **Class Content** dan **Class Function**.

**Class Content:**
1. JJ = Adjective
2. NN = Common Noun
3. NNP = Proper Noun
4. NNG = Genitive Noun
5. VBI = Intransitive Verb
6. VBT = Transitive Verb
7. FW = Foreign Word


**Class Function:**
1. OP = Open Parenthesis
2. CP = Close Parenthesis
3. GM = Slash
4. ; = Semicolon
5. : = Colon
6. " = Quotation
7. . = Sentence Terminator
8. , = Comma
9. '-' = Dash
10. ... = Ellipsis
11. RB = Adverb
12. IN = Preposition
13. MD = Modal
14. CC = Coor-Conjunction
15. SC = Subor-Conjunction
16. DT = Determiner
17. UH = Interjection
18. CDO = Ordinal Numerals
19. CDC = Collective Numerals
20. CDP = Primary Numerals
21. CDI = Irregular Numerals
22. PRP = Personal Pronouns
23. WP = WH-Pronouns
24. PRN = Number Pronouns
25. PRL = Locative Pronouns
26. NEG = Negation
27. SYM = Symbol
28. RP = Particles

In [5]:
Ccon = ['JJ', 'NN','NNP', 'NNG', 'VBI', 'VBT', 'FW']
Cfunc = ['OP', 'CP', 'GM', ';', ':', '"', '.', 
         ',', '-', '...', 'RB', 'IN', 'MD', 'CC',
         'SC', 'DT', 'UH', 'CDO', 'CDC', 'CDP', 'CDI',
         'PRP', 'WP', 'PRN', 'PRL', 'NEG', 'SYM', 'RP']

In [6]:
from collections import defaultdict

In [7]:
Kelas = {"Ccon": {},
         "Cfunc": defaultdict(list)
        }

In [8]:
type(Kelas["Cfunc"])

collections.defaultdict

In [9]:
"""
Parameters:
    String fileLexicon
    String fileNGram
    int NGramType = 0
    int maxAffixLength = 3
    int Treshold = 3
    int minWordFreq = 0
    int modeAffixTree = 0
    boolean debug = False
    double LambdaBigram = 0.2
    int TwoPhaseType = 0
    double beamFactor = 500.0
    int useLexicon = 0
"""

def init_tag():
    global mt
    try:
        if mt is None:
            mt = MainTagger("resource/Lexicon.trn", "resource/Ngram.trn", 0, 3, 3, 0, 0, False, 0.2, 0, 500.0, 1)
    except:
        print("Error Exception")

## Proses Tagging

In [10]:
# tokenisasi dan tagging
tagged_doc = []
for doc in docs:
    lines = doc.strip().split("\n")
    try:
        init_tag()
        for l in lines:
            if len(l) == 0: continue
            out = sentence_extraction(cleaning(l))
            join_token = []
            for o in out:
                strtag = " ".join(tokenisasi_kalimat(o)).strip()
                join_token.extend(mt.taggingStr(strtag))
            tagged_doc += [join_token]
    except:
        print ("Error Exception")

for _ in tagged_doc:
    print (_)

['Brokoli/NN', 'bagus/NN', 'untuk/IN', 'dimakan/VBT', './.', 'Adikku/NN', 'suka/VBI', 'makan/VBT', 'brokoli/NN', ',/,', 'tetapi/CC', 'ibuku/NN', 'tidak/NEG', './.']
['Ibuku/NN', 'menghabiskan/VBT', 'banyak/JJ', 'waktu/NN', 'berkeliling/NN', 'melihat/VBT', 'adikku/NNP', 'latihan/NN', 'bisbol/NN', './.']
['Beberapa/CDI', 'ahli/NN', 'kesehatan/NN', 'menyarankan/VBT', 'bahwa/SC', 'mengemudi/VBT', 'dapat/MD', 'menyebabkan/VBT', 'ketegangan/NN', 'dan/CC', 'tekanan/NN', 'darah/NN', 'meningkat/VBI', './.']
['Saya/PRP', 'sering/JJ', 'merasakan/VBT', 'tekanan/NN', 'untuk/IN', 'tampil/NN', 'seperti/IN', 'saat/NN', 'presentasi/NN', 'di/IN', 'sekolah/NN', './.']
['Profesional/NNP', 'kesehatan/NN', 'mengatakan/VBI', 'bahwa/SC', 'brokoli/NN', 'itu/DT', 'baik/JJ', 'untuk/IN', 'kesehatan/NN', './.']
['Teman/NN', 'saya/PRP', 'seorang/NN', 'pemain/NN', 'bisbol/NN', 'yang/SC', 'pernah/NN', 'mendapatkan/VBT', 'juara/NN', './.']
['Pemain/NN', 'bisbol/NN', 'yang/SC', 'bernama/VBT', 'Flash/NN', 'itu/DT', 'san

## Pemilihan tagging buat cari topik

In [11]:
import nltk.tag

In [12]:
doc_con = []
for tagged in tagged_doc:
    con = []
    for word in tagged:
        w = word.split("/", 1)[0]
        tagger = word.split("/", 1)[1]
        if tagger in Ccon:
            con += ["".join(word)]
        elif tagger in Cfunc:
            Kelas["Cfunc"][tagger].append(w)
    doc_con += [con]

for _ in doc_con:
    print(_)
#     for w in _:
#         print(nltk.tag.str2tuple(w))
    
print()
print("Tagger")
for key in Kelas["Cfunc"]:
    Kelas["Cfunc"][key] = list(set(Kelas["Cfunc"][key]))

print(Kelas)

['Brokoli/NN', 'bagus/NN', 'dimakan/VBT', 'Adikku/NN', 'suka/VBI', 'makan/VBT', 'brokoli/NN', 'ibuku/NN']
['Ibuku/NN', 'menghabiskan/VBT', 'banyak/JJ', 'waktu/NN', 'berkeliling/NN', 'melihat/VBT', 'adikku/NNP', 'latihan/NN', 'bisbol/NN']
['ahli/NN', 'kesehatan/NN', 'menyarankan/VBT', 'mengemudi/VBT', 'menyebabkan/VBT', 'ketegangan/NN', 'tekanan/NN', 'darah/NN', 'meningkat/VBI']
['sering/JJ', 'merasakan/VBT', 'tekanan/NN', 'tampil/NN', 'saat/NN', 'presentasi/NN', 'sekolah/NN']
['Profesional/NNP', 'kesehatan/NN', 'mengatakan/VBI', 'brokoli/NN', 'baik/JJ', 'kesehatan/NN']
['Teman/NN', 'seorang/NN', 'pemain/NN', 'bisbol/NN', 'pernah/NN', 'mendapatkan/VBT', 'juara/NN']
['Pemain/NN', 'bisbol/NN', 'bernama/VBT', 'Flash/NN', 'suka/VBI', 'memakan/VBT', 'brokoli/NN']
['Sopir/NNP', 'mengemudi/VBT', 'mendapatkan/VBT', 'tekanan/NN', 'penumpangnya/NN']
['bertanding/VBI', 'olahraga/NN', 'memberikan/VBT', 'ketegangan/NN', 'meningkatkan/VBT', 'tekanan/NN', 'darah/NN', 'penonton/NN']
['Ibuku/NN', 'menya

## Doc con

In [13]:
documents = []
for con in doc_con:
    co = []
    for c in con:
        result = c.split('/', 1)[0]
        co.append(result)
    documents += [co]
    
for _ in documents:
    print (_)

['Brokoli', 'bagus', 'dimakan', 'Adikku', 'suka', 'makan', 'brokoli', 'ibuku']
['Ibuku', 'menghabiskan', 'banyak', 'waktu', 'berkeliling', 'melihat', 'adikku', 'latihan', 'bisbol']
['ahli', 'kesehatan', 'menyarankan', 'mengemudi', 'menyebabkan', 'ketegangan', 'tekanan', 'darah', 'meningkat']
['sering', 'merasakan', 'tekanan', 'tampil', 'saat', 'presentasi', 'sekolah']
['Profesional', 'kesehatan', 'mengatakan', 'brokoli', 'baik', 'kesehatan']
['Teman', 'seorang', 'pemain', 'bisbol', 'pernah', 'mendapatkan', 'juara']
['Pemain', 'bisbol', 'bernama', 'Flash', 'suka', 'memakan', 'brokoli']
['Sopir', 'mengemudi', 'mendapatkan', 'tekanan', 'penumpangnya']
['bertanding', 'olahraga', 'memberikan', 'ketegangan', 'meningkatkan', 'tekanan', 'darah', 'penonton']
['Ibuku', 'menyarankan', 'memakan', 'brokoli', 'tekanan', 'darah', 'terkontrol']


## Doc tuples

In [14]:
doc_tup = []
for _ in doc_con:
    tup = []
    for w in _:
        tup.append(nltk.tag.str2tuple(w))
    doc_tup += [tup]

for _ in doc_tup:
    print(_)

[('Brokoli', 'NN'), ('bagus', 'NN'), ('dimakan', 'VBT'), ('Adikku', 'NN'), ('suka', 'VBI'), ('makan', 'VBT'), ('brokoli', 'NN'), ('ibuku', 'NN')]
[('Ibuku', 'NN'), ('menghabiskan', 'VBT'), ('banyak', 'JJ'), ('waktu', 'NN'), ('berkeliling', 'NN'), ('melihat', 'VBT'), ('adikku', 'NNP'), ('latihan', 'NN'), ('bisbol', 'NN')]
[('ahli', 'NN'), ('kesehatan', 'NN'), ('menyarankan', 'VBT'), ('mengemudi', 'VBT'), ('menyebabkan', 'VBT'), ('ketegangan', 'NN'), ('tekanan', 'NN'), ('darah', 'NN'), ('meningkat', 'VBI')]
[('sering', 'JJ'), ('merasakan', 'VBT'), ('tekanan', 'NN'), ('tampil', 'NN'), ('saat', 'NN'), ('presentasi', 'NN'), ('sekolah', 'NN')]
[('Profesional', 'NNP'), ('kesehatan', 'NN'), ('mengatakan', 'VBI'), ('brokoli', 'NN'), ('baik', 'JJ'), ('kesehatan', 'NN')]
[('Teman', 'NN'), ('seorang', 'NN'), ('pemain', 'NN'), ('bisbol', 'NN'), ('pernah', 'NN'), ('mendapatkan', 'VBT'), ('juara', 'NN')]
[('Pemain', 'NN'), ('bisbol', 'NN'), ('bernama', 'VBT'), ('Flash', 'NN'), ('suka', 'VBI'), ('mema

## Coba tagging setelah dihilangkan Cfunc (berbeda)

In [15]:
coba_tagged = []
for doc in documents:
    try:
        init_tag()
        join_token = []
        
        if len(doc) == 0: continue
        strtag = " ".join(doc).strip()
        join_token.extend(mt.taggingStr(strtag))
        coba_tagged += [join_token]
    except:
        print ("Error Exception")

for _ in coba_tagged:
    print (_)

['Brokoli/NN', 'bagus/IN', 'dimakan/VBT', 'Adikku/NN', 'suka/VBI', 'makan/VBT', 'brokoli/NN', 'ibuku/NN']
['Ibuku/NN', 'menghabiskan/VBT', 'banyak/JJ', 'waktu/NN', 'berkeliling/NN', 'melihat/VBT', 'adikku/NNP', 'latihan/NN', 'bisbol/NN']
['ahli/NN', 'kesehatan/NN', 'menyarankan/VBT', 'mengemudi/VBT', 'menyebabkan/VBT', 'ketegangan/NN', 'tekanan/NN', 'darah/NN', 'meningkat/VBI']
['sering/JJ', 'merasakan/VBT', 'tekanan/NN', 'tampil/NN', 'saat/NN', 'presentasi/NN', 'sekolah/NN']
['Profesional/NNP', 'kesehatan/NN', 'mengatakan/VBI', 'brokoli/NN', 'baik/JJ', 'kesehatan/NN']
['Teman/NN', 'seorang/NN', 'pemain/NN', 'bisbol/NN', 'pernah/NN', 'mendapatkan/VBT', 'juara/NN']
['Pemain/NN', 'bisbol/NN', 'bernama/NN', 'Flash/NN', 'suka/VBI', 'memakan/VBT', 'brokoli/NN']
['Sopir/NNP', 'mengemudi/VBT', 'mendapatkan/VBT', 'tekanan/NN', 'penumpangnya/NN']
['bertanding/NN', 'olahraga/NN', 'memberikan/VBT', 'ketegangan/NN', 'meningkatkan/VBT', 'tekanan/NN', 'darah/NN', 'penonton/NN']
['Ibuku/NN', 'menyara

# LDA

In [16]:
from lda.ldamodel import LdaModel

In [17]:
lda = LdaModel(documents, 4, 0.1, 0.1)

In [18]:
lda.print_topics()

0 memakan 2
0 bisbol 2
0 Ibuku 2
0 melihat 1
0 bernama 1
0 Flash 1
0 brokoli 1
0 meningkatkan 1
0 Pemain 1
0 waktu 1
0 bagus 1
0 menghabiskan 1
0 adikku 1
0 suka 1
0 latihan 1
1 tekanan 3
1 darah 3
1 ketegangan 2
1 menyarankan 2
1 meningkat 1
1 olahraga 1
1 bertanding 1
1 memberikan 1
1 penonton 1
1 mengemudi 1
1 kesehatan 1
1 menyebabkan 1
1 ahli 1
1 terkontrol 1
2 tekanan 2
2 mendapatkan 2
2 berkeliling 1
2 presentasi 1
2 Sopir 1
2 penumpangnya 1
2 banyak 1
2 sering 1
2 tampil 1
2 merasakan 1
2 saat 1
2 sekolah 1
3 brokoli 3
3 kesehatan 2
3 Brokoli 1
3 suka 1
3 makan 1
3 ibuku 1
3 mengemudi 1
3 pernah 1
3 bisbol 1
3 dimakan 1
3 Adikku 1
3 Teman 1
3 seorang 1
3 pemain 1
3 juara 1
3 Profesional 1
3 mengatakan 1
3 baik 1


In [19]:
lda.print_topics2()

['Brokoli', 'bagus', 'dimakan', 'Adikku', 'suka', 'makan', 'brokoli', 'ibuku']
Topik 3:  7
Topik 0:  1
['Ibuku', 'menghabiskan', 'banyak', 'waktu', 'berkeliling', 'melihat', 'adikku', 'latihan', 'bisbol']
Topik 0:  7
Topik 2:  2
['ahli', 'kesehatan', 'menyarankan', 'mengemudi', 'menyebabkan', 'ketegangan', 'tekanan', 'darah', 'meningkat']
Topik 1:  9
['sering', 'merasakan', 'tekanan', 'tampil', 'saat', 'presentasi', 'sekolah']
Topik 2:  7
['Profesional', 'kesehatan', 'mengatakan', 'brokoli', 'baik', 'kesehatan']
Topik 3:  6
['Teman', 'seorang', 'pemain', 'bisbol', 'pernah', 'mendapatkan', 'juara']
Topik 3:  6
Topik 2:  1
['Pemain', 'bisbol', 'bernama', 'Flash', 'suka', 'memakan', 'brokoli']
Topik 0:  6
Topik 3:  1
['Sopir', 'mengemudi', 'mendapatkan', 'tekanan', 'penumpangnya']
Topik 2:  4
Topik 3:  1
['bertanding', 'olahraga', 'memberikan', 'ketegangan', 'meningkatkan', 'tekanan', 'darah', 'penonton']
Topik 1:  7
Topik 0:  1
['Ibuku', 'menyarankan', 'memakan', 'brokoli', 'tekanan', 'd

In [20]:
vocab = {1: 'makan',
         2: 'minum',
         3: 'saya'}
kk = {'Ccon': {'topic 0': {'VERB': [1, 2],
                           'NOUN': [3, 'nasi'],
                           'ADJ': ['pedas', 'manis']
                          },
               'topic 1': {'VERB': ['lari', 'jalan'],
                           'NOUN': ['sepeda', 'roda'],
                           'ADJ': ['pelan', 'cepat']
                          },
               'topic 2': {'VERB': ['tidur', 'pejam'],
                           'NOUN': ['kasur', 'bantal'],
                           'ADJ': ['nyenyak']
                          }
               },
      'Cfunc': {'IN': ['di', 'ke'],
                'MD': ['bisa', 'sanggup'],
                'DT': ['ini', 'itu']
               }
     }

In [21]:
lda.insert_into_Ccon(Kelas["Ccon"], doc_tup)

{'topic 0': defaultdict(<class 'list'>, {'VBT': ['meningkatkan', 'melihat', 'memakan', 'menghabiskan', 'bernama'], 'NN': ['brokoli', 'Ibuku', 'waktu', 'Pemain', 'bagus', 'latihan', 'Flash', 'bisbol'], 'NNP': ['adikku'], 'VBI': ['suka']}), 'topic 1': defaultdict(<class 'list'>, {'NN': ['darah', 'ahli', 'kesehatan', 'olahraga', 'tekanan', 'penonton', 'ketegangan'], 'VBT': ['menyebabkan', 'memberikan', 'mengemudi', 'menyarankan'], 'VBI': ['meningkat', 'bertanding'], 'JJ': ['terkontrol']}), 'topic 2': defaultdict(<class 'list'>, {'NN': ['penumpangnya', 'saat', 'tampil', 'sekolah', 'presentasi', 'tekanan', 'berkeliling'], 'VBT': ['mendapatkan', 'merasakan'], 'NNP': ['Sopir'], 'JJ': ['sering', 'banyak']}), 'topic 3': defaultdict(<class 'list'>, {'NN': ['brokoli', 'Brokoli', 'kesehatan', 'pemain', 'seorang', 'Teman', 'ibuku', 'Adikku', 'juara', 'pernah', 'bisbol'], 'VBI': ['suka', 'mengatakan'], 'VBT': ['mengemudi', 'dimakan', 'makan'], 'NNP': ['Profesional'], 'JJ': ['baik']})}


In [22]:
print(Kelas)

{'Ccon': {'topic 0': defaultdict(<class 'list'>, {'VBT': ['meningkatkan', 'melihat', 'memakan', 'menghabiskan', 'bernama'], 'NN': ['brokoli', 'Ibuku', 'waktu', 'Pemain', 'bagus', 'latihan', 'Flash', 'bisbol'], 'NNP': ['adikku'], 'VBI': ['suka']}), 'topic 1': defaultdict(<class 'list'>, {'NN': ['darah', 'ahli', 'kesehatan', 'olahraga', 'tekanan', 'penonton', 'ketegangan'], 'VBT': ['menyebabkan', 'memberikan', 'mengemudi', 'menyarankan'], 'VBI': ['meningkat', 'bertanding'], 'JJ': ['terkontrol']}), 'topic 2': defaultdict(<class 'list'>, {'NN': ['penumpangnya', 'saat', 'tampil', 'sekolah', 'presentasi', 'tekanan', 'berkeliling'], 'VBT': ['mendapatkan', 'merasakan'], 'NNP': ['Sopir'], 'JJ': ['sering', 'banyak']}), 'topic 3': defaultdict(<class 'list'>, {'NN': ['brokoli', 'Brokoli', 'kesehatan', 'pemain', 'seorang', 'Teman', 'ibuku', 'Adikku', 'juara', 'pernah', 'bisbol'], 'VBI': ['suka', 'mengatakan'], 'VBT': ['mengemudi', 'dimakan', 'makan'], 'NNP': ['Profesional'], 'JJ': ['baik']})}, 'Cfu