# Topic Modeling menggunakan LDA dan LSA dengan Jupyter Notebook

<p> <em>Latent Dirichlet Allocation</em> (LDA) adalah jenis pemodelan statistik untuk menemukan "topik" abstrak yang terjadi dalam kumpulan dokumen. Latent Dirichlet Allocation (LDA) adalah contoh model topik dan digunakan untuk mengklasifikasikan teks dalam dokumen ke topik tertentu. Itu membangun topik per model dokumen dan kata-kata per model topik, dimodelkan sebagai distribusi Dirichlet.</p>

<p> <em>Latent Semantic Analysis</em> (LSA) adalah salah satu teknik dasar dalam pemodelan topik. Ide intinya adalah mengambil matriks dari apa yang kita miliki — dokumen dan istilah — dan menguraikannya menjadi matriks topik-dokumen yang terpisah dan matriks topik-istilah.</p>

<h3>Install Library</h3>

<p>Dibawah ini dicantumkan beberapa library yang dibutuhkan untuk menlakukan processing menggunakan LSA dengan jupyter notebook, anda juga bisa melakukan instalasi ini dengan menggunakan CMD untuk pengguna Windows atau Terminal untuk pengguna Linux</p>

Untuk PIP dibawah ini bisa diinstall manual menggunakan CMD/Terminal

In [55]:
# pip install numpy
# pip install sklearn
# pip install pandas
# pip install matplotlib
# pip install seaborn
# pip install nltk

<h3>Import Library</h3>

<p>Untuk library yang digunakan diantaranya ada numpy, pandas, matplotlib, seaborn, nltk, dan sklearn yang umum digunakan pada data processing</p>

In [56]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer


#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

<h3>Instalasi Library Tambahan</h3>
<p>Dibawah ini ada library tambahan yang harus diinstall untuk memroses kata-kata</p>

In [57]:
# nltk.download('corpus')
# nltk.download('stopwords')
# nltk.download('punkt')

<h3>Import dokumen</h3>

<p>Import dokumen yang sudah dicrawling dengan crawler, bisa menggunakan referensi dari web ini atau bisa menggunakan referensi kode dari website lain</p>

In [58]:
df=pd.read_csv(r'detail_abstrak.csv')

<h3>Display 10 data teratas pada dokumen</h3>

In [59]:
df.head(10)

Unnamed: 0,judul,Abstraksi
0,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Pendekatan penelitian yang digunakan dalam pen...
1,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,ABSTRAK \r\n\r\n\tTujuan penelitian ini adalah...
2,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,ABSTRAK\r\...
3,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Objek penelitian ini adalah pembelian produk X...
4,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Suatu keputusan investasi selalu berhubungan d...
5,analisis faktor-faktor yang berpengaruh terhad...,ABSTRAK\r\nTujuan penelitian ini adalah untuk ...
6,PENGARUH KUALITAS PELAYANAN TERHADAP KEPUASAN ...,ABSTRAK\r\n\r\nTujuan penelitian ini adalah un...
7,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,ABSTRAK\r\n\tTujuan penelitian ini adalah mend...
8,PENGARUH HARGA DAN KUALITAS PRODUK TERHADAP KE...,ABSTRAK \r\nTujuan penelitian ini adalah (1) U...
9,PENGARUH PERSEPSI NILAI TERHADAP KEPUASAN PELA...,Tujuan penelitian ini adalah untuk mengetahui ...


In [60]:
def clean_text(headline):
    le=WordNetLemmatizer()
    word_tokens=word_tokenize(headline)
    tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
    cleaned_text=" ".join(tokens)
    return cleaned_text

<h3>Pembersihan dokumen</h3>

<p>pembersihan dokumen diperlukan agar supaya dalam proses TF/IDF tidak ada simbol-simbol yang masuk dalam proses tersebut yang mengakibatkan dokumen menjadi kurang otentik</p>

In [61]:
# time taking
df['abstrak_cleaned']=df['Abstraksi'].apply(clean_text)

<h3>Perbandingan data yang belum dan sudah dibershkan</3>

In [62]:
df.head()

Unnamed: 0,judul,Abstraksi,abstrak_cleaned
0,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Pendekatan penelitian yang digunakan dalam pen...,Pendekatan penelitian penelitian pendekatan ku...
1,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,ABSTRAK \r\n\r\n\tTujuan penelitian ini adalah...,ABSTRAK Tujuan penelitian variabel kompensasi ...
2,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,ABSTRAK\r\...,ABSTRAK Satiyah Pengaruh Faktor-faktor Pelatih...
3,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Objek penelitian ini adalah pembelian produk X...,Objek penelitian pembelian produk Kecamatan Ba...
4,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Suatu keputusan investasi selalu berhubungan d...,Suatu keputusan investasi berhubungan keuntung...


<p>Dorp kolom Abstrak</p>

In [63]:
df.drop(['Abstraksi'],axis=1,inplace=True)

In [64]:
df.head()

Unnamed: 0,judul,abstrak_cleaned
0,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Pendekatan penelitian penelitian pendekatan ku...
1,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,ABSTRAK Tujuan penelitian variabel kompensasi ...
2,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,ABSTRAK Satiyah Pengaruh Faktor-faktor Pelatih...
3,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Objek penelitian pembelian produk Kecamatan Ba...
4,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Suatu keputusan investasi berhubungan keuntung...


<p>Data frame kolom abstrak_cleaned</p>

In [65]:
df['abstrak_cleaned'][0]

'Pendekatan penelitian penelitian pendekatan kuantitatif Populasi penelitian perusahaan liquid terdaftar Bursa Efek Indonesia teknik penarikan sampel metode Purpossive Sampling dianalisis regresi linier berganda bantuan alat analisis Statistical Program Service Solution SPSS versi Hipotesis penelitian duga pengaruh parsial simultan variabel Rasio Likuiditas Current Ratio Struktur Modal Debt Equity Ratio Profitabilitas perusahaan liquid terdaftar Bursa Efek Indonesia Hasil penelitian variabel current ratio parsial memiliki pengaruh signifikan Profitabilitas variabel debt equity ratio parsial memiliki pengaruh signifikan Profitabilitas Berdasarkan hasil simultan didapatkan hasil Current Ratio Debt Equity Ratio memiliki pengaruh signifikan Profitabilitas perusahaan-perusahaan Kata kunci Likuiditas Current Ratio Struktur Modal Debt Equity Ratio Profitabilitas'

In [66]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) # to play with. min_df,max_df,max_features etc...

In [67]:
vect_text=vect.fit_transform(df['abstrak_cleaned'])



In [68]:
print(vect_text.shape)
print(vect_text)

(23, 646)
  (0, 318)	0.028795974456481025
  (0, 142)	0.08487647230473741
  (0, 90)	0.043356564089626154
  (0, 551)	0.11244886047045657
  (0, 360)	0.174357824418222
  (0, 213)	0.07942395619659488
  (0, 495)	0.3399728014032144
  (0, 186)	0.25023919401868033
  (0, 128)	0.30000474732067406
  (0, 389)	0.15000237366033703
  (0, 580)	0.16975294460947482
  (0, 513)	0.5004783880373607
  (0, 120)	0.30000474732067406
  (0, 329)	0.15000237366033703
  (0, 511)	0.06799456028064288
  (0, 633)	0.0901357372864401
  (0, 555)	0.06272415461482114
  (0, 419)	0.10740780301801998
  (0, 442)	0.1201809830485868
  (0, 175)	0.08487647230473741
  (0, 219)	0.039287886556708874
  (0, 637)	0.06799456028064288
  (0, 570)	0.05436486551424672
  (0, 565)	0.08487647230473741
  (0, 544)	0.07500118683016851
  :	:
  (22, 571)	0.021867982447165583
  (22, 60)	0.02486569028710794
  (22, 440)	0.0290907221879145
  (22, 402)	0.01764295054635902
  (22, 95)	0.0560540854683161
  (22, 318)	0.012320039861810123
  (22, 90)	0.0185496274

<h2>Term Frequency</h2>

<p>Data di atas adalah data yang sudah diproses menggunakan TF-IDF untuk menentukan Term Frequency tiap topik. TF-IDF (Term Frequency - Inverse Document Frequency) adalah algoritma praktis yang menggunakan frekuensi kata untuk menentukan seberapa relevan kata-kata itu dengan dokumen tertentu. Ini adalah pendekatan yang relatif sederhana namun intuitif untuk pembobotan kata, memungkinkannya bertindak sebagai titik awal yang bagus untuk berbagai tugas.</p>
<h3>Rumus TF-IDF</h3>

$$
\operatorname{tf}(t, d)=\frac{f_{t, d}}{\sum_{t^{\prime} \in d} f_{t^{\prime}, d}}
$$

<p></p>

In [69]:
idf=vect.idf_
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['variabel'])
print(dd['indonesia'])  # police is most common and forecast is least common among the news headlines.

penelitian zulkifli
1.233614851181505
1.8754687373538999




<h2>Proses LSA</h2>

<p>LSA  adalah metode yang memungkinkan kita mengekstrak topik dari dokumen dengan mengubah teksnya menjadi matriks topik-kata dan topik-dokumen. Prosedur untuk LSA relatif mudah: Ubah korpus teks menjadi matriks istilah dokumen. Menerapkan dekomposisi nilai singular terpotong.</p>

$$
A_{m n}=U_{m m} x S_{m n} x V_{n n}^{T}
$$

<p>Matriks U = baris merepresentasikan vektor pada topic dokumen</p>
<p>Matriks V = Garis ini merepresentasikan vektor istilah yang dinyatakan pada topik</p>
<p>Matriks S = Matriks diagonal yang memiliki elemen-elemen diagonal yang digunakan sebagai nilai singular A</p>

<p>tiap baris pada matriks U merupakan representasi vektor yang terdapat pada dokumen yang sesuai, untuk melakukannya dapat menggunakan library SKLearn yang bernama TruncatedSVD untuk menimplementasikan LSA</p>

In [70]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)
print(pd.DataFrame(lsa_top))
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

           0         1         2         3         4         5         6  \
0   0.359833  0.551242 -0.117306  0.133227 -0.360162 -0.185330 -0.056590   
1   0.188952  0.087504  0.368328  0.427715  0.199666  0.049685 -0.220334   
2   0.166742  0.035663  0.220477  0.047753 -0.061566  0.295616  0.119783   
3   0.576957 -0.318864 -0.166088  0.019159  0.116935 -0.211178 -0.005790   
4   0.145632  0.265478 -0.092073 -0.352559  0.527928  0.197351 -0.118131   
5   0.362253  0.522561 -0.188448  0.030325 -0.306241 -0.111204 -0.258278   
6   0.333696 -0.041213  0.136977 -0.045316 -0.289514  0.435062  0.022712   
7   0.136152  0.031179  0.083154  0.337268  0.244026 -0.064695  0.134623   
8   0.703352 -0.284569 -0.141750 -0.043605 -0.021127  0.046571 -0.003042   
9   0.460783 -0.142049  0.156358 -0.104932 -0.164624  0.253450  0.093820   
10  0.527189 -0.364227 -0.240524  0.089751  0.057044 -0.165454 -0.027523   
11  0.578689 -0.357035 -0.238602  0.076750  0.044827 -0.117247 -0.013098   
12  0.262811

In [71]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  35.98329268849526
Topic  1  :  55.12423971368692
Topic  2  :  -11.730580692116135
Topic  3  :  13.322674161529754
Topic  4  :  -36.01618383810039
Topic  5  :  -18.532984226924384
Topic  6  :  -5.658985678667822
Topic  7  :  -10.785956036213902
Topic  8  :  2.5778411318688534
Topic  9  :  -4.204508811267363


In [72]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(pd.DataFrame(lsa_model.components_))

(10, 646)
        0         1         2         3         4         5         6    \
0  0.002493  0.004057  0.004849  0.004849  0.002831  0.008494  0.007207   
1  0.000833  0.002164  0.003508  0.003508  0.008063  0.024188  0.014985   
2  0.006488  0.006512  0.018604  0.018604 -0.003524 -0.010571 -0.000494   
3  0.001580  0.010322  0.024283  0.024283 -0.015163 -0.045489 -0.025402   
4 -0.002159  0.006218  0.012003  0.012003  0.024049  0.072148  0.040595   
5  0.010453  0.002620  0.003016  0.003016  0.009072  0.027216  0.025269   
6  0.004611 -0.003418 -0.014572 -0.014572 -0.005912 -0.017735 -0.006373   
7  0.025422 -0.007771 -0.008325 -0.008325 -0.004149 -0.012448  0.015131   
8  0.007581 -0.007437  0.001251  0.001251 -0.004242 -0.012727 -0.000798   
9 -0.008395  0.019537 -0.029857 -0.029857  0.001051  0.003152 -0.005561   

        7         8         9    ...       636       637       638       639  \
0  0.002831  0.007781  0.002185  ...  0.004100  0.015085  0.004100  0.018799   
1  0

<h3>Hasil TruncatedSVD</h3>

berikut adalah contoh 10 kata penting ditiap topik yang diproses

In [73]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
pembelian variabel produk keputusan penelitian kualitas bangkalan harga konsumen berpengaruh 

Topic 1: 
ratio return equity perusahaan rasio current saham perputaran profitabilitas variable 

Topic 2: 
nasabah karyawan bank cabang value kompensasi kinerja bangkalan tabungan kamal 

Topic 3: 
kinerja karyawan kompensasi finansial kompetensi langsung motivasi kemampuan bersaing inovasi 

Topic 4: 
indeks saham portofolio kinerja karyawan stock optimal risiko kompensasi return 

Topic 5: 
kualitas hubungan kepercayaan komitmen dinamika finance patner indeks multi pelayanan 

Topic 6: 
biaya rasio keuangan zmijewski kondisi springate dikategorikan kesehatan perbankan model 

Topic 7: 
perputaran kerja produktivitas pelatihan faktor pegawai pengembangan dinas kelautan perikanan 

Topic 8: 
biaya inap rawat abcs penentuan tarif tradisional perputaran activity based 

Topic 9: 
bersaing inovasi keunggulan kompetensi lamongan optik reza dosen pemasaran jawa 





<p>List di atas adalah list kata tiap topik yang sering keluar disetiap dokumen</p>

In [74]:
from sklearn.decomposition import LatentDirichletAllocation
lda_model=LatentDirichletAllocation(n_components=10,learning_method='online',random_state=42,max_iter=1) 
# n_components is the number of topics

In [75]:
lda_top=lda_model.fit_transform(vect_text)

In [76]:
print(lda_top.shape)  # (no_of_doc,no_of_topics)
print(pd.DataFrame(lda_top))

(23, 10)
           0         1         2         3         4         5         6  \
0   0.015611  0.015612  0.859497  0.015612  0.015612  0.015611  0.015612   
1   0.021243  0.021243  0.021242  0.808818  0.021242  0.021242  0.021242   
2   0.012286  0.012286  0.012286  0.012286  0.012286  0.889424  0.012286   
3   0.017378  0.017378  0.017378  0.017379  0.017378  0.017378  0.017378   
4   0.888152  0.012428  0.012427  0.012428  0.012428  0.012428  0.012428   
5   0.015000  0.015000  0.015000  0.865002  0.015000  0.015000  0.015000   
6   0.015486  0.015486  0.015486  0.015486  0.015486  0.015486  0.860626   
7   0.015463  0.015463  0.015463  0.015463  0.015463  0.015466  0.015463   
8   0.015264  0.015264  0.015263  0.015264  0.015264  0.015264  0.015264   
9   0.014198  0.014199  0.014199  0.014199  0.872213  0.014199  0.014199   
10  0.015601  0.015601  0.015601  0.015601  0.015601  0.015601  0.015601   
11  0.014662  0.014662  0.014662  0.868039  0.014662  0.014662  0.014662   
12 

In [77]:
sum=0
for i in lda_top[0]:
  sum=sum+i
print(sum)

1.0


In [78]:
# composition of doc 0 for eg
print("Document 0: ")
for i,topic in enumerate(lda_top[0]):
  print("Topic ",i,": ",topic*100,"%")

Document 0: 
Topic  0 :  1.5611413319595695 %
Topic  1 :  1.5611501068443523 %
Topic  2 :  85.9496592584182 %
Topic  3 :  1.5611818255804086 %
Topic  4 :  1.5611623071504734 %
Topic  5 :  1.5611321573660746 %
Topic  6 :  1.5611550928195912 %
Topic  7 :  1.561123006535992 %
Topic  8 :  1.5611544817861926 %
Topic  9 :  1.5611404315391626 %


In [79]:
print(pd.DataFrame(lda_model.components_))
print(lda_model.components_.shape)  # (no_of_topics*no_of_words)

        0         1         2         3         4         5         6    \
0  0.870311  0.818130  0.810440  0.810442  0.974150  0.922431  0.808980   
1  0.902026  0.870224  1.040541  0.824635  0.922427  0.929562  0.969304   
2  0.744187  0.744294  0.885731  0.739556  0.697090  0.775522  0.792177   
3  0.840807  0.965264  0.833132  0.778531  0.791136  0.731600  0.613943   
4  0.784178  0.898724  0.846433  0.751961  0.814114  0.930096  0.792551   
5  0.802068  0.986869  0.793472  0.734610  0.840387  0.825049  0.921842   
6  0.724756  0.758491  0.805123  0.704218  0.771543  0.814054  0.715245   
7  0.822521  1.026452  0.812986  0.814517  0.909192  0.895080  0.728772   
8  0.917810  0.688679  0.849550  0.903447  0.717084  0.756547  0.931859   
9  0.749599  0.873798  0.768046  0.811279  0.841005  0.876927  0.815434   

        7         8         9    ...       636       637       638       639  \
0  0.883897  0.849111  0.683661  ...  0.890262  0.822769  0.906010  0.857767   
1  0.739740  0

In [80]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lda_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
decision menyesuaikan random analitik deviden manakah optimal icmd risk hj 

Topic 1: 
expected koefisiensi hanjaya berpengaruh simple 001 mendukung ditetapkan dilaksanakan adaro 

Topic 2: 
manakah data diterapkannya purpossive dilaksanakan business wispandono turnover statistik timur 

Topic 3: 
dinilai kompensasi aktiva dianalisis variabel earning diolah 2007 bauran perbedaan 

Topic 4: 
instansi dividen menerapkan tuntutan conclusion jupiter septy juli indonesian asumsi 

Topic 5: 
value pelatihan loyalitas meluas 88 empati klasik v18 kebanyakan determinasi 

Topic 6: 
19 share optik dana pokok 846 hanjaya susu jalur probality 

Topic 7: 
anugrahini promosi dinas mandala 549 dividen bentoel jabatan delisting philippines 

Topic 8: 
540 karyawan window internasional patner emotional memakai gudang serviscape abstrak 

Topic 9: 
costing 881142 timur 16 buyung pengembnagan harga merek rawat pembelian 



