# Program Topic Modelling menggunakan LSA 

Latent Dirichlet Allocation (LDA) adalah model probabilistik generatif dari koleksi data diskrit seperti korpus teks. Ide dasarnya adalah bahwa dokumen direpresentasikan sebagai campuran acak atas topik laten (tidak terlihat).

LDA merupakan model Bayesian hirarki tiga tingkat, di mana setiap item koleksi dimodelkan sebagai campuran terbatas atas serangkaian set topik. Setiap topik dimodelkan sebagai campuran tak terbatas melalui set yang mendasari probabilitas topik. Dalam konteks pembuatan model teks, probabilitas topik memberikan representasi eksplisit dari sebuah dokumen.

Algoritma LSA (Latent Semantic Analysis) adalah salah satu algoritma yang dapat digunakan untuk menganalisa hubungan antara sebuah frase/kalimat dengan sekumpulan dokumen. Contoh yang dibahas kali ini adalah mengenai penentuan urutan peringkat data berdasarkan query yang digunakan. 

## Install Library

<p>Beberapa Hal yang pertama kali harus di persiapkan adalah libray-library yang akan dipakai. kita perlu menginstall library nltk yaitu sebuah library yang digunakan untuk membantu kita dalam bekerja dengan teks. Kemudian library pandas yaitu library yang mengatur tata letak data sehingga mudah dicari secara intuitif. selanjutnya library numpy untuk melakukan operasi vektor dan matriks dengan mengolah array dan array multidimensi. Dan library scikit-learn untuk membangun model pembelajaran mesin. Ia menyediakan banyak algoritma pembelajaran untuk regresi, pengelompokan, dan klasifikasi.</p>

In [3]:
!pip install numpy
!pip install sklearn
!pip install pandas
!pip install matplotlib
!pip install seaborn
!pip install nltk



## Import Library

<p>Untuk library yang digunakan diantaranya ada numpy, pandas, matplotlib, seaborn, nltk, dan sklearn, library ini umum digunakan pada data processing</p>

In [4]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer


#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

Matplotlib is building the font cache; this may take a moment.


<h3>Instalasi Library Tambahan</h3>
<p>Di bawah ini ada library tambahan yang harus di-install untuk memproses kata-kata yang diolah, terdapat corpus, stopwprds, punkt</p>

In [5]:
nltk.download('corpus')
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Error loading corpus: Package 'corpus' not found in index
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

## Import dokumen

<p>Import dokumen yang sudah dicrawling dengan crawler sebelumnya. Disini saya memasukkan data berformat csv. Nama filenya adalah jurnal.csv</p>

In [21]:
df=pd.read_csv(r'jurnal.csv')

### Tampilan dari 10 data yang diproses

In [22]:
df.head(10)

Unnamed: 0,Judul,Abstrak_indo
0,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Suatu keputusan investasi selalu berhubungan d...
1,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Objek penelitian ini adalah pembelian produk X...
2,analisis faktor-faktor yang berpengaruh terhad...,ABSTRAK\r\nTujuan penelitian ini adalah untuk ...
3,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,ABSTRAK\r\n\tTujuan penelitian ini adalah mend...
4,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,ABSTRAK\r\...
5,PENGARUH HARGA DAN KUALITAS PRODUK TERHADAP KE...,ABSTRAK \r\nTujuan penelitian ini adalah (1) U...
6,PENGARUH KOMPETENSI DOSEN TERHADAP KINERJA DOS...,"Abstrak\r\n\r\nAththaariq, Pengaruh Kompetensi..."
7,PENGARUH KUALITAS PELAYANAN TERHADAP KEPUASAN ...,ABSTRAK\r\n\r\nTujuan penelitian ini adalah un...
8,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Pendekatan penelitian yang digunakan dalam pen...
9,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,ABSTRAK \r\n\r\n\tTujuan penelitian ini adalah...


## Teks Prosesing

<p>Pembersihan dokumen diperlukan agar dalam proses TF/IDF tidak ada simbol-simbol yang ikut masuk ke dalam proses tersebut yang dapat mengakibatkan dokumen menjadi kurang otentik</p><br>

<p>Pada tahap ini terdapat tahap tokenizing (memotong kata pada white space atau spasi dan membuang karakter tanda baca) dan tahap stopword (kata-kata umum (Commond words) yang sering muncul, yang tidak memberikan informasi penting (yang biasanya tidak diacuhkan atau dibuang misalnya dalam proses pembuatan indeks atau daftar kata). Contoh stopword bahasa Indonesia antara lain “yang”,”di”,”ke”,dll)</p>

In [23]:
def clean_text(headline):
    le=WordNetLemmatizer()
    word_tokens=word_tokenize(headline)
    tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
    cleaned_text=" ".join(tokens)
    return cleaned_text

In [24]:
# time taking
df['abstrak_cleaned']=df['Abstrak_indo'].apply(clean_text)

### Perbandingan data yang belum dan sudah dibersihkan

In [25]:
df.head()

Unnamed: 0,Judul,Abstrak_indo,abstrak_cleaned
0,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Suatu keputusan investasi selalu berhubungan d...,Suatu keputusan investasi berhubungan keuntung...
1,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Objek penelitian ini adalah pembelian produk X...,Objek penelitian pembelian produk Kecamatan Ba...
2,analisis faktor-faktor yang berpengaruh terhad...,ABSTRAK\r\nTujuan penelitian ini adalah untuk ...,ABSTRAK Tujuan penelitian pengaruh variabel cu...
3,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,ABSTRAK\r\n\tTujuan penelitian ini adalah mend...,ABSTRAK Tujuan penelitian mendeskripsikan inov...
4,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,ABSTRAK\r\...,ABSTRAK Satiyah Pengaruh Faktor-faktor Pelatih...


<p>Data frame kolom abstrak_cleaned</p>

In [32]:
df['abstrak_cleaned'][0]

'Suatu keputusan investasi berhubungan keuntungan risiko Investor rasional menginvestasikan dananya saham efisien saham return risiko minimal Sampel penelitian saham aktif berdasarkan frekuensi perdagangan membagi dividen Tujuan penelitian membentuk portofolio optimal perbedaan return risiko saham kandidat kandidat portofolio Hasil penelitian saham kandidat portofolio saham diteliti nilai cut-off-point 0.76692 Portofolio optimal dibentuk saham excess return beta diperoleh saham masuk perhitungan portofolio optimal Komposisi proporsi dana saham Adaro Energy 12.597 Gudang Garam 13.417 Sampoerna 12.418 Astra Otopart 2.679 Multi Bintang Indonesia 8.225 Astra Agro Lestari 6.846 Goodyear Indonesia 2.973 Indika Energy 5.377 United Tractors 13.88 Pabrik Kertas Tjiwi Kimia 1.494 Indofood Sukses Makmur 4.211 Astra International 12.549 Bank Negara Indonesia 3.335 return portofolio 0.140997 risiko portofolio 0.099101 excess return beta portofolio 0.881142 Berdasarkan hasil diatas disimpulkan metod

## Term Frequency

<p>Data di atas adalah data yang sudah diproses menggunakan TF-IDF untuk menentukan Term Frequency tiap topik. TF-IDF (Term Frequency - Inverse Document Frequency) adalah algoritma praktis yang menggunakan frekuensi kata untuk menentukan seberapa relevan kata-kata itu dengan dokumen tertentu. Ini adalah pendekatan yang relatif sederhana namun intuitif untuk pembobotan kata, memungkinkannya bertindak sebagai titik awal yang bagus untuk berbagai tugas.</p>
<h3>Rumus TF-IDF</h3>

$$
\operatorname{tf}(t, d)=\frac{f_{t, d}}{\sum_{t^{\prime} \in d} f_{t^{\prime}, d}}
$$

<p></p>

In [33]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) # to play with. min_df,max_df,max_features etc...

In [34]:
vect_text=vect.fit_transform(df['abstrak_cleaned'])



In [35]:
print(vect_text.shape)
#print(vect_text)
type(vect_text)
df=pd.DataFrame(vect_text.toarray())
print(df)
idf=vect.idf_

(12, 421)
         0         1         2         3         4         5         6    \
0   0.000000  0.000000  0.000000  0.000000  0.048936  0.146808  0.084054   
1   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
2   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
3   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
4   0.039358  0.000000  0.000000  0.000000  0.000000  0.000000  0.033801   
5   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
6   0.000000  0.049824  0.000000  0.000000  0.000000  0.000000  0.000000   
7   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
8   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
9   0.000000  0.000000  0.067483  0.067483  0.000000  0.000000  0.000000   
10  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
11  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   

 

In [39]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['indonesia'])
print(dd['strategi'])  # police is most common and forecast is least common among the news headlines.

penelitian yamaha
1.9555114450274362
2.8718021769015913


## Proses LSA

<p>LSA  adalah metode yang memungkinkan kita mengekstrak topik dari dokumen dengan mengubah teksnya menjadi matriks topik-kata dan topik-dokumen. Prosedur untuk LSA relatif mudah: Ubah korpus teks menjadi matriks istilah dokumen. Menerapkan dekomposisi nilai singular terpotong.</p>

$A_{m n}=U_{m m} x S_{m n} x V_{n n}^{T}$

<p>Matriks U = baris merepresentasikan vektor pada topic dokumen</p>
<p>Matriks V = Garis ini merepresentasikan vektor istilah yang dinyatakan pada topik</p>
<p>Matriks S = Matriks diagonal yang memiliki elemen-elemen diagonal yang digunakan sebagai nilai singular A</p>

<p>tiap baris pada matriks U merupakan representasi vektor yang terdapat pada dokumen yang sesuai, untuk melakukannya dapat menggunakan library Sklearn yang bernama TruncatedSVD untuk menimplementasikan LSA</p>

In [40]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 0.09690831  0.18146421 -0.02851514  0.1024111   0.9549794  -0.04155126
   0.00484576 -0.16224744  0.00884487  0.01642086]
 [ 0.63872184 -0.27881738 -0.21721174  0.29583331 -0.01111476  0.10472484
   0.14623667  0.04705709 -0.0447434  -0.42845605]
 [ 0.38832496  0.73309537 -0.18854167  0.02645431 -0.04388628  0.03203587
  -0.01001     0.02308251 -0.01338725  0.01376602]
 [ 0.15782256  0.01698492  0.38020881  0.58159638 -0.1101049   0.20176257
  -0.55983657 -0.34871429 -0.04007405  0.02941382]
 [ 0.1790468   0.01149926  0.40395146 -0.30668276  0.11333523  0.76857085
   0.09314803  0.22635711 -0.21486584 -0.02211677]
 [ 0.75737264 -0.24648877 -0.13931266 -0.0109003   0.00418276 -0.0340293
   0.03637193 -0.00279399  0.04400535 -0.23551116]
 [ 0.24301604  0.08363384  0.51008217  0.14059333  0.08490396 -0.40141539
  -0.13475425  0.67767583  0.0781316  -0.0397776 ]
 [ 0.40155124 -0.02106521  0.14180716 -0.52571233 -0.01539321 -0.35932148
  -0.29783562 -0.25217143 -0.49416622 -0.05622672]
 

In [41]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  9.690830918089622
Topic  1  :  18.146420878324257
Topic  2  :  -2.8515144537771877
Topic  3  :  10.241109589544898
Topic  4  :  95.49794017878095
Topic  5  :  -4.155125942284578
Topic  6  :  0.48457642550380037
Topic  7  :  -16.2247435258627
Topic  8  :  0.8844870689898237
Topic  9  :  1.6420860115021991


In [42]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 421)
[[ 0.00322193  0.00553587  0.00612459 ...  0.01512606  0.00553587
   0.06050426]
 [ 0.00032885  0.00302773  0.00496568 ... -0.0071398   0.00302773
  -0.0285592 ]
 [ 0.01485215  0.02374115  0.0344618  ...  0.0076453   0.02374115
   0.03058121]
 ...
 [ 0.00976734  0.03701736 -0.02748574 ... -0.01150001  0.03701736
  -0.04600004]
 [-0.01088015  0.00500836 -0.00033354 ...  0.05250993  0.00500836
   0.21003973]
 [-0.00124154 -0.0028267   0.00416041 ...  0.01552029 -0.0028267
   0.06208114]]


<h3>Hasil TruncatedSVD</h3>

berikut adalah contoh 10 kata penting ditiap topik yang diproses

In [43]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
variabel produk pembelian kualitas keputusan penelitian harga bangkalan berpengaruh ratio 

Topic 1: 
ratio current equity profitabilitas perusahaan return debt firm leverage risk 

Topic 2: 
kompensasi kompetensi kinerja finansial langsung dosen bersaing inovasi keunggulan karyawan 

Topic 3: 
bersaing inovasi keunggulan pemasaran pembelian kinerja lamongan optik reza keputusan 

Topic 4: 
portofolio saham return optimal risiko astra excess kandidat 12 beta 

Topic 5: 
kerja produktivitas faktor pelatihan pegawai pengembangan dinas kelautan perikanan bangkalan 

Topic 6: 
kompensasi finansial langsung karyawan nonfinansial pembelian fhitung keputusan signifikan bangkalan 

Topic 7: 
kompetensi dosen pedagogik sosial kepribadian madura profesional trunojoyo universitas kerja 

Topic 8: 
pelanggan jupiter kota motor sepeda yamaha harga emosional kemudahan persepsi 

Topic 9: 
merek cair indomilk susu perilaku psikologis konsumen kebudayaan pribadi sosial 



## LDA (Latent Dirichlet Allocation)
Latent Dirichlet Allocation (LDA) adalah teknik pemodelan topik yang populer untuk mengekstrak topik dari korpus tertentu. Istilah laten menyampaikan sesuatu yang sudah ada tetapi belum berkembang. 

In [44]:
from sklearn.decomposition import LatentDirichletAllocation
lda_model=LatentDirichletAllocation(n_components=10,learning_method='online',random_state=42,max_iter=1) 
# n_components is the number of topics

In [45]:
lda_top=lda_model.fit_transform(vect_text)

In [46]:
print(lda_top.shape)  # (no_of_doc,no_of_topics)
print(lda_top)

(12, 10)
[[0.01263147 0.01263044 0.88632562 0.01263035 0.01263032 0.01263027
  0.01263037 0.01263023 0.01263047 0.01263046]
 [0.01697567 0.01697584 0.01697573 0.01697528 0.0169761  0.0169755
  0.01697588 0.0169755  0.84721891 0.01697559]
 [0.01479292 0.01479315 0.01479308 0.01479292 0.01479307 0.01479294
  0.86686174 0.01479427 0.01479292 0.01479298]
 [0.01526507 0.01526499 0.01526482 0.01526482 0.01526472 0.01526488
  0.01526473 0.01526489 0.01526484 0.86261624]
 [0.01218061 0.89037395 0.01218058 0.01218061 0.01218056 0.01218121
  0.01218068 0.01218073 0.01218058 0.01218048]
 [0.01512833 0.01512837 0.0151284  0.01512821 0.01512852 0.01512813
  0.86384415 0.01512826 0.01512848 0.01512916]
 [0.0160644  0.85541869 0.01606466 0.01606473 0.01606464 0.01606488
  0.01606463 0.01606449 0.01606438 0.01606448]
 [0.01543145 0.0154312  0.01543125 0.01543134 0.01543142 0.86111753
  0.01543206 0.01543126 0.01543129 0.01543122]
 [0.01572078 0.01572104 0.01572088 0.01572093 0.85851185 0.01572074
  0.

In [47]:
sum=0
for i in lda_top[0]:
  sum=sum+i
print(sum)

1.0000000000000002


In [48]:
# composition of doc 0 for eg
print("Document 0: ")
for i,topic in enumerate(lda_top[0]):
  print("Topic ",i,": ",topic*100,"%")

Document 0: 
Topic  0 :  1.263146557345191 %
Topic  1 :  1.2630437603801457 %
Topic  2 :  88.6325622543892 %
Topic  3 :  1.2630351342744983 %
Topic  4 :  1.2630321370350317 %
Topic  5 :  1.263026713497747 %
Topic  6 :  1.263036893867184 %
Topic  7 :  1.2630226282692552 %
Topic  8 :  1.2630474309960575 %
Topic  9 :  1.2630464899456904 %


In [49]:
print(lda_model.components_)
print(lda_model.components_.shape)  # (no_of_topics*no_of_words)

[[0.87031051 0.81812977 0.8104402  ... 0.86630556 0.69821862 0.89025664]
 [0.82180301 0.79556085 0.78032951 ... 0.73390106 0.82174958 0.76218601]
 [0.97260115 0.86177628 0.93040481 ... 0.89124693 0.81467856 0.77771142]
 ...
 [0.78882914 0.98303555 0.83039772 ... 0.83957116 0.85705763 0.7821602 ]
 [0.88628133 0.66669771 0.97110011 ... 0.80922445 0.73848641 0.95393085]
 [0.80594826 0.95143676 0.85264752 ... 0.84527538 0.81113257 0.85353812]]
(10, 421)


In [50]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lda_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
fenomenologi sukses bertujuan fleksibilitas return metode manakah manusia indomilk klasik 

Topic 1: 
produktivitas langsung pelatihan versi kompensasi debt memakai finansial tercapai kompetensi 

Topic 2: 
diperoleh 377 kandidat serviscape model 417 wawancara terbukti bimbingan mt 

Topic 3: 
skala instansi koefisiensi kelautan ftabel kepuasan hasil 2008 pedagogik pasien 

Topic 4: 
universitas positivisme tercapai upaya responden dominan moch membentuk manakah liquid 

Topic 5: 
reputasi pengaruh serviscape 2011 expected fleksibilitas garam pelanggan partisipasi diolah 

Topic 6: 
pengujian masuk kecamatan perusahaan primer pengembangan ftabel rm surabaya bangkalan 

Topic 7: 
05 multi random kepuasan wawancara probality 494 produktivitas kuesioner 000 

Topic 8: 
likuiditas aktiva international pengembangan komposisi fhitung reliabilitas 973 540 teknik 

Topic 9: 
dibentuk lestari firm penjualan bimbingan besarnya reputasi conclusion indomilk 549 

