# Topik Modelling dengan Jupyter Notebook dengan menggunakan metode LSA (Latent Semantic Analysis)

Berikut langkah - langkah yang harus dilakukan : <br>
1 Pre-Processing. <br> Pada tahap ini ada 3 proses, yaitu: </br>
    <ul>
        <li> Pengecekan Missing Value
        <li> Melakukan Stopword
        <li> Melakukan Proses TF-IDF 
    </ul>
2 Penerapan Model LSA

## 1. Pre-Processing

Data preprocessing adalah proses awal untuk mengubah data mentah menjadi data yang lebih efisien dan siap untuk diproses di langkah selanjutnya. Proses ini dilakukan karena data mentah sering kali mengalami error, missing value, dan tidak konsisten. Maka dari itu Pre-Processing data dilakukan agar hasilnya tepat dan akurat. Dengan begitu, data tersebut dapat dilakukan untuk proses selanjutnya yaitu analisis data.

### <li> Pengecekan Missing Value

Missing Value merupakan hilangnya beberapa data yang di peroleh. Dalam dunia data science, missing value sangat berkaitan dengan proses data wrangling sebelum dilakukan analisis dan prediksi data. Data wrangling merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor (mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan sufiks, prefiks dan lain-lain. <br><br>
berikut merupakan proses pengidentifikasian missing value :

>Import modul yang dibutuhkan

In [1]:
import pandas as pd
import numpy as np

> read data yang akan digunakan

In [2]:
data = pd.read_csv('data.csv')
data.head(12)

Unnamed: 0,Judul,Mahasiswa,Dosbing_1,Dosbing_2,Abstrak_indo,Abstract_english
0,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,Penulis : Sandy Ardiansyah,"Dosen Pembimbing I : Dr. Ir. Nurita Andriani, MM.","Dosen Pembimbing II :Suyono, S.E., M. S. M.",ABSTRAK\r\n\tTujuan penelitian ini adalah mend...,ABSTRACT\r\nThe purpose of this study is to de...
1,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Penulis : Mahrus Saleh,"Dosen Pembimbing I : Dr.H Pribanus Wantara, Dr...","Dosen Pembimbing II :Hadi Purnomo, SE., MM",Objek penelitian ini adalah pembelian produk X...,Object this research is consumer product of XL...
2,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Penulis : Mira Dwiastuti,"Dosen Pembimbing I : Hj Evaliati Amaniyah, S.E...","Dosen Pembimbing II :Echsan Gani, S.E, M.Si",Suatu keputusan investasi selalu berhubungan d...,An investment decision is always associated wi...
3,PENGARUH KOMPETENSI DOSEN TERHADAP KINERJA DOS...,Penulis : Aththaariq,"Dosen Pembimbing I : Dr.RM Moch Wispandono,.S....",Dosen Pembimbing II :Dr. Muhammad Alkirom Wild...,"Abstrak\r\n\r\nAththaariq, Pengaruh Kompetensi...",Abstract\r\n\r\nThis study is aimed to analyze...
4,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,Penulis : SATIYAH,Dosen Pembimbing I : Dra. Hj. S. Anugrahini Ir...,"Dosen Pembimbing II :Helmi Buyung Aulia,S,ST.S...",ABSTRAK\r\...,ABSTRACT...
5,analisis faktor-faktor yang berpengaruh terhad...,Penulis : Jailani,"Dosen Pembimbing I : Hj. Evaliati amaniyah, SE...","Dosen Pembimbing II :Purnamawati, SE., M.Si",ABSTRAK\r\nTujuan penelitian ini adalah untuk ...,ABSTRACT\r\nThe objective of this research was...
6,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,Penulis : agustin pratiwi,Dosen Pembimbing I : Drs.Ec. Mudji Kuswinarno....,"Dosen Pembimbing II :Faidal. S.E, MM.",ABSTRAK \r\n\r\n\tTujuan penelitian ini adalah...,ABSTRACT\r\n\r\n The purpose of this s...
7,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Penulis : AHMAD ZAINI ALI,"Dosen Pembimbing I : R. GATOT HERU PRANJOTO, S...","Dosen Pembimbing II :PURNAMAWATI, SE., MSi",Pendekatan penelitian yang digunakan dalam pen...,The research approach used in this study is a ...
8,PENGARUH KUALITAS PELAYANAN TERHADAP KEPUASAN ...,Penulis : Annisa Lupita Rachmi Widhiastuti,Dosen Pembimbing I : Dr. H. Muh. Syarif. Drs E...,Dosen Pembimbing II :Yustina Chrismardani. S.S...,ABSTRAK\r\n\r\nTujuan penelitian ini adalah un...,ABSTRACT\r\nThe purpose of this study was to f...
9,PENGARUH PERILAKU KONSUMEN TERHADAP KEPUTUSAN ...,Penulis : Bany Azhar,"Dosen Pembimbing I : dr.drs.Ec.H.Muh.Syarif,Msi","Dosen Pembimbing II :Hadi Purnomo, SE., MM",ABSTRAK\r\nTujuan penelitian ini adalah untuk ...,ABSTRACT\r\nThe purposes of this research (1) ...


In [3]:
data.shape

(12, 6)

>Setelah kita read data, kita cek datanya dan kita cek banyaknya baris dan kolom .

>Lalu kita cek jumlah missing value di tiap fiturnya

In [4]:
np.sum(data.isnull())

Judul               0
Mahasiswa           0
Dosbing_1           0
Dosbing_2           0
Abstrak_indo        0
Abstract_english    0
dtype: int64

>kode diatas untuk melakukan pengecekan missing value pada masing-masing fiturnya

Setelah dicek, dapat diketahui bahwa dari 12 dataset dan 6 fitur, tidak ditemukan missing value satu pun. <br>
Dikarenakan tidak ada missing value yang ditemukan, maka tidak perlu dilakukan pemrosesan metode apapun untuk menangani missing value

### <li> Melakukan Stopword

Dalam tahap ini, dataset yang telah dilakukan Pre-Processing data pada fitur "Abstrak_indo" akan di hapus kata-kata penghubungnya menggunakan bantuan library "nltk" 

>Import Library

In [5]:
import nltk
nltk.download('popular')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\nyamb\AppData\Roaming\nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\nyamb\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\nyamb\AppData\Roaming\nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\nyamb\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\nyamb\AppData\Roaming\nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]   

In [6]:
contents = data['Abstrak_indo']
contents = contents.str.lower()

>Script diatas berfungsi untuk membuat variabel "contents" yang berisi data "Abstrak_indo" lalu mengubah semua data menjadi lower case (dijadikan huruf kecil) agar sesuai dengan library stopword dari "nltk"

In [8]:
def stopping_word(contents):    
    data_kata = []
    stop_words = stopwords.words('english')
    stop_words2 = stopwords.words('indonesian')
    stop_words.extend(stop_words2)
    jmlData = contents.shape 
    for i in range(jmlData[0]):
        word_tokens = word_tokenize(contents[i])
        # print(word_tokens)
            
        word_tokens_no_stopwords = [w for w in word_tokens if not w in stop_words]

        special_char = "+=`@_!#$%^&*()<>?/\|}{~:;.[],1234567890‘’'" + '"“”●'
        out_list = [''.join(x for x in string if not x in special_char) for string in word_tokens_no_stopwords]
        # print('List after removal of special characters:', out_list)

        while '' in out_list:
            out_list.remove('')
        data_kata.append(out_list)
    return data_kata

>Code diatas digunakan untuk melakukan stopword

In [9]:
stop_kata = stopping_word(contents)
data['stop_kata'] = stop_kata

>Lalu kita buat variabel "stop_kata" yang berisi data stopword dari variabel "content"

In [10]:
data['stop_kata']

0     [abstrak, tujuan, penelitian, mendeskripsikan,...
1     [objek, penelitian, pembelian, produk, xl, kec...
2     [keputusan, investasi, berhubungan, keuntungan...
3     [abstrak, aththaariq, pengaruh, kompetensi, do...
4     [abstrak, satiyah, pengaruh, faktor-faktor, pe...
5     [abstrak, tujuan, penelitian, pengaruh, variab...
6     [abstrak, tujuan, penelitian, variabel, kompen...
7     [pendekatan, penelitian, penelitian, pendekata...
8     [abstrak, tujuan, penelitian, pengaruh, variab...
9     [abstrak, tujuan, penelitian, pengaruh, perila...
10    [tujuan, penelitian, pengaruh, variabel, perse...
11    [abstrak, tujuan, penelitian, variabel, harga,...
Name: stop_kata, dtype: object

>Lalu kita tampilkan semua hasil stopword dari setiap dokumen

### <li> Term Frequency — Inverse Document Frequency (TF-IDF)

TF-IDF (Term Frequency Inverse Document Frequency) merupakan metode pembobotan dalam bentuk integrasi antar term frequency dengan inverse document frequency. Metode TF-IDF digunakan untuk memilih fitur sebagai hasil ringkasan, dengan penerapannya pada seleksi fitur bobot kata.

Inti utama dari algoritma ini adalah melakukan perhitungan nilai TF dan nilai IDF dari sebuah setiap kata kunci terhadap masing-masing dokumen. Nilai TF dihitung dengan rumus TF = jumlah frekuensi kata terpilih / jumlah kata dan nilai IDF dihitung dengan rumus IDF = log(jumlah dokumen / jumlah frekuensi kata terpilih). Selanjutnya kedua hasil ini akan dikalikan sehingga menghasilkan TF-IDF. <br><br> TF-IDF dihitung dengan menggunakan persamaan seperti berikut.

$$
W_{i, j}=\frac{n_{i, j}}{\sum_{j=1}^{p} n_{j, i}} \log _{2} \frac{D}{d_{j}}
$$

Keterangan:

$
{W_{i, j}}\quad\quad\>: \text { pembobotan tf-idf untuk term ke-j pada dokumen ke-i } \\
{n_{i, j}}\quad\quad\>\>: \text { jumlah kemunculan term ke-j pada dokumen ke-i }\\
{p} \quad\quad\quad\>\>: \text { banyaknya term yang terbentuk }\\
{\sum_{j=1}^{p} n_{j, i}}: \text { jumlah kemunculan seluruh term pada dokumen ke-i }\\
{d_{j}} \quad\quad\quad: \text { banyaknya dokumen yang mengandung term ke-j }\\
$

>Langkah pertama untuk melakukan proses TF-IDF tentunya import library yang akan kita gunakan

In [11]:
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer

>Mempersiapkan data yang sudah di stopword sebelumnya agar sesuai dengan format inputan dari salah satu library TF-IDF 

In [12]:
data['stop_kata_join'] = [' '.join(map(str, l)) for l in data['stop_kata']]
data['stop_kata_join']

0     abstrak tujuan penelitian mendeskripsikan inov...
1     objek penelitian pembelian produk xl kecamatan...
2     keputusan investasi berhubungan keuntungan ris...
3     abstrak aththaariq pengaruh kompetensi dosen k...
4     abstrak satiyah pengaruh faktor-faktor pelatih...
5     abstrak tujuan penelitian pengaruh variabel cu...
6     abstrak tujuan penelitian variabel kompensasi ...
7     pendekatan penelitian penelitian pendekatan ku...
8     abstrak tujuan penelitian pengaruh variabel ku...
9     abstrak tujuan penelitian pengaruh perilaku ko...
10    tujuan penelitian pengaruh variabel persepsi n...
11    abstrak tujuan penelitian variabel harga kuali...
Name: stop_kata_join, dtype: object

>Menggunakan library CountVectorizer untuk mendapatkan value dari setiap kata yang muncul didalam sebuah dokumen, lalu memasukkannya dalam variabel "bag"

In [13]:
vectorizer = CountVectorizer()
bag = vectorizer.fit_transform(data['stop_kata_join'])

In [14]:
print(bag, '\n')
print(bag.shape)

  (0, 0)	1
  (0, 382)	1
  (0, 259)	3
  (0, 201)	1
  (0, 119)	5
  (0, 152)	5
  (0, 30)	5
  (0, 155)	3
  (0, 254)	3
  (0, 72)	1
  (0, 239)	3
  (0, 319)	3
  (0, 175)	3
  (0, 53)	1
  (0, 169)	1
  (0, 257)	1
  (0, 94)	1
  (0, 366)	2
  (0, 268)	1
  (0, 50)	4
  (0, 396)	1
  (0, 235)	1
  (0, 266)	1
  (0, 76)	1
  (0, 10)	1
  :	:
  (11, 372)	2
  (11, 261)	1
  (11, 328)	1
  (11, 65)	1
  (11, 345)	1
  (11, 77)	1
  (11, 352)	1
  (11, 267)	1
  (11, 170)	1
  (11, 122)	1
  (11, 14)	1
  (11, 156)	1
  (11, 208)	2
  (11, 168)	7
  (11, 312)	1
  (11, 33)	1
  (11, 390)	1
  (11, 190)	5
  (11, 108)	5
  (11, 28)	1
  (11, 96)	1
  (11, 288)	1
  (11, 73)	1
  (11, 1)	1
  (11, 3)	1 

(12, 402)


Variabel "bag" berisi total kemunculan kata dalam corpus yang muncul dalam setiap dokumen.  Jadi dari variabel ini dapat diketahui total kata yang diperoleh dari 12 dokumen adalah sebanyak 402 kata, yang dimana setiap dokumen akan menghitung term frequency-nya masing-masing dari daftar kata didalam corpus 12 data ini.

In [15]:
print(vectorizer.vocabulary_)

{'abstrak': 0, 'tujuan': 382, 'penelitian': 259, 'mendeskripsikan': 201, 'inovasi': 119, 'keunggulan': 152, 'bersaing': 30, 'kinerja': 155, 'pemasaran': 254, 'diterapkannya': 72, 'optik': 239, 'reza': 319, 'lamongan': 175, 'deskriptif': 53, 'kualitatif': 169, 'pendekatan': 257, 'fenomenologi': 94, 'teknik': 366, 'pengumpulan': 268, 'data': 50, 'wawancara': 396, 'observasi': 235, 'penggunaan': 266, 'dokumen': 76, 'analisis': 10, 'reduction': 310, 'display': 68, 'conclusion': 44, 'drawing': 81, 'verification': 393, 'hasil': 106, 'perusahaan': 282, 'meningkatkan': 211, 'menerapkan': 203, 'volume': 395, 'omzet': 238, 'penjualan': 270, 'meningkat': 210, 'terbukti': 368, 'mengalami': 204, 'peningkatan': 269, 'produk': 292, 'ditawarkannya': 70, 'perbaikan': 272, 'pangsa': 243, 'pasarnya': 246, 'meluas': 193, 'daerah': 47, 'jawa': 128, 'timur': 376, 'kunci': 173, 'objek': 234, 'pembelian': 255, 'xl': 400, 'kecamatan': 139, 'bangkalan': 17, 'sampel': 327, 'konsumen': 165, 'meguji': 192, 'hipote

Diatas merupakan 402 kata yang ada dalam seluruh dokumen

>Pemrosesan TF-IDF

In [16]:
tfidf = TfidfTransformer(use_idf=True,norm='l2',smooth_idf=True)
vect_abstrak=tfidf.fit_transform(bag)

>buat variabel "vect_abstrak" yang berisi data dalam variabel "bag" yang telah dilakukan proses fit transform

In [17]:
print(vect_abstrak)

  (0, 396)	0.06825539449816322
  (0, 395)	0.07947656181520893
  (0, 393)	0.07947656181520893
  (0, 382)	0.034935683350761415
  (0, 376)	0.07947656181520893
  (0, 368)	0.06825539449816322
  (0, 366)	0.07570302990096782
  (0, 319)	0.2384296854456268
  (0, 310)	0.07947656181520893
  (0, 292)	0.04907268226752964
  (0, 282)	0.060293849584575364
  (0, 272)	0.07947656181520893
  (0, 270)	0.07947656181520893
  (0, 269)	0.07947656181520893
  (0, 268)	0.060293849584575364
  (0, 266)	0.07947656181520893
  (0, 259)	0.08302441141780537
  (0, 257)	0.041111137353941785
  (0, 254)	0.20476618349448963
  (0, 246)	0.07947656181520893
  (0, 243)	0.07947656181520893
  (0, 239)	0.2384296854456268
  (0, 238)	0.07947656181520893
  (0, 235)	0.07947656181520893
  (0, 211)	0.060293849584575364
  :	:
  (11, 147)	0.22528652161584894
  (11, 122)	0.050198796552675076
  (11, 110)	0.0746091693912634
  (11, 108)	0.33084865079575393
  (11, 106)	0.02488546568490376
  (11, 105)	0.30119277931605043
  (11, 96)	0.06616973015

Diatas ini merupakan daftar TF-IDF didalam setiap dokumen yang nilainya bukan 0 (terdapat kata yang muncul)

>Menampilkan data hasil pemrosesan TD-IDF kedalam bentuk DataFrame agar lebih mudah dibaca

In [18]:
term=vectorizer.get_feature_names_out()
term

array(['abstrak', 'accidental', 'adaro', 'adjusted', 'agro',
       'aksesibilitas', 'aktif', 'aktiva', 'alat', 'alkirom', 'analisis',
       'analitik', 'aplikasi', 'astra', 'asumsi', 'aththaariq', 'aulia',
       'bangkalan', 'bangkalansecara', 'bank', 'bantuan', 'bauran',
       'bebas', 'benar', 'berdasar', 'berdasarkan', 'berganda',
       'berhubungan', 'berlandaskan', 'berpengaruh', 'bersaing',
       'bertujuan', 'berusaha', 'besarnya', 'beta', 'bimbingan',
       'bintang', 'bursa', 'businees', 'business', 'buyung', 'cabang',
       'cair', 'ci', 'conclusion', 'current', 'cut', 'daerah', 'dana',
       'dananya', 'data', 'daya', 'debt', 'deskriptif', 'determinasi',
       'deviden', 'dianalisis', 'diatas', 'dibawah', 'dibentuk',
       'didapatkan', 'diharapkan', 'dilaksanakan', 'dinas', 'diolah',
       'dipengaruhi', 'diperoleh', 'disimpulkan', 'display', 'distribusi',
       'ditawarkannya', 'diteliti', 'diterapkannya', 'ditetapkan',
       'dividen', 'dividend', 'dokumen',

variabel "term" berisi daftar list kata didalam corpus

In [19]:
df_Tf_Idf =pd.DataFrame(data=vect_abstrak.toarray(), columns=[term])
df_Tf_Idf.head()

Unnamed: 0,abstrak,accidental,adaro,adjusted,agro,aksesibilitas,aktif,aktiva,alat,alkirom,...,variebel,verification,versi,volume,wawancara,wildan,windows,wispandono,xl,yamaha
0,0.037852,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.079477,0.0,0.079477,0.068255,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.346901,0.0
2,0.0,0.0,0.038308,0.0,0.038308,0.0,0.029062,0.038308,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.023769,0.0,0.0,0.0,0.0,0.0,0.037862,0.0,0.0,0.049908,...,0.0,0.0,0.0,0.0,0.0,0.049908,0.0,0.049908,0.0,0.0
4,0.018811,0.0,0.0,0.0,0.0,0.0,0.029964,0.0,0.0,0.0,...,0.0,0.0,0.033921,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Menampilkan dataframe dari data yang telah diproses

In [20]:
df_Tf_Idf.shape

(12, 402)

Dari hasil diatas dapat diketahui kata-kata yang tidak muncul didalam setiap dokumen memiliki nilai TF-IDF nol (0) sedangkan kata-kata yang muncul memiliki nilainya masing-masing

## 1. Penerapan LSA (Latent Semantic Analysis)

LSA dapat digunakan untuk mengekstrak topik yang tidak secara tersurat dapat dibaca dari sebuah kumpulan dokumen.<br>

A = σ Σ U<br>

Komputasi dasar yang ada di dalam LSA adalah perhitungan dua matriks yang berisi vektor eigen, umumnya dinotasikan sebagai σ dan U, serta satu matriks diagonal, umumnya dinotasikan sebagai Σ, yang kesemuanya mengkonstruksi sebuah matriks A, yaitu korpus atau kumpulan dokumen.

>Langkah awal kita import librarynya terlebih dahulu

In [21]:
from sklearn.decomposition import TruncatedSVD

>Pemrosesan LSA

In [22]:
lsa_model = TruncatedSVD(n_components=12, algorithm='randomized', n_iter=10, random_state=42)
lsa_top=lsa_model.fit_transform(vect_abstrak)

kita lakukan proses LSA dengan <br>
lalu buat variabel "lsa_top" berisi data "vect_abstrak" yang telah di lakukan proses fit transform ke lsa_model

In [23]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 1.48238828e-01  9.55335538e-03  3.52646005e-01  5.61366614e-01
  -3.69232209e-01  1.51694087e-01 -4.93409831e-01 -3.61748911e-01
  -4.75877690e-02  3.46457326e-02  1.68450208e-02  3.21647182e-02]
 [ 6.23594765e-01 -2.73744353e-01 -2.25230393e-01  2.97777806e-01
  -2.29597198e-03  1.28558760e-01  1.41424750e-01  6.73462793e-02
  -4.67343054e-02 -4.64358902e-01 -1.48414815e-01 -3.40417239e-01]
 [ 7.66471050e-02  1.42066816e-01  1.59717145e-01  1.65365775e-01
   8.85075312e-01  2.61585648e-01 -2.57122178e-01 -1.13968608e-02
   4.66081070e-03  8.16903441e-03 -5.33102335e-02  1.13725884e-02]
 [ 2.29729183e-01  5.04702806e-02  5.14388433e-01  1.47320480e-01
  -2.89205424e-02 -4.21978371e-01 -1.28635939e-01  6.74943955e-01
   7.50957397e-02 -3.42962770e-02  6.96699302e-04 -2.37421305e-02]
 [ 1.66403849e-01  1.11563144e-03  4.12183655e-01 -3.56036183e-01
  -1.91028209e-01  7.20784802e-01  9.93314271e-02  2.42697751e-01
  -2.24592410e-01 -1.18909504e-02  1.52319320e-02  6.69256481e-03]
 [ 4.

In [24]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
    print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  14.823882835793098
Topic  1  :  0.9553355376840661
Topic  2  :  35.26460049303363
Topic  3  :  56.13666137200081
Topic  4  :  -36.923220925848845
Topic  5  :  15.16940873730705
Topic  6  :  -49.34098313962991
Topic  7  :  -36.17489112553782
Topic  8  :  -4.7587768964035035
Topic  9  :  3.4645732600801527
Topic  10  :  1.6845020786928928
Topic  11  :  3.2164718197986977


In [25]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(12, 402)
[[ 3.91283910e-02  2.27676870e-02  1.32811756e-03 ...  5.18607943e-03
   9.78495012e-02  5.61981559e-02]
 [ 7.69515288e-03 -1.24775084e-02  4.09267657e-03 ...  1.89423009e-03
  -7.14126814e-02 -3.32638158e-02]
 [ 3.55312713e-02 -7.66745961e-03  5.62190109e-03 ...  2.35887588e-02
  -7.17916689e-02  3.50418993e-02]
 ...
 [ 1.83838296e-02 -1.77523862e-02  4.49037756e-04 ... -2.45607342e-03
  -2.31143296e-01  4.39040532e-02]
 [ 3.67721205e-02  2.00744049e-02 -3.69547533e-03 ...  6.29197997e-05
  -9.31649102e-02 -1.25208197e-02]
 [ 1.35747005e-02  7.19701936e-02  9.03136660e-04 ... -2.45638293e-03
  -2.44805453e-01 -8.15904199e-02]]


In [26]:
# most important words for each topic
vocab = vectorizer.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:20]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
variabel produk pembelian uji kualitas keputusan penelitian harga ratio bangkalan berpengaruh konsumen signifikan merek hawaii martabak pengaruh distribusi kecamatan xl 

Topic 1: 
ratio current equity profitabilitas perusahaan debt roe return firm leverage risk size businees dividend payout bursa efek terdaftar indonesia signifikan 

Topic 2: 
kompensasi kompetensi kinerja finansial dosen langsung faktor kerja produktivitas karyawan bersaing inovasi keunggulan pelatihan pegawai pengembangan nilai nonfinansial pedagogik pt 

Topic 3: 
bersaing inovasi keunggulan kinerja pemasaran pembelian lamongan optik reza keputusan kompensasi data distribusi kecamatan xl kompetensi produk jawa mengalami konsumen 

Topic 4: 
tbk pt portofolio saham optimal risiko return astra excess kandidat beta kompensasi benar cut energy indeks off perhitungan point tunggal 

Topic 5: 
kerja produktivitas pelatihan faktor pegawai pengembangan dinas kelautan perikanan tbk pt portofolio bangkalan saham hu

