# Topik Medelling dengan Jupyter Notebook dengan menggunakan metode LSA (Latent Semantic Analysis) pada jurnal PTA Trunojoyo Ekonomi - Manajemen

Langkah-langkah yang dilakukan adalah sebagai berikut : <br>
1 Pre-Processing
    <ul>
        <li> pengecekan missing value
        <li> Melakukan Stopword
        <li> Melakukan Proses TF-IDF 
    </ul>
2 Penerapan model LSA

## 1. Pre-Processing

Data preprocessing adalah proses yang mengubah data mentah ke dalam bentuk yang lebih mudah dipahami. Proses ini dilakukan karena data mentah sering kali tidak memiliki format yang teratur. Proses ini dilakukan untuk mempersiapkan data mentah menjadi data siap pakai kedalam format yang berguna dan efisien dengan metode/ model yang akan digunakan. Dengan begitu, data tersebut dapat dilakukan untuk proses selanjutnya yaitu analisis data.

### <li> Pengecekan Missing Value

Missing Value merupakan hilangnya beberapa data yang di peroleh. Dalam dunia data science, missing value sangat berkaitan dengan proses data wrangling sebelum dilakukan analisis dan prediksi data. Data wrangling merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor (mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan sufiks, prefiks dan lain-lain. <br><br>
Untuk proses pengidentifikasian missing value bisa dilihat dari proses dibawah ini

>Import Modules

In [26]:
import pandas as pd
import numpy as np

> import dan baca dataset

In [27]:
data = pd.read_csv('data.csv', sep=',')
data.head()

Unnamed: 0,Judul,Penulis,Dosbing_1,Dosbing_2,Abstrak_indo
0,PELAPORAN BIAYA KUALITAS UNTUK MEMINIMALKAN TE...,M. Boy Singgih Gitayuda,"Drs. Ec. Makhmud Zulkifli, M.Si","rasetyo Nugroho,. S.Pi., MM",ABSTRAK\r\n\r\nPenelitian ini mengungkapkan be...
1,PENGARUH RETAILING MIX (BAURAN ECERAN) TERHADA...,Ali Usman,"Dr. Ir. Nurita Andriani, MM","adi Purnomo, SE., MM",Bauran eceran merupakan salah satu langkah pem...
2,PENGARUH CELEBRITY ENDORSER IWAN FALS TERHADAP...,Tayyi Matun,Bambang Setiyo Pambudi,ustina Chrismardani,Tujuan penelitian ini adalah mengetahui pengar...
3,Pengaruh Harga dan Kualitas Pelayanan terhadap...,ALI RAHBINI,PRIBANUS WANTARA,IRMA KURRIWATI,"Ali Rahbini, Pengaruh Harga dan Kualitas Pelay..."
4,Pengaruh Retailing Mix terhadap Keputusan Pemb...,Fitriyah,"Dr. H. Pribanus Wantara, Drs., MM","ustina Chrismardani, S.Si., MM",Tujuan penelitian ini adalah untuk mengetahui ...


In [28]:
data.shape

(50, 5)

>Script diatas untuk melakukan pengecekan jumlah tabel (row, kolom) dari dataset

In [29]:
np.sum(data.isnull())

Judul           0
Penulis         0
Dosbing_1       0
Dosbing_2       0
Abstrak_indo    0
dtype: int64

>kode diatas untuk melakukan pengecekan missing value pada masing-masing fiturnya

Dari proses pengecekan diatas, dapat diketahui bahwa dataset yang dimiliki terdapat 10 jumlah dokumen dengan 5 fitur <br>
Dan tidak ada data yang hilang didalam dataset ini, sehingga tidak perlu dilakukan pemrosesan metode apapun untuk menangani missing value

### <li> Melakukan Stopword

Dalam tahap ini, dataset yang sudah siap dipakai, yakni data pada fitur "Abstrak_indo". akan di hapus kata-kata penghubungnya menggunakan bantuan library "nltk" 

>Import Library

In [30]:
import nltk
nltk.download('popular')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\lenovo\AppData\Roaming\nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_dat

In [31]:
contents = data['Abstrak_indo']
contents = contents.str.lower()

>Script diatas digunakan untuk mengambil data dari fitur "Abstrak_indo", dan lakukan pemrosesan alphabet huruf kecil dari datanya agar sesuai dengan library stopword dari "nltk"

In [32]:
def stopping_word(contents):    
    data_kata = []
    stop_words = stopwords.words('english')
    stop_words2 = stopwords.words('indonesian')
    stop_words.extend(stop_words2)
    jmlData = contents.shape 
    for i in range(jmlData[0]):
        word_tokens = word_tokenize(contents[i])
        # print(word_tokens)
            
        word_tokens_no_stopwords = [w for w in word_tokens if not w in stop_words]

        special_char = "+=`@_!#$%^&*()<>?/\|}{~:;.[],1234567890‘’'" + '"“”●'
        out_list = [''.join(x for x in string if not x in special_char) for string in word_tokens_no_stopwords]
        # print('List after removal of special characters:', out_list)

        while '' in out_list:
            out_list.remove('')
        data_kata.append(out_list)
    return data_kata

>Script diatas digunakan untuk pemrosesan Stopword

In [33]:
stop_kata = stopping_word(contents)
data['stop_kata'] = stop_kata

>Penerapan stopword pada data

In [34]:
data['stop_kata']

0     [abstrak, penelitian, rumusan, pelaporan, biay...
1     [bauran, eceran, salah, langkah, pemasaran, ke...
2     [tujuan, penelitian, pengaruh, celebrity, endo...
3     [ali, rahbini, pengaruh, harga, kualitas, pela...
4     [tujuan, penelitian, pengaruh, variabel, retai...
5     [abstrak, tujuan, penelitian, pengaruh, variab...
6     [abstrak, penelitian, bertujuan, mengukur, efe...
7     [abstrak, tujuan, penelitian, mendeskripsikan,...
8     [tujuan, penelitian, mengidentifikasi, variabe...
9     [objek, penelitian, pembelian, produk, xl, kec...
10    [pln, badan, usaha, milik, negara, bergerak, b...
11    [intention, research, know, influence, locatio...
12    [kenaikan, harga, menyebabkan, permintaan, pem...
13    [pengaruh, bundling, strategy, keputusan, pemb...
14    [tujuan, penelitian, tingkat, kebangkrutan, pe...
15    [abstrak, tujuan, penelitian, pengaruh, variab...
16    [tujuan, penlitian, variabel, iklan, berdasark...
17    [abstrak, tujuan, penelitian, harga, kuali

>hasil stopword berupa list tiap dokumen

### <li> Term Frequency — Inverse Document Frequency (TF-IDF)

TF-IDF adalah suatu metode algoritma untuk menghitung bobot setiap kata di setiap dokumen dalam korpus. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat.

Inti utama dari algoritma ini adalah melakukan perhitungan nilai TF dan nilai IDF dari sebuah setiap kata kunci terhadap masing-masing dokumen. Nilai TF dihitung dengan rumus TF = jumlah frekuensi kata terpilih / jumlah kata dan nilai IDF dihitung dengan rumus IDF = log(jumlah dokumen / jumlah frekuensi kata terpilih). Selanjutnya kedua hasil ini akan dikalikan sehingga menghasilkan TF-IDF. <br><br> TF-IDF dihitung dengan menggunakan persamaan seperti berikut.

$$
W_{i, j}=\frac{n_{i, j}}{\sum_{j=1}^{p} n_{j, i}} \log _{2} \frac{D}{d_{j}}
$$

Keterangan:

$
{W_{i, j}}\quad\quad\>: \text { pembobotan tf-idf untuk term ke-j pada dokumen ke-i } \\
{n_{i, j}}\quad\quad\>\>: \text { jumlah kemunculan term ke-j pada dokumen ke-i }\\
{p} \quad\quad\quad\>\>: \text { banyaknya term yang terbentuk }\\
{\sum_{j=1}^{p} n_{j, i}}: \text { jumlah kemunculan seluruh term pada dokumen ke-i }\\
{d_{j}} \quad\quad\quad: \text { banyaknya dokumen yang mengandung term ke-j }\\
$

>import library

In [35]:
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer

>Mempersiapkan data yang sudah di stopword agar sesuai dengan format inputan dari salah satu library scikit-learn, yakni TF-IDF

In [36]:
data['stop_kata_join'] = [' '.join(map(str, l)) for l in data['stop_kata']]
data['stop_kata_join']

0     abstrak penelitian rumusan pelaporan biaya kua...
1     bauran eceran salah langkah pemasaran keberhas...
2     tujuan penelitian pengaruh celebrity endorser ...
3     ali rahbini pengaruh harga kualitas pelayanan ...
4     tujuan penelitian pengaruh variabel retailing ...
5     abstrak tujuan penelitian pengaruh variabel cu...
6     abstrak penelitian bertujuan mengukur efektivi...
7     abstrak tujuan penelitian mendeskripsikan inov...
8     tujuan penelitian mengidentifikasi variabel-va...
9     objek penelitian pembelian produk xl kecamatan...
10    pln badan usaha milik negara bergerak bidang p...
11    intention research know influence location eff...
12    kenaikan harga menyebabkan permintaan pembelia...
13    pengaruh bundling strategy keputusan pembelian...
14    tujuan penelitian tingkat kebangkrutan perusah...
15    abstrak tujuan penelitian pengaruh variabel ku...
16    tujuan penlitian variabel iklan berdasarkan ko...
17    abstrak tujuan penelitian harga kualitas p

>Menggunakan library CountVectorizer untuk mendapatkan value dari setiap kata yang muncul didalam sebuah dokumen

In [37]:
vectorizer = CountVectorizer()
bag = vectorizer.fit_transform(data['stop_kata_join'])

In [38]:
print(bag, '\n')
print(bag.shape)

  (0, 0)	1
  (0, 699)	4
  (0, 858)	1
  (0, 681)	5
  (0, 109)	6
  (0, 465)	6
  (0, 546)	1
  (0, 851)	4
  (0, 783)	5
  (0, 128)	5
  (0, 146)	2
  (0, 375)	2
  (0, 345)	2
  (0, 871)	2
  (0, 709)	2
  (0, 987)	2
  (0, 789)	5
  (0, 105)	1
  (0, 758)	3
  (0, 598)	1
  (0, 163)	1
  (0, 567)	1
  (0, 262)	1
  (0, 555)	1
  (0, 1024)	1
  :	:
  (49, 49)	1
  (49, 435)	1
  (49, 32)	2
  (49, 827)	1
  (49, 497)	1
  (49, 90)	1
  (49, 469)	1
  (49, 602)	6
  (49, 219)	2
  (49, 322)	5
  (49, 759)	18
  (49, 941)	5
  (49, 106)	1
  (49, 931)	3
  (49, 961)	5
  (49, 350)	4
  (49, 277)	3
  (49, 936)	3
  (49, 669)	5
  (49, 356)	5
  (49, 991)	5
  (49, 36)	5
  (49, 890)	5
  (49, 625)	5
  (49, 520)	5 

(50, 1040)


Variabel "bag" berisi total kemunculan kata dalam corpus yang muncul dalam setiap dokumen.  Jadi dari variabel ini dapat diketahui total kata yang diperoleh dari 10 dokumen adalah sebanyak 339 kata, yang dimana setiap dokumen akan menghitung term frequency-nya masing-masing dari daftar kata didalam corpus 10 data ini.

In [39]:
print(vectorizer.vocabulary_)

{'abstrak': 0, 'penelitian': 699, 'rumusan': 858, 'pelaporan': 681, 'biaya': 109, 'kualitas': 465, 'meminimalkan': 546, 'risiko': 851, 'produk': 783, 'cacat': 128, 'cv': 146, 'kapuas': 375, 'inti': 345, 'sarana': 871, 'pengaruh': 709, 'tingkat': 987, 'profitabilitas': 789, 'bertujuan': 105, 'perusahaan': 758, 'metode': 598, 'deskriptif': 163, 'menggambarkan': 567, 'fenomena': 262, 'mendeskripsikan': 555, 'variabel': 1024, 'berasal': 81, 'data': 152, 'hasil': 305, 'periodik': 744, 'terperinci': 978, 'berpengaruh': 99, 'peningkatan': 721, 'mengurangi': 579, 'berkurang': 94, 'penjualan': 722, 'langsung': 483, 'meningkatnya': 583, 'kunci': 471, 'bauran': 70, 'eceran': 229, 'salah': 863, 'langkah': 482, 'pemasaran': 685, 'keberhasilan': 387, 'bergerak': 91, 'bidang': 110, 'produksi': 784, 'barang': 68, 'jasaindah': 360, 'swalayan': 949, 'bangkalan': 60, 'bisnis': 114, 'jual': 367, 'beli': 78, 'memperhatikan': 548, 'perilaku': 741, 'konsumen': 452, 'mengambil': 563, 'keputusan': 412, 'teori'

diatas ini merupakan daftar kata didalam corpus yang berjumlah 339 data kata

>Pemrosesan TF-IDF

In [40]:
tfidf = TfidfTransformer(use_idf=True,norm='l2',smooth_idf=True)
vect_abstrak=tfidf.fit_transform(bag)

In [41]:
print(vect_abstrak)

  (0, 1024)	0.020900295374455924
  (0, 987)	0.10991580583903934
  (0, 978)	0.14837195571811498
  (0, 871)	0.14837195571811498
  (0, 858)	0.07418597785905749
  (0, 851)	0.2683578700111031
  (0, 789)	0.3354473375138789
  (0, 783)	0.1786491398999093
  (0, 758)	0.13304767301837103
  (0, 744)	0.07418597785905749
  (0, 722)	0.05814892180151073
  (0, 721)	0.13417893500555156
  (0, 709)	0.04264410858027216
  (0, 699)	0.0713949463098071
  (0, 681)	0.3709298892952874
  (0, 598)	0.03143965842604761
  (0, 583)	0.07418597785905749
  (0, 579)	0.07418597785905749
  (0, 567)	0.07418597785905749
  (0, 555)	0.06708946750277578
  (0, 546)	0.07418597785905749
  (0, 483)	0.05495790291951967
  (0, 471)	0.02311872249372509
  (0, 465)	0.26609534603674206
  (0, 375)	0.14837195571811498
  :	:
  (49, 520)	0.21944521826598395
  (49, 497)	0.016563143929987218
  (49, 493)	0.02533641918581737
  (49, 470)	0.021729906476264584
  (49, 469)	0.03671190879642282
  (49, 467)	0.019541924032929706
  (49, 452)	0.1056903221599

Diatas ini merupakan daftar TF-IDF didalam setiap dokumen yang nilainya bukan 0 (terdapat kata yang muncul)<br>
Contohnya pada dokumen index ke 9 dengan kata yang berada di index ke 4, muncul beberapa kata sehingga muncul hasil perhitungan TF-IDF-nya

>Menampilkan data hasil pemrosesan TD-IDF kedalam bentuk DataFrame agar lebih mudah dibaca

In [42]:
term=vectorizer.get_feature_names_out()
term

array(['abstrak', 'abtrak', 'accidental', ..., 'xl', 'yamaha', 'yustina'],
      dtype=object)

variabel "term" berisi daftar list kata didalam corpus

In [43]:
df_Tf_Idf =pd.DataFrame(data=vect_abstrak.toarray(), columns=[term])
df_Tf_Idf.head()

Unnamed: 0,abstrak,abtrak,accidental,acer,action,adaro,adira,adjusted,adnya,adukkan,...,volume,wanita,wantara,wawancara,whichsuch,wilayah,windows,xl,yamaha,yustina
0,0.033032,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.041236,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.072762,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.066789,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.054676,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [44]:
df_Tf_Idf.shape

(50, 1040)

Dari hasil diatas dapat diketahui kata-kata yang tidak muncul didalam setiap dokumen memiliki nilai TF-IDF nol (0) sedangkan kata-kata yang muncul memiliki nilainya masing-masing

## 2. Penerapan LSA (Latent Semantic Analysis)

LSA dapat digunakan untuk mengekstrak topik yang tidak secara tersurat dapat dibaca dari sebuah kumpulan dokumen.<br>

A = σ Σ U<br>

Komputasi dasar yang ada di dalam LSA adalah perhitungan dua matriks yang berisi vektor eigen, umumnya dinotasikan sebagai σ dan U, serta satu matriks diagonal, umumnya dinotasikan sebagai Σ, yang kesemuanya mengkonstruksi sebuah matriks A, yaitu korpus atau kumpulan dokumen.

>import library

In [45]:
from sklearn.decomposition import TruncatedSVD

>Pemrosesan LSA

In [46]:
lsa_model = TruncatedSVD(n_components=15, algorithm='randomized', n_iter=10)
lsa_top=lsa_model.fit_transform(vect_abstrak)

> code diatas menggunakan n_components sebanyak 5, artinya kita akan meranking term yang frecuencynya sering muncul sebanyak 5 peringkat. dengan menggunakan algoritma random dan iteriasi sebanyak 10x

In [47]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 1.82051614e-01  1.35204668e-01 -8.88126273e-02  9.22889218e-02
  -9.60919179e-02  1.93385122e-01  2.50560181e-01  8.15198259e-02
  -1.02142525e-01 -1.62041198e-02  5.67876641e-02 -1.76189648e-01
   2.69933858e-02  1.68234280e-01 -3.02622207e-01]
 [ 5.00454023e-01 -8.16800211e-02 -1.59107963e-01 -1.91495948e-01
  -1.00424903e-02  3.03903779e-02 -7.39493965e-02 -1.46752714e-01
   9.95338044e-02  3.76084351e-01 -4.42266271e-02  4.66627343e-02
  -5.77373015e-02 -3.44118203e-02  7.38763423e-02]
 [ 2.90048188e-01  1.74429053e-02  7.45231856e-02 -5.34326695e-02
   5.33384695e-02  8.39954358e-02  1.70723636e-01 -3.83124277e-03
  -1.74594538e-01 -1.45454494e-01  2.70369659e-02  2.74564325e-01
  -1.96661662e-01 -5.46444040e-03  5.31154696e-02]
 [ 2.60549520e-01  1.09199953e-02 -3.62016504e-02  2.40599625e-02
  -9.68371598e-02 -8.90158633e-02  2.40286368e-01 -1.64663094e-01
   2.53577513e-01  5.25898700e-01 -3.36422853e-02 -2.80631676e-02
   1.18114561e-03 -5.71386244e-02  2.61795744e-02]
 [ 5

In [48]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
    print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  18.205161445378927
Topic  1  :  13.52046677610753
Topic  2  :  -8.881262727629384
Topic  3  :  9.228892177459395
Topic  4  :  -9.609191790876164
Topic  5  :  19.338512187804945
Topic  6  :  25.056018053619667
Topic  7  :  8.151982589048938
Topic  8  :  -10.214252479396729
Topic  9  :  -1.6204119814993687
Topic  10  :  5.678766413481274
Topic  11  :  -17.618964765967878
Topic  12  :  2.6993385757596378
Topic  13  :  16.823427972576567
Topic  14  :  -30.26222069994421


In [49]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(15, 1040)
[[ 0.04091055  0.00150155  0.0183335  ...  0.06173515  0.02013753
   0.0033966 ]
 [ 0.00994799  0.00386318 -0.00554698 ... -0.02247342 -0.00181417
   0.00029072]
 [ 0.02366525  0.01175586 -0.00265594 ...  0.03322114 -0.00793134
   0.00158197]
 ...
 [ 0.01905206  0.00280096  0.00135504 ...  0.02206835 -0.02479795
  -0.01078248]
 [ 0.01383387  0.00105396 -0.00045702 ...  0.02563701 -0.00615604
  -0.0008762 ]
 [-0.0217116  -0.00176383 -0.02886077 ...  0.04028395  0.0477196
  -0.01089137]]


In [50]:
# most important words for each topic
vocab = vectorizer.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:20]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
variabel keputusan pembelian produk harga uji merek penelitian berpengaruh promosi kualitas konsumen bangkalan signifikan pengaruh distribusi simultan parsial analisis swalayan 

Topic 1: 
perusahaan saham split stock ratio return akuisisi penelitian terdaftar kerja perbedaan indonesia bursa efek current equity perdagangan karyawan manufaktur volume 

Topic 2: 
kerja pesan karyawan langsung pln iklan karir pengembangan pengaruh stressor prestasi semangat kompensasi komunikasi persero pendidikan kinerja faktor variabel gresik 

Topic 3: 
merek persepsi ekuitas kualitas perusahaan loyalitas ratio trunojoyo mahasiswa madura universitas online asosiasi kesadaran ekonomi faktor fakultas notebook blackberry brand 

Topic 4: 
pesan iklan isi konsumen xl kartu seluler televisi format sumber beli saham kecamatan struktur geger keputusan angin jamu manyar muncul 

Topic 5: 
ratio perusahaan current equity profitabilitas akuisisi terdaftar manufaktur debt roe produk promosi bursa efek f

