# Topik Modelling Using LSA

Latent Semantic Analysis atau LSA, adalah salah satu teknik dasar dalam pemodelan topik. Ide intinya adalah untuk mengambil matriks dari apa yang kita miliki dokumen dan istilah dan menguraikannya menjadi matriks topik-dokumen yang terpisah dan matriks topik-istilah.

Langkah-langkah untuk proses LSA yatu:
1. Preprocessing
2. Tokenisasi dan Stopword
3. Extract Bag of Words (BoW)
4. Topik Modelling LSA

## 1. Preprocessing

<h3>Import Library</h3>

Memasukkan librari pandas untuk menampilkan data 

In [1]:
# import  packages
import pandas as pd


Membuat variabel df untuk menampilkan data abstrak yang sudah di crawler dari Portal Tugas Akademik

In [2]:
df = pd.read_csv('data\data_abstrak.csv')
df.head(10)

Unnamed: 0,Judul,Penulis,Dosbing_1,Dosbing_2,Abstrak_indo
0,APLIKASI DAN DESAIN MODEL DECISION AID PELANGG...,Ardiyanto Setiawan,"Moch. Kautsar Sophan, S.Kom., M.MT.","eni Kustiyah Ningsih, S.Kom., M.Kom.",Toko Batik Tulis Madura merupakan salah satu t...
1,ANALISA DATA ANTARAN POS EXPRESS MENGGUNAKAN\r...,siti murtasiyah warda,"Bain Khusnul Khotimah.,S.T.,M.Kom","irli Irhamni, S.T., M.Kom.",PT. Pos Indonesia (Persero) merupakan salah sa...
2,Model Penjualan Produk Unggulan Batik Khas Pam...,Murni Rotifah,"Moch. Kautsar Sophan, S.Kom, M.MT","ain Khusnul Khotimah, S.T., M.Kom",Kabupaten Pamekasan merupakan salah satu pusat...
3,PENERAPAN METODE ANALYTICAL HIERARCHY PROCESS ...,Helyatin,"Bain Khusnul K, S.T.,M.Kom","ndharini Dwi C, S.Kom.,M.Kom",Pemilihan supplier merupakan salah satu isu p...
4,PENGELOMPOKAN KUALITAS KELAS PADA SISWA MENGGU...,Hamiyah,"Bain Khusnul K,ST.,M.Kom","irli Irhamni, ST, M. Kom",ABSTRAK\r\nData yang terdapat pada SMA Wachid ...
5,SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN KARYAWAN ...,Catur Ngesti Waluyo,"Mula'ab,S.Si.,M.Kom","iza Alfita, S.T., M.T",Sumber daya manusia mutlak dibutuhkan untuk ke...
6,Deteksi Manusia Menggunakan Histogram of Orien...,R.A. Uluwiyah Nur Oktavianis,"Dr. Indah Agustien, S.Kom., M.Kom","ri Kusumaningsih, S.T, M.T",Deteksi manusia merupakan suatu aplikasi yang...
7,KLASIFIKASI STATUS GIZI BALITA MENGGUNAKAN KOH...,Uhty Zunairoh,"Bain Khusnul Khotimah, S.T., M.Kom.","eri Rachmad, S.T., M.T.",Aplikasi klasifikasi status gizi balita ini di...
8,Aplikasi Penilaian Kinerja dengan Metodologi C...,Luthfi Zahro,"Moch. Kautsar Sophan, S.Kom., M.MT","r. Rachmad Hidayat, ST., MT",Setiap perusahaan mengharapkan adanya hubungan...
9,APLIKASI CITRA MOSAIC PANORAMIC MENGGUNAKAN ME...,Gendra Budiarti,"Eza Rahmanita, ST, MT","eidya Koeshardianto, S.Si, MT",Sebuah citra banyak diterapkan dalam berbagai ...


Data yang digunakan yaitu sebanyak 60 abstrak dan 7 atribut

In [3]:
df.shape

(60, 5)

Menghapus atribut judul, kolom Penulis, Dosbing_1, dan Dosbing_2

In [4]:
df.drop(['Judul','Penulis', 'Dosbing_1', 'Dosbing_2'],axis=1,inplace=True)

In [5]:
df.head(10)

Unnamed: 0,Abstrak_indo
0,Toko Batik Tulis Madura merupakan salah satu t...
1,PT. Pos Indonesia (Persero) merupakan salah sa...
2,Kabupaten Pamekasan merupakan salah satu pusat...
3,Pemilihan supplier merupakan salah satu isu p...
4,ABSTRAK\r\nData yang terdapat pada SMA Wachid ...
5,Sumber daya manusia mutlak dibutuhkan untuk ke...
6,Deteksi manusia merupakan suatu aplikasi yang...
7,Aplikasi klasifikasi status gizi balita ini di...
8,Setiap perusahaan mengharapkan adanya hubungan...
9,Sebuah citra banyak diterapkan dalam berbagai ...


## 2. Tokenisasi dan Stopword

Import library unntuk proses tokenisasi dan stopword yaitu word_tokenize dan stopwords berbahasa indonesia. library punctuation untuk menghilangkan spesial karakter. Dan library CountVectorizer untuk proses featur extraction

In [6]:
# import package
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from string import punctuation
sw_indo = stopwords.words('indonesian') + list(punctuation)

Menampilkan kata stopwords berbahasa indonesia dan spesial karakter yang akan dihapus. 

In [7]:
print(sw_indo)

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 'berkehendak', 'berkeinginan'

## 3. Extract Bag of Words (BoW)

Bag of words (BOW) adalah teknik untuk mengekstrak fitur dari teks

Dibawah ini proses untuk pemrosesan tokenisasi dan stopword. 

In [8]:

bow = CountVectorizer(ngram_range=(1, 2), tokenizer=word_tokenize, stop_words=sw_indo, min_df=5)
bow_matrix = bow.fit_transform(df.Abstrak_indo)



Hasil untuk proses diatas  diperoleh kata seperti kumpulan kata dibawah kemudian akan di proses untuk Topik modeling LSA

In [9]:
vocab = bow.get_feature_names()
print(vocab)

['1', '10', '2', '3', '6', 'akurasi', 'algoritma', 'analisa', 'analysis', 'analytic', 'aplikasi', 'aspek', 'bahan', 'bangkalan', 'batik', 'bentuk', 'berbasis', 'berbeda', 'berdasarkan', 'berfungsi', 'bergerak', 'berkembang', 'bertujuan', 'bidang', 'bobot', 'cepat', 'citra', 'coba', 'coba aplikasi', 'coba sistem', 'daerah', 'dasar', 'data', 'data pelatihan', 'database', 'diambil', 'dibutuhkan', 'didalam', 'didapatkan', 'diharapkan', 'dimana', 'diperoleh', 'distance', 'ditentukan', 'diterapkan', 'efisien', 'ekstraksi', 'ekstraksi fitur', 'euclidean', 'euclidean distance', 'faktor', 'fitur', 'fungsi', 'fuzzy', 'gambar', 'game', 'hasil', 'hasil akurasi', 'hasil penelitian', 'hasil pengujian', 'hasil uji', 'indonesia', 'informasi', 'jaringan', 'jenis', 'kabupaten', 'kali', 'karakteristik', 'kebutuhan', 'kelas', 'kemampuan', 'kemiripan', 'keputusan', 'kinerja', 'klasifikasi', 'komputer', 'kriteria', 'kualitas', 'kunci', 'kunci sistem', 'learning', 'madura', 'manual', 'manusia', 'mata', 'matr

## 4. Topik Modelling LSA

Menggunakan Librari SVD

In [10]:
# import package
from sklearn.decomposition import TruncatedSVD

Pengurangan dimensi ini dapat dilakukan dengan menggunakan SVD terpotong. SVD, atau dekomposisi nilai tunggal, adalah teknik dalam aljabar linier yang memfaktorkan matriks M apa pun ke dalam produk dari 3 matriks terpisah: M=U*S*V, di mana S adalah matriks diagonal dari nilai tunggal M. Secara kritis, SVD terpotong mengurangi dimensi dengan hanya memilih nilai tunggal terbesar, dan hanya mempertahankan kolom t pertama U dan V. Dalam hal ini, t adalah hyperparameter yang dapat kita pilih dan sesuaikan untuk mencerminkan jumlah topik yang ingin kita temukan.

In [11]:
# LSA component
lsa = TruncatedSVD(n_components=10, n_iter=10, random_state=42)
lsa_matrix = lsa.fit_transform(bow_matrix)

In [12]:
print(lsa_matrix)

[[ 3.31692878e+00 -2.22474662e-01  1.05321067e+00 -4.31833999e-01
   8.32223230e-01  3.88159397e-02  2.09965752e+00  9.14937294e-01
  -2.34492630e-01 -3.03690220e+00]
 [ 3.01839968e+00 -1.81317891e+00  1.75307083e+00 -2.23135392e+00
   2.06990649e-01  2.41735174e+00  3.80599698e-01 -2.02963452e+00
  -1.97186483e+00 -1.08504668e+00]
 [ 3.02394422e+00  4.30185497e-01  1.99981748e+00 -1.40405469e+00
   1.07222501e+00 -3.76228312e-01  8.13361458e-01  6.34775380e-01
  -3.22139294e-01 -3.22419915e+00]
 [ 3.01112674e+00 -1.75868916e+00  1.17746167e+00 -2.21485892e+00
  -1.36481079e+00  8.90695412e-01  9.63554246e-01 -1.50956378e+00
   1.45961522e+00 -3.60715602e-01]
 [ 5.64104018e+00 -1.86978548e+00 -2.32939582e+00 -5.27772115e-01
   2.14084093e+00  1.23794657e+00  8.77813304e+00  2.00979304e+00
  -3.42522681e+00 -3.36631827e+00]
 [ 5.37371868e+00 -4.40648982e+00  2.16077936e+00 -4.58999078e+00
  -3.78454752e+00  1.33880969e+00 -3.58712145e+00 -3.77242257e-01
  -1.20136234e+00 -1.74308349e+00

Menampilkan lsa matrik di dokumen 1

In [13]:
l = lsa_matrix[0]
print("Dokumen 1 :")

for  i,topic in enumerate(l):
    print("Topic ",i," : ",topic*10)

Dokumen 1 :
Topic  0  :  33.16928782929472
Topic  1  :  -2.2247466210399542
Topic  2  :  10.532106694048986
Topic  3  :  -4.318339993393906
Topic  4  :  8.32223230354201
Topic  5  :  0.3881593974390384
Topic  6  :  20.99657519443356
Topic  7  :  9.149372937229225
Topic  8  :  -2.3449262965208595
Topic  9  :  -30.369021967079295


In [14]:
# sebelum reducing
print(bow_matrix.shape)       # like hidden layer

# setelah reducing
print(lsa_matrix.shape)       # weight / code
print(lsa.components_.shape)  # fitur / topik

(60, 166)
(60, 10)
(10, 166)


In [15]:
# get topic
def get_topic(model):
    return [[vocab[idx] for idx in reversed(comp.argsort()[-6:]) if vocab[idx].isalnum()]
           for comp in model.components_]

Hasil Topik LSA

In [16]:
# LSA topic
get_topic(lsa)

[['citra', 'metode', 'sistem', 'hasil', 'proses', 'data'],
 ['citra', 'batik', 'fitur', 'gambar', 'kemiripan', 'obyek'],
 ['game', 'metode', 'perusahaan', 'penelitian', 'hasil', 'madura'],
 ['game', 'pengenalan', 'proses', 'coba', 'uji'],
 ['jaringan', 'informasi', 'bangkalan', 'aplikasi', 'game', 'data'],
 ['jaringan', 'komputer', 'hasil', 'perusahaan', 'proses', 'pengenalan'],
 ['data', 'nilai', 'kebutuhan', 'teknik', 'algoritma', 'distance'],
 ['metode', 'keputusan', 'pendukung', 'kebutuhan'],
 ['teknik', 'proses', 'kebutuhan', 'pemilihan', 'jaringan', 'aplikasi'],
 ['nilai', 'metode', 'algoritma', 'mata', 'menentukan', 'jaringan']]