# Topic Modeling dengan LSA

<h2>Import Library</h2>

<p>Langkah pertama adalah melakukan import library yang dimana nantinya digunakan untuk membaca data mauapaun memanipulasi dan, untuk tahapan preprocessing, Tf-idf, maupun untuk LSA nya nanti.</p>

In [1]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet
nltk.download('punkt')

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer


#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Arlaz\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


<h2>Membaca Dokumen</h2>

<p>Setelahnya, proses yang dilakukan adalah membuka dokumen hasil Crawling yang telah dilakukan sebelumnya</p>

In [2]:
df=pd.read_csv(r'hasil_abstrak.csv')

<p>Proses Selanjutnya adalah menampilkan file hasil crawling, dan dapat dilihat dibawah data hasil crawling berjumlah 15</p>

In [3]:
df

Unnamed: 0,Judul,Abstrak
0,PEMETAAN RISIKO TSUNAMI BERDASARKAN SKENARIO K...,ABSTRAK\n\nTsunami merupakan bencana yang dapa...
1,Sistem Rekomendasi Dalam Menentukan Posisi Dep...,Sepak bola adalah salah satu olahraga yang saa...
2,Pengembangan LKS Berbasis Keterampilan Generik...,Penelitian ini bertujuan untuk mengetahui kela...
3,ANALISIS MISKONSEPSI SISWA PADA MATERI KLASIFI...,Penelitian ini bertujuan untuk mengetahui pers...
4,Keberadaan Mikroplastik Pada Ikan Swanggi (Pri...,Mikroplastik merupakan sampah plastik yang men...
5,AN ANALYSIS OF PERSONAL PRONOUNS IN DONALD TRU...,ABSTRACT\n\nNafilatun Nasuha. 160511100005. An...
6,PERENCANAAN KEBIJAKAN PENGENDALIAN PERSEDIAA...,PT. Apie Indo Karunia merupakan suatu perusaha...
7,Kajian Pola Arus Permukaan dan Sebaran Konsent...,Pesisir Pantai Kenjeran merupakan kawasan yang...
8,TINJAUAN HUKUM ISLAM TERHADAP BISNIS JASA TRA...,Perbedaan harga yang diterapkan pemilik jasa t...
9,Komunikasi Antar Blater dalam Tradisi Remoh se...,ABSTRAK\n\nRemoh blater diadakan untuk berkump...


<p>Disini kita membuang kolom yang tidak dibutuhkan</p>

In [4]:
df.drop(['Judul'],axis=1,inplace=True)

In [5]:
df

Unnamed: 0,Abstrak
0,ABSTRAK\n\nTsunami merupakan bencana yang dapa...
1,Sepak bola adalah salah satu olahraga yang saa...
2,Penelitian ini bertujuan untuk mengetahui kela...
3,Penelitian ini bertujuan untuk mengetahui pers...
4,Mikroplastik merupakan sampah plastik yang men...
5,ABSTRACT\n\nNafilatun Nasuha. 160511100005. An...
6,PT. Apie Indo Karunia merupakan suatu perusaha...
7,Pesisir Pantai Kenjeran merupakan kawasan yang...
8,Perbedaan harga yang diterapkan pemilik jasa t...
9,ABSTRAK\n\nRemoh blater diadakan untuk berkump...


<h2>Proses Cleaning Data dan Preprocesing Data</h2>

<p>Pada Proses ini tahap Preprocessing dilakukan dengan lemmatizer dan juga stopword.
    Proses ini dilakukan agar hasil pemrosesan nantinya (tfidf) menjadi semakin akurat tanpa qdanya tanda baca maupun simbol simbol yang membuat hasilnya kurang akurat.
</p>

In [6]:
def clean_text(headline):
    le=WordNetLemmatizer()
    word_tokens=word_tokenize(headline)
    tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
    cleaned_text = " ".join(tokens)
    return cleaned_text

In [7]:
# time taking
df['Abstrak_Cleaned']=df['Abstrak'].apply(clean_text)

<p>Disini terlihat bahwa abstrak setelah proses Preprocessing bahwa hal hal yang tidak diperlukan telah  dihilangkan</p>

In [8]:
df

Unnamed: 0,Abstrak,Abstrak_Cleaned
0,ABSTRAK\n\nTsunami merupakan bencana yang dapa...,ABSTRAK Tsunami bencana ancaman masyarakat wil...
1,Sepak bola adalah salah satu olahraga yang saa...,Sepak bola salah olahraga digemari remaja bela...
2,Penelitian ini bertujuan untuk mengetahui kela...,Penelitian bertujuan kelayakan keterbacaan res...
3,Penelitian ini bertujuan untuk mengetahui pers...,Penelitian bertujuan persentase miskonsepsi si...
4,Mikroplastik merupakan sampah plastik yang men...,Mikroplastik sampah plastik mengalami degradas...
5,ABSTRACT\n\nNafilatun Nasuha. 160511100005. An...,ABSTRACT Nafilatun Nasuha 160511100005 Analysi...
6,PT. Apie Indo Karunia merupakan suatu perusaha...,Apie Indo Karunia perusahaan bidang industri m...
7,Pesisir Pantai Kenjeran merupakan kawasan yang...,Pesisir Pantai Kenjeran kawasan potensi wisata...
8,Perbedaan harga yang diterapkan pemilik jasa t...,Perbedaan harga diterapkan pemilik jasa transp...
9,ABSTRAK\n\nRemoh blater diadakan untuk berkump...,ABSTRAK Remoh blater diadakan berkumpulnya bla...


<p>Proses selanjutnya ialah menghilangkan kolom yang tidak digunakan</p>

In [9]:
df.drop(['Abstrak'],axis=1,inplace=True)

In [10]:
df

Unnamed: 0,Abstrak_Cleaned
0,ABSTRAK Tsunami bencana ancaman masyarakat wil...
1,Sepak bola salah olahraga digemari remaja bela...
2,Penelitian bertujuan kelayakan keterbacaan res...
3,Penelitian bertujuan persentase miskonsepsi si...
4,Mikroplastik sampah plastik mengalami degradas...
5,ABSTRACT Nafilatun Nasuha 160511100005 Analysi...
6,Apie Indo Karunia perusahaan bidang industri m...
7,Pesisir Pantai Kenjeran kawasan potensi wisata...
8,Perbedaan harga diterapkan pemilik jasa transp...
9,ABSTRAK Remoh blater diadakan berkumpulnya bla...


<h2>Tfidf</h2>

<p>Pada prses ini dilakukan proses Tfidf</p>
<p>Dalam TfidfVectorizer sendiri telah terset default untuk membuat semua huruf menjadi lowercase </p>
</p>

<p>Untuk rumus Tfidf sendiri adalah sebagai berikut</p>

$w_{i, j}=t f_{i, j} \times \log \left(\frac{N}{d f_{i}}\right)$

$
\begin{aligned}
t f_{i, j} &=\text { banyaknya kata- } i \text { pada dokumen ke- } j \\
N &=\text { total dokumen } \\
d f_{i} &=\text { banyaknya dokumen yang mengandung kata ke- } i
\end{aligned}
$

In [11]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) # to play with. min_df,max_df,max_features etc...

In [12]:
vect_text=vect.fit_transform(df['Abstrak_Cleaned'])



<p>Berikutnya disini adalah kita dapat melihat kata kata yang sering muncul atau disebut umum. </p>
<p>Kata yang sering muncul akan memeiliki skor paling kecil dari pada kata yang lain</p>

In [13]:
print(vect_text.shape)
print(vect_text)

(15, 844)
  (0, 405)	0.018631972882534036
  (0, 22)	0.03642083100821103
  (0, 45)	0.031625358847996596
  (0, 69)	0.03642083100821103
  (0, 25)	0.031625358847996596
  (0, 57)	0.03642083100821103
  (0, 66)	0.03642083100821103
  (0, 56)	0.03642083100821103
  (0, 23)	0.031625358847996596
  (0, 13)	0.031625358847996596
  (0, 71)	0.03642083100821103
  (0, 82)	0.03642083100821103
  (0, 77)	0.03642083100821103
  (0, 53)	0.03642083100821103
  (0, 6)	0.07284166201642206
  (0, 12)	0.03642083100821103
  (0, 81)	0.03642083100821103
  (0, 48)	0.03642083100821103
  (0, 5)	0.03642083100821103
  (0, 15)	0.03642083100821103
  (0, 1)	0.03642083100821103
  (0, 75)	0.03642083100821103
  (0, 59)	0.03642083100821103
  (0, 16)	0.03642083100821103
  (0, 685)	0.158126794239983
  :	:
  (14, 425)	0.05273718780685194
  (14, 525)	0.05273718780685194
  (14, 254)	0.042662489122572284
  (14, 18)	0.05273718780685194
  (14, 38)	0.05273718780685194
  (14, 52)	0.05273718780685194
  (14, 193)	0.05273718780685194
  (14, 802

In [14]:
idf=vect.idf_

<p>disini dapat dilihat bahwa penelitian merupakan kata yang sering muncul</p>

In [15]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['penelitian'])
print(dd['salah'])


penelitian yusuf
1.1335313926245225
1.9808292530117262




<h2>Latent Semantic Analysis atau LSA</h2>
<p></p>
<p>disini untuk pengimplementasian LSA dengan menggunakan SVD, juga  SVD digunakan untuk menguraikan hasil Tfisf yang telah dilakukan tadi.</p>

<p>Untuk contoh SVD adalah sebagi berikut:</p>

$$
\text { Misalkan } A=\left(\begin{array}{cc}
1 & -1 \\
0 & 1 \\
1 & 0
\end{array}\right)
\text { Tentukan Dekomposisi nilai singular A }
$$

<p>Maka hasilnya akan seperti berikut:</p>

$$
A A^{\prime}=\left(\begin{array}{cc}
1 & -1 \\
0 & 1 \\
1 & 0
\end{array}\right)\left(\begin{array}{ccc}
1 & 0 & 1 \\
-1 & 0 & 1
\end{array}\right)=\left(\begin{array}{ccc}
2 & -1 & 1 \\
-1 & 1 & 0 \\
1 & 0 & 1
\end{array}\right)
$$

In [16]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=5, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [17]:
print(lsa_top)
print(lsa_top.shape)

[[ 0.11994897 -0.01051296  0.08105641  0.11256692 -0.09064629]
 [ 0.20315669  0.01269914  0.02165167  0.58943444  0.42293177]
 [ 0.47379765  0.54541601 -0.20352067 -0.15122582 -0.12819496]
 [ 0.53782527  0.50770312 -0.13261083 -0.11246617 -0.18204632]
 [ 0.14584396 -0.01584323  0.54320179  0.02921427 -0.25947183]
 [ 0.03922425 -0.01276815  0.0125468  -0.03449408  0.06902527]
 [ 0.15690601  0.02741511  0.25184825 -0.38160175  0.59855325]
 [ 0.32610997 -0.16876551  0.21495245  0.20439047  0.02146743]
 [ 0.3578253  -0.51132219 -0.36859283 -0.09197588 -0.10353055]
 [ 0.184262   -0.08179551  0.15824047  0.08973053 -0.11198225]
 [ 0.42407548 -0.12954227  0.19051848 -0.09296513  0.08923824]
 [ 0.25963146  0.1166736  -0.14396138  0.52614111  0.24762563]
 [ 0.18891138 -0.07756675  0.09409916 -0.37717992  0.43035403]
 [ 0.41362869 -0.53656481 -0.26641661 -0.07638426 -0.12892666]
 [ 0.20980336 -0.09520383  0.55307148  0.05361682 -0.26028925]]
(15, 5)


In [18]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  11.994896585744918
Topic  1  :  -1.051295898724832
Topic  2  :  8.105641385249038
Topic  3  :  11.256691836357984
Topic  4  :  -9.06462909864445


In [19]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(5, 844)
[[ 0.01613924  0.00315833  0.01613924 ...  0.01627491  0.00220921
   0.07782371]
 [-0.00574655 -0.00032266 -0.00574655 ... -0.02460854 -0.00083824
  -0.1296257 ]
 [ 0.0093334   0.00274734  0.0093334  ... -0.01349374  0.00090966
  -0.10319314]
 [-0.00471461  0.00394964 -0.00471461 ... -0.00400495 -0.00258888
  -0.02665633]
 [ 0.00456259 -0.00320651  0.00456259 ... -0.00681509  0.0052229
  -0.03025033]]


<p>Disini hanya terdapat 5 topic dikarenakan saat proses TruncatedSVD parameter untuk dimensi keluaran yang diinginkan hanya diisi 5.</p>

In [20]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
siswa penelitian religi dinyatakan miskonsepsi produk wisata arus kualitas faktor 

Topic 1: 
siswa dinyatakan miskonsepsi generik kelayakan kerja keterampilan sains faktor layak 

Topic 2: 
rajungan ikan mikroplastik partikel swanggi sampel bentuk baku laju arus 

Topic 3: 
bola sepak mahasiswa pemain keputusan posisi kriteria perguruan snmptn arus 

Topic 4: 
baku bank bahan bola sepak pemain perusahaan stock mahasiswa syariah 

