In [13]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

In [14]:
df=pd.read_csv('pta.csv')

In [15]:
df.head()

Unnamed: 0,Judul,Penulis,Dosbing_1,Dosbing_2,Abstrak_indo
0,APLIKASI DAN DESAIN MODEL DECISION AID PELANGG...,Ardiyanto Setiawan,"Moch. Kautsar Sophan, S.Kom., M.MT.","eni Kustiyah Ningsih, S.Kom., M.Kom.",Toko Batik Tulis Madura merupakan salah satu t...
1,RANCANG BANGUN MANAJEMEN PEMBELAJARAN DAN TES ...,Susanto,"Hermawan S.T.,M.Kom","ndharini Dwi Cahyani S.Kom.,M.Kom",Penggunaan teknologi mobile saat ini sangat ma...
2,ANALISA DATA ANTARAN POS EXPRESS MENGGUNAKAN\r...,siti murtasiyah warda,"Bain Khusnul Khotimah.,S.T.,M.Kom","irli Irhamni, S.T., M.Kom.",PT. Pos Indonesia (Persero) merupakan salah sa...
3,Segmentasi Parasit Malaria Dalam Sel Darah Men...,Yenni Rahmawati,"Rima Tri Wahyuningrum, S.T.,M.T.","itri Damayanti, S.Kom., M.Kom",Malaria disebabkan oleh intraseluler parasit b...
4,PENERAPAN METODE ANALYTICAL HIERARCHY PROCESS ...,Helyatin,"Bain Khusnul K, S.T.,M.Kom","ndharini Dwi C, S.Kom.,M.Kom",Pemilihan supplier merupakan salah satu isu p...


In [17]:
# drop the publish date.
df.drop(['Judul', 'Penulis', 'Dosbing_1','Dosbing_2'],axis=1,inplace=True)

In [18]:
df.head(10)

Unnamed: 0,Abstrak_indo
0,Toko Batik Tulis Madura merupakan salah satu t...
1,Penggunaan teknologi mobile saat ini sangat ma...
2,PT. Pos Indonesia (Persero) merupakan salah sa...
3,Malaria disebabkan oleh intraseluler parasit b...
4,Pemilihan supplier merupakan salah satu isu p...
5,Setiap perusahaan mengharapkan adanya hubungan...
6,Kabupaten Pamekasan merupakan salah satu pusat...
7,Teknik kalibrasi sangat berpengaruh terhadap p...
8,Deteksi manusia merupakan suatu aplikasi yang...
9,Sumber daya manusia mutlak dibutuhkan untuk ke...


# DATA CLEANING & PRE-PROCESSING

In [19]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

df['hapus angka'] = df['Abstrak_indo'].apply(remove_number)
df.head(10)

Unnamed: 0,Abstrak_indo,hapus angka
0,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura merupakan salah satu t...
1,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile saat ini sangat ma...
2,PT. Pos Indonesia (Persero) merupakan salah sa...,PT. Pos Indonesia (Persero) merupakan salah sa...
3,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan oleh intraseluler parasit b...
4,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier merupakan salah satu isu p...
5,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan adanya hubungan...
6,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan merupakan salah satu pusat...
7,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi sangat berpengaruh terhadap p...
8,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia merupakan suatu aplikasi yang...
9,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan untuk ke...


In [20]:
#remove punctuation(simbol dan tanda baca)
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

df['hapus simbol'] = df['hapus angka'].apply(remove_punctuation)
df.head(10)

Unnamed: 0,Abstrak_indo,hapus angka,hapus simbol
0,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura merupakan salah satu t...
1,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile saat ini sangat ma...
2,PT. Pos Indonesia (Persero) merupakan salah sa...,PT. Pos Indonesia (Persero) merupakan salah sa...,PT Pos Indonesia Persero merupakan salah satu ...
3,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan oleh intraseluler parasit b...
4,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier merupakan salah satu isu p...
5,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan adanya hubungan...
6,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan merupakan salah satu pusat...
7,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi sangat berpengaruh terhadap p...
8,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia merupakan suatu aplikasi yang...
9,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan untuk ke...


In [23]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [24]:
# time taking
df['stopword']=df['hapus simbol'].apply(clean_text)

In [25]:
df.head(10)

Unnamed: 0,Abstrak_indo,hapus angka,hapus simbol,stopword
0,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura merupakan salah satu t...,Toko Batik Tulis Madura salah toko beroperasi ...
1,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile saat ini sangat ma...,Penggunaan teknologi mobile marak disamping ke...
2,PT. Pos Indonesia (Persero) merupakan salah sa...,PT. Pos Indonesia (Persero) merupakan salah sa...,PT Pos Indonesia Persero merupakan salah satu ...,Indonesia Persero salah perusahaan bergerak bi...
3,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan oleh intraseluler parasit b...,Malaria disebabkan intraseluler parasit bersel...
4,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier merupakan salah satu isu p...,Pemilihan supplier salah pemilihan supplier su...
5,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan adanya hubungan...,Setiap perusahaan mengharapkan hubungan pelang...
6,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan merupakan salah satu pusat...,Kabupaten Pamekasan salah pusat industri perda...
7,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi sangat berpengaruh terhadap p...,Teknik kalibrasi berpengaruh perkembangan comp...
8,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia merupakan suatu aplikasi yang...,Deteksi manusia aplikasi berfungsi mendeteksi ...
9,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan untuk ke...,Sumber daya manusia mutlak dibutuhkan kemajuan...


In [27]:
df.drop(['Abstrak_indo', 'hapus angka', 'hapus simbol'],axis=1,inplace=True)
df.head(10)

Unnamed: 0,stopword
0,Toko Batik Tulis Madura salah toko beroperasi ...
1,Penggunaan teknologi mobile marak disamping ke...
2,Indonesia Persero salah perusahaan bergerak bi...
3,Malaria disebabkan intraseluler parasit bersel...
4,Pemilihan supplier salah pemilihan supplier su...
5,Setiap perusahaan mengharapkan hubungan pelang...
6,Kabupaten Pamekasan salah pusat industri perda...
7,Teknik kalibrasi berpengaruh perkembangan comp...
8,Deteksi manusia aplikasi berfungsi mendeteksi ...
9,Sumber daya manusia mutlak dibutuhkan kemajuan...


In [28]:
df['stopword'][0]

'Toko Batik Tulis Madura salah toko beroperasi website ecommerce Walau model ecommerce website memiliki kekurangan fitur rekomndasi memudahkan konsumen mencari barang dibelinya Penelitian bertujuan rekomendasi decision membantu pelanggan memilih produk website Toko Batik Tulis Madura Teknik pengumpulan analis data Studi Literatur berhubungan decision multi criterion Observasi website Toko Batik Tulis Madura Interview pemilik website Toko Batik Tulis Madura Pembuatan implementasi Penelitian model waterfall Jenis decision diimplementasikan Multi Criteria Filtering Metode pembobotan Multi Criteria Filtering Decision Matrix Hasil ujicoba sample percobaan kali data perconbaan pencarian presentase akurasi error Hasil kelayakan kuisoner dihasilkan performa dimiliki tool tool layak diintegrasikan website ecommerce Kata Kunci Decision Multi Criteria Filtering'

In [30]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000)

In [31]:
vect_text=vect.fit_transform(df['stopword'])



In [32]:
print(vect_text.shape)
print(vect_text)

(60, 1000)
  (0, 365)	0.024914861898560268
  (0, 376)	0.06641184038900712
  (0, 925)	0.13282368077801424
  (0, 164)	0.06243303582823279
  (0, 152)	0.07154141162323199
  (0, 363)	0.07154141162323199
  (0, 206)	0.06641184038900712
  (0, 7)	0.04061226959938783
  (0, 593)	0.059182115793004926
  (0, 294)	0.059182115793004926
  (0, 664)	0.06243303582823279
  (0, 954)	0.06243303582823279
  (0, 254)	0.046509989951548515
  (0, 413)	0.059182115793004926
  (0, 568)	0.06641184038900712
  (0, 480)	0.02286309579796491
  (0, 217)	0.23631340865770256
  (0, 118)	0.214624234869696
  (0, 154)	0.06243303582823279
  (0, 290)	0.05007373999800571
  (0, 991)	0.07154141162323199
  (0, 267)	0.06641184038900712
  (0, 569)	0.05405254455878004
  (0, 578)	0.07877113621923419
  (0, 493)	0.24973214331293117
  :	:
  (59, 138)	0.0686042744128894
  (59, 448)	0.047078963093765476
  (59, 845)	0.1372085488257788
  (59, 292)	0.06503201483536815
  (59, 65)	0.0786129742014919
  (59, 36)	0.06503201483536815
  (59, 359)	0.10631

In [33]:
idf=vect.idf_

In [34]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])

metode winnowing




## LSA

In [35]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [36]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 2.12275916e-01 -3.90689545e-02 -3.84193369e-02 -2.32623691e-01
  -6.08571907e-02 -2.64404841e-02  6.27776233e-02 -1.16919215e-01
   3.29162046e-01  5.31559252e-01]
 [ 1.26309140e-01 -1.82253289e-01  2.88293000e-01 -4.07098706e-02
   3.17619051e-02 -3.78231759e-02 -4.50844737e-02  7.68815958e-02
  -6.39160637e-02 -5.93051458e-04]
 [ 2.04138286e-01 -1.72312347e-01 -1.10085938e-01 -6.64868470e-03
  -9.86542064e-02 -5.82603187e-02  1.85391187e-01 -5.29605251e-02
  -1.58646042e-01  1.32663723e-01]
 [ 2.79897443e-01  1.89300319e-01 -4.54762312e-03 -1.35967403e-01
  -3.78625908e-02  3.84740359e-02 -9.13449436e-03  6.35963355e-03
  -5.75585532e-02 -1.68470109e-01]
 [ 1.66506339e-01 -1.30810203e-01 -1.14893212e-01 -3.24252803e-02
  -8.21579343e-02 -1.59668304e-03 -7.92781482e-02  2.06721196e-02
   2.02307081e-01 -1.13042396e-02]
 [ 2.08886929e-01 -2.17929703e-01 -2.62141478e-01 -3.17051561e-02
  -2.45225904e-01 -2.81799495e-01 -7.50806580e-02  4.22577248e-02
  -7.95697622e-02 -1.49168438e-01

In [37]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  21.22759159426983
Topic  1  :  -3.906895453599609
Topic  2  :  -3.8419336943972775
Topic  3  :  -23.262369090494182
Topic  4  :  -6.085719074502625
Topic  5  :  -2.6440484066956405
Topic  6  :  6.277762325278431
Topic  7  :  -11.691921489360563
Topic  8  :  32.916204574788395
Topic  9  :  53.15592516404585


In [38]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 1000)
[[ 1.51034485e-02  6.58327594e-03  6.08050432e-03 ...  8.70526390e-03
   8.70526390e-03  2.29017637e-02]
 [-1.06845612e-02 -8.61096570e-03 -6.31351347e-03 ... -4.69299060e-03
  -4.69299060e-03  2.41735079e-02]
 [ 1.05685222e-02 -4.47180540e-03 -4.32817480e-04 ...  4.96117402e-03
   4.96117402e-03 -2.06680892e-04]
 ...
 [ 3.40341558e-02 -5.56338016e-03 -1.85804803e-03 ...  1.07102942e-02
   1.07102942e-02 -4.68028976e-03]
 [-6.70340522e-03 -1.63820732e-02 -3.00353484e-03 ... -1.01861601e-03
  -1.01861601e-03  6.62792258e-05]
 [ 1.86441222e-02 -1.39174221e-03 -9.89969300e-03 ... -3.24633145e-03
  -3.24633145e-03  9.98369306e-03]]


In [39]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:15]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
citra metode batik sistem data hasil pengenalan tulisan nilai prose tangan perusahaan fitur penelitian aplikasi 

Topic 1: 
citra tulisan tangan pengenalan batik fitur tekstur ekstraksi gambar ciri mosaic threshold keypoint panoramic watershed 

Topic 2: 
game mobile pembelajaran android gerakan teknologi sapi algoritma virtual gerak finite machine state reality pekerja 

Topic 3: 
tangan tulisan pengenalan telapak carakan senyum huruf prose learning gari klasifikasi quantization vector sistem pelatihan 

Topic 4: 
arsitektur enterprise togaf bangkalan informasi sistem pelayanan dinas tahapan bisnis instansi kepegawaian aplikasi tangan gizi 

Topic 5: 
gizi status pasien balita penjadwalan nilai kuliah algoritma dokumen makanan keputusan jadwal mata optimasi penentuan 

Topic 6: 
penjadwalan algoritma kuliah dokumen peramalan jadwal nilai optimasi optimal obat straw mata data penjualan genetika 

Topic 7: 
reality virtual augmented dunia second life hujan pembelajaran class t