# Keseluruhan Code

# Import Library

In [1]:
import pandas as pd
import numpy as np
#Import Library untuk Tokenisasi
import string 
import re #regex library

# import word_tokenize & FreqDist dari NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist
from nltk.corpus import stopwords

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

# Read Data PTA

In [3]:
dataPTA = pd.read_csv('ta-manajemen.csv')

In [4]:
dataPTA.head(10)

Unnamed: 0,judul,penulis,abstraksi
0,PENGARUH KEPEMIMPINAN DAN KOMPENSASI TERHADAP ...,Penulis : Hendri Wahyudi Prayitno,Abstrak\r\nPenelitian ini menggunakan metode k...
1,Pengukuran Website Quality Pada Situs Sistem A...,Penulis : Muhammad Zakaria Utomo,Aplikasi nyata pemanfaatan teknologi informasi...
2,ANALISIS PERSEPSI BRAND ASSOCIATION MENURUT PE...,Penulis : Faishal,Tujuan penelitian ini adalah untuk mengetahui ...
3,analisis faktor-faktor yang berpengaruh terhad...,Penulis : Jailani,ABSTRAK\r\nTujuan penelitian ini adalah untuk ...
4,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,Penulis : SATIYAH,"ABSTRAK\r\nSatiyah, Pengaruh Faktor-faktor Pel..."
5,ANALISIS TINGKAT RISIKO KREDIT \r\nPADA PD. BP...,Penulis : Iwan Kurniawan Gomes,Hasil dari penelitian ini dari perhitungan Cre...
6,Pengaruh Harga dan Kualitas Pelayanan terhadap...,Penulis : ALI RAHBINI,"Ali Rahbini, Pengaruh Harga dan Kualitas Pelay..."
7,ANALISIS CONSUMER DECISION MODEL (CDM) UNTUK M...,Penulis : SYAIFUL ANWAR,ABSTRAK\r\n\r\nPenelitian ini bertujuan untuk ...
8,PENGARUH TIPE KEPEMIMPINAN TERHADAP PRESTASI K...,Penulis : Dharma Abidin Syah,"ABSTRAK\r\n\tDharma Abidin Syah,Kesimpulan: (1..."
9,PENGARUH CELEBRITY ENDORSER IWAN FALS TERHADAP...,Penulis : Tayyi Matun,Tujuan penelitian ini adalah mengetahui pengar...


# Case Folding

In [5]:

# gunakan fungsi Series.str.lower() pada Pandas
dataPTA['abstraksi'] = dataPTA['abstraksi'].str.lower()

print('Case Folding Result : \n')

#cek hasil case fold
print(dataPTA['abstraksi'].head(5))
print('\n\n\n')

Case Folding Result : 

0    abstrak\r\npenelitian ini menggunakan metode k...
1    aplikasi nyata pemanfaatan teknologi informasi...
2    tujuan penelitian ini adalah untuk mengetahui ...
3    abstrak\r\ntujuan penelitian ini adalah untuk ...
4    abstrak\r\nsatiyah, pengaruh faktor-faktor pel...
Name: abstraksi, dtype: object






# Removal

In [6]:
def remove_PTA_special(text):
    # menghapus tab, new line, dan back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # menghapus non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # menghapus mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # menghapus incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_PTA_special)

#menghapus nomor
def remove_number(text):
    return  re.sub(r"\d+", "", text)

dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_number)

#menghapus punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_punctuation)

#menghapus spasi leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_whitespace_LT)

#menghapus spasi tunggal dan ganda
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_whitespace_multiple)

# menghapus kata 1 abjad
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

dataPTA['abstraksi'] = dataPTA['abstraksi'].apply(remove_singl_char)

print('Result : \n') 
print(dataPTA['abstraksi'].head())
print('\n\n\n')

Result : 

0    abstrak penelitian ini menggunakan metode kuan...
1    aplikasi nyata pemanfaatan teknologi informasi...
2    tujuan penelitian ini adalah untuk mengetahui ...
3    abstrak tujuan penelitian ini adalah untuk men...
4    abstrak satiyah pengaruh faktorfaktor pelatiha...
Name: abstraksi, dtype: object






# STOPWORD 

In [7]:
list_stopwords = stopwords.words('indonesian')
# Mengubah List ke dictionary
list_stopwords = set(list_stopwords)

In [8]:
dataPTA.head()

Unnamed: 0,judul,penulis,abstraksi
0,PENGARUH KEPEMIMPINAN DAN KOMPENSASI TERHADAP ...,Penulis : Hendri Wahyudi Prayitno,abstrak penelitian ini menggunakan metode kuan...
1,Pengukuran Website Quality Pada Situs Sistem A...,Penulis : Muhammad Zakaria Utomo,aplikasi nyata pemanfaatan teknologi informasi...
2,ANALISIS PERSEPSI BRAND ASSOCIATION MENURUT PE...,Penulis : Faishal,tujuan penelitian ini adalah untuk mengetahui ...
3,analisis faktor-faktor yang berpengaruh terhad...,Penulis : Jailani,abstrak tujuan penelitian ini adalah untuk men...
4,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,Penulis : SATIYAH,abstrak satiyah pengaruh faktorfaktor pelatiha...


In [8]:
vect =TfidfVectorizer(stop_words=list_stopwords,max_features=1000) 
vect_text=vect.fit_transform(dataPTA['Abstrak'])
print(vect_text.shape)
print(vect_text)


(65, 1000)
  (0, 376)	0.08161231722757978
  (0, 489)	0.08161231722757978
  (0, 464)	0.06778470526065353
  (0, 69)	0.08970095170275473
  (0, 43)	0.08970095170275473
  (0, 252)	0.04586845881855231
  (0, 356)	0.0758733397358285
  (0, 750)	0.06778470526065353
  (0, 906)	0.05236031914022402
  (0, 551)	0.03502385948167356
  (0, 667)	0.08970095170275473
  (0, 207)	0.08970095170275473
  (0, 305)	0.07527740138862064
  (0, 754)	0.08970095170275473
  (0, 93)	0.08970095170275473
  (0, 798)	0.03318110160471517
  (0, 140)	0.08970095170275473
  (0, 167)	0.11518846198309596
  (0, 402)	0.062045727768902235
  (0, 835)	0.04700871357164142
  (0, 416)	0.0758733397358285
  (0, 431)	0.20352774874840684
  (0, 112)	0.04586845881855231
  (0, 659)	0.3235477457701398
  (0, 760)	0.061924516766453906
  :	:
  (64, 490)	0.1382721204366279
  (64, 105)	0.19084364493417733
  (64, 860)	0.22309631148624776
  (64, 714)	0.26031936133942574
  (64, 483)	0.06176566737536445
  (64, 577)	0.07436543716208259
  (64, 707)	0.0650798

In [9]:
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [10]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 2.17153509e-01 -3.08812720e-01 -2.68997300e-01 -9.64533429e-02
  -1.32262669e-01 -2.30130439e-01 -5.51614601e-02 -4.01818854e-01
   9.03859182e-02  9.27746078e-02]
 [ 1.70104353e-01 -1.71894081e-01  1.44405702e-01 -2.38190627e-02
  -2.83579273e-01  7.22240010e-01  1.92842256e-02 -1.78317869e-01
  -1.16997367e-01 -3.57561501e-03]
 [ 1.51956943e-01 -1.69645126e-01  4.90535975e-01  5.62096748e-02
   1.46206848e-01 -1.19630890e-01  4.57444196e-02 -7.03549751e-02
   1.74844492e-01 -2.79966390e-01]
 [ 2.71408736e-01  1.06909963e-01 -5.83759418e-02  2.04800541e-01
  -6.15110032e-03  2.86214480e-02  5.13345113e-02 -5.78692453e-02
   6.00444757e-02 -1.99936739e-03]
 [ 9.85170745e-02 -6.30063761e-02  1.86765031e-01  1.92818781e-02
   5.53986064e-02 -6.07889216e-02 -5.25963363e-02  8.44757768e-02
  -1.19496699e-01  2.12249604e-01]
 [ 1.48669427e-01 -1.43636004e-01  3.01455432e-01  7.57167388e-02
   3.95187074e-02 -5.12390792e-02  1.02082844e-02 -1.47194745e-01
   9.33849948e-02  1.48772472e-01

In [11]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  21.715350899583534
Topic  1  :  -30.881271957251705
Topic  2  :  -26.899730015696132
Topic  3  :  -9.645334291582582
Topic  4  :  -13.226266903206286
Topic  5  :  -23.013043863534556
Topic  6  :  -5.516146008259662
Topic  7  :  -40.18188537842842
Topic  8  :  9.038591820361244
Topic  9  :  9.277460778459842


In [12]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 1000)
[[ 0.01297081  0.00397193  0.00565642 ...  0.01397252  0.05445197
   0.03266684]
 [ 0.0076286  -0.00618351 -0.00943063 ...  0.01424513  0.04873721
   0.03516623]
 [-0.0066347   0.01715741 -0.0040804  ...  0.00250413  0.00566259
   0.00373151]
 ...
 [ 0.00081913 -0.01096063  0.01908439 ...  0.00162791  0.00521744
   0.0041085 ]
 [ 0.00985557  0.00738463  0.02304947 ... -0.00174446  0.00185695
  -0.00060862]
 [-0.01671668  0.01218407  0.02226098 ...  0.00478573 -0.01013601
   0.00571048]]


In [13]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
citra batik metode data proses sistem nilai hasil tekstur pengenalan 

Topic 1: 
citra batik tekstur ciri fitur kemiripan ekstraksi perolehan isi gambar 

Topic 2: 
bahasa algoritma madura mobile android teknologi pembelajaran aplikasi arsitektur pencarian 

Topic 3: 
tangan tulisan pengenalan sidik jari telapak skenario proses carakan senyum 

Topic 4: 
produksi peramalan perusahaan penjualan algoritma permintaan pelanggan penjadwalan bahasa komputer 

Topic 5: 
arsitektur bangkalan informasi dinas pelayanan bisnis tahapan peramalan kepegawaian sistem 

Topic 6: 
sidik jari pendeteksian citra manusia skenario gizi region titik pasien 

Topic 7: 
gizi pasien status peramalan obat balita penentuan data nilai kebutuhan 

Topic 8: 
gizi mobile pasien citra status android teknologi balita gerakan perusahaan 

Topic 9: 
gizi bahasa madura pasien pelanggan status batik perusahaan sidik jari 



