# Crawling

Data crawling adalah program yang menghubungkan halaman web, kemudian mengunduh kontennya. Program crawling dalam data science hanya akan online untuk mencari dua hal, yaitu data yang dicari oleh pengguna dan penjelajahan target dengan jangkauan yang lebih luas.

In [13]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

#stop-words
stop_words=set(nltk.corpus.stopwords.words('english'))

In [14]:
df = pd.read_csv('./hasilmanajemen.csv')

In [15]:
df.head(10)

Unnamed: 0,judul,penulis,dosen_1,dosen_2,abstrak
0,Pengembangan Sumber Daya Manusia Dalam Rangka ...,Penulis : Ismie Novitasari Soekarno,Dosen Pembimbing I : Dra. Hj. S. Anugrahini Ir...,"Dosen Pembimbing II :Faidal. S.E, MM",ABSTRAK\r\nPenelitian ini bertujuan untuk mene...
1,PENGARUH RELATIONSHIP MARKETING TERHADAP LOYAL...,Penulis : ARYA SUBAYU,"Dosen Pembimbing I : Dr.H.Pribanus Wantara.,Dr...","Dosen Pembimbing II :Hadi Purnomo, SE, MM",Tujuan penelitian ini adalah untuk mengetahui ...
2,Analisis Kinerja Keuangan Perusahaan yang terd...,Penulis : DIANA AGUSTINI DEWI,"Dosen Pembimbing I : Drs.BAMBANG SUDARSONO.,MM","Dosen Pembimbing II :PURNAMAWATI,.SE,MSi","Diana Agustini Dewi, 2013. “Analisis Kinerja K..."
3,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,Penulis : AHMAD ZAINI ALI,"Dosen Pembimbing I : R. GATOT HERU PRANJOTO, S...","Dosen Pembimbing II :PURNAMAWATI, SE., MSi",Pendekatan penelitian yang digunakan dalam pen...
4,PENGARUH SELF EFFICACY TERHADAP PRESTASI AKADE...,Penulis : ISTIB SYAROH,Dosen Pembimbing I : Dr. Dra. Hj. Iriani Ismai...,Dosen Pembimbing II :Drs. Ec. Mudji Kuswinarno...,Tujuan dari penelitian ini adalah untuk menget...
5,PENGARUH FAKTOR-FAKTOR STRES KERJA TERHADAP DI...,Penulis : Saiful Rahman,Dosen Pembimbing I : Dr. Muhammad Alkirom Wild...,"Dosen Pembimbing II :Helmi Buyung Aulia,S.ST.,...",ABSTRAK\r\n\r\nPenelitian ini bertujuan untuk ...
6,Pengaruh Budaya Terhadap Perilaku Pengemis Ana...,Penulis : Indah Permata Sari,"Dosen Pembimbing I : Dr. Hj. Iriani Ismail., D...","Dosen Pembimbing II :Faidal,SE., MM",Munculnya asumsi bahwa lahirnya budaya mengemi...
7,Pengaruh Rekrutmen Dan Pengembangan Karir Terh...,Penulis : Zainal Abidin,"Dosen Pembimbing I : Dr. Iriani Ismail,Dra.,MM","Dosen Pembimbing II :Helmi Buyung Aulia,SE.,ST...",Penelitian ini bertujuan untuk mengetahui peng...
8,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Penulis : Mira Dwiastuti,"Dosen Pembimbing I : Hj Evaliati Amaniyah, S.E...","Dosen Pembimbing II :Echsan Gani, S.E, M.Si",Suatu keputusan investasi selalu berhubungan d...
9,PENGARUH IKLAN ONLINE MELALUI MEDIA FACEBOOK T...,Penulis : Hening Ari Putra,Dosen Pembimbing I : Bambang Setyo Pambudi,Dosen Pembimbing II :Suyono,"Abstrak\r\n\r\nHening Ary Putra, Pengaruh Ikla..."


In [16]:
df.drop(['judul'],axis=1,inplace=True)
df.drop(['penulis'],axis=1,inplace=True)
df.drop(['dosen_1'],axis=1,inplace=True)
df.drop(['dosen_2'],axis=1,inplace=True)

In [17]:
df.head(10)

Unnamed: 0,abstrak
0,ABSTRAK\r\nPenelitian ini bertujuan untuk mene...
1,Tujuan penelitian ini adalah untuk mengetahui ...
2,"Diana Agustini Dewi, 2013. “Analisis Kinerja K..."
3,Pendekatan penelitian yang digunakan dalam pen...
4,Tujuan dari penelitian ini adalah untuk menget...
5,ABSTRAK\r\n\r\nPenelitian ini bertujuan untuk ...
6,Munculnya asumsi bahwa lahirnya budaya mengemi...
7,Penelitian ini bertujuan untuk mengetahui peng...
8,Suatu keputusan investasi selalu berhubungan d...
9,"Abstrak\r\n\r\nHening Ary Putra, Pengaruh Ikla..."


In [18]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) # to play with. min_df,max_df,max_features etc...

In [19]:
vect_text=vect.fit_transform(df['abstrak'].values.astype('U'))

In [20]:
print(vect_text.shape)
#print(vect_text)
type(vect_text)
df = pd.DataFrame(vect_text.toarray())
print(df)
idf=vect.idf_

(100, 1000)
         0    1         2         3    4         5        6    7         8    \
0   0.087101  0.0  0.079784  0.159569  0.0  0.000000  0.00000  0.0  0.000000   
1   0.000000  0.0  0.000000  0.000000  0.0  0.000000  0.00000  0.0  0.000000   
2   0.000000  0.0  0.000000  0.000000  0.0  0.000000  0.00000  0.0  0.000000   
3   0.000000  0.0  0.000000  0.000000  0.0  0.000000  0.00000  0.0  0.046109   
4   0.000000  0.0  0.000000  0.000000  0.0  0.000000  0.00000  0.0  0.000000   
..       ...  ...       ...       ...  ...       ...      ...  ...       ...   
95  0.000000  0.0  0.000000  0.071306  0.0  0.000000  0.00000  0.0  0.000000   
96  0.000000  0.0  0.000000  0.000000  0.0  0.000000  0.00000  0.0  0.000000   
97  0.000000  0.0  0.064440  0.000000  0.0  0.000000  0.07932  0.0  0.000000   
98  0.000000  0.0  0.081642  0.000000  0.0  0.000000  0.00000  0.0  0.000000   
99  0.000000  0.0  0.000000  0.000000  0.0  0.048771  0.00000  0.0  0.000000   

         9    ...  990  991

In [21]:
idf=vect.idf_

In [22]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['dan'])
print(dd['yamaha'])  # police is most common and forecast is least common among the news headlines.

dan yamaha
1.0200006667066694
4.921973336281314




<h1>LSA</h1>

<p>Latent Semantic Analysis (LSA) merupakan sebuah metode yang memanfaatkan model statistik matematis untuk menganalisa struktur semantik suatu teks. LSA bisa digunakan untuk menilai esai dengan mengkonversikan esai menjadi matriks-matriks yang diberi nilai pada masing-masing term untuk dicari kesamaan dengan term referensi.</p>

<h1>Algoritma LSA</h1>

<p>Tahapan-tahapan algoritma LSA dalam prosessing teks</p>

<h1>Menghitung Term-document Matrix</h1> 

<p>Document Term Matrix merupakan algoritma – Metode perhitungan yang sering kita temui dalam text minning.</p>

<p>Melalui Document Term Matrix, kita dapat melakukan analisis yang lebih menarik. Mudah untuk menentukan jumlah kata individual untuk setiap dokumen atau untuk semua dokumen. Misalkan untuk menghitung agregat dan statistik dasar seperti jumlah istilah rata-rata, mean, median, mode, varians, dan deviasi standar dari panjang dokumen, serta dapat mengetahui istilah mana yang lebih sering dalam kumpulan dokumen dan dapat menggunakan informasi tersebut untuk menentukan istilah mana yang lebih mungkin “mewakili” dokumen tersebut.</p>

<h1>Singular Value Decomposition</h1>

<p>Singular Value Decomposition adalah seuatu teknik untuk mendekomposisi matriks berukuran apa saja (biasanya diaplikasikan untuk matriks dengan ukuran sangat besar), untuk mempermudah pengolahan data. Hasil dari SVD ini adalah singular value yang disimpan dalam sebuah matriks diagonal, D,  dalam urutan yang sesuai dengan koresponding singular vector-ya.</p>

In [23]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [24]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 3.72417772e-01  2.59282405e-01 -5.97275294e-02  4.79216460e-02
  -6.78031341e-02 -1.42669594e-01  6.04199907e-02 -9.94604695e-03
  -3.50384426e-01  2.17987579e-03]
 [ 2.59850250e-01  1.51177073e-02 -3.37760495e-02  1.72728208e-01
  -1.10159067e-01 -2.21663118e-01 -6.32616610e-02  5.22082296e-02
  -2.37810984e-01  3.82511860e-02]
 [ 2.34394468e-01  1.57873300e-01  4.44924517e-01 -2.61600376e-03
   5.84453178e-02  8.72361435e-02  5.73672222e-02  8.43275048e-02
   1.23987988e-01  2.88152869e-01]
 [ 3.08517923e-01  1.16419068e-01  3.88600007e-01  1.14718494e-02
   8.66462126e-02  4.66737044e-02 -5.74621761e-02  4.91242874e-01
   6.09109712e-02  6.71574461e-02]
 [ 2.41293948e-01  7.32547319e-02 -3.95243015e-02  3.37306790e-02
  -2.06339843e-02 -7.33312290e-03  4.00114645e-02  1.89492869e-02
   2.26360769e-01  2.96473780e-03]
 [ 1.93847853e-01  2.15169001e-01 -1.50102549e-01 -4.40032350e-02
   3.34163929e-02  3.64030094e-02 -7.69389576e-02 -1.01675599e-02
   2.38468332e-01  4.19853849e-02

In [25]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  37.24177715376966
Topic  1  :  25.92824049491094
Topic  2  :  -5.972752939542046
Topic  3  :  4.792164599199658
Topic  4  :  -6.780313405220315
Topic  5  :  -14.266959446025924
Topic  6  :  6.04199907035581
Topic  7  :  -0.9946046949736325
Topic  8  :  -35.03844259212522
Topic  9  :  0.21798757905645583


In [26]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 1000)
[[ 1.10130123e-02  2.65631595e-03  1.01877906e-02 ...  2.64877570e-01
   5.32269567e-03  2.95633424e-03]
 [ 1.94744176e-02  7.33837354e-03  1.82721517e-02 ...  6.69685163e-02
  -5.37271839e-03  4.82549370e-03]
 [ 3.09189231e-02 -8.08863754e-03 -5.28046545e-03 ...  8.46363072e-02
  -9.74394305e-04  1.73142093e-02]
 ...
 [-4.79940895e-02  9.57572864e-03  3.44920593e-03 ... -4.38722120e-02
  -3.55899397e-05 -2.01516769e-02]
 [-4.51453745e-02 -5.17854254e-04 -2.70715518e-02 ...  4.15941714e-02
   3.94495663e-03 -9.82777809e-03]
 [ 4.53136496e-03 -1.31942143e-02 -1.55033109e-02 ... -9.65912964e-03
   2.80841858e-03  3.79303307e-03]]


<h1>Mengekstrak Topik dan Term</h1>

In [27]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
yang dan variabel keputusan pembelian terhadap penelitian produk uji kerja 

Topic 1: 
kerja karyawan kinerja produktivitas prestasi pegawai pt perusahaan sebesar keselamatan 

Topic 2: 
saham perusahaan return ratio asset portofolio tahun terdaftar equity 2011 

Topic 3: 
nasabah kepuasan bank merek loyalitas bangkalan nilai kualitas cabang pelanggan 

Topic 4: 
pesan iklan isi televisi format struktur langsung konsumen pantene sumber 

Topic 5: 
merek kerja brand asosiasi honda motor vario ekuitas image sepeda 

Topic 6: 
kompensasi kinerja karyawan finansial langsung kepemimpinan fhitung nonfinansial rekrutmen kompetensi 

Topic 7: 
ratio asset current equity debt variabel uji signifikan roe firm 

Topic 8: 
kepuasan kualitas akademik madura universitas trunojoyo online mahasiswa pelayanan faktor 

Topic 9: 
tahun bank nasabah cabang piutang loyalitas rasio sidogiri bangkalan keuangan 



<h1>K-Means</h1>

In [28]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\users\asus\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [34]:
import pandas as pd
import numpy as np
#Import Library untuk Tokenisasi
import string 
import re #regex library

# import word_tokenize & FreqDist dari NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist
from nltk.corpus import stopwords

import matplotlib.pyplot as plt 
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score
from sklearn.datasets import make_blobs
from sklearn.metrics import davies_bouldin_score

In [35]:
true_k = 4
model = KMeans(n_clusters= true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(vect_text)

In [36]:
print("kata teratas per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vect.get_feature_names()
for i in range(4):
    print("cluster %d:" % i),
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind]),
    print

kata teratas per cluster:
cluster 0:
 kerja
 karyawan
 dan
 yang
 produktivitas
 kinerja
 pt
 prestasi
 variabel
 terhadap
cluster 1:
 yang
 dan
 variabel
 keputusan
 pembelian
 produk
 terhadap
 uji
 penelitian
 merek
cluster 2:
 tahun
 yang
 dan
 online
 akademik
 faktor
 pada
 kinerja
 kompetensi
 universitas
cluster 3:
 pesan
 langsung
 isi
 iklan
 yang
 pengaruh
 konsumen
 terhadap
 dan
 tom




In [37]:
print( "\n" ) 
print( "Prediksi" )

Y = vect.transform([ "mengetahui media pemasaran" ]) 
prediksi = model.predict(Y) 
print(prediksi)



Prediksi
[2]


In [38]:
print(order_centroids)

[[422 385 179 ... 410 766 322]
 [997 179 970 ... 629 428 267]
 [901 997 179 ... 362 691 999]
 [719 473 358 ... 868 869 999]]
