# Preprocessing Data

## Install Library

Dibawah ini dicantumkan beberapa library yang dibutuhkan untuk melakukan processing data menggunakan jupyter notebook, anda juga bisa melakukan instalasi ini dengan menggunakan Command Prompt untuk pengguna Windows atau Terminal untuk pengguna Linux

- pip install numpy
- pip install sklearn
- pip install pandas
- pip install matplotlib
- pip install seaborn
- pip install nltk

## Import Library

Untuk library yang digunakan diantaranya ada numpy, pandas, matplotlib, seaborn, nltk, dan sklearn, library ini umum digunakan pada data processing

In [1]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer


#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

## Instalasi Library Tambahan

Di bawah ini ada library tambahan yang harus di-install untuk memproses kata-kata yang diolah

In [2]:
nltk.download('corpus')
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Error loading corpus: Package 'corpus' not found in index
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\WINDOWS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\WINDOWS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Import Dokumen
<p>Import dokumen yang sudah dicrawling dengan crawler, bisa menggunakan referensi dari web ini atau bisa menggunakan referensi kode dari website lain</p>

In [3]:
df=pd.read_csv(r'abstrak_pta_manajemen.csv')

<h2>Tampilan dari 10 data yang diproses</h2>

In [4]:
df.head(20)

Unnamed: 0,Judul,Penulis,Dosbing_1,Dosbing_2,Abstrak_indo
0,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,SATIYAH,"Dra. Hj. S. Anugrahini Irawati, MM","elmi Buyung Aulia,S,ST.SE,M.MT",ABSTRAK\r\...
1,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,AHMAD ZAINI ALI,"R. GATOT HERU PRANJOTO, SE., MM","URNAMAWATI, SE., MSi",Pendekatan penelitian yang digunakan dalam pen...
2,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,Sandy Ardiansyah,"Dr. Ir. Nurita Andriani, MM.","uyono, S.E., M. S. M.",ABSTRAK\r\n\tTujuan penelitian ini adalah mend...
3,analisis faktor-faktor yang berpengaruh terhad...,Jailani,"Hj. Evaliati amaniyah, SE., M.SM","urnamawati, SE., M.Si",ABSTRAK\r\nTujuan penelitian ini adalah untuk ...
4,PENGARUH KOMPETENSI DOSEN TERHADAP KINERJA DOS...,Aththaariq,"Dr.RM Moch Wispandono,.S.E,.MS","r. Muhammad Alkirom Wildan,S.E.,M.Si.","Abstrak\r\n\r\nAththaariq, Pengaruh Kompetensi..."
5,Pengaruh Kompensasi Terhadap Kinerja Karywan p...,agustin pratiwi,Drs.Ec. Mudji Kuswinarno.M.Si.,"aidal. S.E, MM.",ABSTRAK \r\n\r\n\tTujuan penelitian ini adalah...
6,ANALISIS PORTOFOLIO YANG OPTIMAL DI BEI DENGAN...,Mira Dwiastuti,"Hj Evaliati Amaniyah, S.E, M.S.M","chsan Gani, S.E, M.Si",Suatu keputusan investasi selalu berhubungan d...
7,Pengaruh Bauran Pemasaran Terhadap Keputusan P...,Mahrus Saleh,"Dr.H Pribanus Wantara, Drs, MM","adi Purnomo, SE., MM",Objek penelitian ini adalah pembelian produk X...
8,PENGARUH HARGA DAN KUALITAS PRODUK TERHADAP KE...,Irnita Agustin Putri,"Dr. Drs. Ec H. Muh Syarif, M.Si","adi Purnomo, S.E., MM",ABSTRAK \r\nTujuan penelitian ini adalah (1) U...
9,PENGARUH PERSEPSI NILAI TERHADAP KEPUASAN PELA...,Hasan Basri,"Dr. Nurita Andriani, Ir., MM","ustina Chrismardani, S.Si., MM",Tujuan penelitian ini adalah untuk mengetahui ...


## Pembersihan Dokumen

<p>Pembersihan dokumen dilakukan agar dalam proses TF/IDF tidak ada simbol-simbol yang ikut masuk ke dalam proses tersebut yang dapat mengakibatkan dokumen menjadi kurang otentik</p>

In [5]:
def clean_text(headline):
    le=WordNetLemmatizer()
    word_tokens=word_tokenize(headline)
    tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
    cleaned_text=" ".join(tokens)
    return cleaned_text

In [6]:
# time taking
df['abstrak_cleaned']=df['Abstrak_indo'].apply(clean_text)

<h3>Perbandingan data yang belum dan sudah dibersihkan</h3>

In [8]:
df.head()

Unnamed: 0,Judul,Penulis,Dosbing_1,Dosbing_2,Abstrak_indo,abstrak_cleaned
0,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,SATIYAH,"Dra. Hj. S. Anugrahini Irawati, MM","elmi Buyung Aulia,S,ST.SE,M.MT",ABSTRAK\r\...,ABSTRAK Satiyah Pengaruh Faktor-faktor Pelatih...
1,PENGARUH STRUKTUR MODAL DAN LIKUIDITAS TERHADA...,AHMAD ZAINI ALI,"R. GATOT HERU PRANJOTO, SE., MM","URNAMAWATI, SE., MSi",Pendekatan penelitian yang digunakan dalam pen...,Pendekatan penelitian penelitian pendekatan ku...
2,Analisis Inovasi Dan Keunggulan Bersaing \r\nD...,Sandy Ardiansyah,"Dr. Ir. Nurita Andriani, MM.","uyono, S.E., M. S. M.",ABSTRAK\r\n\tTujuan penelitian ini adalah mend...,ABSTRAK Tujuan penelitian mendeskripsikan inov...
3,analisis faktor-faktor yang berpengaruh terhad...,Jailani,"Hj. Evaliati amaniyah, SE., M.SM","urnamawati, SE., M.Si",ABSTRAK\r\nTujuan penelitian ini adalah untuk ...,ABSTRAK Tujuan penelitian pengaruh variabel cu...
4,PENGARUH KOMPETENSI DOSEN TERHADAP KINERJA DOS...,Aththaariq,"Dr.RM Moch Wispandono,.S.E,.MS","r. Muhammad Alkirom Wildan,S.E.,M.Si.","Abstrak\r\n\r\nAththaariq, Pengaruh Kompetensi...",Abstrak Aththaariq Pengaruh Kompetensi Dosen T...


Drop kolom Dosbing_1, Dosbing_2, dan Abstrak_indo

In [9]:
df.drop(['Dosbing_1','Dosbing_2','Abstrak_indo'],axis=1,inplace=True)

In [10]:
df['abstrak_cleaned'][0]

'ABSTRAK Satiyah Pengaruh Faktor-faktor Pelatihan Pengembangan Terhadap Produktivitas Kerja Dinas Kelautan Perikanan Bangkalan Dibawah bimbingan Dra.Hj.S.Anugrahini Irawati Helmi Buyung Aulia ST.SE M.MT Dalam upaya meningkatkan produktivitas kerja mudah salah usaha produktivitas meningkat menerapkan program pelatihan pengembangan sumber daya manusia dilaksanakan instansi produktivitas tercapai meningkat kemampuan pegawai efektif efisien Dengan pelatihan pengembnagan diharapkan pegawai menyesuaikan kebutuhan-kebutuhan sikap tingkah laku keterampilan pengetahuan sesuai tuntutan perubahan Dengan pelatihan pengembangan pegawai mendukung terciptanya suasana kerja kondusif instansi produktivitasi kerja meningkat Tujuan penelitian Pengaruh Faktor-faktor Pelatihan Pengembangan Terhadap Produktivitas Kerja Dinas Kelautan Perikanan Bangkalan Untuk mengukur menganalisa hubungan variabel peneliti pendekatan observasional analitik pengamatan langsung responden penyebaran kuisioner dianalisis Peneli

## Term Frequency

<p>Data di atas adalah data yang sudah diproses menggunakan TF-IDF untuk menentukan Term Frequency tiap topik. TF-IDF (Term Frequency - Inverse Document Frequency) adalah algoritma praktis yang menggunakan frekuensi kata untuk menentukan seberapa relevan kata-kata itu dengan dokumen tertentu. Ini adalah pendekatan yang relatif sederhana namun intuitif untuk pembobotan kata, memungkinkannya bertindak sebagai titik awal yang bagus untuk berbagai tugas.</p>
<h3>Rumus TF-IDF</h3>

$$
\operatorname{tf}(t, d)=\frac{f_{t, d}}{\sum_{t^{\prime} \in d} f_{t^{\prime}, d}}
$$

<p></p>

In [11]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) # to play with. min_df,max_df,max_features etc...

In [12]:
vect_text=vect.fit_transform(df['abstrak_cleaned'])



In [13]:
print(vect_text.shape)
#print(vect_text)
type(vect_text)
df=pd.DataFrame(vect_text.toarray())
print(df)
idf=vect.idf_

(12, 421)
         0         1         2         3         4         5         6    \
0   0.039358  0.000000  0.000000  0.000000  0.000000  0.000000  0.033801   
1   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
2   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
3   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
4   0.000000  0.049824  0.000000  0.000000  0.000000  0.000000  0.000000   
5   0.000000  0.000000  0.067483  0.067483  0.000000  0.000000  0.000000   
6   0.000000  0.000000  0.000000  0.000000  0.048936  0.146808  0.084054   
7   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
8   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
9   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
10  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
11  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   

 

In [16]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['faktor'])
print(dd['instruktur'])  # police is most common and forecast is least common among the news headlines.

penelitian yamaha
2.466337068793427
2.8718021769015913
