## PREPROCESSING

### Menggunakan Data PTA Prodi Manajemen

In [2]:
#library numpy berfungsi untuk melakukan operasi vektor dan matriks dengan mengolah array dan array multidimensi. 
#Library NumPy digunakan untuk kebutuhan dalam menganalisis data.
!pip install numpy



In [3]:
#library pandas digunakan untuk mengelola data berbentuk tabel atau disebut dengan dataframe
#Library yang digunakan untuk Penanganan, manipulasi, dan analisis data
!pip install pandas



In [4]:
#NLTK adalah singkatan dari Natural Language Tool Kit
#library yang digunakan untuk membantu kita dalam bekerja dengan teks
#Library ini memudahkan kita untuk memproses teks seperti melakukan classification, tokenization, stemming, tagging, parsing, dan semantic reasoning.
!pip install nltk



In [5]:
#Library sastrawi digunakan untuk melakukan tokenisasi (tokenize) dan membuang stopwords dari teks.
!pip install Sastrawi



In [1]:
import numpy as np
import pandas as pd

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory 

### Menampilkan dokumen  dari hasil Crawling

In [2]:
df = pd.read_csv("data.csv")
df.head()

Unnamed: 0,judul,penulis,Dosbing 1,Dosbing 2,Abstrak
0,PENGARUH KEPEMIMPINAN DAN KOMPENSASI TERHADAP ...,Hendri Wahyudi Prayitno,"Dra. Hj. S Anugrahini Irawati, MM","Helmi Buyung Aulia,S,ST,SE,.MT","Penelitian ini menggunakan metode kuantitatif,..."
1,PENGARUH TIPE KEPEMIMPINAN TERHADAP PRESTASI K...,Dharma Abidin Syah,"Drs. Ec. Mudji Kuswinarno M,Si","Faidal SE, MM","\tDharma Abidin Syah,Kesimpulan: (1) Terdapat ..."
2,PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...,SATIYAH,"Dra. Hj. S. Anugrahini Irawati, MM","Helmi Buyung Aulia,S,ST.SE,M.MT","Satiyah, Pengaruh Faktor-faktor Pelatihan dan ..."
3,ANALISIS PERSEPSI BRAND ASSOCIATION MENURUT PE...,Faishal,Nurita Andriani,Yustina Chrismardani,Tujuan penelitian ini adalah untuk mengetahui ...
4,PENGARUH KOMPETENSI DOSEN TERHADAP KINERJA DOS...,Aththaariq,"Dr.RM Moch Wispandono,.S.E,.MS","Dr. Muhammad Alkirom Wildan,S.E.,M.Si.","Aththaariq, Pengaruh Kompetensi Dosen Terhadap..."


## PREPROCESSING 

Preprocessing merupakan proses awal yang akan mentransformasikan data masukan menjadi data dengan format yang sesuai dan siap untuk diproses (Setyohadi et al., 2017).  Tahapan dalam proses text preprocessing antara lain yaitu cleansing, tokenizing, filtering, stopword dan lain-lain. Penerapan tahap text preprocessing dapat berbeda-beda untuk setiap bahasa tergantung dengan kebutuhan, karena perbedaan dalam bahasa tentu memiliki arti yang berbeda untuk tiap katanya.

### Case Folding
Case folding merupakan langkah dalam pengolahan data yang bertujuan untuk mengubah ataumenghilangkan semua huruf kapital pada dokumen menjadi huruf kecil

In [3]:
data_abstrak = df['Abstrak']
data_abstrak = data_abstrak.str.lower()
df['abstrak_baru'] = data_abstrak
df['abstrak_baru']

0     penelitian ini menggunakan metode kuantitatif,...
1     \tdharma abidin syah,kesimpulan: (1) terdapat ...
2     satiyah, pengaruh faktor-faktor pelatihan dan ...
3     tujuan penelitian ini adalah untuk mengetahui ...
4     aththaariq, pengaruh kompetensi dosen terhadap...
5     tujuan penelitian ini adalah untuk : (1) menge...
6     aplikasi nyata pemanfaatan teknologi informasi...
7     tujuan penelitian ini adalah untuk mengidentif...
8     hasil dari penelitian ini dari perhitungan cre...
9     \ttujuan penelitian ini adalah mendeskripsikan...
10    penelitian ini mengungkapkan beberapa rumusan ...
11    tujuan penelitian ini adalah untuk mengetahui ...
12    tujuan penelitian ini adalah untuk mengetahui ...
13    pln merupakan badan usaha milik negara yang be...
14    tujuan penelitian ini adalah untuk mengidentif...
15    tujuan penelitian ini adalah mengetahui pengar...
16    penelitian ini bertujuan untuk mengukur pengar...
17     \ttujuan penelitian ini adalah untuk meng

### Menghilangkan Angka dan Remove Punctuation 
Remove Punctuation merupakan teknik penghilangan tanda baca yang digunakan dalam sebuah teks untuk membedakan antara kalimat dan bagian penyusunnya dan untukmemperjelas maknanya

In [4]:
import re #library re (regular expression (regex)) dapat digunakan untuk menghapus karakter angka.
import string #library String digunakan untuk memproses string Python standar

def remove_number(text):
    return  re.sub(r"\d+", "", text)

df['abstrak_baru'] = df['abstrak_baru'].apply(remove_number)

#remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

df['abstrak_baru'] = df['abstrak_baru'].apply(remove_punctuation)

In [5]:
df['abstrak_baru']

0     penelitian ini menggunakan metode kuantitatif ...
1     \tdharma abidin syahkesimpulan  terdapat penga...
2     satiyah pengaruh faktorfaktor pelatihan dan pe...
3     tujuan penelitian ini adalah untuk mengetahui ...
4     aththaariq pengaruh kompetensi dosen terhadap ...
5     tujuan penelitian ini adalah untuk   mengetahu...
6     aplikasi nyata pemanfaatan teknologi informasi...
7     tujuan penelitian ini adalah untuk mengidentif...
8     hasil dari penelitian ini dari perhitungan cre...
9     \ttujuan penelitian ini adalah mendeskripsikan...
10    penelitian ini mengungkapkan beberapa rumusan ...
11    tujuan penelitian ini adalah untuk mengetahui ...
12    tujuan penelitian ini adalah untuk mengetahui ...
13    pln merupakan badan usaha milik negara yang be...
14    tujuan penelitian ini adalah untuk mengidentif...
15    tujuan penelitian ini adalah mengetahui pengar...
16    penelitian ini bertujuan untuk mengukur pengar...
17     \ttujuan penelitian ini adalah untuk meng

### Stopword 

Stopword adalah stopwords merupakan kata yang diabaikan dalam pemrosesan dan biasanya disimpan di dalam stop lists. Stop list ini berisi daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. Contoh stopword dalam bahasa Indonesia adalah “yang”, “dan”, “di”, “dari”, dll. 

In [6]:
def stopping_word(contents):    
    data_kata = []
    stop_words = stopwords.words('english')
    stop_words2 = stopwords.words('indonesian')
    stop_words.extend(stop_words2)
    jmlData = contents.shape 
    for i in range(jmlData[0]):
        word_tokens = word_tokenize(contents[i])
        # print(word_tokens)
            
        word_tokens_no_stopwords = [w for w in word_tokens if not w in stop_words]

        special_char = "+=`@_!#$%^&*()<>?/\|}{~:;.[],1234567890‘’'" + '"“”●'
        out_list = [''.join(x for x in string if not x in special_char) for string in word_tokens_no_stopwords]
        # print('List after removal of special characters:', out_list)

        while '' in out_list:
            out_list.remove('')
        data_kata.append(out_list)
    return data_kata

In [7]:
stop_kata = stopping_word(df['abstrak_baru'])
df['stop_kata'] = stop_kata

In [8]:
df['stop_kata']

0     [penelitian, metode, kuantitatif, menekankan, ...
1     [dharma, abidin, syahkesimpulan, pengaruh, sig...
2     [satiyah, pengaruh, faktorfaktor, pelatihan, p...
3     [tujuan, penelitian, persepsi, brand, associat...
4     [aththaariq, pengaruh, kompetensi, dosen, kine...
5     [tujuan, penelitian, pengaruh, perilaku, konsu...
6     [aplikasi, nyata, pemanfaatan, teknologi, info...
7     [tujuan, penelitian, mengidentifikasi, variabe...
8     [hasil, penelitian, perhitungan, credit, risk,...
9     [tujuan, penelitian, mendeskripsikan, inovasi,...
10    [penelitian, rumusan, pelaporan, biaya, kualit...
11    [tujuan, penelitian, pengaruh, variabel, curre...
12    [tujuan, penelitian, pengaruh, variabel, retai...
13    [pln, badan, usaha, milik, negara, bergerak, b...
14    [tujuan, penelitian, mengidentifikasi, variabe...
15    [tujuan, penelitian, pengaruh, celebrity, endo...
16    [penelitian, bertujuan, mengukur, pengaruh, ha...
17    [tujuan, penelitian, variabel, kompensasi,