# Informasi

Sebelum melakukan tahapan preprocessing dan sesudah melakukan scraping, kami memberikan label pada dataset menggunakan excel dimana dataset dengan awalnya variabel content diubah menjadi ulasan, sedangkan variabel rating diubah menjadi nilai. Variabel nilai tersebut yang awalnya berisi nilai antara 1-5, kami ubah dengan memberikan label sebagai berikut :
1. Bernilai NEGATIF, Jika nilai 1,2 atau 3
2. Bernilai POSITIF, Jika nilai 4 atau 5

In [1]:
# Lokasi dataset yang sudah diberi label POSITIF atau NEGATIF
# variabel ulasan, rating dan nilai
# Membaca file dataset csv

import pandas as pd
data_path=("../data/dataset-pintu-labeling.csv")
read_data=pd.read_csv(data_path)
read_data.head()

Unnamed: 0,ulasan,rating,nilai
0,Good job buat pintu saya kasih 5 ..kembangkan ...,5,POSITIF
1,"Aplikasi ringan, deposit dan wd banyak pilihan...",5,POSITIF
2,Kenapa utk Crypto Solana tdk bisa dilakukan pe...,3,NEGATIF
3,"Mau bikin koin hebat, apa cari cuan aja, emang...",4,POSITIF
4,"Semakin susah kirim idrt ke binance,ngga seper...",3,NEGATIF


In [4]:
# Memfilter dataset yang sudah diberi label menggunakan variabel ulasan dan nilai
# Menyimpan dataset dengan variabel ulasan dan nilai

dataset= read_data[['ulasan','nilai']]
dataset.head()
dataset.to_csv("../data/dataset-pintu-labeling-filter.csv", index=False)

# Preprocessing Dataset Aplikasi PINTU

Pada preproceesing kami melakukan tahapan :
1. Case folding (lowercase, removing number, removing punctuation, removing whitespaces)
2. Tokenizing
3. Filtering
4. Stemming


In [3]:
# Install library NLTK : Library python membantu mempermudah dalam memproses teks seperti tokenization, filtering, dll
# Install library sastrawi : Library python yang dapat mengubah kata berimbuhan menjadi kata dasar
# Import tipe data string : Salah satu jenis tipe data pada bahasa pemrograman python dan biasanyan berisi karakter
# Import library Pipeline : Library python yang mempermudah dalam membuat jalur data dengan bantuan peta, filter, dll
# Import library numpy : Libarary python yang fokus pada scientific computing
# Import library pandas : Library python yang fokus pada analisis data seperti manipulasi data, persiapan data dan pembersihan data
# Import library re: Regular expression 

%pip install nltk
%pip install sastrawi
import string
import pandas as pd
import numpy as np
import re


# Untuk proses filtering
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

# Untuk proses stemming
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory



Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.
Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Case Folding

In [25]:
# fungsi casefolding untuk lowercase, removing number, removing punctuation, removing whitespace tujuannya untuk membersihkan data


def casefolding(ulasan):
  #Lowercase : untuk merubah format teks menjadi hurud kecil semua
  ulasan = ulasan.lower()

  #Removing Number : untuk menghapus karakter angka
  ulasan = re.sub("\d+", "", ulasan)

  #Removing Punctuation : untuk menghapus karakter tanda baca
  ulasan = ulasan.translate(str.maketrans("","",string.punctuation))

  #Removing Whitespace : untuk menghapus karakter kosong
  ulasan = ulasan.strip()
  
  return ulasan

dataset['ulasan']=dataset['ulasan'].apply(casefolding)
dataset.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset['ulasan']=dataset['ulasan'].apply(casefolding)


Unnamed: 0,ulasan,nilai
0,good job buat pintu saya kasih kembangkan ter...,POSITIF
1,aplikasi ringan deposit dan wd banyak pilihan ...,POSITIF
2,kenapa utk crypto solana tdk bisa dilakukan pe...,NEGATIF
3,mau bikin koin hebat apa cari cuan aja emang m...,POSITIF
4,semakin susah kirim idrt ke binancengga sepert...,NEGATIF


### Tokenizing 

In [26]:
# Fungsi tokenizing untuk memisahkan kalimat menjadi perkata 

def tokenizing(ulasan):
  # Untuk memisahkan perkata
  ulasan = ulasan.split()

  return ulasan 

dataset['ulasan']=dataset['ulasan'].apply(tokenizing)
dataset.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset['ulasan']=dataset['ulasan'].apply(tokenizing)


Unnamed: 0,ulasan,nilai
0,"[good, job, buat, pintu, saya, kasih, kembangk...",POSITIF
1,"[aplikasi, ringan, deposit, dan, wd, banyak, p...",POSITIF
2,"[kenapa, utk, crypto, solana, tdk, bisa, dilak...",NEGATIF
3,"[mau, bikin, koin, hebat, apa, cari, cuan, aja...",POSITIF
4,"[semakin, susah, kirim, idrt, ke, binancengga,...",NEGATIF


### Filtering

In [41]:
# fungsi filtering untuk menghilangkan kata yang tidak penting

def removed(ulasan):
  filtering = stopwords.words('indonesian','english')
  x = []
  data = []
  def myFungsi(x):
    if x in filtering:
      return False
    else:
      return True
  fit = filter(myFungsi, ulasan)
  for x in fit:
    data.append(x)
  return data

dataset['ulasan']=dataset['ulasan'].apply(removed)
dataset.head()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset['ulasan']=dataset['ulasan'].apply(removed)


Unnamed: 0,ulasan,nilai
0,"[good, job, pintu, kasih, kembangkan, sukses]",POSITIF
1,"[aplikasi, ringan, deposit, wd, pilihan, mudah...",POSITIF
2,"[utk, crypto, solana, tdk, pembelian]",NEGATIF
3,"[bikin, koin, hebat, cari, cuan, aja, emang, k...",POSITIF
4,"[susah, kirim, idrt, binancengga]",NEGATIF


### Stemming

In [42]:
# fungsi stemming untuk merubah kata berimbuhan menjadi kata dasar

def stemming(ulasan):
  factory = StemmerFactory()
  stemmer = factory.create_stemmer()
  do = []
  for x in ulasan:
    dt = stemmer.stem(x)
    do.append(dt)
  data_clean = []
  data_clean = " ".join(do)
  return data_clean

dataset['ulasan']=dataset['ulasan'].apply(stemming)
dataset.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset['ulasan']=dataset['ulasan'].apply(stemming)


Unnamed: 0,ulasan,nilai
0,good job pintu kasih kembang sukses,POSITIF
1,aplikasi ringan deposit wd pilih mudah ajar co...,POSITIF
2,utk crypto solana tdk beli,NEGATIF
3,bikin koin hebat cari cuan aja emang kaya bkin...,POSITIF
4,susah kirim idrt binancengga,NEGATIF


In [None]:
# Menyimpan dataset hasil proses preprocessing 
dataset.to_csv("../output/dataset-pintu-cleaning.csv", index=False)

##### Lokasi Penyimpanan Hasil Preprocessing Dataset Aplikasi Pintu

In [None]:
PATH = ("../output/dataset-pintu-cleaning.csv")