In [1]:
# Import library

import pandas as pd
import numpy as np
import nltk
import string
import re
from nltk.tokenize import TweetTokenizer
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
nltk.download('stopwords')
from nltk.corpus import stopwords 

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
def load_data():
    data = pd.read_csv('data/dataset-baru.csv')
    return data

In [3]:
teks_df = load_data()
teks_df.head()

Unnamed: 0,content,sentiment
0,Sangat mudah untuk digunakan,positive
1,Aplikasi ini sangat membantu saya karna saya s...,positive
2,Bagus buat kesehatan,positive
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive
4,Sangat mudah untuk digunakan,positive


In [4]:
df = pd.DataFrame(teks_df[['content', 'sentiment']])

In [6]:
def remove(text):
    #remove puctuation
    text = re.sub(r'[^\w\s]', '', text)
    
    #remove angka
    text = re.sub('[0-9]+', '', text)
    
    # remove stock market tickers like $GE
    text = re.sub(r'\$\w*', '', text)
    
    # remove hyperlinks
    text = re.sub(r'((www\.[^\s]+)|(https?://[^\s]+))','URL',text)
    
    # remove hashtags
    # only removing the hash # sign from the word
    text = re.sub(r'#', '', text)
    
    #remove coma
    text = re.sub(r',','',text)
    
    return text
df['data_clean'] = df['content'].apply(lambda x: remove(x))

df.head()

Unnamed: 0,content,sentiment,data_clean
0,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan
1,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...
2,Bagus buat kesehatan,positive,Bagus buat kesehatan
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive,Tombol setuju di awal nya gak ada Ini aplikasi...
4,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan


In [7]:
df['text_normalization']= df['data_clean'].apply(lambda x: x.lower())
df.head()

Unnamed: 0,content,sentiment,data_clean,text_normalization
0,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan
1,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...,aplikasi ini sangat membantu saya karna saya s...
2,Bagus buat kesehatan,positive,Bagus buat kesehatan,bagus buat kesehatan
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive,Tombol setuju di awal nya gak ada Ini aplikasi...,tombol setuju di awal nya gak ada ini aplikasi...
4,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan


In [8]:
# tokenize tweets
def tokenization(text):
    tokenizer = TweetTokenizer(preserve_case=False, strip_handles=True, reduce_len=True)
    tweet_tokens = tokenizer.tokenize(text)
    return tweet_tokens
df['text_tokenied']= df['text_normalization'].apply(lambda x: tokenization(x))

df.head()

Unnamed: 0,content,sentiment,data_clean,text_normalization,text_tokenied
0,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]"
1,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...,aplikasi ini sangat membantu saya karna saya s...,"[aplikasi, ini, sangat, membantu, saya, karna,..."
2,Bagus buat kesehatan,positive,Bagus buat kesehatan,bagus buat kesehatan,"[bagus, buat, kesehatan]"
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive,Tombol setuju di awal nya gak ada Ini aplikasi...,tombol setuju di awal nya gak ada ini aplikasi...,"[tombol, setuju, di, awal, nya, gak, ada, ini,..."
4,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]"


In [9]:
#import sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stemming(text):
    stem_word = [stemmer.stem(word) for word in text]# stemming word
    return stem_word
df['text_steam']=df['text_tokenied'].apply(lambda x: stemming(x))

df.head()

Unnamed: 0,content,sentiment,data_clean,text_normalization,text_tokenied,text_steam
0,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]","[sangat, mudah, untuk, guna]"
1,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...,aplikasi ini sangat membantu saya karna saya s...,"[aplikasi, ini, sangat, membantu, saya, karna,...","[aplikasi, ini, sangat, bantu, saya, karna, sa..."
2,Bagus buat kesehatan,positive,Bagus buat kesehatan,bagus buat kesehatan,"[bagus, buat, kesehatan]","[bagus, buat, sehat]"
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive,Tombol setuju di awal nya gak ada Ini aplikasi...,tombol setuju di awal nya gak ada ini aplikasi...,"[tombol, setuju, di, awal, nya, gak, ada, ini,...","[tombol, tuju, di, awal, nya, gak, ada, ini, a..."
4,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]","[sangat, mudah, untuk, guna]"


In [10]:
stopwords_indonesia = stopwords.words('indonesian')

#defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= " ".join([i for i in text if i not in stopwords_indonesia])
    return output

#applying the function
df['stopword']= df['text_steam'].apply(lambda x:remove_stopwords(x))

df.head(10)

Unnamed: 0,content,sentiment,data_clean,text_normalization,text_tokenied,text_steam,stopword
0,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]","[sangat, mudah, untuk, guna]",mudah
1,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...,aplikasi ini sangat membantu saya karna saya s...,"[aplikasi, ini, sangat, membantu, saya, karna,...","[aplikasi, ini, sangat, bantu, saya, karna, sa...",aplikasi bantu karna daerah mksih yahh aplikas...
2,Bagus buat kesehatan,positive,Bagus buat kesehatan,bagus buat kesehatan,"[bagus, buat, kesehatan]","[bagus, buat, sehat]",bagus sehat
3,Tombol setuju di awal nya gak ada. Ini aplikas...,positive,Tombol setuju di awal nya gak ada Ini aplikasi...,tombol setuju di awal nya gak ada ini aplikasi...,"[tombol, setuju, di, awal, nya, gak, ada, ini,...","[tombol, tuju, di, awal, nya, gak, ada, ini, a...",tombol tuju nya gak aplikasi user friendly ban...
4,Sangat mudah untuk digunakan,positive,Sangat mudah untuk digunakan,sangat mudah untuk digunakan,"[sangat, mudah, untuk, digunakan]","[sangat, mudah, untuk, guna]",mudah
5,Selamat malam. Aplikasi nya bagus dan bermanfa...,positive,Selamat malam Aplikasi nya bagus dan bermanfaa...,selamat malam aplikasi nya bagus dan bermanfaa...,"[selamat, malam, aplikasi, nya, bagus, dan, be...","[selamat, malam, aplikasi, nya, bagus, dan, ma...",selamat malam aplikasi nya bagus manfaat aplik...
6,Saya puas dengan aflikasi ini tapi kenapa tida...,positive,Saya puas dengan aflikasi ini tapi kenapa tida...,saya puas dengan aflikasi ini tapi kenapa tida...,"[saya, puas, dengan, aflikasi, ini, tapi, kena...","[saya, puas, dengan, aflikasi, ini, tapi, kena...",puas aflikasi ecek orang
7,Aplikasi ini sangat membantu saya karna saya s...,positive,Aplikasi ini sangat membantu saya karna saya s...,aplikasi ini sangat membantu saya karna saya s...,"[aplikasi, ini, sangat, membantu, saya, karna,...","[aplikasi, ini, sangat, bantu, saya, karna, sa...",aplikasi bantu karna daerah mksih yahh aplikas...
8,Sangat membantu mempercepat pelayanan dan menj...,positive,Sangat membantu mempercepat pelayanan dan menj...,sangat membantu mempercepat pelayanan dan menj...,"[sangat, membantu, mempercepat, pelayanan, dan...","[sangat, bantu, cepat, layan, dan, jamin, seha...",bantu cepat layan jamin sehat klien
9,Aplikasi ini untuk memantau perkembangan covid-19,positive,Aplikasi ini untuk memantau perkembangan covid,aplikasi ini untuk memantau perkembangan covid,"[aplikasi, ini, untuk, memantau, perkembangan,...","[aplikasi, ini, untuk, pantau, kembang, covid]",aplikasi pantau kembang covid


In [11]:
df = pd.DataFrame(df[['stopword', 'sentiment']])

df.head(10)

Unnamed: 0,stopword,sentiment
0,mudah,positive
1,aplikasi bantu karna daerah mksih yahh aplikas...,positive
2,bagus sehat,positive
3,tombol tuju nya gak aplikasi user friendly ban...,positive
4,mudah,positive
5,selamat malam aplikasi nya bagus manfaat aplik...,positive
6,puas aflikasi ecek orang,positive
7,aplikasi bantu karna daerah mksih yahh aplikas...,positive
8,bantu cepat layan jamin sehat klien,positive
9,aplikasi pantau kembang covid,positive


In [12]:
df['stopword'].replace('?', np.NaN)
df.head(10)

Unnamed: 0,stopword,sentiment
0,mudah,positive
1,aplikasi bantu karna daerah mksih yahh aplikas...,positive
2,bagus sehat,positive
3,tombol tuju nya gak aplikasi user friendly ban...,positive
4,mudah,positive
5,selamat malam aplikasi nya bagus manfaat aplik...,positive
6,puas aflikasi ecek orang,positive
7,aplikasi bantu karna daerah mksih yahh aplikas...,positive
8,bantu cepat layan jamin sehat klien,positive
9,aplikasi pantau kembang covid,positive


In [13]:
df['stopword'].isnull().sum()

0

In [16]:
df.to_csv('data/hasil-preprocessing-data.csv')