In [84]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

import nltk
import re
from string import punctuation
from nltk.corpus import stopwords


# Data Preparation

### Import Data

In [62]:
df = pd.read_csv('Data/final_text_data.csv')
df.head()

Unnamed: 0,contents,sentiment
0,warung ini dimiliki oleh pengusaha pabrik tahu...,1
1,mohon ulama lurus dan k212 mmbri hujjah partai...,0
2,lokasi strategis di jalan sumatera bandung . t...,1
3,betapa bahagia nya diri ini saat unboxing pake...,1
4,duh . jadi mahasiswa jangan sombong dong . kas...,-1


### Checking Data

In [63]:
pd.DataFrame(df.isna().value_counts())

Unnamed: 0_level_0,Unnamed: 1_level_0,0
contents,sentiment,Unnamed: 2_level_1
False,False,36032
True,False,2


In [64]:
df[df.contents.isna()]

Unnamed: 0,contents,sentiment
23234,,0
26911,,0


### Drop Empty Data

In [65]:
df.dropna(inplace=True)

In [66]:
df[df.contents.isna()]

Unnamed: 0,contents,sentiment


## Words Information

In [67]:
def words_count(text):
    text_length = len(text.split(" "))
    return text_length

In [75]:
words_count_before_prepro = df['contents'].apply(lambda x: words_count(x)).sum()
pd.DataFrame({"words count before preprocessing": [words_count_before_prepro]})

Unnamed: 0,words count before preprocessing
0,554711


# Text Preprocessing

## Step 1
Method :
1. converting to lower case
1. remove or convert number into text
1. remove punctuation
1. remove white spaces
1. remove stopwords and particular words 

In [94]:
# 1) Converting to Lower Case
def to_lower(text):
    return text.lower()

# 2) remove or convert number into text
def remove_numbers(text):
    output = ''.join(c for c in text if not c.isdigit())
    return output

# 3) remove punctuation
def remove_punct(text):
    return ''.join(c for c in text if c not in punctuation)

# 4) remove white spaces
def remove_white_space(text):
    return " ".join(text.split())

# 5) remove stopwords and particular words 
def remove_stopwords(sentence):
    STOPWORDS = stopwords.words("indonesian") + stopwords.words("english")
    return ' '.join([w for w in nltk.word_tokenize(sentence) if not w in STOPWORDS])


    # Note
    # remove numbers: --> c for c in text if not c.isdigit()
    # text_string = "I was born in 1996"
    # for c in text_string:
    #     if c.isdigit() == False:
    #         print(c)
    
    # remove punctuation: --> c for c in text if c not in punctuation
    # text_string = "There was bobby, alex, fergie and I"

    # for c in text_string:
    #     if c not in punctuation:
    #         print(c)
    
    # remove stopwords: --> [w for w in nltk.word_tokenize(sentence) if not w in STOPWORDS]
    # for w in nltk.word_tokenize(text_string):
    #     if w not in STOPWORDS:
    #         print(w)

Executing Preprocessing Step 1

In [103]:
# pd.options.display.max_colwidth = None

# df['contents_prep1'] = df.contents.apply(lambda x: to_lower(x))
# df['contents_prep2'] = df['contents_prep1'].apply(lambda x: remove_numbers(x))
# df['contents_prep3'] = df['contents_prep2'].apply(lambda x: remove_punct(x))
# df['contents_prep4'] = df['contents_prep3'].apply(lambda x: remove_white_space(x))
# df['contents_prep5'] = df['contents_prep4'].apply(lambda x: remove_stopwords(x))

df.sample(20)

Unnamed: 0,contents,sentiment,contents_prep1,contents_prep2,contents_prep3,contents_prep4,contents_prep5
7627,"gubernur jawa barat , ahmad heryawan mengucapkan selamat tahun baru 2018 untuk pendengar radio elshinta .",0,"gubernur jawa barat , ahmad heryawan mengucapkan selamat tahun baru 2018 untuk pendengar radio elshinta .","gubernur jawa barat , ahmad heryawan mengucapkan selamat tahun baru untuk pendengar radio elshinta .",gubernur jawa barat ahmad heryawan mengucapkan selamat tahun baru untuk pendengar radio elshinta,gubernur jawa barat ahmad heryawan mengucapkan selamat tahun baru untuk pendengar radio elshinta,gubernur jawa barat ahmad heryawan selamat pendengar radio elshinta
20449,"Gak murah nih ! , jika Ahok bukan Gubenur kesayangan warga Jakarta, emang siapa mau buang2 duit untuk beginian? #AhokDjarot",-1,"gak murah nih ! , jika ahok bukan gubenur kesayangan warga jakarta, emang siapa mau buang2 duit untuk beginian? #ahokdjarot","gak murah nih ! , jika ahok bukan gubenur kesayangan warga jakarta, emang siapa mau buang duit untuk beginian? #ahokdjarot",gak murah nih jika ahok bukan gubenur kesayangan warga jakarta emang siapa mau buang duit untuk beginian ahokdjarot,gak murah nih jika ahok bukan gubenur kesayangan warga jakarta emang siapa mau buang duit untuk beginian ahokdjarot,gak murah nih ahok gubenur kesayangan warga jakarta emang buang duit ahokdjarot
22380,gejala,-1,gejala,gejala,gejala,gejala,gejala
7885,"parkir nya sempit , jadi cuma bisa 30 menit maksimal kalau parkir . jalan dari bts thonlong 1.5 ke jauh sekali karena panas .",-1,"parkir nya sempit , jadi cuma bisa 30 menit maksimal kalau parkir . jalan dari bts thonlong 1.5 ke jauh sekali karena panas .","parkir nya sempit , jadi cuma bisa menit maksimal kalau parkir . jalan dari bts thonlong . ke jauh sekali karena panas .",parkir nya sempit jadi cuma bisa menit maksimal kalau parkir jalan dari bts thonlong ke jauh sekali karena panas,parkir nya sempit jadi cuma bisa menit maksimal kalau parkir jalan dari bts thonlong ke jauh sekali karena panas,parkir nya sempit menit maksimal parkir jalan bts thonlong panas
25541,dicibir,-1,dicibir,dicibir,dicibir,dicibir,dicibir
5471,"masakan padang ini menurut saya rasanya sama seperti masakan padang lainnya . untuk harga nya , kapau jaya ini agak mahal dibandingkan tempat makan padang yang lainnya , untuk satu porsi nasi rendang dihargai 25 ribu rupiah . menurut saya masih banyak masakan padang yang lainnya di bandung dengan harga yang lebih murah dan masakan nya lebih enak .",1,"masakan padang ini menurut saya rasanya sama seperti masakan padang lainnya . untuk harga nya , kapau jaya ini agak mahal dibandingkan tempat makan padang yang lainnya , untuk satu porsi nasi rendang dihargai 25 ribu rupiah . menurut saya masih banyak masakan padang yang lainnya di bandung dengan harga yang lebih murah dan masakan nya lebih enak .","masakan padang ini menurut saya rasanya sama seperti masakan padang lainnya . untuk harga nya , kapau jaya ini agak mahal dibandingkan tempat makan padang yang lainnya , untuk satu porsi nasi rendang dihargai ribu rupiah . menurut saya masih banyak masakan padang yang lainnya di bandung dengan harga yang lebih murah dan masakan nya lebih enak .",masakan padang ini menurut saya rasanya sama seperti masakan padang lainnya untuk harga nya kapau jaya ini agak mahal dibandingkan tempat makan padang yang lainnya untuk satu porsi nasi rendang dihargai ribu rupiah menurut saya masih banyak masakan padang yang lainnya di bandung dengan harga yang lebih murah dan masakan nya lebih enak,masakan padang ini menurut saya rasanya sama seperti masakan padang lainnya untuk harga nya kapau jaya ini agak mahal dibandingkan tempat makan padang yang lainnya untuk satu porsi nasi rendang dihargai ribu rupiah menurut saya masih banyak masakan padang yang lainnya di bandung dengan harga yang lebih murah dan masakan nya lebih enak,masakan padang masakan padang harga nya kapau jaya mahal dibandingkan makan padang porsi nasi rendang dihargai ribu rupiah masakan padang bandung harga murah masakan nya enak
31768,diridhoi,1,diridhoi,diridhoi,diridhoi,diridhoi,diridhoi
1435,red velvet lava nya mantap . meleleh manis panas dan dingin dari es krim nya . yumiiiii harus dicoba . lagi dan lagi .,1,red velvet lava nya mantap . meleleh manis panas dan dingin dari es krim nya . yumiiiii harus dicoba . lagi dan lagi .,red velvet lava nya mantap . meleleh manis panas dan dingin dari es krim nya . yumiiiii harus dicoba . lagi dan lagi .,red velvet lava nya mantap meleleh manis panas dan dingin dari es krim nya yumiiiii harus dicoba lagi dan lagi,red velvet lava nya mantap meleleh manis panas dan dingin dari es krim nya yumiiiii harus dicoba lagi dan lagi,red velvet lava nya mantap meleleh manis panas dingin es krim nya yumiiiii dicoba
34165,bersatu,1,bersatu,bersatu,bersatu,bersatu,bersatu
12307,@Jayusays mantan wakil presiden? Jusuf kalla? :D,-1,@jayusays mantan wakil presiden? jusuf kalla? :d,@jayusays mantan wakil presiden? jusuf kalla? :d,jayusays mantan wakil presiden jusuf kalla d,jayusays mantan wakil presiden jusuf kalla d,jayusays mantan wakil presiden jusuf kalla
