In [1]:
# Standard Libaries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Machine Learning Libraries
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# NLP Libraries
import nltk
import re
from string import punctuation
from nltk.corpus import stopwords

# NLP Libraries - Stemming Bahasa Indonesia - Sastrawi
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

                the kernel may be left running.  Please let us know
                about your system (bitness, Python, etc.) at
                ipython-dev@scipy.org
  ipython-dev@scipy.org""")


# Data Preparation

>### Import Data

In [2]:
df = pd.read_csv('Data/final_text_data.csv')
df.head()

Unnamed: 0,contents,sentiment
0,warung ini dimiliki oleh pengusaha pabrik tahu...,1
1,mohon ulama lurus dan k212 mmbri hujjah partai...,0
2,lokasi strategis di jalan sumatera bandung . t...,1
3,betapa bahagia nya diri ini saat unboxing pake...,1
4,duh . jadi mahasiswa jangan sombong dong . kas...,-1


>### Checking Data

In [3]:
pd.DataFrame(df.isna().value_counts())

Unnamed: 0_level_0,Unnamed: 1_level_0,0
contents,sentiment,Unnamed: 2_level_1
False,False,36032
True,False,2


In [4]:
df[df.contents.isna()]

Unnamed: 0,contents,sentiment
23234,,0
26911,,0


>### Drop Empty Data

In [5]:
df.dropna(inplace=True)

In [6]:
df[df.contents.isna()]

Unnamed: 0,contents,sentiment


>### Words Information

In [7]:
def words_count(text):
    text_length = len(text.split(" "))
    return text_length

In [8]:
words_count_before_prepro = df['contents'].apply(lambda x: words_count(x)).sum()
pd.DataFrame({"words count before preprocessing": [words_count_before_prepro]})

Unnamed: 0,words count before preprocessing
0,554711


# Text Preprocessing

>## Step 1
Method :
1. converting to lower case
1. remove or convert number into text
1. remove punctuation
1. remove white spaces
1. remove stopwords and particular words 

In [9]:
# 1) Converting to Lower Case
def to_lower(text):
    return text.lower()

# 2) remove or convert number into text
def remove_numbers(text):
    output = ''.join(c for c in text if not c.isdigit())
    return output

# 3) remove punctuation
def remove_punct(text):
    return ''.join(c for c in text if c not in punctuation)

# 4) remove white spaces
def remove_white_space(text):
    return " ".join(text.split())

# 5) remove stopwords and particular words 
def remove_stopwords(sentence):
    STOPWORDS = stopwords.words("indonesian") + stopwords.words("english")
    return ' '.join([w for w in nltk.word_tokenize(sentence) if not w in STOPWORDS])


    # Note
    # remove numbers: --> c for c in text if not c.isdigit()
    # text_string = "I was born in 1996"
    # for c in text_string:
    #     if c.isdigit() == False:
    #         print(c)
    
    # remove punctuation: --> c for c in text if c not in punctuation
    # text_string = "There was bobby, alex, fergie and I"

    # for c in text_string:
    #     if c not in punctuation:
    #         print(c)
    
    # remove stopwords: --> [w for w in nltk.word_tokenize(sentence) if not w in STOPWORDS]
    # for w in nltk.word_tokenize(text_string):
    #     if w not in STOPWORDS:
    #         print(w)

Executing Preprocessing Step 1

In [22]:
pd.options.display.max_colwidth = None

# df['contents_prep1'] = df.contents.apply(lambda x: to_lower(x))
# df['contents_prep2'] = df['contents_prep1'].apply(lambda x: remove_numbers(x))
# df['contents_prep3'] = df['contents_prep2'].apply(lambda x: remove_punct(x))
# df['contents_prep4'] = df['contents_prep3'].apply(lambda x: remove_white_space(x))
# df['contents_prep5'] = df['contents_prep4'].apply(lambda x: remove_stopwords(x))

df.sample(20)

Unnamed: 0,contents,sentiment,contents_prep1,contents_prep2,contents_prep3,contents_prep4,contents_prep5
7174,"pemandangan malam yang sangat indah , eksklusif , privat resto musik player yang keren . cocok untuk bulan madu , bagus pelayan , bagus services . terima kasih mbak diah saya akan ajak teman saya untuk makan malam di padma resto lagi ya .",1,"pemandangan malam yang sangat indah , eksklusif , privat resto musik player yang keren . cocok untuk bulan madu , bagus pelayan , bagus services . terima kasih mbak diah saya akan ajak teman saya untuk makan malam di padma resto lagi ya .","pemandangan malam yang sangat indah , eksklusif , privat resto musik player yang keren . cocok untuk bulan madu , bagus pelayan , bagus services . terima kasih mbak diah saya akan ajak teman saya untuk makan malam di padma resto lagi ya .",pemandangan malam yang sangat indah eksklusif privat resto musik player yang keren cocok untuk bulan madu bagus pelayan bagus services terima kasih mbak diah saya akan ajak teman saya untuk makan malam di padma resto lagi ya,pemandangan malam yang sangat indah eksklusif privat resto musik player yang keren cocok untuk bulan madu bagus pelayan bagus services terima kasih mbak diah saya akan ajak teman saya untuk makan malam di padma resto lagi ya,pemandangan malam indah eksklusif privat resto musik player keren cocok madu bagus pelayan bagus services terima kasih mbak diah ajak teman makan malam padma resto ya
1405,bosan . harga mahal pelayanan lama .,-1,bosan . harga mahal pelayanan lama .,bosan . harga mahal pelayanan lama .,bosan harga mahal pelayanan lama,bosan harga mahal pelayanan lama,bosan harga mahal pelayanan
25974,ekstasi,-1,ekstasi,ekstasi,ekstasi,ekstasi,ekstasi
6177,"makanan nya enak . tempat nya santai banget dengan suasana yang nyaman dan didukung dengan situasi bandung yang memang bandung banget , __laugh__ . asik",1,"makanan nya enak . tempat nya santai banget dengan suasana yang nyaman dan didukung dengan situasi bandung yang memang bandung banget , __laugh__ . asik","makanan nya enak . tempat nya santai banget dengan suasana yang nyaman dan didukung dengan situasi bandung yang memang bandung banget , __laugh__ . asik",makanan nya enak tempat nya santai banget dengan suasana yang nyaman dan didukung dengan situasi bandung yang memang bandung banget laugh asik,makanan nya enak tempat nya santai banget dengan suasana yang nyaman dan didukung dengan situasi bandung yang memang bandung banget laugh asik,makanan nya enak nya santai banget suasana nyaman didukung situasi bandung bandung banget laugh asik
879,"menu dan harga yang ditawarkan sama saja dengan sapu lidi , cuma tempat nya lebih luas . kebetulan kami hanya memesan nasi goreng , sop buntut , cappucino dan jus stroberi . semuanya enak . :",1,"menu dan harga yang ditawarkan sama saja dengan sapu lidi , cuma tempat nya lebih luas . kebetulan kami hanya memesan nasi goreng , sop buntut , cappucino dan jus stroberi . semuanya enak . :","menu dan harga yang ditawarkan sama saja dengan sapu lidi , cuma tempat nya lebih luas . kebetulan kami hanya memesan nasi goreng , sop buntut , cappucino dan jus stroberi . semuanya enak . :",menu dan harga yang ditawarkan sama saja dengan sapu lidi cuma tempat nya lebih luas kebetulan kami hanya memesan nasi goreng sop buntut cappucino dan jus stroberi semuanya enak,menu dan harga yang ditawarkan sama saja dengan sapu lidi cuma tempat nya lebih luas kebetulan kami hanya memesan nasi goreng sop buntut cappucino dan jus stroberi semuanya enak,menu harga ditawarkan sapu lidi nya luas memesan nasi goreng sop buntut cappucino jus stroberi enak
767,ozt merupakan salah satu kafe yang lumayan banyak pengunjung di daerah kopo bandung . dimenu nya sangat direkomendasikan dan harga lumayan miring untuk ukuran makanan berbau makanan barat . di samping itu tempat nya yang mudah dijangkau dan suasana yang menarik cukup menjadi salah 1 daya tarik ozt kafe,1,ozt merupakan salah satu kafe yang lumayan banyak pengunjung di daerah kopo bandung . dimenu nya sangat direkomendasikan dan harga lumayan miring untuk ukuran makanan berbau makanan barat . di samping itu tempat nya yang mudah dijangkau dan suasana yang menarik cukup menjadi salah 1 daya tarik ozt kafe,ozt merupakan salah satu kafe yang lumayan banyak pengunjung di daerah kopo bandung . dimenu nya sangat direkomendasikan dan harga lumayan miring untuk ukuran makanan berbau makanan barat . di samping itu tempat nya yang mudah dijangkau dan suasana yang menarik cukup menjadi salah daya tarik ozt kafe,ozt merupakan salah satu kafe yang lumayan banyak pengunjung di daerah kopo bandung dimenu nya sangat direkomendasikan dan harga lumayan miring untuk ukuran makanan berbau makanan barat di samping itu tempat nya yang mudah dijangkau dan suasana yang menarik cukup menjadi salah daya tarik ozt kafe,ozt merupakan salah satu kafe yang lumayan banyak pengunjung di daerah kopo bandung dimenu nya sangat direkomendasikan dan harga lumayan miring untuk ukuran makanan berbau makanan barat di samping itu tempat nya yang mudah dijangkau dan suasana yang menarik cukup menjadi salah daya tarik ozt kafe,ozt salah kafe lumayan pengunjung daerah kopo bandung dimenu nya direkomendasikan harga lumayan miring ukuran makanan berbau makanan barat samping nya mudah dijangkau suasana menarik salah daya tarik ozt kafe
943,"kenken bigul kitchen ini merupakan resto yang menjual makanan non halal pertama yang saya coba di kota kembang . resto ini buka pada pukul 11 siang , namun ketika saya datang pukul 10.30 antrean nya sudah mengular . anda harus siap-siap untuk masuk daftar daftar tunggu apabila datang pada waktu-waktu primetime . saya mencoba babi panggang babi goreng serta ribu nya dan rasanya mantap .",1,"kenken bigul kitchen ini merupakan resto yang menjual makanan non halal pertama yang saya coba di kota kembang . resto ini buka pada pukul 11 siang , namun ketika saya datang pukul 10.30 antrean nya sudah mengular . anda harus siap-siap untuk masuk daftar daftar tunggu apabila datang pada waktu-waktu primetime . saya mencoba babi panggang babi goreng serta ribu nya dan rasanya mantap .","kenken bigul kitchen ini merupakan resto yang menjual makanan non halal pertama yang saya coba di kota kembang . resto ini buka pada pukul siang , namun ketika saya datang pukul . antrean nya sudah mengular . anda harus siap-siap untuk masuk daftar daftar tunggu apabila datang pada waktu-waktu primetime . saya mencoba babi panggang babi goreng serta ribu nya dan rasanya mantap .",kenken bigul kitchen ini merupakan resto yang menjual makanan non halal pertama yang saya coba di kota kembang resto ini buka pada pukul siang namun ketika saya datang pukul antrean nya sudah mengular anda harus siapsiap untuk masuk daftar daftar tunggu apabila datang pada waktuwaktu primetime saya mencoba babi panggang babi goreng serta ribu nya dan rasanya mantap,kenken bigul kitchen ini merupakan resto yang menjual makanan non halal pertama yang saya coba di kota kembang resto ini buka pada pukul siang namun ketika saya datang pukul antrean nya sudah mengular anda harus siapsiap untuk masuk daftar daftar tunggu apabila datang pada waktuwaktu primetime saya mencoba babi panggang babi goreng serta ribu nya dan rasanya mantap,kenken bigul kitchen resto menjual makanan non halal coba kota kembang resto buka siang antrean nya mengular siapsiap masuk daftar daftar tunggu waktuwaktu primetime mencoba babi panggang babi goreng ribu nya mantap
23655,merisau,-1,merisau,merisau,merisau,merisau,merisau
21252,aneh,-1,aneh,aneh,aneh,aneh,aneh
30730,tak setuju,-1,tak setuju,tak setuju,tak setuju,tak setuju,setuju


why we should not use data which is clean from stopwords?
--> solution: modify the stopwords, take out the negation
1. 6931


Executing Preprocessing Step 2

In [30]:
def stem(text):
    stemmed_text = stemmer.stem(text)
    return stemmed_text

In [None]:
df['contents_prep6'] = df.contents_prep5.apply(lambda x: stem(x))
df.sample(20)

In [None]:
# df.to_csv('Data/final_text_data_preprocessed.csv', index=False)

In [None]:
df_bank_asuransi = pd.read_excel("Data/bank_asuransi_excel.xlsx")
df_bank_asuransi.head()

In [24]:
df_bank_asuransi = pd.read_csv("Data/bank_asuransi.csv", error_bad_lines=False)
df_bank_asuransi.head()

b'Skipping line 9: expected 17 fields, saw 26\nSkipping line 10: expected 17 fields, saw 19\nSkipping line 14: expected 17 fields, saw 33\nSkipping line 19: expected 17 fields, saw 27\nSkipping line 27: expected 17 fields, saw 27\nSkipping line 30: expected 17 fields, saw 24\nSkipping line 32: expected 17 fields, saw 25\nSkipping line 33: expected 17 fields, saw 18\nSkipping line 34: expected 17 fields, saw 25\nSkipping line 35: expected 17 fields, saw 24\nSkipping line 37: expected 17 fields, saw 26\nSkipping line 40: expected 17 fields, saw 27\nSkipping line 41: expected 17 fields, saw 27\nSkipping line 43: expected 17 fields, saw 29\nSkipping line 44: expected 17 fields, saw 26\nSkipping line 46: expected 17 fields, saw 24\nSkipping line 47: expected 17 fields, saw 18\nSkipping line 48: expected 17 fields, saw 19\nSkipping line 50: expected 17 fields, saw 19\nSkipping line 52: expected 17 fields, saw 18\nSkipping line 63: expected 17 fields, saw 28\nSkipping line 64: expected 17 fie

ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.


In [21]:
!pip install openpyxl

Collecting openpyxl
  Downloading https://files.pythonhosted.org/packages/39/08/595298c9b7ced75e7d23be3e7596459980d63bc35112ca765ceccafbe9a4/openpyxl-3.0.7-py2.py3-none-any.whl (243kB)
Collecting et-xmlfile
  Downloading https://files.pythonhosted.org/packages/22/28/a99c42aea746e18382ad9fb36f64c1c1f04216f41797f2f0fa567da11388/et_xmlfile-1.0.1.tar.gz
Building wheels for collected packages: et-xmlfile
  Building wheel for et-xmlfile (setup.py): started
  Building wheel for et-xmlfile (setup.py): finished with status 'done'
  Created wheel for et-xmlfile: filename=et_xmlfile-1.0.1-cp37-none-any.whl size=8916 sha256=a21077c714ab16bdb7ed68ba074d06f3da22de223f5e9e69f932c1747db25e97
  Stored in directory: C:\Users\Damianus Deni\AppData\Local\pip\Cache\wheels\2a\77\35\0da0965a057698121fc7d8c5a7a9955cdbfb3cc4e2423cad39
Successfully built et-xmlfile
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.0.1 openpyxl-3.0.7
