## Case Study
1. Lakukan _load_ pada `review_id.csv`. Data dalam Bahasa Indonesia
2. Lakukan _preprocess_:
 * _Case folding_
 * _Stopword removal_ (ada `stopword_id.txt` untuk _stopword_ Bahasa Indonesia)
 * _Digit removal_
 * _Punctuation removal_
 * _Non-ASCII Characters removal_
3. Lakukan vektorisasi dengan TF-IDF
4. Buat model dengan:
 * SVM
 * Naive Bayes

In [29]:
import pandas as pd
import os

In [30]:
os.getcwd()

'C:\\Users\\daniel yoga p\\Downloads\\DS_II_Week_4\\codes\\projects'

In [31]:
data = pd.read_csv('..//..//data//input//review_id.csv')
data.head(10)

Unnamed: 0,review,sentimen
0,"Senang sekali ke waterbom bali, fasilitas leng...",positif
1,Senang bisa bermain bersama dgn anak-anak. Bel...,positif
2,Sangat bagus sekali kami sekeluarga akan kesin...,positif
3,Asik lah cobain beberapa wahana... Seru menega...,positif
4,"Terima kasih traveloka, waterboom taman bermai...",positif
5,"Tempatnya keren, donatnya enak Sumpah puas ban...",positif
6,Setiap ke Bali... saya dan anak-anak selalu ke...,positif
7,Yang kedua kalinya ke waterbom.bali dan beli t...,positif
8,Tiket masuk ke Waterbom lebih murah kalau beli...,positif
9,Permainan yang ada di Waterboom Bali belum ada...,positif


### Case folding

In [14]:
import nltk

In [22]:
data['review'] = data['review'].apply(lambda x: x.lower())
data.head(10)

Unnamed: 0,review,sentimen
0,"senang sekali ke waterbom bali, fasilitas leng...",positif
1,senang bisa bermain bersama dgn anak-anak. bel...,positif
2,sangat bagus sekali kami sekeluarga akan kesin...,positif
3,asik lah cobain beberapa wahana... seru menega...,positif
4,"terima kasih traveloka, waterboom taman bermai...",positif
5,"tempatnya keren, donatnya enak sumpah puas ban...",positif
6,setiap ke bali... saya dan anak-anak selalu ke...,positif
7,yang kedua kalinya ke waterbom.bali dan beli t...,positif
8,tiket masuk ke waterbom lebih murah kalau beli...,positif
9,permainan yang ada di waterboom bali belum ada...,positif


### StopWord Removal

In [27]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

data['review'] = data['review'].apply(lambda text: [w for w in text if w not in stop_words])
data.head(10)

Unnamed: 0,review,sentimen
0,"[senang, waterbom, bali,, fasilitas, lengkap,,...",positif
1,"[senang, bermain, dgn, anak-anak., beli, tiket...",positif
2,"[bagus, sekeluarga, kesini]",positif
3,"[asik, cobain, wahana..., seru, menegangkan]",positif
4,"[terima, kasih, traveloka,, waterboom, taman, ...",positif
5,"[tempatnya, keren,, donatnya, enak, sumpah, pu...",positif
6,"[bali..., anak-anak, waterbom,, gak, bosan, wa...",positif
7,"[kalinya, waterbom.bali, beli, tiketnya, trave...",positif
8,"[tiket, masuk, waterbom, murah, beli, dr, trav...",positif
9,"[permainan, waterboom, bali, mengalahkan, indo...",positif


### Digit Removal


In [39]:
data['review']= data['review'].apply(lambda text: [w for w in text if not w.isdigit()])
data.head(10)

Unnamed: 0,review,sentimen
0,"[S, e, n, a, n, g, , s, e, k, a, l, i, , k, ...",positif
1,"[S, e, n, a, n, g, , b, i, s, a, , b, e, r, ...",positif
2,"[S, a, n, g, a, t, , b, a, g, u, s, , s, e, ...",positif
3,"[A, s, i, k, , l, a, h, , c, o, b, a, i, n, ...",positif
4,"[T, e, r, i, m, a, , k, a, s, i, h, , t, r, ...",positif
5,"[T, e, m, p, a, t, n, y, a, , k, e, r, e, n, ...",positif
6,"[S, e, t, i, a, p, , k, e, , B, a, l, i, ., ...",positif
7,"[Y, a, n, g, , k, e, d, u, a, , k, a, l, i, ...",positif
8,"[T, i, k, e, t, , m, a, s, u, k, , k, e, , ...",positif
9,"[P, e, r, m, a, i, n, a, n, , y, a, n, g, , ...",positif


### Punctuation removal

In [41]:
from string import punctuation

In [47]:
data['review'] = data['review'].apply(lambda text: ''.join([w for w in text if w not in punctuation]))
data.head(10)


Unnamed: 0,review,sentimen
0,Senang sekali ke waterbom bali fasilitas lengk...,positif
1,Senang bisa bermain bersama dgn anakanak Beli ...,positif
2,Sangat bagus sekali kami sekeluarga akan kesin...,positif
3,Asik lah cobain beberapa wahana Seru menegangkan,positif
4,Terima kasih traveloka waterboom taman bermain...,positif
5,Tempatnya keren donatnya enak Sumpah puas bang...,positif
6,Setiap ke Bali saya dan anakanak selalu ke wat...,positif
7,Yang kedua kalinya ke waterbombali dan beli ti...,positif
8,Tiket masuk ke Waterbom lebih murah kalau beli...,positif
9,Permainan yang ada di Waterboom Bali belum ada...,positif


### Vectorized TD-IDF


In [48]:
from sklearn.model_selection import train_test_split

In [52]:
X_train, X_test, y_train, y_test = train_test_split(data['review'],
                                                   data['sentimen'],
                                                   test_size=0.2)


In [54]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(lowercase=True,
                             binary=False,
                             use_idf=True,
                             max_features=None)

vectorizer.fit(X_train)
X_train_v = vectorizer.transform(X_train)
X_test_v = vectorizer.transform(X_test)

### SVM
### Naive Bayes

In [58]:
from sklearn.svm import SVC
model = SVC()
model.fit(X_train_v, y_train)


In [60]:
model.predict(X_test_v)

array(['positif', 'negatif', 'positif', 'positif', 'positif', 'positif',
       'positif', 'positif', 'negatif', 'negatif', 'positif', 'positif',
       'negatif', 'negatif', 'negatif', 'negatif', 'positif', 'negatif',
       'negatif', 'negatif', 'negatif', 'negatif', 'positif', 'negatif',
       'negatif', 'positif', 'negatif', 'positif', 'positif', 'positif',
       'positif', 'negatif', 'positif', 'positif', 'negatif', 'positif',
       'positif', 'negatif', 'negatif', 'negatif'], dtype=object)

In [72]:
X_test_t= X_test_v.toarray()

In [64]:
X_train_t= X_train_v.toarray()

In [65]:
X_train_t

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### Naive Bayes


In [70]:
from sklearn.naive_bayes import GaussianNB

clf = GaussianNB()
clf.fit(X_train_t, y_train)

In [73]:
clf.predict(X_test_t)

array(['positif', 'negatif', 'positif', 'positif', 'positif', 'positif',
       'negatif', 'positif', 'negatif', 'negatif', 'positif', 'positif',
       'negatif', 'positif', 'positif', 'negatif', 'negatif', 'positif',
       'negatif', 'negatif', 'negatif', 'negatif', 'positif', 'negatif',
       'negatif', 'positif', 'positif', 'positif', 'negatif', 'positif',
       'positif', 'positif', 'positif', 'positif', 'negatif', 'negatif',
       'negatif', 'negatif', 'negatif', 'positif'], dtype='<U7')

In [75]:
clf.score(X_test_t, y_test)

0.725

In [77]:
clf.predict_proba(X_test_t)

array([[0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 2.14690004e-157],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.0