# Sentiment Analysis - SVM with TFIDF Term Weighting

`SVM Kernel = Linear; Term Weighting = TFIDF`

## Import Necessary Libraries

In [1]:
import pandas as pd
import numpy as np
import numpy as np 
import re #RegEx
import itertools
import matplotlib.pyplot as plt

from sklearn import svm #Import SVM Classification
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer #Count Vector Space Model
from sklearn import metrics #Matrix Builder
from sklearn.metrics import accuracy_score  
from sklearn.model_selection import KFold #Import KFold
from sklearn.metrics import confusion_matrix
from sklearn.svm import SVC #Support Vector Classifier
from sklearn.metrics import classification_report

## Load Dataset

*Dataset is already preprocessed before.*

In [2]:
df = pd.read_csv('data/clean_tweets.csv')
df #Print Dataset

Unnamed: 0,tweet,stemming,label
0,#AyoTolakUUIKN \n\nProyek IKN membuka peluang ...,"['proyek', 'ikn', 'buka', 'peluang', 'oligarki...",-1.0
1,Tolak UU IKN karena berpotensi merusak lingkun...,"['tolak', 'uu', 'ikn', 'potensi', 'rusak', 'li...",-1.0
2,UU IKN hanya akan merugikan rakyat dengan huta...,"['uu', 'ikn', 'rugi', 'rakyat', 'hutang', 'rib...",-1.0
3,Jika UU ini diterapkan yang terjadi adalah mas...,"['uu', 'terap', 'masyarakat', 'rasa', 'rugi', ...",-1.0
4,UU IKN Syarat kepentingan oligarki. Tolak n ba...,"['uu', 'ikn', 'syarat', 'penting', 'oligarki',...",-1.0
...,...,...,...
5887,Horee!! Kabar gembira gaes!\nProses pemindahan...,"['horee', 'kabar', 'gembira', 'proses', 'pinda...",1.0
5888,Juru Bicara Presiden RI Fadjroel Rachman menga...,"['juru', 'bicara', 'presiden', 'ri', 'fadjroel...",1.0
5889,Pemerintah Indonesia mengajak Korea Selatan un...,"['perintah', 'indonesia', 'ajak', 'korea', 'se...",1.0
5890,@pikiran_rakyat masalah Jakarta tepatnya harus...,"['jakarta', 'tepat', 'asai', 'hadap', 'selesai...",-1.0


In [3]:
df = df.dropna()
df = df.reset_index(drop=True)

*Count each labels total value*

In [4]:
df['label'].value_counts()

 1.0    3750
-1.0    2142
Name: label, dtype: int64

### Implementing TFIDF Feature Weighthing

In [5]:
vectorizer = CountVectorizer(decode_error="replace")
tfidf_vect = TfidfVectorizer()
TFIDF = transformer.fit_transform(vectorizer.fit_transform(df['stemming']))

In [6]:
print(TFIDF)

  (0, 6109)	0.14315601373542752
  (0, 5844)	0.16622470060891656
  (0, 4597)	0.162865630853309
  (0, 4230)	0.2922233702990785
  (0, 4012)	0.1905257547058482
  (0, 3265)	0.3113803845039028
  (0, 2075)	0.10361096909940386
  (0, 1075)	0.7838492709064525
  (0, 838)	0.285557828291107
  (1, 6109)	0.21886047921909518
  (1, 5844)	0.25412846225624514
  (1, 4902)	0.46125329379223834
  (1, 4597)	0.2489930327534278
  (1, 4485)	0.39040563665728034
  (1, 4012)	0.2912805189977316
  (1, 3377)	0.2780686167500103
  (1, 3310)	0.3865002311618443
  (1, 3174)	0.3517238658165412
  (1, 2075)	0.15840303007709808
  (2, 6109)	0.18108261184102664
  (2, 5945)	0.4824219756668292
  (2, 4886)	0.32731851979175763
  (2, 4813)	0.4543325604065755
  (2, 4678)	0.21456625059371806
  (2, 4597)	0.20601393573698765
  :	:
  (5890, 3377)	0.1368655018974392
  (5890, 2939)	0.04388358516287563
  (5890, 2615)	0.319562052618311
  (5890, 2480)	0.319562052618311
  (5890, 2324)	0.255930669586185
  (5890, 2321)	0.24347665731987908
  (5890

In [8]:
TFIDF
print(transformer.vocabulary_)

AttributeError: 'TfidfTransformer' object has no attribute 'vocabulary_'

*Separate label to its own representative array*

In [7]:
label = []
for data in df['label']:
    label.append(data)
kolom = label.pop

### Average SVM Function

In [8]:
def avgSVM(k):
    total = 0
    for i in range(k): #Iterate for k times
        total = total + accuracy[i]
    print("SVM Average Accuracy :", total / k)

In [9]:
def Average(lst):
    return sum(lst) / len(lst)

*Finding best k for KFold Cross Validation*

In [10]:
folds = range(2,11)
for k in folds:
    accuracy=[]
    kFoldCrossValidation = KFold(n_splits=k, random_state=50, shuffle = True)
    for train, test in kFoldCrossValidation.split(TFIDF, label):
        trainData, testData = TFIDF[train], TFIDF[test]
        label = np.array(label)
        trainData2, testData2 = label[train], label[test]
        
        SVM = SVC(kernel = 'linear', C = 1)
        model = SVM.fit(trainData, trainData2)
        prediksi = model.predict(testData)
        
        accuracy.append(accuracy_score(testData2, prediksi))
        
    print('Folds : %d | Avg Accuracy : %.3f | Max, Min : %.3f, %.3f' 
          % (k, Average(accuracy), max(accuracy), min(accuracy)))
    print("\n")

Folds : 2 | Avg Accuracy : 0.875 | Max, Min : 0.877, 0.873


Folds : 3 | Avg Accuracy : 0.879 | Max, Min : 0.881, 0.877


Folds : 4 | Avg Accuracy : 0.878 | Max, Min : 0.889, 0.862


Folds : 5 | Avg Accuracy : 0.881 | Max, Min : 0.893, 0.874


Folds : 6 | Avg Accuracy : 0.881 | Max, Min : 0.891, 0.872


Folds : 7 | Avg Accuracy : 0.881 | Max, Min : 0.893, 0.867


Folds : 8 | Avg Accuracy : 0.882 | Max, Min : 0.901, 0.856


Folds : 9 | Avg Accuracy : 0.882 | Max, Min : 0.898, 0.860


Folds : 10 | Avg Accuracy : 0.880 | Max, Min : 0.895, 0.861




### Implementing KFold with chosen K value

In [11]:
#K-Fold Cross Validation will iterate k=5 times
kFoldCrossValidation = KFold(n_splits=10, random_state=50, shuffle = True)
for train, test in kFoldCrossValidation.split(TFIDF, label):
    
    print("==========================================================================================")
    print("Amount of Train Data: ", len(train))
    print("Amount of Test Data: ", len(test))
    print("\nTrain Data: \n", train)
    print("\nTest Data: \n", test)
    #Initiate Train and Test Data then transform to TFIDF value. Then copy to new Train and Test variables. 
    trainData, testData = TFIDF[train], TFIDF[test]
    label = np.array(label)
    trainData2, testData2 = label[train], label[test]
    
    SVM = SVC(kernel = 'linear', C = 1)
    model = SVM.fit(trainData, trainData2)
    prediksi = model.predict(testData)
    
    print("\nSVM Prediction  : \n", prediksi)
    
    print("\nConfusion Matrix: \n", metrics.confusion_matrix(testData2, prediksi))
   
    accuracy.append(accuracy_score(testData2, prediksi))
    
    print("\nSVM Accuracy : ", accuracy_score(testData2, prediksi))
    print()\
    
    label_target = ['positif','negatif']
    print(metrics.classification_report(testData2, prediksi, labels=[1,-1]))#Confussion Matrix
    
avgSVM(5)

Amount of Train Data:  5302
Amount of Test Data:  590

Train Data: 
 [   0    1    2 ... 5889 5890 5891]

Test Data: 
 [   8   14   16   21   63   65   73   75   79   80   91   98  144  146
  159  162  168  169  175  178  180  203  209  216  245  246  251  253
  256  268  271  294  314  341  347  349  354  366  370  389  392  407
  414  418  419  421  432  437  457  460  474  486  493  508  511  512
  513  517  525  541  542  543  559  560  564  575  581  585  611  616
  624  636  641  677  687  692  698  703  705  706  715  727  732  750
  764  766  768  781  799  803  815  829  834  846  856  865  877  880
  886  893  903  912  921  939  940  941  944  956  958  982  986  998
 1002 1020 1021 1022 1045 1064 1074 1085 1112 1119 1145 1165 1175 1188
 1192 1202 1205 1206 1211 1218 1228 1244 1247 1256 1259 1262 1263 1265
 1271 1295 1298 1303 1314 1316 1331 1341 1368 1376 1378 1387 1401 1403
 1416 1422 1433 1438 1446 1452 1471 1475 1477 1480 1490 1512 1534 1538
 1541 1558 1564 1569 1581 162


SVM Prediction  : 
 [-1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.  1. -1. -1. -1. -1.
  1.  1.  1.  1. -1. -1.  1.  1.  1. -1.  1. -1.  1.  1. -1.  1.  1. -1.
 -1. -1.  1. -1.  1.  1. -1.  1.  1. -1. -1. -1. -1. -1. -1. -1.  1. -1.
  1. -1.  1.  1. -1.  1. -1. -1.  1.  1.  1.  1. -1.  1.  1.  1.  1. -1.
  1. -1.  1.  1.  1. -1.  1.  1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.
 -1.  1.  1.  1.  1.  1.  1. -1. -1.  1. -1.  1.  1. -1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1. -1. -1.  1.  1. -1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1. -1.  1.  1.  1.  1.
  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1. -1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1. -1.  


SVM Prediction  : 
 [-1. -1. -1. -1. -1. -1. -1. -1.  1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1. -1.  1.  1.  1. -1. -1. -1. -1.  1.  1. -1. -1. -1. -1.  1.
  1. -1.  1.  1.  1. -1.  1.  1. -1.  1.  1.  1. -1. -1. -1. -1.  1. -1.
  1.  1.  1. -1.  1. -1. -1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
 -1.  1. -1. -1. -1. -1.  1.  1.  1.  1.  1.  1. -1.  1. -1. -1. -1.  1.
 -1.  1. -1.  1.  1.  1. -1.  1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1. -1.  1. -1.  1.  1.  1.  1.  1.  1.  1. -1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1.  1.
  1. -1.  1.  1.  1.  1.  1.  1. -1.  1.  1. -1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1.  


SVM Prediction  : 
 [-1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
  1. -1. -1. -1. -1. -1.  1.  1. -1. -1. -1. -1. -1.  1. -1.  1.  1. -1.
 -1.  1.  1. -1.  1.  1. -1.  1.  1. -1. -1. -1. -1. -1.  1.  1. -1.  1.
 -1. -1.  1.  1.  1. -1.  1. -1.  1. -1. -1. -1.  1.  1.  1.  1. -1. -1.
  1.  1.  1.  1.  1.  1. -1. -1.  1. -1. -1. -1.  1.  1. -1.  1.  1.  1.
 -1.  1.  1. -1.  1.  1. -1.  1.  1. -1.  1. -1.  1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1. -1.  1.  1. -1.  1. -1. -1.  1. -1.  1.  1.  1.  1.
  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1. -1.  1.  


SVM Prediction  : 
 [-1. -1. -1. -1. -1. -1.  1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.  1.
 -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1.  1. -1. -1. -1. -1. -1.  1. -1.  1. -1.  1. -1.  1.  1.  1.
  1. -1.  1.  1.  1. -1.  1.  1.  1. -1. -1. -1. -1. -1. -1. -1. -1.  1.
 -1. -1.  1.  1. -1. -1.  1.  1.  1. -1. -1.  1.  1.  1.  1.  1.  1.  1.
 -1.  1. -1.  1.  1.  1. -1.  1. -1. -1.  1. -1.  1.  1. -1. -1. -1. -1.
  1.  1.  1.  1.  1.  1. -1. -1.  1.  1.  1. -1.  1.  1.  1.  1.  1. -1.
  1.  1.  1.  1.  1. -1.  1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.
  1.  1.  1. -1. -1.  1.  1.  1. -1.  1.  1. -1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1.  


SVM Prediction  : 
 [-1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.
 -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1. -1.  1. -1. -1.
 -1. -1. -1.  1.  1. -1. -1. -1. -1. -1. -1. -1. -1.  1. -1.  1.  1. -1.
  1. -1.  1. -1.  1.  1. -1. -1. -1. -1. -1. -1. -1.  1.  1.  1.  1.  1.
 -1.  1. -1. -1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1. -1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1. -1.  1.  1. -1. -1.
  1. -1.  1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1.  1.  1.  1. -1.  1.
  1.  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1. -1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1. -1.  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1. -1.  1.  1.  1.  1.  1.  1. -1.  1.  1.  1. -1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1. -1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  