In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import scipy
import sklearn
import math
%matplotlib inline
import seaborn as sns
from collections import Counter, defaultdict

# Text Library
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
stop_words = set(stopwords.words('english'))

from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# Splitting Data
from sklearn.model_selection import train_test_split

# Import libary for TFID Vectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

# Import feature selection Libraries
from sklearn.feature_selection import SelectKBest, chi2, f_regression, mutual_info_classif

# Algorithm
from sklearn.naive_bayes import MultinomialNB

# Evaluation
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bimak\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\bimak\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\bimak\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [2]:
dfTrain_Raw = pd.read_csv('dfTrain_Raw.csv')
dfTrain_RawStem = pd.read_csv('dfTrain_RawStem.csv')
dfTrain_Pre = pd.read_csv('dfTrain_Pre.csv')
dfTrain_PreStem = pd.read_csv('dfTrain_PreStem.csv')

dfTest_Raw = pd.read_csv('dfTest_Raw.csv')
dfTest_RawStem = pd.read_csv('dfTest_RawStem.csv')
dfTest_Pre = pd.read_csv('dfTest_Pre.csv')
dfTest_PreStem = pd.read_csv('dfTest_PreStem.csv')

In [5]:
#Extract TFIDF

# Convert dataset menjadi dataset dengan fitur2 tfidf
def conv_vector(dataset):
    X_data = dataset['tweet'].values
    y_data = dataset['label'].values

    # TFIDF Feature Matrix
    tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)
    # Fit transform to data train
    tfidf_data = tfidf_vectorizer.fit_transform(X_data)
    
    # get the first vector out (for the first document)
    first_vector_tfidfvectorizer=tfidf_data[0]

    # place tf-idf values in a pandas data frame
    df_fitur = pd.DataFrame(first_vector_tfidfvectorizer.T.todense(), index=tfidf_vectorizer.get_feature_names(), columns=["tfidf"])

    df_fitur.reset_index(level=0, inplace=True)
    df_fitur.columns = ['feature', 'tfidf']
    
    return df_fitur

In [6]:
# tfidf feature from train_raw
tidf_train_raw = conv_vector(dfTrain_Raw)

# tfidf feature from train_rawstem
tidf_train_rawstem = conv_vector(dfTrain_RawStem)

# tfidf feature from train_pre
tidf_train_pre = conv_vector(dfTrain_Pre)

# tfidf feature from train_prestem
tidf_train_prestem = conv_vector(dfTrain_PreStem)

In [7]:
tidf_train_prestem[tidf_train_prestem['feature'].isnull() == True]

Unnamed: 0,feature,tfidf


In [8]:
tidf_train_prestem.loc[2592, :]

feature    nan
tfidf        0
Name: 2592, dtype: object

In [9]:
fitur_raw = tidf_train_raw
fitur_rawstem = tidf_train_rawstem
fitur_pre = tidf_train_pre
fitur_prestem = tidf_train_prestem

In [10]:
fitur_prestem[fitur_prestem['feature'].isnull() == True]

Unnamed: 0,feature,tfidf


In [11]:
# Get each train and test values from dataset

# Train
X_train_raw = dfTrain_Raw['tweet'].values
y_train_raw = dfTrain_Raw['label'].values

X_train_rawstem = dfTrain_RawStem['tweet'].values
y_train_rawstem = dfTrain_RawStem['label'].values

X_train_pre = dfTrain_Pre['tweet'].values
y_train_pre = dfTrain_Pre['label'].values

X_train_prestem = dfTrain_PreStem['tweet'].values
y_train_prestem = dfTrain_PreStem['label'].values

# Test
X_test_raw = dfTest_Raw['tweet'].values
y_test_raw = dfTest_Raw['label'].values

X_test_rawstem = dfTest_RawStem['tweet'].values
y_test_rawstem = dfTest_RawStem['label'].values

X_test_pre = dfTest_Pre['tweet'].values
y_test_pre = dfTest_Pre['label'].values

X_test_prestem = dfTest_PreStem['tweet'].values
y_test_prestem = dfTest_PreStem['label'].values

# Generate feature vector for each dataset
# vec_pre1 = generate_vec(train_pre1, test_pre1)
# vec_pre2 = generate_vec(train_pre2, test_pre2)

In [12]:
# Get feature train and test for df_pre1
tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)

# Fit transform to data train
tfidf_train_raw = tfidf_vectorizer.fit_transform(X_train_raw)
tfidf_test_raw = tfidf_vectorizer.transform(X_test_raw)

# Get feature matrix for train_pre1
fitur_train_raw = tfidf_train_raw.toarray()
fitur_tr1 = tfidf_vectorizer.get_feature_names()
train_raw_mtx = pd.DataFrame(data=fitur_train_raw,columns=fitur_tr1)

# Get feature matrix for test_pre1
fitur_test_raw = tfidf_test_raw.toarray()
fitur_te1 = tfidf_vectorizer.get_feature_names()
test_raw_mtx = pd.DataFrame(data=fitur_test_raw,columns=fitur_te1)

In [13]:
# Get feature train and test for df_pre1
tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)

# Fit transform to data train
tfidf_train_rawstem = tfidf_vectorizer.fit_transform(X_train_rawstem)
tfidf_test_rawstem = tfidf_vectorizer.transform(X_test_rawstem)

# Get feature matrix for train_pre1
fitur_train_rawstem = tfidf_train_rawstem.toarray()
fitur_tr2 = tfidf_vectorizer.get_feature_names()
train_rawstem_mtx = pd.DataFrame(data=fitur_train_rawstem,columns=fitur_tr2)

# Get feature matrix for test_pre1
fitur_test_rawstem = tfidf_test_rawstem.toarray()
fitur_te2 = tfidf_vectorizer.get_feature_names()
test_rawstem_mtx = pd.DataFrame(data=fitur_test_rawstem,columns=fitur_te2)

In [14]:
# Get feature train and test for df_pre1
tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)

# Fit transform to data train
tfidf_train_pre = tfidf_vectorizer.fit_transform(X_train_pre)
tfidf_test_pre = tfidf_vectorizer.transform(X_test_pre)

# Get feature matrix for train_pre1
fitur_train_pre = tfidf_train_pre.toarray()
fitur_tr3 = tfidf_vectorizer.get_feature_names()
train_pre_mtx = pd.DataFrame(data=fitur_train_pre,columns=fitur_tr3)

# Get feature matrix for test_pre1
fitur_test_pre = tfidf_test_pre.toarray()
fitur_te3 = tfidf_vectorizer.get_feature_names()
test_pre_mtx = pd.DataFrame(data=fitur_test_pre,columns=fitur_te3)

In [15]:
# Get feature train and test for df_pre1
tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)

# Fit transform to data train
tfidf_train_prestem = tfidf_vectorizer.fit_transform(X_train_prestem)
tfidf_test_prestem = tfidf_vectorizer.transform(X_test_prestem)

# Get feature matrix for train_pre1
fitur_train_prestem = tfidf_train_prestem.toarray()
fitur_tr4 = tfidf_vectorizer.get_feature_names()
train_prestem_mtx = pd.DataFrame(data=fitur_train_prestem,columns=fitur_tr4)

# Get feature matrix for test_pre1
fitur_test_prestem = tfidf_test_prestem.toarray()
fitur_te4 = tfidf_vectorizer.get_feature_names()
test_prestem_mtx = pd.DataFrame(data=fitur_test_prestem,columns=fitur_te4)

In [16]:
# Add labels into each matrix
train_raw_mtx['label_value'] = y_train_raw
train_rawstem_mtx['label_value'] = y_train_rawstem
train_pre_mtx['label_value'] = y_train_pre
train_prestem_mtx['label_value'] = y_train_prestem

In [17]:
def entropy(target_col):
    """
    Calculate the entropy of a dataset.
    The only parameter of this function is the target_col parameter which specifies the target column
    """
    elements,counts = np.unique(target_col,return_counts = True)
    entropy = np.sum([(-counts[i]/np.sum(counts))*np.log2(counts[i]/np.sum(counts)) for i in range(len(elements))])
    return entropy

def InfoGain(data,split_attribute_name,target_name="class"):
    """
    Calculate the information gain of a dataset. This function takes three parameters:
    1. data = The dataset for whose feature the IG should be calculated
    2. split_attribute_name = the name of the feature for which the information gain should be calculated
    3. target_name = the name of the target feature. The default for this example is "class"
    """    
    #Calculate the entropy of the total dataset
    total_entropy = entropy(data[target_name])
    
    ##Calculate the entropy of the dataset
    
    #Calculate the values and the corresponding counts for the split attribute 
    vals,counts= np.unique(data[split_attribute_name],return_counts=True)
    
    #Calculate the weighted entropy
    Weighted_Entropy = np.sum([(counts[i]/np.sum(counts))*entropy(data.where(data[split_attribute_name]==vals[i]).dropna()[target_name]) for i in range(len(vals))])
    
    #Calculate the information gain
    Information_Gain = total_entropy - Weighted_Entropy
    return Information_Gain

In [18]:
# Find IG for each df_pre2 feature
ig_prestem_arr = []
listFitur_prestem = list(fitur_prestem.feature)
for i in range(len(listFitur_prestem)):
    print('Fitur ke-',i)
    ig_prestem_arr.append(InfoGain(train_prestem_mtx, listFitur_prestem[i], 'label_value'))

Fitur ke- 0
Fitur ke- 1
Fitur ke- 2
Fitur ke- 3
Fitur ke- 4
Fitur ke- 5
Fitur ke- 6
Fitur ke- 7
Fitur ke- 8
Fitur ke- 9
Fitur ke- 10
Fitur ke- 11
Fitur ke- 12
Fitur ke- 13
Fitur ke- 14
Fitur ke- 15
Fitur ke- 16
Fitur ke- 17
Fitur ke- 18
Fitur ke- 19
Fitur ke- 20
Fitur ke- 21
Fitur ke- 22
Fitur ke- 23
Fitur ke- 24
Fitur ke- 25
Fitur ke- 26
Fitur ke- 27
Fitur ke- 28
Fitur ke- 29
Fitur ke- 30
Fitur ke- 31
Fitur ke- 32
Fitur ke- 33
Fitur ke- 34
Fitur ke- 35
Fitur ke- 36
Fitur ke- 37
Fitur ke- 38
Fitur ke- 39
Fitur ke- 40
Fitur ke- 41
Fitur ke- 42
Fitur ke- 43
Fitur ke- 44
Fitur ke- 45
Fitur ke- 46
Fitur ke- 47
Fitur ke- 48
Fitur ke- 49
Fitur ke- 50
Fitur ke- 51
Fitur ke- 52
Fitur ke- 53
Fitur ke- 54
Fitur ke- 55
Fitur ke- 56
Fitur ke- 57
Fitur ke- 58
Fitur ke- 59
Fitur ke- 60
Fitur ke- 61
Fitur ke- 62
Fitur ke- 63
Fitur ke- 64
Fitur ke- 65
Fitur ke- 66
Fitur ke- 67
Fitur ke- 68
Fitur ke- 69
Fitur ke- 70
Fitur ke- 71
Fitur ke- 72
Fitur ke- 73
Fitur ke- 74
Fitur ke- 75
Fitur ke- 76
Fitur ke-

Fitur ke- 594
Fitur ke- 595
Fitur ke- 596
Fitur ke- 597
Fitur ke- 598
Fitur ke- 599
Fitur ke- 600
Fitur ke- 601
Fitur ke- 602
Fitur ke- 603
Fitur ke- 604
Fitur ke- 605
Fitur ke- 606
Fitur ke- 607
Fitur ke- 608
Fitur ke- 609
Fitur ke- 610
Fitur ke- 611
Fitur ke- 612
Fitur ke- 613
Fitur ke- 614
Fitur ke- 615
Fitur ke- 616
Fitur ke- 617
Fitur ke- 618
Fitur ke- 619
Fitur ke- 620
Fitur ke- 621
Fitur ke- 622
Fitur ke- 623
Fitur ke- 624
Fitur ke- 625
Fitur ke- 626
Fitur ke- 627
Fitur ke- 628
Fitur ke- 629
Fitur ke- 630
Fitur ke- 631
Fitur ke- 632
Fitur ke- 633
Fitur ke- 634
Fitur ke- 635
Fitur ke- 636
Fitur ke- 637
Fitur ke- 638
Fitur ke- 639
Fitur ke- 640
Fitur ke- 641
Fitur ke- 642
Fitur ke- 643
Fitur ke- 644
Fitur ke- 645
Fitur ke- 646
Fitur ke- 647
Fitur ke- 648
Fitur ke- 649
Fitur ke- 650
Fitur ke- 651
Fitur ke- 652
Fitur ke- 653
Fitur ke- 654
Fitur ke- 655
Fitur ke- 656
Fitur ke- 657
Fitur ke- 658
Fitur ke- 659
Fitur ke- 660
Fitur ke- 661
Fitur ke- 662
Fitur ke- 663
Fitur ke- 664
Fitur 

Fitur ke- 1168
Fitur ke- 1169
Fitur ke- 1170
Fitur ke- 1171
Fitur ke- 1172
Fitur ke- 1173
Fitur ke- 1174
Fitur ke- 1175
Fitur ke- 1176
Fitur ke- 1177
Fitur ke- 1178
Fitur ke- 1179
Fitur ke- 1180
Fitur ke- 1181
Fitur ke- 1182
Fitur ke- 1183
Fitur ke- 1184
Fitur ke- 1185
Fitur ke- 1186
Fitur ke- 1187
Fitur ke- 1188
Fitur ke- 1189
Fitur ke- 1190
Fitur ke- 1191
Fitur ke- 1192
Fitur ke- 1193
Fitur ke- 1194
Fitur ke- 1195
Fitur ke- 1196
Fitur ke- 1197
Fitur ke- 1198
Fitur ke- 1199
Fitur ke- 1200
Fitur ke- 1201
Fitur ke- 1202
Fitur ke- 1203
Fitur ke- 1204
Fitur ke- 1205
Fitur ke- 1206
Fitur ke- 1207
Fitur ke- 1208
Fitur ke- 1209
Fitur ke- 1210
Fitur ke- 1211
Fitur ke- 1212
Fitur ke- 1213
Fitur ke- 1214
Fitur ke- 1215
Fitur ke- 1216
Fitur ke- 1217
Fitur ke- 1218
Fitur ke- 1219
Fitur ke- 1220
Fitur ke- 1221
Fitur ke- 1222
Fitur ke- 1223
Fitur ke- 1224
Fitur ke- 1225
Fitur ke- 1226
Fitur ke- 1227
Fitur ke- 1228
Fitur ke- 1229
Fitur ke- 1230
Fitur ke- 1231
Fitur ke- 1232
Fitur ke- 1233
Fitur ke- 

Fitur ke- 1715
Fitur ke- 1716
Fitur ke- 1717
Fitur ke- 1718
Fitur ke- 1719
Fitur ke- 1720
Fitur ke- 1721
Fitur ke- 1722
Fitur ke- 1723
Fitur ke- 1724
Fitur ke- 1725
Fitur ke- 1726
Fitur ke- 1727
Fitur ke- 1728
Fitur ke- 1729
Fitur ke- 1730
Fitur ke- 1731
Fitur ke- 1732
Fitur ke- 1733
Fitur ke- 1734
Fitur ke- 1735
Fitur ke- 1736
Fitur ke- 1737
Fitur ke- 1738
Fitur ke- 1739
Fitur ke- 1740
Fitur ke- 1741
Fitur ke- 1742
Fitur ke- 1743
Fitur ke- 1744
Fitur ke- 1745
Fitur ke- 1746
Fitur ke- 1747
Fitur ke- 1748
Fitur ke- 1749
Fitur ke- 1750
Fitur ke- 1751
Fitur ke- 1752
Fitur ke- 1753
Fitur ke- 1754
Fitur ke- 1755
Fitur ke- 1756
Fitur ke- 1757
Fitur ke- 1758
Fitur ke- 1759
Fitur ke- 1760
Fitur ke- 1761
Fitur ke- 1762
Fitur ke- 1763
Fitur ke- 1764
Fitur ke- 1765
Fitur ke- 1766
Fitur ke- 1767
Fitur ke- 1768
Fitur ke- 1769
Fitur ke- 1770
Fitur ke- 1771
Fitur ke- 1772
Fitur ke- 1773
Fitur ke- 1774
Fitur ke- 1775
Fitur ke- 1776
Fitur ke- 1777
Fitur ke- 1778
Fitur ke- 1779
Fitur ke- 1780
Fitur ke- 

Fitur ke- 2262
Fitur ke- 2263
Fitur ke- 2264
Fitur ke- 2265
Fitur ke- 2266
Fitur ke- 2267
Fitur ke- 2268
Fitur ke- 2269
Fitur ke- 2270
Fitur ke- 2271
Fitur ke- 2272
Fitur ke- 2273
Fitur ke- 2274
Fitur ke- 2275
Fitur ke- 2276
Fitur ke- 2277
Fitur ke- 2278
Fitur ke- 2279
Fitur ke- 2280
Fitur ke- 2281
Fitur ke- 2282
Fitur ke- 2283
Fitur ke- 2284
Fitur ke- 2285
Fitur ke- 2286
Fitur ke- 2287
Fitur ke- 2288
Fitur ke- 2289
Fitur ke- 2290
Fitur ke- 2291
Fitur ke- 2292
Fitur ke- 2293
Fitur ke- 2294
Fitur ke- 2295
Fitur ke- 2296
Fitur ke- 2297
Fitur ke- 2298
Fitur ke- 2299
Fitur ke- 2300
Fitur ke- 2301
Fitur ke- 2302
Fitur ke- 2303
Fitur ke- 2304
Fitur ke- 2305
Fitur ke- 2306
Fitur ke- 2307
Fitur ke- 2308
Fitur ke- 2309
Fitur ke- 2310
Fitur ke- 2311
Fitur ke- 2312
Fitur ke- 2313
Fitur ke- 2314
Fitur ke- 2315
Fitur ke- 2316
Fitur ke- 2317
Fitur ke- 2318
Fitur ke- 2319
Fitur ke- 2320
Fitur ke- 2321
Fitur ke- 2322
Fitur ke- 2323
Fitur ke- 2324
Fitur ke- 2325
Fitur ke- 2326
Fitur ke- 2327
Fitur ke- 

Fitur ke- 2809
Fitur ke- 2810
Fitur ke- 2811
Fitur ke- 2812
Fitur ke- 2813
Fitur ke- 2814
Fitur ke- 2815
Fitur ke- 2816
Fitur ke- 2817
Fitur ke- 2818
Fitur ke- 2819
Fitur ke- 2820
Fitur ke- 2821
Fitur ke- 2822
Fitur ke- 2823
Fitur ke- 2824
Fitur ke- 2825
Fitur ke- 2826
Fitur ke- 2827
Fitur ke- 2828
Fitur ke- 2829
Fitur ke- 2830
Fitur ke- 2831
Fitur ke- 2832
Fitur ke- 2833
Fitur ke- 2834
Fitur ke- 2835
Fitur ke- 2836
Fitur ke- 2837
Fitur ke- 2838
Fitur ke- 2839
Fitur ke- 2840
Fitur ke- 2841
Fitur ke- 2842
Fitur ke- 2843
Fitur ke- 2844
Fitur ke- 2845
Fitur ke- 2846
Fitur ke- 2847
Fitur ke- 2848
Fitur ke- 2849
Fitur ke- 2850
Fitur ke- 2851
Fitur ke- 2852
Fitur ke- 2853
Fitur ke- 2854
Fitur ke- 2855
Fitur ke- 2856
Fitur ke- 2857
Fitur ke- 2858
Fitur ke- 2859
Fitur ke- 2860
Fitur ke- 2861
Fitur ke- 2862
Fitur ke- 2863
Fitur ke- 2864
Fitur ke- 2865
Fitur ke- 2866
Fitur ke- 2867
Fitur ke- 2868
Fitur ke- 2869
Fitur ke- 2870
Fitur ke- 2871
Fitur ke- 2872
Fitur ke- 2873
Fitur ke- 2874
Fitur ke- 

Fitur ke- 3356
Fitur ke- 3357
Fitur ke- 3358
Fitur ke- 3359
Fitur ke- 3360
Fitur ke- 3361
Fitur ke- 3362
Fitur ke- 3363
Fitur ke- 3364
Fitur ke- 3365
Fitur ke- 3366
Fitur ke- 3367
Fitur ke- 3368
Fitur ke- 3369
Fitur ke- 3370
Fitur ke- 3371
Fitur ke- 3372
Fitur ke- 3373
Fitur ke- 3374
Fitur ke- 3375
Fitur ke- 3376
Fitur ke- 3377
Fitur ke- 3378
Fitur ke- 3379
Fitur ke- 3380
Fitur ke- 3381
Fitur ke- 3382
Fitur ke- 3383
Fitur ke- 3384
Fitur ke- 3385
Fitur ke- 3386
Fitur ke- 3387
Fitur ke- 3388
Fitur ke- 3389
Fitur ke- 3390
Fitur ke- 3391
Fitur ke- 3392
Fitur ke- 3393
Fitur ke- 3394
Fitur ke- 3395
Fitur ke- 3396
Fitur ke- 3397
Fitur ke- 3398
Fitur ke- 3399
Fitur ke- 3400
Fitur ke- 3401
Fitur ke- 3402
Fitur ke- 3403
Fitur ke- 3404
Fitur ke- 3405
Fitur ke- 3406
Fitur ke- 3407
Fitur ke- 3408
Fitur ke- 3409
Fitur ke- 3410
Fitur ke- 3411
Fitur ke- 3412
Fitur ke- 3413
Fitur ke- 3414
Fitur ke- 3415
Fitur ke- 3416
Fitur ke- 3417
Fitur ke- 3418
Fitur ke- 3419
Fitur ke- 3420
Fitur ke- 3421
Fitur ke- 

Fitur ke- 3903
Fitur ke- 3904
Fitur ke- 3905
Fitur ke- 3906
Fitur ke- 3907
Fitur ke- 3908
Fitur ke- 3909
Fitur ke- 3910
Fitur ke- 3911
Fitur ke- 3912
Fitur ke- 3913
Fitur ke- 3914
Fitur ke- 3915
Fitur ke- 3916
Fitur ke- 3917
Fitur ke- 3918
Fitur ke- 3919
Fitur ke- 3920
Fitur ke- 3921
Fitur ke- 3922
Fitur ke- 3923
Fitur ke- 3924
Fitur ke- 3925
Fitur ke- 3926
Fitur ke- 3927
Fitur ke- 3928
Fitur ke- 3929
Fitur ke- 3930
Fitur ke- 3931
Fitur ke- 3932
Fitur ke- 3933
Fitur ke- 3934
Fitur ke- 3935
Fitur ke- 3936
Fitur ke- 3937
Fitur ke- 3938
Fitur ke- 3939
Fitur ke- 3940
Fitur ke- 3941
Fitur ke- 3942
Fitur ke- 3943
Fitur ke- 3944
Fitur ke- 3945
Fitur ke- 3946
Fitur ke- 3947
Fitur ke- 3948
Fitur ke- 3949
Fitur ke- 3950
Fitur ke- 3951
Fitur ke- 3952
Fitur ke- 3953
Fitur ke- 3954
Fitur ke- 3955
Fitur ke- 3956
Fitur ke- 3957
Fitur ke- 3958
Fitur ke- 3959
Fitur ke- 3960
Fitur ke- 3961
Fitur ke- 3962
Fitur ke- 3963
Fitur ke- 3964
Fitur ke- 3965
Fitur ke- 3966
Fitur ke- 3967
Fitur ke- 3968
Fitur ke- 

In [19]:
# Insert ig_value to fitur_prestem
fitur_prestem['ig_value'] = ig_prestem_arr

In [20]:
fitur_prestem.to_csv('fitur_prestem.csv')

In [21]:
# Sort each fitur dataframe based on ig_value
fitur_prestem_sorted = fitur_prestem.sort_values(by='ig_value', ascending=False)
fitur_prestem_sorted = list(fitur_prestem_sorted.feature)

In [2]:
# Fungsi mengambil banyak top-k fitur yang harus diambil

def perc_fitur(train_vector):
    panjang = train_vector.shape[1]
    lenFitur = []
    for i in range (1,10):
      lenFitur.append(round((i/10)*panjang))
    lenFitur.reverse()
    
    return lenFitur

def generate_vec(train_data, test_data):
    X_train = train_data['tweet'].values
    y_train = train_data['label'].values

    X_test = test_data['tweet'].values
    y_test = test_data['label'].values
    
    tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, lowercase = False, stop_words=None)

    # Fit transform to data train
    tfidf_train = tfidf_vectorizer.fit_transform(X_train)
    tfidf_test = tfidf_vectorizer.transform(X_test)
    
    return [tfidf_train, tfidf_test]

In [4]:
panjang = 1111
lenFitur = []
for i in range (1,10):
  lenFitur.append(round((i/10)*panjang))
lenFitur

[111, 222, 333, 444, 556, 667, 778, 889, 1000]

In [27]:
# Generate feature vector for each dataset
vec_prestem = generate_vec(dfTrain_PreStem, dfTest_PreStem)

In [30]:
# Ambil top-fitur setiap dataset dengan ukuran descending
lenFitur_prestem = perc_fitur(vec_prestem[0])

In [32]:
from sklearn import model_selection, svm

In [33]:
# Accuracy for df_pre1
acc_ig_prestem = []
for i in range(len(lenFitur_prestem)):
    # Create subset feature based on top-n lenFitur
    subset_feature = fitur_prestem_sorted[:lenFitur_prestem[i]]
    
    # Create feature matrix for train and test
    features_train = scipy.sparse.csr_matrix(train_prestem_mtx[subset_feature].values)
    features_test = scipy.sparse.csr_matrix(test_prestem_mtx[subset_feature].values)
    
#     # Build models and fit to train vector
#     mnb = MultinomialNB()
#     mnbTfidf = mnb.fit(features_train, y_train_prestem) # training the model
#     predictTfidf = mnbTfidf.predict(features_test)
        
#     # Append accuracy score for each 
#     acc_ig_pre1.append(accuracy_score(y_test_pre1,predictTfidf))
    
    # Classifier - Algorithm - SVM
    # fit the training dataset on the classifier
    SVM = svm.SVC(kernel = 'linear')
    SVM.fit(features_train, y_train_prestem)

    # Use accuracy_score function to get the accuracy
    print("SVM Training Accuracy Score -> ", SVM.score(features_train, y_train_prestem)*100)
#     print("SVM Testing Accuracy Score -> ", SVM.score(Test_X_Tfidf, y_test)*100)

SVM Training Accuracy Score ->  92.21748400852879
SVM Training Accuracy Score ->  91.47121535181236
SVM Training Accuracy Score ->  91.04477611940298
SVM Training Accuracy Score ->  90.13859275053305
SVM Training Accuracy Score ->  89.28571428571429
SVM Training Accuracy Score ->  88.00639658848614
SVM Training Accuracy Score ->  85.9275053304904
SVM Training Accuracy Score ->  81.98294243070362
SVM Training Accuracy Score ->  75.90618336886993


In [34]:
lenFitur_prestem

[3979, 3537, 3095, 2653, 2210, 1768, 1326, 884, 442]

In [35]:
acc_ig_prestem

[]

In [36]:
features_train = scipy.sparse.csr_matrix(train_prestem_mtx[subset_feature].values)
features_test = scipy.sparse.csr_matrix(test_prestem_mtx[subset_feature].values)

# Classifier - Algorithm - SVM
# fit the training dataset on the classifier
SVM = svm.SVC(kernel = 'linear')
SVM.fit(features_train, y_train_prestem)

# Use accuracy_score function to get the accuracy
print("SVM Training Accuracy Score -> ", SVM.score(features_train, y_train_prestem)*100)
# print("SVM Testing Accuracy Score -> ", SVM.score(Test_X_Tfidf, y_test)*100)

SVM Training Accuracy Score ->  75.90618336886993


In [37]:
tidf_train_raw[tidf_train_raw['feature'].isnull() == True]

Unnamed: 0,feature,tfidf


In [1]:
lenFitur_prestem

NameError: name 'lenFitur_prestem' is not defined

In [3]:
fitur_prestem = pd.read_csv('fitur_prestem.csv')

In [4]:
fitur_prestem[fitur_prestem['feature'].isnull() == True]

Unnamed: 0.1,Unnamed: 0,feature,tfidf,ig_value
2592,2592,,0.0,0.001751


In [7]:
fitur_prestem = fitur_prestem.drop(['Unnamed: 0'], axis=1)

In [8]:
fitur_prestem

Unnamed: 0,feature,tfidf,ig_value
0,aaaccchhh,0.0,0.000798
1,aaeu,0.0,0.000784
2,aamiin,0.0,0.001751
3,ab,0.0,0.000798
4,abad,0.0,0.000784
...,...,...,...
4416,zuudhvtnbc,0.0,0.000967
4417,zw,0.0,0.000784
4418,zww,0.0,0.000784
4419,zygzu,0.0,0.000967


In [None]:
# defining predictor and target features
X_trainRawStem = dfTrain_RawStem['tweet']
y_trainRawStem = dfTrain_RawStem['label']

X_testRawStem = dfTest_RawStem['tweet']
y_testRawStem = dfTest_RawStem['label']