# Model dengan Fitur N-Gram

File ini berisikan program untuk pembangunan model menggunakan fitur n-gram.
Prediksi dilakukan terhadap label fakultas dan label rumpun.
Eksperimen terhadap fitur bag of words menyangkut preprocessing, metode pembangunan model, dan jumlah label.

Harap sebelum menjalankan program, install module yang diperlukan seperti nltk, spacy, dan en_core_web_sm

Adapun untuk mempermudah pemahaman maksud dari X1, X2, X3, dan y1 dan y2 adalah :


- X1 -> dataset dengan preprocessing tanpa stemming/lemmatisasi
- X2 -> dataset dengan preprocessing dengan stemming
- X3 -> dataset dengan preprocessing dengan lemmatisasi

- y1 -> label fakultas (tujuan akhir)
- y2 -> label rumpun (hanya pembanding)

### Load Data

In [9]:
from nltk.corpus import stopwords
from nltk import stem
from sklearn.model_selection import cross_val_score, cross_val_predict
from sklearn import metrics
import spacy
import warnings
warnings.filterwarnings('ignore')

In [2]:
dataset = open('korpus-ver-2.txt', 'r', encoding="utf-8")
lines = dataset.readlines()
len_lines = len(lines)
counter = 0
list_kalimat = []
list_rumpun = []
list_fakultas = []


for i in range(0,len_lines,3):
    line_i = lines[i]
    judul = line_i
    
    judul = judul[8:-10] #buang tag <JUDUL> dari kalimat
   
    sinopsis = lines[i+1]
    sinopsis = sinopsis[10:-13] #buang tag <SINOPSIS> dari kalimat
   
    
    kalimat = judul + " " + sinopsis


    fakultas_arr = lines[i+2].lower().split()
    fakultas = fakultas_arr[1]
    
    
    if(fakultas=="rik"):
        label = "rik"
    elif(fakultas=="fmipa"):
        label = "saintek"
    elif(fakultas=="fasilkom"):
        label = "saintek"
    elif(fakultas=="ft"):
        label = "saintek"
    elif(fakultas=="fisip"):
        label = "soshum"
    elif(fakultas=="fib"):
        label = "soshum"
    elif(fakultas=="fh"):
        label = "soshum"
    elif(fakultas=="feb"):
        label = "soshum"
    elif(fakultas=="psikologi"):
        label = "soshum"
    
    list_kalimat.append(kalimat)
    list_fakultas.append(fakultas)
    list_rumpun.append(label)

### Preprocessing

In [3]:
N = len(list_kalimat)
list_cleaned = []
list_stemmed = []
list_lemmatized = []

stemmer = stem.snowball.SnowballStemmer("english")
stop_words = stopwords.words('english')
whitelist = set('abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ')

# Load English tokenizer, tagger,  
# parser, NER and word vectors 
nlp = spacy.load('en_core_web_sm') 

for i in range(N):
    kalimat = list_kalimat[i]
    
    #lowercase
    kalimat = kalimat.lower()
    
    #stopwords and tandabaca removal
    words = kalimat.split(" ")
    kalimat_clean_arr = [''.join(filter(whitelist.__contains__, word)) for word in words if word not in stop_words]
    
    #stemming
    kalimat_stemmed = ' '.join(stemmer.stem(w) for w in kalimat_clean_arr)
    
    # TODO lematisasi
    kalimat_clean_str = ' '.join(kalimat_clean_arr)
    spacy_kalimat_clean = nlp(kalimat_clean_str)
    kalimat_lemma = ' '.join([w.lemma_ for w in spacy_kalimat_clean])
    
    kalimat_cleaned = ' '.join(kalimat_clean_arr)
    
    list_cleaned.append(kalimat_cleaned)
    list_stemmed.append(kalimat_stemmed)
    list_lemmatized.append(kalimat_lemma)    


### Ekstraksi Fitur data

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

def EkstraksiNgram(tweet):
    unigram = CountVectorizer(ngram_range=(1,1), min_df=2, max_features=2000)
    unigram.fit(tweet)
    unigram_matrix = unigram.transform(tweet).toarray()
    bigram = CountVectorizer(ngram_range=(2,2), min_df=2, max_features=2000)
    bigram.fit(tweet)
    bigram_matrix = bigram.transform(tweet).toarray()
    trigram = CountVectorizer(ngram_range=(3,3), min_df=2, max_features=2000)
    trigram.fit(tweet)
    trigram_matrix = trigram.transform(tweet).toarray()
    return unigram_matrix, bigram_matrix, trigram_matrix

In [5]:
_, X1, _ = EkstraksiNgram(list_cleaned)

_, X2, _ = EkstraksiNgram(list_stemmed)

_, X3 ,_ = EkstraksiNgram(list_lemmatized)

yf = list_fakultas
yr = list_rumpun

### Split Data test

In [6]:
from sklearn.model_selection import train_test_split
ind = [i for i in range(N)]

ind_train,ind_test, _ , _ = train_test_split(ind, ind, test_size=0.25, random_state=1000)


X_train1 = []
X_test1 = []
X_train2 = []
X_test2 = []
X_train3 = []
X_test3 = []

y_train1 = []
y_test1 = []

y_train2 = []
y_test2 = []


for i in ind_train:
#     X_train1.append(list_cleaned[i])
#     X_train2.append(list_stemmed[i])
#     X_train3.append(list_lemmatized[i])
    X_train1.append(X1[i])
    X_train2.append(X2[i])
    X_train3.append(X3[i])
    
    y_train1.append(yf[i])
    y_train2.append(yr[i])
    

for i in ind_test:
    X_test1.append(X1[i])
    X_test2.append(X2[i])
    X_test3.append(X3[i])
    
    y_test1.append(yf[i])
    y_test2.append(yr[i])
    
print(X_test1[1])
print()
print(X_test2[1])
print()
print(y_test1[1])
print(y_test2[1])

[0 0 0 ... 0 0 0]

[0 0 0 ... 0 0 0]

fasilkom
saintek


### Pembangunan Model dan Akurasi

#### Fungsi untuk confusion matrix

In [7]:
import itertools
import numpy
import matplotlib.pyplot as plt 
from sklearn.metrics import confusion_matrix

def plot_confusion_matrix(cm, classes, normalize=False,  title='Confusion matrix', cmap=plt.cm.Blues):
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    plt.colorbar()
    tick_marks = numpy.arange(len(classes)) 
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix") 
    else:
        print('Confusion matrix, without normalization')
    #print(cm)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): 
        plt.text(j, i, cm[i, j],  horizontalalignment="center",  color="white" if cm[i, j] > thresh else "black") 

    plt.tight_layout() 
    plt.ylabel('True label') 
    plt.xlabel('Predicted label')

#### Log Regression

In [10]:
from sklearn.linear_model import LogisticRegression

classifier_log = LogisticRegression()

classifier_log.fit(X_train1, y_train1)

# Cross Validation
classifier_log.fit(X_train1, y_train1)
scores = cross_val_score(classifier_log, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

predicted = classifier_log.predict(X_test1)
score = classifier_log.score(X_test1, y_test1)

print("Logistic Regression untuk X1 dan Y1 :", score)
print()

# matrix = confusion_matrix(y_test1, predicted)
# plot_confusion_matrix(matrix, classes = set(yf), title= 'CM for X1 and Y1')

classifier_log.fit(X_train2, y_train1)

# Cross Validation
classifier_log.fit(X_train2, y_train1)
scores = cross_val_score(classifier_log, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_log.score(X_test2, y_test1)

print("Logistic Regression untuk X2 dan Y1 :", score)
print()

classifier_log.fit(X_train3, y_train1)

# Cross Validation
classifier_log.fit(X_train3, y_train1)
scores = cross_val_score(classifier_log, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_log.score(X_test3, y_test1)

print("Logistic Regression untuk X3 dan Y1 :", score)
print()


classifier_log.fit(X_train1, y_train2)
predicted = classifier_log.predict(X_test1)
score = classifier_log.score(X_test1, y_test2)

print("Logistic Regression untuk X1 dan Y2 :", score)

# matrix = confusion_matrix(y_test2, predicted)
# plot_confusion_matrix(matrix, classes = set(yr), title= 'CM for X1 and Y2')

classifier_log.fit(X_train2, y_train2)
score = classifier_log.score(X_test2, y_test2)

print("Logistic Regression untuk X2 dan Y2 :", score)

classifier_log.fit(X_train3, y_train2)
score = classifier_log.score(X_test3, y_test2)

print("Logistic Regression untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.5734530429586004
Logistic Regression untuk X1 dan Y1 : 0.5714285714285714

Confidence untuk X2 dan Y1: 0.582111246156743
Logistic Regression untuk X2 dan Y1 : 0.5844155844155844

Confidence untuk X3 dan Y1: 0.5590243898552261
Logistic Regression untuk X3 dan Y1 : 0.5844155844155844

Logistic Regression untuk X1 dan Y2 : 0.7402597402597403
Logistic Regression untuk X2 dan Y2 : 0.7662337662337663
Logistic Regression untuk X3 dan Y2 : 0.7532467532467533


#### Gaussian Naive Bayes

In [11]:
from sklearn.naive_bayes import GaussianNB
classifier_gnb = GaussianNB()

classifier_gnb.fit(X_train1, y_train1)

# Cross Validation
classifier_gnb.fit(X_train1, y_train1)
scores = cross_val_score(classifier_gnb, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

score = classifier_gnb.score(X_test1, y_test1)

print("Gaussian NB untuk X1 dan Y1 :", score)
print()

classifier_gnb.fit(X_train2, y_train1)

# Cross Validation
classifier_gnb.fit(X_train2, y_train1)
scores = cross_val_score(classifier_gnb, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_gnb.score(X_test2, y_test1)

print("Gaussian NB untuk X2 dan Y1 :", score)
print()

classifier_gnb.fit(X_train3, y_train1)

# Cross Validation
classifier_gnb.fit(X_train3, y_train1)
scores = cross_val_score(classifier_gnb, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_gnb.score(X_test3, y_test1)

print("Gaussian NB untuk X3 dan Y1 :", score)
print()

classifier_gnb.fit(X_train1, y_train2)
score = classifier_gnb.score(X_test1, y_test2)

print("Gaussian NB untuk X1 dan Y2 :", score)

classifier_gnb.fit(X_train2, y_train2)
score = classifier_gnb.score(X_test2, y_test2)

print("Gaussian NB untuk X2 dan Y2 :", score)

classifier_gnb.fit(X_train3, y_train2)
score = classifier_gnb.score(X_test3, y_test2)

print("Gaussian NB untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.5980468231132124
Gaussian NB untuk X1 dan Y1 : 0.6233766233766234

Confidence untuk X2 dan Y1: 0.6231114225964166
Gaussian NB untuk X2 dan Y1 : 0.6363636363636364

Confidence untuk X3 dan Y1: 0.6445302467137358
Gaussian NB untuk X3 dan Y1 : 0.6363636363636364

Gaussian NB untuk X1 dan Y2 : 0.7792207792207793
Gaussian NB untuk X2 dan Y2 : 0.7792207792207793
Gaussian NB untuk X3 dan Y2 : 0.8181818181818182


#### Multinomial Naive Bayes

In [12]:
from sklearn.naive_bayes import MultinomialNB
classifier_mnb = MultinomialNB()

classifier_mnb.fit(X_train1, y_train1)

# Cross Validation
classifier_mnb.fit(X_train1, y_train1)
scores = cross_val_score(classifier_mnb, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

score = classifier_mnb.score(X_test1, y_test1)

print("Multinomial NB untuk X1 dan Y1 :", score)
print()

classifier_mnb.fit(X_train2, y_train1)

# Cross Validation
classifier_mnb.fit(X_train2, y_train1)
scores = cross_val_score(classifier_mnb, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_mnb.score(X_test2, y_test1)

print("Multinomial NB untuk X2 dan Y1 :", score)
print()

classifier_mnb.fit(X_train3, y_train1)

# Cross Validation
classifier_mnb.fit(X_train3, y_train1)
scores = cross_val_score(classifier_mnb, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_mnb.score(X_test3, y_test1)

print("Multinomial NB untuk X3 dan Y1 :", score)
print()

classifier_mnb.fit(X_train1, y_train2)
score = classifier_mnb.score(X_test1, y_test2)

print("Multinomial NB untuk X1 dan Y2 :", score)

classifier_mnb.fit(X_train2, y_train2)
score = classifier_mnb.score(X_test2, y_test2)

print("Multinomial NB untuk X2 dan Y2 :", score)

classifier_mnb.fit(X_train3, y_train2)
score = classifier_mnb.score(X_test3, y_test2)

print("Multinomial NB untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.6021385211378092
Multinomial NB untuk X1 dan Y1 : 0.5714285714285714

Confidence untuk X2 dan Y1: 0.6455204913041321
Multinomial NB untuk X2 dan Y1 : 0.5844155844155844

Confidence untuk X3 dan Y1: 0.6437225032061435
Multinomial NB untuk X3 dan Y1 : 0.5584415584415584

Multinomial NB untuk X1 dan Y2 : 0.7532467532467533
Multinomial NB untuk X2 dan Y2 : 0.7272727272727273
Multinomial NB untuk X3 dan Y2 : 0.7532467532467533


#### Random Forest

In [15]:
from sklearn.ensemble import RandomForestClassifier


classifier_rf = RandomForestClassifier()

classifier_rf.fit(X_train1, y_train1)

# Cross Validation
classifier_rf.fit(X_train1, y_train1)
scores = cross_val_score(classifier_rf, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

score = classifier_rf.score(X_test1, y_test1)

print("Random Forest untuk X1 dan Y1 :", score)
print()

classifier_rf.fit(X_train2, y_train1)

# Cross Validation
classifier_rf.fit(X_train2, y_train1)
scores = cross_val_score(classifier_rf, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_rf.score(X_test2, y_test1)

print("Random Forest untuk X2 dan Y1 :", score)
print()

classifier_rf.fit(X_train3, y_train1)

# Cross Validation
classifier_rf.fit(X_train3, y_train1)
scores = cross_val_score(classifier_rf, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_rf.score(X_test3, y_test1)

print("Random Forest untuk X3 dan Y1 :", score)
print()

classifier_rf.fit(X_train1, y_train2)
score = classifier_rf.score(X_test1, y_test2)

print("Random Forest untuk X1 dan Y2 :", score)

classifier_rf.fit(X_train2, y_train2)
score = classifier_rf.score(X_test2, y_test2)

print("Random Forest untuk X2 dan Y2 :", score)

classifier_rf.fit(X_train3, y_train2)
score = classifier_rf.score(X_test3, y_test2)

print("Random Forest untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.27399878938946726
Random Forest untuk X1 dan Y1 : 0.2987012987012987

Confidence untuk X2 dan Y1: 0.2526237885416667
Random Forest untuk X2 dan Y1 : 0.2727272727272727

Confidence untuk X3 dan Y1: 0.30536952237552983
Random Forest untuk X3 dan Y1 : 0.3116883116883117

Random Forest untuk X1 dan Y2 : 0.6883116883116883
Random Forest untuk X2 dan Y2 : 0.7662337662337663
Random Forest untuk X3 dan Y2 : 0.6363636363636364


#### AdaBoost

In [16]:
from sklearn.ensemble import AdaBoostClassifier

classifier_ada = AdaBoostClassifier()

classifier_ada.fit(X_train1, y_train1)

# Cross Validation
classifier_ada.fit(X_train1, y_train1)
scores = cross_val_score(classifier_ada, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

score = classifier_ada.score(X_test1, y_test1)

print("AdaBoost untuk X1 dan Y1 :", score)
print()

classifier_ada.fit(X_train2, y_train1)

# Cross Validation
classifier_ada.fit(X_train2, y_train1)
scores = cross_val_score(classifier_ada, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_ada.score(X_test2, y_test1)

print("AdaBoost untuk X2 dan Y1 :", score)
print()

classifier_ada.fit(X_train3, y_train1)

# Cross Validation
classifier_ada.fit(X_train3, y_train1)
scores = cross_val_score(classifier_ada, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_ada.score(X_test3, y_test1)

print("AdaBoost untuk X3 dan Y1 :", score)
print()

classifier_ada.fit(X_train1, y_train2)
score = classifier_ada.score(X_test1, y_test2)

print("AdaBoost untuk X1 dan Y2 :", score)

classifier_ada.fit(X_train2, y_train2)
score = classifier_ada.score(X_test2, y_test2)

print("AdaBoost untuk X2 dan Y2 :", score)

classifier_ada.fit(X_train3, y_train2)
score = classifier_ada.score(X_test3, y_test2)

print("AdaBoost untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.1418241374720612
AdaBoost untuk X1 dan Y1 : 0.09090909090909091

Confidence untuk X2 dan Y1: 0.1418241374720612
AdaBoost untuk X2 dan Y1 : 0.09090909090909091

Confidence untuk X3 dan Y1: 0.1418241374720612
AdaBoost untuk X3 dan Y1 : 0.09090909090909091

AdaBoost untuk X1 dan Y2 : 0.6363636363636364
AdaBoost untuk X2 dan Y2 : 0.6363636363636364
AdaBoost untuk X3 dan Y2 : 0.6233766233766234


#### Decision Tree

In [17]:
from sklearn.tree import DecisionTreeClassifier

classifier_dt = DecisionTreeClassifier()

classifier_dt.fit(X_train1, y_train1)

# Cross Validation
classifier_dt.fit(X_train1, y_train1)
scores = cross_val_score(classifier_dt, X_train1, y_train1, cv=5)
print("Confidence untuk X1 dan Y1:", scores.mean())

score = classifier_dt.score(X_test1, y_test1)

print("Decision Tree untuk X1 dan Y1 :", score)
print()

classifier_dt.fit(X_train2, y_train1)

# Cross Validation
classifier_dt.fit(X_train2, y_train1)
scores = cross_val_score(classifier_dt, X_train2, y_train1, cv=5)
print("Confidence untuk X2 dan Y1:", scores.mean())

score = classifier_dt.score(X_test2, y_test1)

print("Decision Tree untuk X2 dan Y1 :", score)
print()

classifier_dt.fit(X_train3, y_train1)

# Cross Validation
classifier_dt.fit(X_train3, y_train1)
scores = cross_val_score(classifier_dt, X_train3, y_train1, cv=5)
print("Confidence untuk X3 dan Y1:", scores.mean())

score = classifier_dt.score(X_test3, y_test1)

print("Decision Tree untuk X3 dan Y1 :", score)
print()

classifier_dt.fit(X_train1, y_train2)
score = classifier_dt.score(X_test1, y_test2)

print("Decision Tree untuk X1 dan Y2 :", score)

classifier_dt.fit(X_train2, y_train2)
score = classifier_dt.score(X_test2, y_test2)

print("Decision Tree untuk X2 dan Y2 :", score)

classifier_dt.fit(X_train3, y_train2)
score = classifier_dt.score(X_test3, y_test2)

print("Decision Tree untuk X3 dan Y2 :", score)

Confidence untuk X1 dan Y1: 0.30912569351295704
Decision Tree untuk X1 dan Y1 : 0.35064935064935066

Confidence untuk X2 dan Y1: 0.23678661668831688
Decision Tree untuk X2 dan Y1 : 0.3246753246753247

Confidence untuk X3 dan Y1: 0.27297053418583295
Decision Tree untuk X3 dan Y1 : 0.2987012987012987

Decision Tree untuk X1 dan Y2 : 0.5064935064935064
Decision Tree untuk X2 dan Y2 : 0.5324675324675324
Decision Tree untuk X3 dan Y2 : 0.5194805194805194
