In [185]:
import numpy as np
import matplotlib.pyplot as plt
import string
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, f1_score

In [186]:
input_files = [
  'Assets/edgar_allan_poe.txt',
  'Assets/robert_frost.txt',
]

rstrip() adalah sebuah fungsi dalam bahasa pemrograman Python yang digunakan untuk menghapus karakter whitespace atau karakter yang ditentukan dari ujung string atau bagian akhir string.

fungsi line.translate(str.maketrans('', '', string.punctuation)) digunakan untuk menghapus semua tanda baca (punctuation) dari sebuah string line. Fungsi str.maketrans() digunakan untuk membuat mapping table yang akan digunakan untuk menghapus tanda baca. Sedangkan translate() digunakan untuk melakukan translasi karakter pada string dengan menggunakan mapping table yang telah dibuat sebelumnya. Dalam hal ini, karakter yang di-translasi adalah tanda baca pada string line.

In [187]:
# collect data into lists
input_texts = []
labels = []

for label, f in enumerate(input_files):
  print(f"{f} corresponds to label {label}")

  for line in open(f):
    line = line.rstrip().lower()
    
    if line:
      # remove punctuation
      line = line.translate(str.maketrans('', '', string.punctuation))

      input_texts.append(line)
      labels.append(label)

Assets/edgar_allan_poe.txt corresponds to label 0
Assets/robert_frost.txt corresponds to label 1


In [188]:
input_texts

['lo death hath reard himself a throne',
 'in a strange city all alone',
 'far down within the dim west',
 'where the good and the bad and the worst and the best',
 'have gone to their eternal rest',
 'â€‰',
 'there shrines and palaces and towers',
 'are not like any thing of ours',
 'oh no o no ours never loom',
 'to heaven with that ungodly gloom',
 'timeeaten towers that tremble not',
 'resemble nothing that is ours',
 'around by lifting winds forgot',
 'resignedly beneath the sky',
 'the melancholy waters lie',
 'â€‰',
 'no holy rays from heaven come down',
 'on the long nighttime of that town',
 'but light from out the lurid sea',
 'streams up the turrets silently',
 'up thrones up longforgotten bowers',
 'of sculturd ivy and stone flowers',
 'up domes up spires up kingly halls',
 'up fanes up babylonlike walls',
 'up many a melancholy shrine',
 'whose entablatures intertwine',
 'the mask the viol and the vine',
 'â€‰',
 'there open temples open graves',
 'are on a level with the 

['lo death hath reard himself a throne',
 'in a strange city all alone',
 'far down within the dim west',
 'where the good and the bad and the worst and the best',
 'have gone to their eternal rest',
 ]

In [189]:
x_train, x_test, y_train, y_test = train_test_split(input_texts, labels, test_size=0.2, train_size=0.80)

In [190]:
len(y_train), len(y_test)

(1726, 432)

In [191]:
y_train[:5], x_train[:5]

([1, 1, 0, 1, 1],
 ['son you wouldnt want to tell him what we have',
  'it seems as if and thats not all hes helpless',
  'in the monarch thoughts dominion ',
  'the upper shelf the tin box thats the one',
  'a likeness to surprise the thrilly tourist'])

In [192]:
idx = 1
word2idx = {'<unk>': 0}

In [193]:
# populate word2idx

for text in x_train:
  tokens = text.split()

  for token in tokens:
    if token not in word2idx:
      word2idx[token] = idx
      idx += 1

In [194]:
word2idx

{'<unk>': 0,
 'son': 1,
 'you': 2,
 'wouldnt': 3,
 'want': 4,
 'to': 5,
 'tell': 6,
 'him': 7,
 'what': 8,
 'we': 9,
 'have': 10,
 'it': 11,
 'seems': 12,
 'as': 13,
 'if': 14,
 'and': 15,
 'thats': 16,
 'not': 17,
 'all': 18,
 'hes': 19,
 'helpless': 20,
 'in': 21,
 'the': 22,
 'monarch': 23,
 'thoughts': 24,
 'dominion': 25,
 'upper': 26,
 'shelf': 27,
 'tin': 28,
 'box': 29,
 'one': 30,
 'a': 31,
 'likeness': 32,
 'surprise': 33,
 'thrilly': 34,
 'tourist': 35,
 'is': 36,
 'sunshine': 37,
 'of': 38,
 'ours': 39,
 'another': 40,
 'from': 41,
 'bedroom': 42,
 'attic': 43,
 'arthur': 44,
 'amys': 45,
 'having': 46,
 'once': 47,
 'been': 48,
 'up': 49,
 'because': 50,
 'was': 51,
 'grassy': 52,
 'wanted': 53,
 'wear': 54,
 'stand': 55,
 'together': 56,
 'on': 57,
 'craters': 58,
 'verge': 59,
 'but': 60,
 'pipes': 61,
 'there': 62,
 'smoking': 63,
 'jug': 64,
 'theyve': 65,
 'got': 66,
 'settled': 67,
 'wrong': 68,
 'i': 69,
 'can': 70,
 'prove': 71,
 'every': 72,
 'way': 73,
 'may': 74

In [195]:
len(word2idx)

2625

word2idx.get(token, 0) digunakan untuk mengambil nilai indeks dari sebuah token dalam kamus word2idx. Jika token tersebut tidak ada di kamus, maka fungsi ini akan mengembalikan nilai 0 sebagai nilai default.

In [196]:
# convert data into integer format
train_text_int = []
test_text_int = []

for text in x_train:
  tokens = text.split()
  line_as_int = [word2idx[token] for token in tokens]
  train_text_int.append(line_as_int)

for text in x_test:
  tokens = text.split()
  line_as_int = [word2idx.get(token, 0) for token in tokens]
  test_text_int.append(line_as_int)

In [197]:
train_text_int[100:105]

[[82, 409, 13, 93, 410, 389, 411, 412],
 [413, 210, 414, 100, 189, 415, 416],
 [152, 174, 417, 11, 104, 418, 15, 419],
 [22, 420, 147],
 [21, 22, 421, 422, 423, 38, 174, 311]]

In [198]:
# initialize A and pi matrices - for both classes
V = len(word2idx)

A0 = np.ones((V, V))
pi0 = np.ones(V)

A1 = np.ones((V, V))
pi1 = np.ones(V)

In [199]:
A0.shape, pi0.shape

((2625, 2625), (2625,))

In [200]:
A0

array([[1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       ...,
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.]])

Fungsi zip(train_text_int, Ytrain) digunakan untuk menggabungkan dua iterables menjadi sebuah objek yang terdiri dari tuple-tuple dengan elemen-elemen dari kedua iterables yang sesuai berpasangan.

Program di bawah adalah fungsi untuk menghitung jumlah kemunculan kata dan transisi antar kata dalam teks. Fungsi ini menerima argumen teks yang sudah dikonversi ke dalam bentuk integer (text_as_int), serta dua matriks yaitu A (matriks transisi) dan pi (vektor untuk menghitung distribusi probabilitas awal kata).

Pada fungsi ini, setiap token dalam text_as_int akan diiterasi untuk menghitung kemunculan kata dan transisi antar kata. Untuk setiap token, program akan mengecek apakah token tersebut merupakan awal dari sebuah kalimat atau bukan (berdasarkan last_idx yang awalnya bernilai None). Jika iya, maka pi pada indeks token tersebut akan ditambahkan satu. Jika bukan, maka A pada indeks (last_idx, idx) akan ditambahkan satu untuk menghitung transisi dari kata last_idx ke kata idx. Terakhir, last_idx akan diupdate dengan nilai idx.

Dalam contoh di atas, fungsi compute_counts dipanggil dua kali dengan argumen train_text_int dan y_train yang sudah di-filter berdasarkan labelnya (0 dan 1) untuk menghitung kemunculan kata dan transisi antar kata pada teks positif dan negatif. Hasil dari fungsi ini akan digunakan untuk menghitung matriks transisi dan distribusi probabilitas awal kata pada model HMM.

In [201]:
# compute counts for A and pi
def compute_counts(text_as_int, A, pi):
  for tokens in text_as_int:
    last_idx = None
    for idx in tokens:
      if last_idx is None:
        # it's the first word in a sentence
        pi[idx] += 1
      else:
        # the last word exists, so count a transition
        A[last_idx, idx] += 1

      # update last idx
      last_idx = idx


compute_counts([t for t, y in zip(train_text_int, y_train) if y == 0], A0, pi0)
compute_counts([t for t, y in zip(train_text_int, y_train) if y == 1], A1, pi1)

Pada perintah A0.sum(axis=1, keepdims=True), A0 merupakan sebuah array atau tensor dengan dua dimensi. sum() adalah fungsi untuk menjumlahkan nilai-nilai pada tensor.

Parameter axis menentukan arah sumbu yang akan dijumlahkan. Pada kasus ini, axis=1 menunjukkan bahwa penjumlahan dilakukan pada setiap baris pada tensor.

Parameter keepdims digunakan untuk menentukan apakah dimensi yang dijumlahkan akan tetap dipertahankan atau tidak. Jika keepdims=True, maka dimensi yang dijumlahkan akan tetap dipertahankan dan hasilnya akan memiliki dimensi yang sama dengan tensor aslinya.

Jadi, A0.sum(axis=1, keepdims=True) akan menjumlahkan setiap baris pada A0 dan menghasilkan tensor dengan dimensi (n, 1) di mana n adalah jumlah baris pada tensor A0.

In [202]:
A0

array([[1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       ...,
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.],
       [1., 1., 1., ..., 1., 1., 1.]])

In [203]:
# normalize A and pi so they are valid probability matrices
# convince yourself that this is equivalent to the formulas shown before

A0 /= A0.sum(axis=1, keepdims=True)
pi0 /= pi0.sum()

A1 /= A1.sum(axis=1, keepdims=True)
pi1 /= pi1.sum()

In [204]:
A0

array([[0.00038095, 0.00038095, 0.00038095, ..., 0.00038095, 0.00038095,
        0.00038095],
       [0.00038095, 0.00038095, 0.00038095, ..., 0.00038095, 0.00038095,
        0.00038095],
       [0.00038037, 0.00038037, 0.00038037, ..., 0.00038037, 0.00038037,
        0.00038037],
       ...,
       [0.00038095, 0.00038095, 0.00038095, ..., 0.00038095, 0.00038095,
        0.00038095],
       [0.00038095, 0.00038095, 0.00038095, ..., 0.00038095, 0.00038095,
        0.00038095],
       [0.00038095, 0.00038095, 0.00038095, ..., 0.00038095, 0.00038095,
        0.00038095]])

In [205]:
# log A and pi since we don't need the actual probs
logA0 = np.log(A0)
logpi0 = np.log(pi0)

logA1 = np.log(A1)
logpi1 = np.log(pi1)

In [206]:
logA0

array([[-7.87283618, -7.87283618, -7.87283618, ..., -7.87283618,
        -7.87283618, -7.87283618],
       [-7.87283618, -7.87283618, -7.87283618, ..., -7.87283618,
        -7.87283618, -7.87283618],
       [-7.87435882, -7.87435882, -7.87435882, ..., -7.87435882,
        -7.87435882, -7.87435882],
       ...,
       [-7.87283618, -7.87283618, -7.87283618, ..., -7.87283618,
        -7.87283618, -7.87283618],
       [-7.87283618, -7.87283618, -7.87283618, ..., -7.87283618,
        -7.87283618, -7.87283618],
       [-7.87283618, -7.87283618, -7.87283618, ..., -7.87283618,
        -7.87283618, -7.87283618]])

In [207]:
# compute priors
count0 = sum(y == 0 for y in y_train)
count1 = sum(y == 1 for y in y_train)

total = len(y_train)

p0 = count0 / total
p1 = count1 / total

logp0 = np.log(p0)
logp1 = np.log(p1)

p0, p1

(0.3342989571263036, 0.6657010428736964)

Program tersebut merupakan sebuah kelas Classifier yang digunakan untuk melakukan klasifikasi. Kelas ini memiliki tiga atribut yaitu logAs (log dari matriks transisi), logpis (log dari distribusi awal), dan logpriors (log dari probabilitas prior kelas). Kelas ini memiliki tiga metode yaitu _compute_log_likelihood untuk menghitung likelihood dari sebuah input untuk suatu kelas tertentu, predict untuk memprediksi kelas dari suatu input, dan metode __init__ sebagai constructor dari kelas tersebut. Metode predict akan menghitung likelihood untuk setiap kelas, kemudian akan memilih kelas dengan posterior tertinggi sebagai prediksi akhir.

In [208]:
# build a markov classifier

class Classifier:
  def __init__(self, logAs, logpis, logpriors):
    self.logAs = logAs
    self.logpis = logpis
    self.logpriors = logpriors
    self.K = len(logpriors) # number of classes/index

  def _compute_log_likelihood(self, input_, class_):
    logA = self.logAs[class_] # class_ => indexnya
    logpi = self.logpis[class_]

    last_idx = None
    logprob = 0
    for idx in input_:
      if last_idx is None:
        # it's the first token
        logprob += logpi[idx]
      else:
        logprob += logA[last_idx, idx]

      # update last_idx
      last_idx = idx

    return logprob

  def predict(self, inputs):
    predictions = np.zeros(len(inputs))
    for i, input_ in enumerate(inputs):
      posteriors = [self._compute_log_likelihood(input_, c) + self.logpriors[c] \
                    for c in range(self.K)]
      pred = np.argmax(posteriors)
      predictions[i] = pred
    return predictions

In [209]:
# each array must be in order since classes are assumed to index these lists
clf = Classifier([logA0, logA1], [logpi0, logpi1], [logp0, logp1])

In [210]:
Ptrain = clf.predict(train_text_int)
print(f"Train acc: {np.mean(Ptrain == y_train)}")

Train acc: 0.9959443800695249


Program tersebut digunakan untuk melakukan prediksi pada data latih train_text_int menggunakan objek classifier clf yang sudah dilatih sebelumnya. Hasil prediksi tersebut disimpan dalam variabel Ptrain. Selanjutnya, program mencetak akurasi prediksi pada data latih tersebut dengan membandingkan hasil prediksi Ptrain dengan label yang sebenarnya y_train. Hasil akurasi tersebut ditampilkan dalam bentuk nilai numerik dengan menggunakan fungsi np.mean().

In [211]:
Ptest = clf.predict(test_text_int)
print(f"Test acc: {np.mean(Ptest == y_test)}")

Test acc: 0.8379629629629629


Jika kita menjalankan cm = confusion_matrix(y_train, Ptrain) setelah Ptrain = clf.predict(train_text_int), maka kita akan mendapatkan matriks confusion yang menunjukkan berapa banyak prediksi model yang benar dan salah untuk setiap kelas dalam data pelatihan.

Matriks confusion umumnya digunakan untuk mengevaluasi kinerja model klasifikasi. Matriks ini memiliki empat sel yang berbeda:

- True Positive (TP): jumlah contoh yang benar diprediksi sebagai positif
- False Positive (FP): jumlah contoh yang salah diprediksi sebagai positif
- True Negative (TN): jumlah contoh yang benar diprediksi sebagai negatif
- False Negative (FN): jumlah contoh yang salah diprediksi sebagai negatif
Dengan matriks confusion, kita dapat menghitung berbagai metrik evaluasi seperti akurasi, presisi, recall, dan F1-score.

       |  Predicted 0  |  Predicted 1  |
       |---------------|---------------|
       |     TN        |     FP        |
       |---------------|---------------|
       |     FN        |     TP        |
       |---------------|---------------|


In [213]:
cm = confusion_matrix(y_train, Ptrain)
cm

array([[ 570,    7],
       [   0, 1149]], dtype=int64)

In [214]:
cm_test = confusion_matrix(y_test, Ptest)
cm_test

array([[ 80,  65],
       [  5, 282]], dtype=int64)

In [215]:
f1_score(y_train, Ptrain)

0.9969631236442515

In [216]:
f1_score(y_test, Ptest)

0.889589905362776