#LANGUAGE MODELLING

#Prediksi Kemunculan Kata Menggunakan Model Bigram

### Disusun Oleh:
Nama: Vina Fadriani Effendi

NIM   : 1301154560

## <i>Natural Language Processing</i>

<i>Natural Language Processing</i> (NLP) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural. Saat ini banyak sekali penelitian di bidang pemrosesan bahasa natural. Tetapi, disini penulis akan menjelaskan secara singkat mengenai dasar NLP yaitu <i>Language Modelling</i>. Kita dapat membentuk suatu relasi antar kata dalam suatu kalimat dengan menggunakan metode <i>Language Modelling</i>. Nilai yang menjadi relasi antarkata adalah nilai probabilitas dari antarkata tersebut. Kira-kira bagaimanakah cara menghitung nilai probabilitas tersebut?

### Cara mengestimasi probabilitas antarkata

Banyak sekali cara untuk menghitung probabilitas antarkata ini. Tapi, apakah kita bisa menghitung nilai tersebut hanya dengan membagi nya seperti ini?
<center> ![](files/pict/countprob.png) </center>
<b>Tentu saja tidak!</b> Kenapa?

Karena jika kita memiliki jumlah kata mencapai 100 kata, maka akan sangat banyak kalimat yang mungkin terbentuk dan kita tidak akan pernah memiliki cukup data untuk melatih program tersebut.

### <i>Markov Assumption</i>

Karena cara menghitung probabilitas biasa tidak akan cukup, maka kita akan menggunakan <i>Markov Assumption</i>.
<center> ![](files/pict/markov.png) </center>

## Program Prediksi Kata

Untuk membuat sebuah program prediksi kata, kali ini saya telah menyiapkan tepatnya 101 artikel berita tentang teknologi dan sains dari website media online yaitu:
* [Teknologi.id](https://www.teknologi.id)
* [Kumparan](https://www.kumparan.com)
* [Kompas](https://www.tekno.kompas.com)
Total kata pada 101 artikel tersebut kurang lebih 37.000 kata.

Penulis memilih topik mengenai teknologi karena topik tersebut sangat hangat dikalangan muda dan seringnya tidak mengandung kata-kata yang subjektif. 

Data artikel yang saya dapat ada pada file 'Dataset-NLP-LanguageModelling - Sheet1', file tersebut berformat CSV dan memiliki 3 kolom. Kolom pertama merupakan link artikel, kolom kedua adalah judul artikel, sedangkan kolom 3 adalah isi artikel.

### Instalasi Library

Sebelum penulis menjelaskan lebih lanjut, penulis akan meng-import lib yang akan digunakan pada program ini.
Library utama adalah:
1. CSV untuk membaca file
2. NLTK untuk tokenisasi artikel
3. MATH untuk menggunakan fungsi matematika dalam perhitungan

In [1]:
import csv
import nltk
import math

### Fungsi membaca file

In [2]:
# Fungsi membaca file
def openarticle(doc_name):
    with open(doc_name, encoding="utf-8") as csvfile: #membuka file csv
        rawArticles = csv.reader(csvfile, delimiter=',') #memisah kolom pada file
        articles = [] #membuat sebuah array bernama articles untuk menampung semua isi file
        for row in rawArticles:
            articles.append(row[2].lower()) #menambahkan file ke array articles
    return articles #mengembalikan array articles

### Tokenisasi

Tokenisasi merupakan cara untuk mengubah data kata menjadi token-token yang biasanya merupakan satu kata ataupun tanda baca yang dipisahkan oleh spasi(' ').

In [3]:
#Fungsi tokenisasi articles
def tokenize(articles):
    tokenization = [] #array tokenization untuk menampung hasil tokenisasi
    for i in articles:
        tokenization.append(nltk.word_tokenize(i)) #menambahkan token ke array tokenization
    return tokenization

### Model Unigram

Unigram adalah model dari kumpulan kata yang membagi probabilitas kepada satu kata saja. Model ini biasanya akan mengeluarkan kata yang paling sering muncul dari data yang telah kita latih. Sehingga kesinambungan antar kata akan sering tidak jelas.

In [4]:
# Fungsi membangun model unigram
def model_unigram(tokenization):
    freq_unigram = {} #membuat sebuah dictionary freq_unigram
    counter_unigram = 0 #counter_unigram untuk menghitung jumlah kata
    for tokens in tokenization: #melooping array tokenization
        for token in tokens: #looping pada setiap index tokenization
            if token in freq_unigram: #pengecekan apakah kata tersebut sudah ada di dict freq_unigram atau belum
                freq_unigram[token] += 1 #jika sudah, maka nilai dict freq_unigram index token akan ditambah 1
            else:
                freq_unigram[token] = 1 #jika belum, maka nilai dict freq_unigram index token akan menjadi 1
            counter_unigram += 1
#     print("Jumlah kata: ",counter_unigram)
    prob_unigram = {} #membuat sebuah dictionary prob_unigram
    for token in freq_unigram: 
        prob_unigram[token] = freq_unigram[token]/counter_unigram #memasukkan nilai dict freq_unigram index token dibagi dengan jumlah kata
    prob_unigram
    return freq_unigram, prob_unigram

### Model Bigram

Bigram adalah model dari kumpulan kata yang membagi probabilitas kepada dua kata. Model ini akan membangun probabilitas dari 2 kata yang berhubungan/bertetangga dan menghitung probabilitasnya. Sehingga jika kita uji suatu kata, misalnya 'makan' maka, kemungkinan setelah kata makan misalnya 'nasi', 'telur', dan 'masakan'. Program akan mengeluarkan kata yang memiliki nilai probabilitas paling tinggi dengan kata makan. Misalnya yang paling sering muncul adalah 'makan nasi' maka program akan mengeluarkan kata 'nasi'.

In [5]:
# Fungsi membangun model bigram
def model_bigram(tokenization):
    freq_bigram = {} #membuat sebuah dictionary freq_bigram
    counter_bigram = 0 #counter_bigram untuk menghitung jumlah kata
    for tokens in tokenization:#melooping array tokenization
        for i in range(len(tokens)-1): #looping pada setiap index tokenization
            if (tokens[i],tokens[i+1]) in freq_bigram: #pengecekan apakah 2 kata tersebut sudah ada di index dict freq_bigram atau belum
                freq_bigram[(tokens[i],tokens[i+1])] += 1 #jika sudah, maka nilai dict freq_bigram index token akan ditambah 1
            else:
                freq_bigram[(tokens[i],tokens[i+1])] = 1 #jika belum, maka nilai dict freq_bigram index token akan menjadi 1
            counter_bigram += 1
#     print("jumlah kata: ",counter_bigram)
    prob_bigram = {} #membuat sebuah dictionary prob_bigram
    for token in freq_bigram:
        prob_bigram[token] = freq_bigram[token]/counter_bigram #memasukkan nilai dict freq_bigram index token dibagi dengan jumlah pasangan kata
    return freq_bigram, prob_bigram

### Menampilkan Prediksi Kata 

In [6]:
#Fungsi prediksi kata dari model bigram
def suggest(word, prob_bigram):
    sggst = {} #membuat sebuah array sggst untuk menampung semua hasil mungkin
    max = 0
    for key,value in prob_bigram.items(): #looping pada dict prob_bigram
        if key[0]==word: #jika key pertama pada setiap index key prob_bigram sama dengan kata yang diinput maka
            sggst[key]=value #masukkan key dan nilai pada dict prob_bigram ke dict sggst
    print('Hasil kemungkinan: ')
    for k,v in sggst.items(): 
        print(k[1],v) #menampilkan isi dict sggst
        if max<v: #pengecekan apakah nilai max probability lebih kecil dari value
            max = v #jika ya, maka simpan k dan v ke sebuah variabel max dan temp
            temp = k    
    return sggst,temp,max #membalikkan array sggst dan kemungkinan kata dengan nilai probabilitas paling besar

In [7]:
#Fungsi membaca inputan
def split_word(sentence):
    words = [] #array words untuk menampung hasil split inputan
    #sentence = input('Masukkan 1 Kalimat: ')
    sentence = sentence.lower() #menginput lalu mengubah kata/kalimat menjadi lowercase
    for i in range(len(sentence.split())-1):
        words.append((sentence.split()[i],sentence.split()[i+1])) #memasukkan kata yang telah di split ke array words
    return words,sentence.split()[len(sentence.split())-1] #mengembalikan array words dan kata terakhir pada inputan

In [8]:
#fungsi load data dan membangun model
def main_load_data():
    articles = openarticle('Dataset-NLP-LanguageModelling - Sheet1.csv') #load data
    tokenization = tokenize(articles) #mentokenisasi data
    freq_bigram, prob_bigram = model_bigram(tokenization) #membangun model bigram
    return prob_bigram #mengembalikan dict prob_bigram

### Tes Prediksi Kata

Pada prediksi kata, penulis akan memilih kata-kata:
* artificial
* kecerdasan
* jagad 
* cloud
* green
* rumah
* amerika
* kuala
* media
* tempat

Alasan yang mendasari penulis dalam pemilihan kata-kata tersebut adalah penulis berfikir bahwa 10 kata diatas memiliki sambungan kata yang sangan jelas dan erat kaitan ataupun besar probabilitasnya. Contohnya artificial memiliki hubungan erat dengan kata intelligence.

In [9]:
probability = main_load_data()

#### Kata Artificial

In [10]:
words,last_word = split_word('artificial')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
intelligence 0.0002900002636366033
intelligence/ai 2.63636603306003e-05
inteligence 2.63636603306003e-05
intellegence 2.63636603306003e-05
intelligence/ 2.63636603306003e-05
Hasil yang paling mungkin:  intelligence
Hasil besar kemungkinan:  0.0002900002636366033


#### Kata Kecerdasan

In [11]:
words,last_word = split_word('Kecerdasan')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
buatan 0.0006327278479344072
yang 2.63636603306003e-05
manusia. 2.63636603306003e-05
shuri 2.63636603306003e-05
entitas 2.63636603306003e-05
diciptakan 2.63636603306003e-05
Hasil yang paling mungkin:  buatan
Hasil besar kemungkinan:  0.0006327278479344072


#### Kata Jagad

In [12]:
words,last_word = split_word('Jagad')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
raya 2.63636603306003e-05
Hasil yang paling mungkin:  raya
Hasil besar kemungkinan:  2.63636603306003e-05


#### Kata Cloud

In [13]:
words,last_word = split_word('Cloud')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
computing 2.63636603306003e-05
ini 2.63636603306003e-05
daripada 2.63636603306003e-05
, 5.27273206612006e-05
” 2.63636603306003e-05
yang 2.63636603306003e-05
. 7.90909809918009e-05
ada 2.63636603306003e-05
base 2.63636603306003e-05
sudah 2.63636603306003e-05
( 2.63636603306003e-05
) 2.63636603306003e-05
microsoft 2.63636603306003e-05
beserta 2.63636603306003e-05
Hasil yang paling mungkin:  .
Hasil besar kemungkinan:  7.90909809918009e-05


#### Kata Green

In [14]:
words,last_word = split_word('Green')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
bank 0.0001845456223142021
Hasil yang paling mungkin:  bank
Hasil besar kemungkinan:  0.0001845456223142021


#### Kata Rumah

In [15]:
words,last_word = split_word('Rumah')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
, 2.63636603306003e-05
tangga 0.0001054546413224012
menggunakan 2.63636603306003e-05
sakit 2.63636603306003e-05
jangan 2.63636603306003e-05
proyektor 2.63636603306003e-05
Hasil yang paling mungkin:  tangga
Hasil besar kemungkinan:  0.0001054546413224012


#### Kata Amerika

In [16]:
words,last_word = split_word('Amerika')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
serikat 0.0006063641876038069
utara 2.63636603306003e-05
reggie 2.63636603306003e-05
Hasil yang paling mungkin:  serikat
Hasil besar kemungkinan:  0.0006063641876038069


#### Kata Kuala

In [17]:
words,last_word = split_word('Kuala')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
lumpur 5.27273206612006e-05
Hasil yang paling mungkin:  lumpur
Hasil besar kemungkinan:  5.27273206612006e-05


#### Kata Media

In [18]:
words,last_word = split_word('Media')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
sosial 0.0004218185652896048
yang 5.27273206612006e-05
luminescent 2.63636603306003e-05
penyimpan 2.63636603306003e-05
. 2.63636603306003e-05
eksrim 2.63636603306003e-05
telekomunikasi 2.63636603306003e-05
Hasil yang paling mungkin:  sosial
Hasil besar kemungkinan:  0.0004218185652896048


#### Kata Tempat

In [19]:
words,last_word = split_word('Tempat')
sggst, possible_word, value_possible_word = suggest(last_word,probability)
print('Hasil yang paling mungkin: ',possible_word[1])
print('Hasil besar kemungkinan: ',value_possible_word)

Hasil kemungkinan: 
paling 2.63636603306003e-05
duduknya 2.63636603306003e-05
tujuan 2.63636603306003e-05
yang 0.0001318183016530015
untuk 0.0001054546413224012
itu 5.27273206612006e-05
black 2.63636603306003e-05
. 2.63636603306003e-05
dengan 2.63636603306003e-05
lain 2.63636603306003e-05
tertinggi 2.63636603306003e-05
ini 2.63636603306003e-05
tumor 2.63636603306003e-05
persembunyiannya 5.27273206612006e-05
Hasil yang paling mungkin:  yang
Hasil besar kemungkinan:  0.0001318183016530015


Dari 10 kata yang telah di test, hasil yang diharapkan telah sesuai. Hanya saja pada inputan 'Cloud' program mengembalikan '.'. Artinya, program ini masih mengalami kurang maksimal karena dimana kita tau '.' adalah sebuah tanda baca bukan kata.

### Perplexity

Perplexity atau loss value merupakan nasil loss dari sebuah kalimat menurut penyusunan kata dan besar nilai relasi(probabilitas) antar kata. Nilai ini berbanding terbalik dengan nilai probabilitas sebuah kalimat. Artinya, semakin kecil nilai perplexity maka akan semakin besar probabilitas kalimat tersebut. Adapun rumus mencari perplexity pada model bigram adalah,
<center> ![](files/pict/perplex.png) </center>

In [24]:
#fungsi perplexity
def getPerplexityValue(sentence, prob_bigram):
    perplexity = 0 #inisiasi variabel perplexity dan coounter
    counter = 0
    for word in range(len(sentence)): #looping untuk setiap pasangan kata pada kalimat
        #print(sentence[word])
        if (sentence[word]) in prob_bigram: 
            #print(prob_bigram[(sentence[word])])
            perplexity += 1/prob_bigram[(sentence[word])] #menjumlahkan semua hasil 1/nilai probabilitas pasangan kata
        counter += 1
    return pow(perplexity,1/counter) #mencari nilai akar dari nilai total perplexity terhadap jumlah kata pada kalimat

### Hitung Preplexity Kalimat

Untuk melakukan pengujian terhadap perhitungan preplexity maka penulis memilih 5 kalimat acak, yaitu:
1. Aku ingin makan sayur
2. Kecerdasan batin merupakan salah satu teknologi paling diminati.
3. Saya ingin menjadi seorang penemu dari aplikasi mobile dan akan membaginya pada akun media sosial saya.
4. Kanker merupakan sebuah penyakit yang tidak pernah berkembang
5. Ia hanya seorang yang menemukan media anti sosial yang baik.

5 kalimat ini ada yang menurut penulis sangat besar kesinambungannya tetapi ada juga yang antarkata tidak berhubungan. Maka dari itu, hasil pengujian akan kita lihat.

#### Kalimat 'Aku ingin makan sayur'

In [25]:
words,last_word = split_word('Aku ingin makan sayur')
preplex = getPerplexityValue(words, probability)
print('Hasil Preplexity: ',preplex)

Hasil Preplexity:  0.0


#### Kalimat 'Kecerdasan batin merupakan salah satu teknologi paling diminati'

In [30]:
words,last_word = split_word('Kecerdasan batin merupakan salah satu teknologi paling diminati')
preplex = getPerplexityValue(words, probability)
print('Hasil Preplexity: ',preplex)

Hasil Preplexity:  3.750133361745789


#### Kalimat 'Saya ingin menjadi seorang penemu dari aplikasi mobile dan akan membaginya pada akun media sosial saya'

In [31]:
words,last_word = split_word('Saya ingin menjadi seorang penemu dari aplikasi mobile dan akan membaginya pada akun media sosial saya')
preplex = getPerplexityValue(words, probability)
print('Hasil Preplexity: ',preplex)

Hasil Preplexity:  2.10383875874134


#### Kalimat 'Kanker merupakan sebuah penyakit yang tidak pernah berkembang'

In [32]:
words,last_word = split_word('Kanker merupakan sebuah penyakit yang tidak pernah berkembang')
preplex = getPerplexityValue(words, probability)
print('Hasil Preplexity: ',preplex)

Hasil Preplexity:  4.932147748442422


#### Kalimat 'Ia hanya seorang yang menemukan media anti sosial yang baik'

In [29]:
words,last_word = split_word('Ia hanya seorang yang menemukan media anti sosial yang baik')
preplex = getPerplexityValue(words, probability)
print('Hasil Preplexity: ',preplex)

Hasil Preplexity:  3.3316488821235812


### Analisis Hasil Preplexity

Hasil preplexity sangan bergantung dengan probabilitas hasil antar kata. Hasil dari kalimat yang telah dicoba cenderung kecil, tetapi pada kalimat pertama yaitu "Aku ingin makan sayur" hasil preplexity adalah 0. Ini artinya bukanlah kalimat tersebut sangat baik tetapi karena tidak ada kata hasil latih yang berhubungan dengan kata pada kalimat tersebut. Oleh sebab itu, hasil preplexity nya akan sama dengan 0. Untuk menghindari kejadian seperti ini maka, perlu adanya smoothing pada data latih dan data uji. Smoothing pada Language Modelling umumnya menambahkan nilai semua pasangan kata sebanyak x agar pasangan kata yang memiliki jumlah kemuculan 0 tetap akan memiliki nilai. Sehingga ketika data hasil latih digunakan pada percobaan data uji tidak ada satupun bernilai 0 apalagi semua data 0 bernilai preplexity sebesar 0.

## Daftar Pustaka

1. http://www.cs.brandeis.edu/~cs136a/CS136a_Slides/CS136a_Lect11_PerplexityAndSmoothing.pdf?crazycache=1
2. https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf