# Load Corpus

In [2]:
with open('alquran_korpus.txt') as f:
    ayahs = f.readlines()

# Sambung Kata

## Train Model

In [4]:
from lm.markovchain import MarkovChain

# load model
model = MarkovChain()

# train, can only be trained on string 
for ayah in ayahs:
    model.add_document(ayah)

In [8]:
# test model وَاللَّهُ
model.next_word(input())

[('عَلِيمٌ', 24), ('لَا', 19), ('يَعْلَمُ', 16)]

In [9]:
# test model وَاللَّهُ بِمَا تَعْمَلُونَ
model.next_word(input())

[('خَبِيرٌ', 7), ('بَصِيرٌ', 6), ('عَلِيمٌ', 2)]

## Save Trained Model

In [7]:
import pickle

with open('lm_alquran.pickle', 'wb') as files:
    pickle.dump(model, files)

## Load Trained Model

In [10]:
import pickle

with open('lm_alquran.pickle', 'rb') as files:
    trained_model = pickle.load(files)

trained_model

<lm.markovchain.MarkovChain at 0x7f4672971588>

In [10]:
# test model وَاللَّهُ
model.next_word(input())

[('عَلِيمٌ', 24), ('لَا', 19), ('يَعْلَمُ', 16)]

In [11]:
# test model وَاللَّهُ بِمَا تَعْمَلُونَ
model.next_word(input())

[('خَبِيرٌ', 7), ('بَصِيرٌ', 6), ('عَلِيمٌ', 2)]

# Sambung Ayat

## Tf-Idf

In [3]:
from lm.tfidf import TFIDF

# Load and train
tfidf = TFIDF()
tfidf.fit(ayahs)

In [4]:
# test model ayah Al-Baqarah: 4
ayahs[10]

'وَالَّذِينَ يُؤْمِنُونَ بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ وَبِالْآخِرَةِ هُمْ يُوقِنُونَ\n'

In [5]:
# Get top 3 similar ayahs
tfidf.get_top_n(ayahs[10], ayahs, n=3, print_top=True)

Document ID: 3162
Scores: 0.7623205894174971
Text:
 إِنَّ الَّذِينَ لَا يُؤْمِنُونَ بِالْآخِرَةِ زَيَّنَّا لَهُمْ أَعْمَالَهُمْ فَهُمْ يَعْمَهُونَ

Document ID: 4688
Scores: 0.7443999372207655
Text:
 ذُوقُوا فِتْنَتَكُمْ هَٰذَا الَّذِي كُنْتُمْ بِهِ تَسْتَعْجِلُونَ

Document ID: 901
Scores: 0.7368401605060417
Text:
 وَلِتَصْغَىٰ إِلَيْهِ أَفْئِدَةُ الَّذِينَ لَا يُؤْمِنُونَ بِالْآخِرَةِ وَلِيَرْضَوْهُ وَلِيَقْتَرِفُوا مَا هُمْ مُقْتَرِفُونَ



[(0.7623205894174971, 3162),
 (0.7443999372207655, 4688),
 (0.7368401605060417, 901)]

## BM25

In [6]:
from lm.bm25 import BM25

# Load and train
bm25 = BM25()
bm25.fit(ayahs)

<rank_bm25.BM25Okapi at 0x7f6fb06c9ef0>

In [7]:
# test model ayah Al-Baqarah: 4
ayahs[10]

'وَالَّذِينَ يُؤْمِنُونَ بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ وَبِالْآخِرَةِ هُمْ يُوقِنُونَ\n'

In [8]:
# Get top 3 similar ayahs
bm25.get_top_n(ayahs[10], ayahs, n=3, print_top=True)

Document ID: 654
Scores: 24.528617979554483
Text:
 لَٰكِنِ الرَّاسِخُونَ فِي الْعِلْمِ مِنْهُمْ وَالْمُؤْمِنُونَ يُؤْمِنُونَ بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ ۚ وَالْمُقِيمِينَ الصَّلَاةَ ۚ وَالْمُؤْتُونَ الزَّكَاةَ وَالْمُؤْمِنُونَ بِاللَّهِ وَالْيَوْمِ الْآخِرِ أُولَٰئِكَ سَنُؤْتِيهِمْ أَجْرًا عَظِيمًا

Document ID: 552
Scores: 20.823947791102057
Text:
 أَلَمْ تَرَ إِلَى الَّذِينَ يَزْعُمُونَ أَنَّهُمْ آمَنُوا بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ يُرِيدُونَ أَنْ يَتَحَاكَمُوا إِلَى الطَّاغُوتِ وَقَدْ أُمِرُوا أَنْ يَكْفُرُوا بِهِ وَيُرِيدُ الشَّيْطَانُ أَنْ يُضِلَّهُمْ ضَلَالًا بَعِيدًا

Document ID: 727
Scores: 16.009677537122926
Text:
 قُلْ يَا أَهْلَ الْكِتَابِ هَلْ تَنْقِمُونَ مِنَّا إِلَّا أَنْ آمَنَّا بِاللَّهِ وَمَا أُنْزِلَ إِلَيْنَا وَمَا أُنْزِلَ مِنْ قَبْلُ وَأَنَّ أَكْثَرَكُمْ فَاسِقُونَ



[(654, 24.528617979554483),
 (552, 20.823947791102057),
 (727, 16.009677537122926)]