# Load Corpus

In [2]:
with open('alquran_korpus.txt') as f:
    ayahs = f.readlines()

# Sambung Kata

## Train Model

In [22]:
from markovchain import MarkovChain

# load model
model = MarkovChain()

# train, can only be trained on string 
for ayah in ayahs:
    model.add_document(ayah)

In [7]:
# test model وَاللَّهُ
model.next_word(input())

[('عَلِيمٌ', 24), ('لَا', 19), ('يَعْلَمُ', 16)]

In [8]:
# test model وَاللَّهُ بِمَا تَعْمَلُونَ
model.next_word(input())

[('خَبِيرٌ', 7), ('بَصِيرٌ', 6), ('عَلِيمٌ', 2)]

In [9]:
# test model case backoff سَمَاوَاتٍ وَهُوَ
model.next_word(input())

[('بِكُلِّ', 1), ('الَّذِي', 28), ('الْعَزِيزُ', 15)]

## Save Trained Model

In [23]:
import pickle

with open('lm_alquran.pickle', 'wb') as files:
    pickle.dump(model, files)

## Load Trained Model

In [12]:
import pickle

with open('lm_alquran.pickle', 'rb') as files:
    trained_model = pickle.load(files)

trained_model

<lm.markovchain.MarkovChain at 0x7f84367934e0>

In [13]:
# test model وَاللَّهُ
trained_model.next_word(input())

[('عَلِيمٌ', 24), ('لَا', 19), ('يَعْلَمُ', 16)]

In [14]:
# test model وَاللَّهُ بِمَا تَعْمَلُونَ
model.next_word(input())

[('خَبِيرٌ', 7), ('بَصِيرٌ', 6), ('عَلِيمٌ', 2)]

In [15]:
# test model case backoff سَمَاوَاتٍ وَهُوَ
model.next_word(input(), 10)

[('بِكُلِّ', 1),
 ('الَّذِي', 28),
 ('الْعَزِيزُ', 15),
 ('عَلَىٰ', 12),
 ('السَّمِيعُ', 7),
 ('خَيْرُ', 7),
 ('مُؤْمِنٌ', 7),
 ('أَعْلَمُ', 6),
 ('بِكُلِّ', 4),
 ('الْحَكِيمُ', 4)]

# Sambung Ayat

## Tf-Idf

In [3]:
from lm.tfidf import TFIDF

# Load and train
tfidf = TFIDF()
tfidf.fit(ayahs)

In [4]:
import json

json_files = open("ayahData.json", "r").read()
ayahData = json.loads(json_files)
ayahs_korpus = ayahData["data"]
ayahs_korpus

هِ عَلَيْهِ إِنْ كُنْتُمْ بِآيَاتِهِ مُؤْمِنِينَ',
  'number': 118,
  'surah': 6},
 {'text': 'وَمَا لَكُمْ أَلَّا تَأْكُلُوا مِمَّا ذُكِرَ اسْمُ اللَّهِ عَلَيْهِ وَقَدْ فَصَّلَ لَكُمْ مَا حَرَّمَ عَلَيْكُمْ إِلَّا مَا اضْطُرِرْتُمْ إِلَيْهِ ۗ وَإِنَّ كَثِيرًا لَيُضِلُّونَ بِأَهْوَائِهِمْ بِغَيْرِ عِلْمٍ ۗ إِنَّ رَبَّكَ هُوَ أَعْلَمُ بِالْمُعْتَدِينَ',
  'number': 119,
  'surah': 6},
 {'text': 'وَذَرُوا ظَاهِرَ الْإِثْمِ وَبَاطِنَهُ ۚ إِنَّ الَّذِينَ يَكْسِبُونَ الْإِثْمَ سَيُجْزَوْنَ بِمَا كَانُوا يَقْتَرِفُونَ',
  'number': 120,
  'surah': 6},
 {'text': 'وَلَا تَأْكُلُوا مِمَّا لَمْ يُذْكَرِ اسْمُ اللَّهِ عَلَيْهِ وَإِنَّهُ لَفِسْقٌ ۗ وَإِنَّ الشَّيَاطِينَ لَيُوحُونَ إِلَىٰ أَوْلِيَائِهِمْ لِيُجَادِلُوكُمْ ۖ وَإِنْ أَطَعْتُمُوهُمْ إِنَّكُمْ لَمُشْرِكُونَ',
  'number': 121,
  'surah': 6},
 {'text': 'أَوَمَنْ كَانَ مَيْتًا فَأَحْيَيْنَاهُ وَجَعَلْنَا لَهُ نُورًا يَمْشِي بِهِ فِي النَّاسِ كَمَنْ مَثَلُهُ فِي الظُّلُمَاتِ لَيْسَ بِخَارِجٍ مِنْهَا ۚ كَذَٰلِكَ زُيِّنَ لِلْكَافِرِينَ مَا كَا

In [5]:
import pickle

with open('tfidf_alquran.pickle', 'wb') as files:
    pickle.dump(tfidf, files)

In [8]:
# test model ayah Al-Baqarah: 4
ayahs[14]

'وَمِنَ النَّاسِ مَنْ يَقُولُ آمَنَّا بِاللَّهِ وَبِالْيَوْمِ الْآخِرِ وَمَا هُمْ بِمُؤْمِنِينَ\n'

In [10]:
# Get top 3 similar ayahs
tfidf.get_top_n(ayahs[14], ayahs_korpus, n=3, print_top=False)

[(5736,
  {'text': 'فَأَخَذَهُ اللَّهُ نَكَالَ الْآخِرَةِ وَالْأُولَىٰ',
   'number': 25,
   'surah': 79}),
 (3349,
  {'text': 'وَمِنَ النَّاسِ مَنْ يَقُولُ آمَنَّا بِاللَّهِ فَإِذَا أُوذِيَ فِي اللَّهِ جَعَلَ فِتْنَةَ النَّاسِ كَعَذَابِ اللَّهِ وَلَئِنْ جَاءَ نَصْرٌ مِنْ رَبِّكَ لَيَقُولُنَّ إِنَّا كُنَّا مَعَكُمْ ۚ أَوَلَيْسَ اللَّهُ بِأَعْلَمَ بِمَا فِي صُدُورِ الْعَالَمِينَ',
   'number': 10,
   'surah': 29}),
 (5196,
  {'text': 'يَا أَيُّهَا الَّذِينَ آمَنُوا لَا تُلْهِكُمْ أَمْوَالُكُمْ وَلَا أَوْلَادُكُمْ عَنْ ذِكْرِ اللَّهِ ۚ وَمَنْ يَفْعَلْ ذَٰلِكَ فَأُولَٰئِكَ هُمُ الْخَاسِرُونَ',
   'number': 9,
   'surah': 63})]

## BM25

In [17]:
from lm.bm25 import BM25

# Load and train
bm25 = BM25()
bm25.fit(ayahs)

<rank_bm25.BM25Okapi at 0x7f96325acc18>

In [18]:
# test model ayah Al-Baqarah: 4
ayahs[10]

'وَالَّذِينَ يُؤْمِنُونَ بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ وَبِالْآخِرَةِ هُمْ يُوقِنُونَ\n'

In [19]:
# Get top 3 similar ayahs
bm25.get_top_n(ayahs[10], ayahs, n=3, print_top=True)

Document ID: 654
Scores: 24.528617979554483
Text:
 لَٰكِنِ الرَّاسِخُونَ فِي الْعِلْمِ مِنْهُمْ وَالْمُؤْمِنُونَ يُؤْمِنُونَ بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ ۚ وَالْمُقِيمِينَ الصَّلَاةَ ۚ وَالْمُؤْتُونَ الزَّكَاةَ وَالْمُؤْمِنُونَ بِاللَّهِ وَالْيَوْمِ الْآخِرِ أُولَٰئِكَ سَنُؤْتِيهِمْ أَجْرًا عَظِيمًا

Document ID: 552
Scores: 20.823947791102057
Text:
 أَلَمْ تَرَ إِلَى الَّذِينَ يَزْعُمُونَ أَنَّهُمْ آمَنُوا بِمَا أُنْزِلَ إِلَيْكَ وَمَا أُنْزِلَ مِنْ قَبْلِكَ يُرِيدُونَ أَنْ يَتَحَاكَمُوا إِلَى الطَّاغُوتِ وَقَدْ أُمِرُوا أَنْ يَكْفُرُوا بِهِ وَيُرِيدُ الشَّيْطَانُ أَنْ يُضِلَّهُمْ ضَلَالًا بَعِيدًا

Document ID: 727
Scores: 16.009677537122926
Text:
 قُلْ يَا أَهْلَ الْكِتَابِ هَلْ تَنْقِمُونَ مِنَّا إِلَّا أَنْ آمَنَّا بِاللَّهِ وَمَا أُنْزِلَ إِلَيْنَا وَمَا أُنْزِلَ مِنْ قَبْلُ وَأَنَّ أَكْثَرَكُمْ فَاسِقُونَ



[(654, 24.528617979554483),
 (552, 20.823947791102057),
 (727, 16.009677537122926)]