In [1]:
import pandas as pd
import re
from cltk.stop.arabic.stopword_filter import stopwords_filter as ar_stop_filter
from string import digits
from nltk.stem.isri import ISRIStemmer
st = ISRIStemmer()

In [2]:
def remove_diacritics(text):
    arabic_diacritics = re.compile("""
                             ّ    | # Tashdid
                             َ    | # Fatha
                             ً    | # Tanwin Fath
                             ُ    | # Damma
                             ٌ    | # Tanwin Damm
                             ِ    | # Kasra
                             ٍ    | # Tanwin Kasr
                             ْ    | # Sukun
                             ـ     # Tatwil/Kashida
                         """, re.VERBOSE)
    text = re.sub(arabic_diacritics, '', text)
    return text
    # Normalisasi Text
def normalizeArabic(text):
    text = re.sub("[إأٱآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "ء", text)
    text = re.sub("ئ", "ء", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("گ", "ك", text)
    return(text)
    # Remove Punctuations
def remove_punctuations(text):
    text = re.sub("`", "", text)
    text = re.sub("÷", "", text)
    text = re.sub("×", "", text)
    text = re.sub("_", "", text)
    text = re.sub("-", "", text)
    text = re.sub("“", "", text)
    text = re.sub("…", "", text)
    text = re.sub("!", "", text)
    text = re.sub("|", "", text)
    text = re.sub("¦", "", text)
    text = re.sub("~", "", text)
    text = re.sub("{", "", text)
    text = re.sub("}", "", text)
    text = re.sub("'", "", text)
    text = re.sub("\.", "", text)
    text = re.sub(",", "", text)
    text = re.sub("/", "", text)
    text = re.sub(":", "", text)
    text = re.sub(",", "", text)
    text = re.sub("%", "", text)
    text = re.sub("^", "", text)
    text = re.sub("&", "", text)
    text = re.sub("^", "", text)
    text = re.sub("\*", "", text)
    text = re.sub("،", "", text)
    text = re.sub("\)", "", text)
    text = re.sub("\(", "", text)
    text = re.sub(">", "", text)
    text = re.sub("<", "", text)
    text = re.sub("؛", "", text)
    text = re.sub("؟", "", text)
    text = re.sub(":", "", text)
    text = re.sub("\"", "", text)
    text = re.sub("\[", "", text)
    text = re.sub("\]", "", text)
    text = re.sub("\+", "", text)
    text = re.sub("»", "", text)
    text = re.sub("«", "", text)
    return text
def remove_repeating_char(text):
    return re.sub(r'(.)\1+', r'\1', text)
def remove_digit(text):
    remove_digits = str.maketrans('', '', digits)
    text = text.translate(remove_digits)
    return text
def stemming(text):
    hasil=[]
    for i in text:
        textHasil= st.stem(i)
        hasil.append(textHasil)
    return hasil

def preprocessing (text):
    text = remove_diacritics(text)
    text = normalizeArabic(text)
    text = remove_punctuations(text)
    text = remove_repeating_char(text)
    text = remove_digit(text)
    text = ar_stop_filter(text)
    text=stemming(text)
    return text

In [3]:
text = 'بَاب فرض الْوضُوء وسننه وهيآته وَفرض الْوضُوء سِتّ خِصَال النِّيَّة عمند غسل الْوَجْه وَغسل الْوَجْه وَغسل الذراعين مَعَ الْمرْفقين وَمسح مَا قل من الرَّأْس وَغسل الرجلَيْن مَعَ الْكَعْبَيْنِ وَالتَّرْتِيب وعَلى قَول الْوَلَاء وسننه عشر خِصَال خمس مِنْهَا قبل غسل الْوَجْه وَهِي التَّسْمِيَة وَغسل الْكَفَّيْنِ والمضمضة وَالِاسْتِنْشَاق وَالْمُبَالغَة فيههما إِلَّا للصَّائِم وَخمْس بعد غسل الْوَجْه وَهِي تَقْدِيم الْيُمْنَى على ليسرى وَمسح جَمِيع الرَّأْس وَمسح الْأُذُنَيْنِ ظاهرهما وباطنهما وَإِدْخَال الأصبعين فيهمَا وتخليل أَصَابِع الرجلَيْن وَغسل دَاخل الْكَعْبَيْنِ وَلَيْسَ مسح لعنق من سنَنه وفضيلته تكراره ثَلَاثًا وزالواجب فِيهِ مرّة والمرتان أفضل وَالثَّلَاث أكمل وهيآته أَن يبْدَأ فِي تَطْهِير الْأَعْضَاء بمواضع الِابْتِدَاء فَإِن اقْتصر على فروضه استة أَجزَأَهُ وَإِن ضيع حَظّ نَفسه فِيمَا ترك'
text=preprocessing(text)
doc=" ".join(text)
print (doc)

باب فرض وضء وسن وها فرض وضء ست خصل نيه عمند غسل وجه غسل وجه غسل ذرع رفق مسح قل راس غسل رجل كعب ريب وعل قول ولء وسن عشر خصل خمس غسل وجه وهي سمه غسل كفن ضمض نشق بلغ فيه الا صءم خمس غسل وجه وهي قدم يمن علي يسر مسح جمع راس مسح اذن ظهر وبط دخل صبع فيه خلل صبع رجل غسل دخل كعب وليس مسح عنق سنه فضل كرر ثلث وزالواجب مره مرت فضل ثلث كمل وها ان يبد طهر عضء وضع بدء فان قصر علي فرض است جزه وان ضيع حظ نفس ترك


In [15]:
#Keywords Extraction with TextRank

from summa import keywords
print("Keywords of article\n", (keywords.keywords(doc,words=10)))

Keywords of article
 غسل
مسح
فرض
علي
فضل
ثلث
وسن وها
فيه
خصل


In [5]:
#Keywords Extraction with YAKE

from yake import KeywordExtractor
kw_extractor = KeywordExtractor(lan="ar", n=1, top=10)
#for j in range(len(array_text)):
keywords = kw_extractor.extract_keywords(text=doc)
keywords = [x for x, y in keywords]
print("Keywords of article\n", keywords)

Keywords of article
 ['غسل', 'وجه', 'مسح', 'فرض', 'وضء', 'خمس', 'وسن', 'وها', 'خصل', 'راس']


In [4]:
#Keywords Extraction with BERT

from keybert import KeyBERT
kw_extractor = KeyBERT('distilbert-base-nli-mean-tokens')
#for j in range(len(array_text)):
keywords = kw_extractor.extract_keywords(doc, top_n=10, keyphrase_ngram_range=(3, 3))
print("Keywords of article\n", keywords)
for i in range (0,len (keywords)):
    print (keywords[i][0])

AttributeError: 'list' object has no attribute 'text'

In [12]:
keyword1 = kw_extractor.extract_keywords(doc, top_n=10, keyphrase_ngram_range=(1, 1))
keyword2 = kw_extractor.extract_keywords(doc, top_n=10, keyphrase_ngram_range=(1, 2))

#print("Keywords of article\n", keywords)
for i in range (0,len (keyword1)):
    print (keyword1[i][0])
    print (keyword2[i][0])

وزالواجب
ثلث وزالواجب
جزه
غسل وجه
فرض
وزالواجب مره
فضل
وجه غسل
رجل
غسل كفن
غسل
غسل ذرع
وجه
رجل غسل
رفق
كفن ضمض
ذرع
غسل رجل
يبد
رجل كعب


In [1]:
## TFIDF
from nltk import tokenize
from operator import itemgetter
import math
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
stop_words = set(stopwords.words('arabic'))

doc = 'بَاب فرض الْوضُوء وسننه وهيآته وَفرض الْوضُوء سِتّ خِصَال النِّيَّة عمند غسل الْوَجْه وَغسل الْوَجْه وَغسل الذراعين مَعَ الْمرْفقين وَمسح مَا قل من الرَّأْس وَغسل الرجلَيْن مَعَ الْكَعْبَيْنِ وَالتَّرْتِيب وعَلى قَول الْوَلَاء وسننه عشر خِصَال خمس مِنْهَا قبل غسل الْوَجْه وَهِي التَّسْمِيَة وَغسل الْكَفَّيْنِ والمضمضة وَالِاسْتِنْشَاق وَالْمُبَالغَة فيههما إِلَّا للصَّائِم وَخمْس بعد غسل الْوَجْه وَهِي تَقْدِيم الْيُمْنَى على ليسرى وَمسح جَمِيع الرَّأْس وَمسح الْأُذُنَيْنِ ظاهرهما وباطنهما وَإِدْخَال الأصبعين فيهمَا وتخليل أَصَابِع الرجلَيْن . وَغسل دَاخل الْكَعْبَيْنِ وَلَيْسَ مسح لعنق من سنَنه وفضيلته تكراره ثَلَاثًا وزالواجب فِيهِ مرّة والمرتان أفضل وَالثَّلَاث أكمل وهيآته أَن يبْدَأ فِي تَطْهِير الْأَعْضَاء بمواضع الِابْتِدَاء . فَإِن اقْتصر على فروضه استة أَجزَأَهُ وَإِن ضيع حَظّ نَفسه فِيمَا ترك @'
total_words = re.sub(r'[^\w]', ' ', doc)
total_words = doc.lower().split()
total_word_length = len(total_words)
print(total_word_length)
total_sentences = tokenize.sent_tokenize(doc)
total_sent_len = len(total_sentences)
print(total_sent_len)

tf_score = {}
for each_word in total_words:
    each_word = each_word.replace('.','')
    if each_word not in stop_words:
        if each_word in tf_score:
            tf_score[each_word] += 1
        else:
            tf_score[each_word] = 1

# Dividing by total_word_length for each dictionary element
tf_score.update((x, y/int(total_word_length)) for x, y in tf_score.items())
#print(tf_score)
def check_sent(word, sentences): 
    final = [all([w in x for w in word]) for x in sentences] 
    sent_len = [sentences[i] for i in range(0, len(final)) if final[i]]
    return int(len(sent_len))

idf_score = {}
for each_word in total_words:
    each_word = each_word.replace('.','')
    if each_word not in stop_words:
        if each_word in idf_score:
            idf_score[each_word] = check_sent(each_word, total_sentences)
        else:
            idf_score[each_word] = 1

# Performing a log and divide
#idf_score.update((x, math.log(int(total_sent_len)/y)) for x, y in idf_score.items())

#print(idf_score)
tf_idf_score = {key: tf_score[key] * idf_score.get(key, 0) for key in tf_score.keys()}
#print(tf_idf_score)
def get_top_n(dict_elem, n):
    result = dict(sorted(dict_elem.items(), key = itemgetter(1), reverse = True)[:n]) 
    return result
print(get_top_n(tf_idf_score, 5))


113
3
{'الْوَجْه': 0.10619469026548672, 'وَغسل': 0.08849557522123894, 'وَمسح': 0.07964601769911504, 'وسننه': 0.05309734513274336, 'غسل': 0.05309734513274336}


In [7]:
from rake_nltk import Rake

r = Rake() # Uses stopwords for english from NLTK, and all puntuation characters.

r.extract_keywords_from_text(doc)

r.get_ranked_phrases_with_scores()


[(9801.0,
  'باب فرض وضء وسن وها فرض وضء ست خصل نيه عمند غسل وجه غسل وجه غسل ذرع رفق مسح قل راس غسل رجل كعب ريب وعل قول ولء وسن عشر خصل خمس غسل وجه وهي سمه غسل كفن ضمض نشق بلغ فيه الا صءم خمس غسل وجه وهي قدم يمن علي يسر مسح جمع راس مسح اذن ظهر وبط دخل صبع فيه خلل صبع رجل غسل دخل كعب وليس مسح عنق سنه فضل كرر ثلث وزالواجب مره مرت فضل ثلث كمل وها ان يبد طهر عضء وضع بدء فان قصر علي فرض است جزه وان ضيع حظ نفس ترك')]

In [5]:
#Keywords Extraction with TopicRank

from pytopicrank import TopicRank
for j in range(len(array_text)):
    tr = TopicRank(array_text[j])
    print("Keywords of article", str(j+1), "\n", tr.get_top_n(n=5, extract_strategy='first'))

ModuleNotFoundError: No module named 'pytopicrank'