<a href="https://colab.research.google.com/github/MuhammadHelmyOmar/Hadith/blob/main/Features_Importance.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Next

- Preprocessing
  - Removing punctuations, stop words, and diacritics

# Loading Data

In [2]:
import pandas as pd

In [10]:
data_url = 'https://raw.githubusercontent.com/KamelGaanoun/MHDetection/main/Corpus/trainFinal.csv'

data = pd.read_csv(data_url, index_col='Unnamed: 0')
print("CSV file loaded successfully!")
# Display the first few rows of the DataFrame
data.head()

CSV file loaded successfully!


Unnamed: 0,Matan,Degree
19036,لقد رأيتني وأنا ثلث الإسلام،‏.‏,0
17209,هريرة، أن أعرابيا، أتى النبي صلى الله عليه وس...,0
11245,عائشة، قالت كنت أفتل قلائد هدى رسول الله صلى ...,0
2827,قال النبي صلى الله عليه وسلم ‏ ‏ إني فرطكم على...,0
23616,عن النبي صلى الله عليه وسلم قال أقيموا الركوع ...,0


In [11]:
print(len(data))
print(data['Degree'].value_counts())

21248
Degree
0    19286
1     1962
Name: count, dtype: int64


In [12]:
# Filter data for each degree
data_degree_0 = data[data['Degree'] == 0]
data_degree_1 = data[data['Degree'] == 1]

# Sample 200 rows from each degree (if available)
# Use .sample(n, random_state) for reproducible sampling
sampled_degree_0 = data_degree_0.sample(n=min(500, len(data_degree_0)), random_state=42)
sampled_degree_1 = data_degree_1.sample(n=min(500, len(data_degree_1)), random_state=42)

# Concatenate the sampled dataframes
sampled_data = pd.concat([sampled_degree_0, sampled_degree_1])

# Display the value counts to verify the sampling
print("Value counts of the sampled data:")
display(sampled_data['Degree'].value_counts())

# Display the head of the sampled data
print("\nSampled data head:")
display(sampled_data.head())

Value counts of the sampled data:


Unnamed: 0_level_0,count
Degree,Unnamed: 1_level_1
0,500
1,500



Sampled data head:


Unnamed: 0,Matan,Degree
13645,أنها استعارت من أسماء قلادة فهلكت فأرسل النبي ...,0
16561,يقول كان رسول الله صلى الله عليه وسلم يأتي قبا...,0
13787,هريرة، أن رسول الله صلى الله عليه وسلم قال قلب...,0
4475,أبيه، أن النبي صلى الله عليه وسلم قال لا تزال ...,0
16463,القاسم صلى الله عليه وسلم تسموا باسمي ولا تكنو...,0


In [25]:
labels = sampled_data['Degree'].values
labels.shape

(1000,)

# Preprocessing

In [5]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
import re
from collections import defaultdict
from sklearn.feature_extraction.text import CountVectorizer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [13]:
vocab = defaultdict(int)

for hadith in sampled_data['Matan']:
    # Use regular expressions to find words composed of alphanumeric characters only
    words = re.findall(r"\b\w+\b", hadith)
    # For each word found, increment its count in the vocab dictionary
    for word in words:
        vocab[word] += 1

# Convert the defaultdict vocab to a regular dictionary for easier handling and sorting
# Sort the dictionary by word frequency in descending order and convert it to a new dictionary
sorted_vocab = dict(sorted(vocab.items(), key=lambda x: x[1], reverse=True))

# Display the sorted vocabulary with each word and its frequency count
display(sorted_vocab)

{'الله': 2174,
 'من': 1191,
 'عليه': 916,
 'صلى': 845,
 'وسلم': 812,
 'قال': 782,
 'في': 768,
 'رسول': 579,
 'أن': 442,
 'على': 440,
 'فقال': 358,
 'ما': 350,
 'لا': 339,
 'يا': 330,
 'إلى': 322,
 'النبي': 309,
 'عن': 300,
 'ثم': 294,
 'له': 234,
 'إلا': 228,
 'ولا': 203,
 'بن': 190,
 'حتى': 190,
 'إن': 181,
 'كان': 175,
 'ذلك': 154,
 'هذا': 144,
 'يوم': 140,
 'إذا': 134,
 'أو': 133,
 'كل': 125,
 'لم': 124,
 'الجنة': 115,
 'به': 107,
 'سبحان': 95,
 'الناس': 90,
 'قد': 89,
 'فإذا': 87,
 'أهل': 87,
 'أبي': 86,
 'محمد': 84,
 'أبو': 84,
 'عبد': 84,
 'ابن': 83,
 'يقول': 82,
 'وهو': 81,
 'وما': 79,
 'جبريل': 79,
 'رأيت': 78,
 'لي': 77,
 'عمر': 77,
 'بين': 77,
 'ومن': 75,
 'بكر': 74,
 'فيه': 72,
 'علي': 71,
 'فلما': 70,
 'منه': 70,
 'أنه': 69,
 'عند': 69,
 'فإن': 67,
 'الذي': 67,
 'فقلت': 67,
 'تعالى': 67,
 'القيامة': 64,
 'إليه': 63,
 'قلت': 63,
 'وقال': 63,
 'هو': 63,
 'ولم': 60,
 'لك': 59,
 'وإن': 59,
 'أحد': 57,
 'الصلاة': 56,
 'بعد': 56,
 'أنا': 56,
 'اللهم': 55,
 'بها': 54,
 'رجل': 54,


In [14]:
len(sorted_vocab)

10284

In [18]:
# Create a CountVectorizer Object
vectorizer = CountVectorizer()

# Fit and transform the corpus
bow = vectorizer.fit_transform(sampled_data['Matan'])

# Print the length of the generated vocabulary
print("Vocabulary Size:", len(vectorizer.get_feature_names_out()))

# Print the Bag-of-Words matrix
print("BoW Representation:")
print(bow.toarray())
print(bow.shape)

Vocabulary Size: 10276
BoW Representation:
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
(1000, 10276)


# Split

In [28]:
from sklearn.model_selection import train_test_split

In [26]:
X_train, X_test, y_train, y_test = train_test_split(bow, labels, test_size=0.1,random_state=109)

In [27]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((900, 10276), (100, 10276), (900,), (100,))

# Modeling

In [29]:
from sklearn.svm import SVC, LinearSVC

In [34]:
clf = LinearSVC(random_state=109)
clf.fit(X_train, y_train)

# Evaluation

In [31]:
from sklearn import metrics

In [35]:
y_pred = clf.predict(X_test)

print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
print("Precision:", metrics.precision_score(y_test, y_pred))
print("Recall:", metrics.recall_score(y_test, y_pred))
print("F1 Score:", metrics.f1_score(y_test, y_pred))

Accuracy: 0.93
Precision: 0.9148936170212766
Recall: 0.9347826086956522
F1 Score: 0.9247311827956989


In [47]:
coefficients = list(clf.coef_[0])
words = list(vectorizer.get_feature_names_out())
maximas = {}
minimas = {}

for i in range(100):
  max_value = max(coefficients)
  min_value = min(coefficients)

  mx = coefficients.index(max_value)
  maximas[words[mx]] = max_value
  coefficients.pop(mx)
  words.pop(mx)

  mn = coefficients.index(min_value)
  minimas[words[mn]] = min_value
  coefficients.pop(mn)

In [52]:
minimas.keys()

dict_keys(['يحدث', 'وسلم', 'بهذا', 'أحدث', 'أسقطتها', 'الإسراء', 'كد', 'سواكه', 'نجيح', 'قارئه', 'قاد', 'وهجه', 'وفوق', 'واتخذوها', 'صائم', 'فحمل', 'ملائكة', 'يقرؤها', 'الزنادقة', 'النبأ', 'وتأكل', 'ثنايا', 'متكأ', 'أمحقه', 'النبيون', 'بمرضها', 'خلقي', 'تهدداني', 'بيت', 'عمرة', 'الحجون', 'التفاح', 'ذراعيه', 'رحيما', 'للسؤال', 'النبيين', 'يتكلم', 'حداثة', 'كاشف', 'جلوس', 'فخرا', 'الواحد', 'قضاءها', 'أولادكم', 'الخفين', 'الحال', 'لأحدكم', 'والتهب', 'والديه', 'والسطر', 'والشأم', 'ويغسل', 'أمير', 'حجهم', 'الخميس', 'يجاهدوا', 'أشهر', 'استوجب', 'فيشتد', 'مما', 'والتهجد', 'أولياء', 'ألوان', 'يحيي', 'عقل', 'اجلد', 'وأذل', 'اليأس', 'الأولون', 'متي', 'قبلهم', 'الاستنثار', 'مسير', 'نعوذ', 'والزراعون', 'يخطف', 'الثنية', 'ماؤه', 'تزحزح', 'أعبد', 'أوري', 'بمعرفة', 'ناب', 'وبزمان', 'اشتهى', 'نمى', 'نظر', 'المطرقة', 'جبرئيل', 'وتزداد', 'الأئمة', 'ركبتيه', 'أصابتني', 'أني', 'أما', 'ها', 'المطلب', 'تطلبه', 'جعفر', 'وأمسك'])

In [53]:
maximas.keys()

dict_keys(['وآله', 'الحمام', 'النظر', 'يعبدك', 'الأعجل', 'وهول', 'فاضربوا', 'جبال', 'علمني', 'ميل', 'يفتح', 'أربع', 'يرزقهم', 'ربا', 'مشاة', 'نطل', 'فأى', 'ترضى', 'رتق', 'يأمرهم', 'أمسكت', 'ناقتي', 'الورد', 'بعثتم', 'فقاله', 'ترحم', 'مره', 'أكون', 'الأبصار', 'بأحدكم', 'جمع', 'قارئه', 'الفرق', 'الجمحي', 'أتى', 'آية', 'أشبعت', 'صليتم', 'القدح', 'ليخيل', 'رزقني', 'أطعمت', 'طينة', 'لاسبق', 'لغاتها', 'نوفل', 'أمتك', 'فتعاظمني', 'فكلأني', 'الجلود', 'السموم', 'لعظيم', 'وبابها', 'ومجراه', 'جاء', 'نصرا', 'فعظم', 'الشيخ', 'وتمكث', 'منها', 'إنس', 'لآيات', 'عيينة', 'يحمل', 'مقبل', 'السفرجل', 'ليصمت', 'القطعة', 'بمنزلتك', 'عزك', 'وطهارة', 'مرجت', 'اللبن', 'شهاب', 'فشربت', 'أسنحه', 'الإسراء', 'الدباء', 'روحه', 'روح', 'ملحمة', 'شفاعة', 'زحفا', 'مستو', 'ليتحرى', 'الكافر', 'منصور', 'إطالتها', 'صبر', 'مفروغ', 'مكنونا', 'للريح', 'رافع', 'لذكر', 'مسعود', 'للمعلمين', 'سيرين', 'رقبة', 'فسلمتني', 'تشفع'])

In [None]:
def experiment():
    coefficients = list(clf.coef_[0])
    names = list(clf.feature_names_in_)
    maximas = {}
    minimas = {}
    for i in range(100):
        max_value = max(coefficients)
        min_value = min(coefficients)
        mx = coefficients.index(max_value)
        maximas[names[mx]] = max_value
        coefficients.pop(mx)
        names.pop(mx)
        mn = coefficients.index(min_value)
        minimas[names[mn]] = min_value
        coefficients.pop(mn)
    return maximas, minimas, clf.coef_, clf.feature_names_in_

