In [1]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# Step 1: Load your Arabic data into a pandas DataFrame
data = pd.read_csv("data/s_data.csv")

In [3]:
data.shape

(4969, 2)

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4969 entries, 0 to 4968
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    4969 non-null   object
 1   class   4969 non-null   object
dtypes: object(2)
memory usage: 77.8+ KB


In [4]:
data.head()

Unnamed: 0,text,class
0,﻿ اعتقل اندونيسي من قبل الشرطة بعد ان اثار جدل...,religon
1,﻿ عمان - الراي - اكد المهندس نضال الحديد امين ...,env
2,(2) امه هي امنه بنت وهب بن عبد مناف بن زهره بن...,religon
3,(ناسا) لتركيب نظام قياسي ضوئي شمسي طيفي لرصد ا...,ST
4,@ 3drees: حماقي حلف بالله انه ما يستمتع الا مع...,art


In [5]:
# Step 2: Preprocess the text data to remove likes, emojis, and non-text characters
def preprocess_text(text):
    # Removing likes (assuming likes start with @ and end with space)
    text = re.sub(r'@\S+\s', '', text)
    
    # Removing links (matches common URL patterns)
    text = re.sub(r'http\S+|www\S+|https\S+', '', text)
    
    # Removing emojis and other non-text characters
    text = re.sub(r'[^\w\sء-ي]', '', text)
    
    # Removing English letters
    text = re.sub(r'[a-zA-Z]', '', text)
    
    return text


data['text'] = data['text'].apply(preprocess_text)

In [6]:
data.head

<bound method NDFrame.head of                                                    text    class
0      اعتقل اندونيسي من قبل الشرطة بعد ان اثار جدلا...  religon
1      عمان  الراي  اكد المهندس نضال الحديد امين عما...      env
2     2 امه هي امنه بنت وهب بن عبد مناف بن زهره بن ك...  religon
3     ناسا لتركيب نظام قياسي ضوئي شمسي طيفي لرصد الت...       ST
4      3 حماقي حلف بالله انه ما يستمتع الا مع الجمهو...      art
...                                                 ...      ...
4964  يوسمان روي استنادا الي بند في القانون الجنائي ...  religon
4965  يؤمن المسلمون ان الاسلام هو اخر الديانات السما...  religon
4966  يؤمن المسلمون بان محمدا جاء ليكمل رسالة الله ا...  religon
4967  يؤمن المسلمون بان محمدا رسول من الله وخاتم الا...  religon
4968  يؤمن المسيحيون بالكتب اليهودية والتي تسمي بالع...  religon

[4969 rows x 2 columns]>

In [7]:
# Step 3: Feature Extraction - TF-IDF
tfidf_vectorizer = TfidfVectorizer()
X = tfidf_vectorizer.fit_transform(data['text'])
y = data['class']

In [8]:
# Step 4: Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
# Step 5: Train a Naive Bayes classifier
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

In [10]:
# Step 6: Predict the class of new text data
new_text = ["الاسلام"]
new_text = [preprocess_text(text) for text in new_text]
new_text_features = tfidf_vectorizer.transform(new_text)
predicted_class = classifier.predict(new_text_features)[0]

print("Predicted Class:", predicted_class)

Predicted Class: pol


In [11]:
# Step 7: Evaluate the classifier's accuracy on the test set
y_pred = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9426559356136821
