In [5]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re


In [6]:
def preprocess_text(text):
    # Remove punctuations and non-Arabic characters
    text = re.sub(r'[^\u0600-\u06FF\s]', '', text)
    # Tokenize the text
    tokens = word_tokenize(text)
    # Join tokens back into text
    processed_text = ' '.join(tokens)
    return processed_text


In [15]:
def main_topic(text, num_topics=1):
    # Preprocess the text
    processed_text = preprocess_text(text)

    # Vectorize the text using TF-IDF
    tfidf_vectorizer = TfidfVectorizer(max_df=1.0, min_df=1)
    tfidf = tfidf_vectorizer.fit_transform([processed_text])

    # Apply NMF for topic modeling
    nmf_model = NMF(n_components=num_topics, random_state=42)
    nmf_model.fit(tfidf)

    # Get the main topic
    feature_names = tfidf_vectorizer.get_feature_names_out()
    topic_words = [feature_names[i] for i in nmf_model.components_[0].argsort()[:-10 - 1:-1]]
    main_topic = ' '.join(topic_words)

    return main_topic


In [16]:
if __name__ == "__main__":
    # Example text
    arabic_text = """
    يجب على العالم العربي أن يسعى إلى التضامن والتعاون في مواجهة التحديات الاقتصادية والاجتماعية.
    يجب علينا العمل معًا لتحقيق التنمية المستدامة وتحسين جودة حياة الناس.
    """

    # Get the main topic
    topic = main_topic(arabic_text)
    print("Main topic:", topic)

Main topic: يجب يسعى إلى الاقتصادية التحديات التضامن التنمية العالم العربي العمل


