## Automation system for assigning relevant tags/keywords to Arabic news using NLP


## Problem statement
Online newspapers become very popular in the past decade. It replaced the classic newspaper since it is convenient and environment friendly. Moreover, news in online newspaper can be easily searched. So, it will be more efficient if we add tags to each news that reflect the news topic. In this work, I will work on Arabic news data-set and I will  add tags to each news based on TF-IDF weight of each word.

## Code

### Imports

In [39]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\baso0\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\baso0\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [26]:
import pandas as pd
from nltk.corpus import stopwords
from string import punctuation 
import pandas as pd
import re
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.stem.isri import ISRIStemmer
from nltk.tokenize.treebank import TreebankWordDetokenizer
import argparse
import time
from math import log
from math import sqrt
import string

### Load data and select the news text only 

In [27]:
ar_stp = pd.read_fwf('stop_words.txt', header=None)
fdata = pd.read_csv('news_data.csv')
fdata.shape

(4130, 11)

In [28]:
fdata = fdata.dropna(axis=0, subset=['news_text'])
fdata.shape

(4128, 11)

### Text pre-processing
* Remove stopwords
* Remove links, numbers, and punctuation
* Stemming _return the wort to its  root
* Tokenization

### Functions used in preprocessing 

In [29]:
def process_data(arr, stem=False, tokinzie=False, threshold=0):
    """
    takes an array of string/texts and remove stopwords, punctuation, and return the root of the word.

    Arguments: 
    arr: numpy array or list. texts to be cleaned.
    stem: boolean. True return the stme of the word, False keep the original.
    tokinzie: boolean. True return a tokinzie version of a text. False Return as text.
    threshold: int. set the threshold of lenght of text to keep.

    Returns:
    an array of cleaned text.  
    """
    print ('start', arr)
    missing_values = arr.isna().sum()
    if missing_values > 0:
        raise ValueError(f'found {missing_values} missing values')

    # if threshold > 0:
    #     arr = [item for item in arr if len(arr) > threshold]

    # processed_arr = [self.ـprocess_text(item, stem) for item in arr]
    print ('before get arabic words')

    processed_arr = _get_arabic_words(arr)
    print ('after get arabic words' , processed_arr)

    # for i, item in enumerate(processed_arr):
    #     print(len(item))

    if tokinzie:
        return processed_arr
    print ('after tokinize', processed_arr)

    # arr_detokenized = [TreebankWordDetokenizer().detokenize(word) for word in processed_arr]

    return processed_arr

In [67]:
def process_text(value, stem):
    print (value)

    value = re.sub('((www\.[^\s]+)|(https?://[^\s]+))', '', value) # remove URLs
    print ('remove URLs done')

    value = re.sub('@[^\s]+', '', value) # remove usernames
    print ('remove usernames done')

    # value = re.sub('[0-9]', '', value)
    value = re.sub('[a-zA-Z]', '', value)
    print ('remove numbers done')
    # value = re.sub(r'\d', '', value)
    value = re.sub('^[\u0621-\u064A\u0660-\u0669 ]+$', '', value) # remove special characters like ('\n') 
    print ('remove special characters done')
    value = re.sub(r'#([^\s]+)', r'\1', value) # remove the # in #hashtag
    print ('remove # done')
    value = re.sub(r'(.)\1+', r'\1', value)
    print ('remove unwanted charecters done')


    value = word_tokenize(value)
    print ('after  token ')
    

#     if stem:
    value = _stem(value)
    print ('after  stem ')

    return [word for word in value if word not in _stopWords] 

def _stem( arr):

    _st = ISRIStemmer()

    value = [_st.pre32(word) for word in arr] 
    value = [_st.suf32(word) for word in arr]
    # value = [_st.waw(word) for word in arr]
    value = [_st.stem(word) for word in arr]

    return value


In [47]:
def _remove_stopwords(arr):
    """"
    the purpose of this function is to remove stop words from a text
   
    Arguments:
    arr: List. of texts
    
    Returns:
    a List of text removed of stop words
    """
    ar_stp = pd.read_fwf('stop_words.txt', header=None)
    
    stop_words = set(stopwords.words('arabic') + list(ar_stp[0])) 
    #stop_words = list(ar_stp[0])

    return [word for word in arr if word not in stop_words]

In [58]:

def _get_arabic_words(arr):
    """
    the purpose of this function is to get arabic words only out of texts. 
    to be used in term frequncy - inverse - term frequency.
    takes an array of texts and return only arabic words
    Arguments:
    arr: Series. array of documents.
   
    
    Returns:
    a Series of arabic words per document
    """
    # remove (?, !, , ...)
    punctuation = string.punctuation  + '،'+'؛'+   '؟' +'ّ'
    arr = [sentence.translate(str.maketrans('', '', punctuation)) for sentence  in arr]
    print(" remove punc done ! ")
    # keep only arabic words  
    arr_text = [re.findall(r'[\u0600-\u06FF]+', sentence) for sentence in arr]
   
    
    arr_text = [_handle_char(item) for item in arr_text]
    print(" keep only arabic words done ! ")

    # remove stop words
    arr_text = [_remove_stopwords(text) for text in arr_text]
    print(" remove stop words done ! ")
    
    new_arr = []

    for text in arr_text:
        new_arr.append(' '.join(text))


    return pd.Series(new_arr)


In [59]:
def _handle_char(list):
    
    """
    takes a list of words represent a tweet and return words removed of repeated characters and irregular short words
    Arguments:
    arr: Series. array of tweets.
    
    Returns:
    a list of words removed of repeated characters ( e.g احببب: احب) and irregular short words
    """
    arr = [re.sub(r'(.)\1+', r'\1', word) for word in list]
    arr = [word for word in list if len(word) >= 3]
    return arr



#### I used an open source script for arabic language to apply these preproceessing steps

In [68]:
_stopWords = set(stopwords.words('arabic') + list(punctuation) + list(ar_stp[0]))
data = pd.DataFrame()
data ['news_text'] = fdata['news_text']
data['processed'] = process_data(data['news_text'], stem=False, tokinzie=False, threshold=0)


start 0       حذّرت الهيئة العامة للغذاء والدواء من منتج عسل...
1       أقامت حكومة مدينة يوكوهاما، والمعهد الوطني للد...
2       أظهر مقطع فيديو متداول آخر للفتاة المقيمة، وهي...
3       أنقذت شجاعة مواطن اليوم فريقًا لشركة متعاقدة م...
4       استقبل مدير الدفاع المدني بمنطقة الرياض، اللوا...
                              ...                        
4125    في مفاجأة كبيرة، أعلن عالم سابق في إدارة الطير...
4126    بحث عضو مجلس الإدارة رئيس لجنة تنمية الأعمال ب...
4127    أكّد الباحث في الطقس والمناخ عضو لجنة تسمية ال...
4128    ناقش مجلس الشورى، خلال جلسة العادية "62" من أع...
4129    عبَّر مصدر مسؤول بوزارة الخارجية عن إدانة المم...
Name: news_text, Length: 4128, dtype: object
before get arabic words
 remove punc done ! 
 keep only arabic words done ! 
 remove stop words done ! 
after get arabic words 0       حذرت الهيئة العامة للغذاء والدواء منتج عسل للع...
1       أقامت حكومة مدينة يوكوهاما والمعهد الوطني للدر...
2       أظهر مقطع فيديو متداول آخر للفتاة المقيمة وهي ...
3       أن

In [69]:
data.head(20)

Unnamed: 0,news_text,processed
0,حذّرت الهيئة العامة للغذاء والدواء من منتج عسل...,حذرت الهيئة العامة للغذاء والدواء منتج عسل للع...
1,أقامت حكومة مدينة يوكوهاما، والمعهد الوطني للد...,أقامت حكومة مدينة يوكوهاما والمعهد الوطني للدر...
2,أظهر مقطع فيديو متداول آخر للفتاة المقيمة، وهي...,أظهر مقطع فيديو متداول آخر للفتاة المقيمة وهي ...
3,أنقذت شجاعة مواطن اليوم فريقًا لشركة متعاقدة م...,أنقذت شجاعة مواطن اليوم فريقًا لشركة متعاقدة إ...
4,استقبل مدير الدفاع المدني بمنطقة الرياض، اللوا...,استقبل مدير الدفاع المدني بمنطقة الرياض اللواء...
5,تحقق شرطة محافظة جدة في واقعة العثور على مقيم ...,تحقق شرطة محافظة جدة واقعة العثور مقيم الجنسية...
6,توقعت الهيئة العامة للأرصاد وحماية البيئة، ممث...,توقعت الهيئة العامة للأرصاد وحماية البيئة ممثل...
7,"أعلن المدير الفني للمنتخب السعودي الأول ""رينار...",أعلن المدير الفني للمنتخب السعودي الأول رينارد...
8,نظم مستشفى الملك فيصل التخصصي ومركز الأبحاث با...,نظم مستشفى الملك فيصل التخصصي ومركز الأبحاث با...
9,كشف رئيس اللجنة العليا لمشروع قياس وتحقيق رضا ...,كشف رئيس اللجنة العليا لمشروع قياس وتحقيق رضا ...


### Add new column that contains the processed text

In [70]:
data['processed'] =data [data['processed'].notnull()]['processed'].apply(lambda col : process_text(col, True) )

حذرت الهيئة العامة للغذاء والدواء منتج عسل للعلامة التجارية العسل الصحي نظراً لاحتوائه مادة دوائية تستخدم بوصفة طبية وقالت الهيئة العسل الصحي تنتجه شركة ماليزيا يخالف اللائحة الفنية المعتمدة لعسل النحل رقم بسبب احتوائه المادة الدوائية تادالافيل تستخدم بموجب وصفة طبية وأوصت المستهلكين بتجنب المنتج والتخلص لديهم فوراً حفاظاً صحتهم مشيرة أنها تتابع تنفيذ الإجراءات للتأكد خلو الأسواق المنتج
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أقامت حكومة مدينة يوكوهاما والمعهد الوطني للدراسات الإنسانية بجامعة اكيتا اليابانية ومؤسسة موتوكو كاتاكورا لثقافة الصحراء معرض استكشاف عامًا التراث الثقافي وادي فاطمة بمحافظة الجموم بمنطقة مكة المكرمة متحف يوكوهاما للثقافات الأوروبية الآسيوية بإشراف الهيئة العامة للسياحة والتراث الوطني السعودية وبتعاونٍ الملحقية الثقافية السعودية باليابان المعهد العربي الإسلامي ومكتب رابطة العالم الإسلامي اليابان وتزامنًا المعرض أُقيم المؤتمر الدولي الأول مستق

after  stem 
ناشد ذوو الشاب محمد سعدون الدوسري المساعدة البحث عنه بعدما فُقد قبل سنة وتسعة شهور خرج منزله بأحد أحياء الرياض معرفة وجهته ولم يعد الآن قالت والدته فقدت ابني محمد حينما خرج المنزل بحي الرمال وقت متأخر وقارب اليوم اختفائه سنة وتسعة شهور يعاني اعتلالات نفسية زلنا نعلم مصيره شيئًا الوقت الحالي وأفادت والدته بأنهم أبلغوا الجهات الأمنية ممثلة بشرطة الحمراء الرياض تاريخ فقدانه لكنهم يجدوا أثر مناشدين لديه معلومات تساعد العثور التواصل الرقم
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أكد الباحث الطقس والمناخ عضو لجنة تسمية الحالات عبدالعزيز الحصيني انخفاضاً ملموساً لدرجات الحرارة سيستمر يوم السبت وقال عبر حسابه تويتر فجر اليوم الأربعاء نلاحظ تعمُق الكتلة الباردة معظم مناطق المملكة متوقع مزيد الانخفاض يصرفها الله ومتوقع استمرارها السبت الأحد ترجع كانت بإذن الله وأضاف محافظات الرياض والشرقية الجنوبية تأثرت بحالة غيث واليوم الأربعاء تأثير الحالة الأمارات وعُمان والر

remove unwanted charecters done
after  token 
after  stem 
أعرب مكتب الأمم المتحدة لحقوق الإنسان قلقه الشديد اليوم الثلاثاء استخدام قوات الأمن الإيرانية الذخيرة الحية المتظاهرين مطالباً السلطات بالحد استخدام القوة لتفريق الاحتجاجات أطلقت شرارتها زيادة أسعار الوقود جهته دعا المتحدث باسم المكتب روبرت كولفيل السلطات إيران إعادة خدمة الإنترنت المقطوعة السبت الماضي واحترام المتظاهرين حرية التعبير والتجمع السلمي بحسب أوردت رويترز أفاد كولفيل إفادة بجنيف بأن المكتب وصلته تقارير عدد القتلى مظاهرات إيران بالعشرات وحذر المتحدث حجم الضحايا خطير للغاية واضح
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
بتوجيه أمير المنطقة الشرقية الأمير سعود نايف عبدالعزيز أعلنت بلدية القطيف تمديد فعاليات مهرجان الزهور الأول بالمحافظة السبت المقبل نظراً للإقبال الكبير والحضور الكثيف لفعاليات الملتقى وكانت بلدية محافظة القطيف أطلقت مهرجان الزهور الأول بمحافظة القطيف يوم الخميس الماضي وبلغت عدد شتلات 

remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
تفاعلت جامعة القرى بمكة المكرمة مقطع فيديو الفئران الميتة وتراكم النفايات سطح أحد المعامل بإحدى الكليات بالجامعة وأعلنت تنظيف وتعقيم المكان جاء تفاعلاً ساعة نشر سبق خبرًا تحت عنوان شاهد فئران ميتة تستوطن سطح إحدى كليات جامعة القرى وبه الفيديو وثَقه طالب وزود سبق وأكد المتحدث باسم جامعة القرى الدكتور عثمان قزاز الجامعة قامت بالوقوف المكان المشار إليه وتم تنظيفه وتعقيمه وكان مقطع فيديو وثَقه طالب بجامعة القرى بمكة المكرمة أظهر تراكم النفايات وانتشار الفئران الميتة سطح أحد المعامل وداخل غرفة شكل مستودع بإحدى الكليات بالجامعة يُنذر بكارثة بيئية وصحية وبحسب الطالب المكان يقع الدور الثالث مبنى الكلية ومرتبط بشكل مباشر المصعد الكهربائي للكلية يعني الوصول إليه سهل ومتاح طريق المصعد إغلاق المكان وتنظيفه قِبل الجهة المسؤولة وأظهر المقطع فئرانًا ميتة ومخلفات ونفايات تعود لأحد المعامل يُعتقد أنه الاستغناء والتخلص بهذه الطريقة العشوائية وسط مطالبات موثق ا

remove # done
remove unwanted charecters done
after  token 
after  stem 
نشبت اشتباكات قوات الأمن ومتظاهرين شيراز نقلت وسائل إعلام محلية أنباء إغلاق مدارس مدينة إيرانية اليوم الاثنين بسبب الاحتجاجات وفقًا لموقع قناة العربية وتفصيلاً لقي شخصًا مصرعهم احتجاجات إيران حسبما أورده أمس الأحد راديو فردا الناطق بالفارسية ظهرت مواقع التواصل الاجتماعي مقاطع فيديو لتظاهرات حاشدة عبادان بالأحواز وأعلنت المعارضة الإيرانية وقت سابق سقوط قتيلاً الاحتجاجات تشهدها البلاد أفادت مصادر لقناتَيْ العربية والحدث بأن قوات الأمن الإيرانية أطلقت أمس الأحد قنابل الغاز لتفريق المحتجين ميدان الخميني طهران وامتدت الاحتجاجات معظم المدن الإيرانية تحت سُمي انتفاضة البنزين وأشارت وكالة فارس اعتقال متظاهر إيران خلال يومَيْن وسط أنباء وقوع قتلى صفوف المتظاهرين خلال احتجاجات أمس وعلى وقع التصعيد أفادت وكالة مهر بمصادقة مجلس الأمن القومي الإيراني مشروع قانون تقنين استهلاك الوقود ودعا البرلمان جلسة مغلقة اتخاذ الإجراءات اللازمة للسيطرة والإشراف أسعار البنزين يتضرر الشعب بحسب وكالة مهر للأنباء وازدادت وتيرة الاحتجاجات وعمت م

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
نفذت القوات البحرية الملكية السعودية ممثلةً القوات الخاصة بالأسطول الغربي بجدة اليوم التمرين البحري الثنائي المختلط السيف الأزرق نظيرتها القوات الخاصة بالبحرية الصينية الشعبية بحضور قائد الأسطول الغربي اللواء البحري الركن فالح عبدالرحمن الفالح والملحق العسكري الصيني المملكة لين وذلك قاعدة الملك فيصل البحرية بالأسطول الغربي وبدأ الحفل الخطابي المعد بهذه المناسبة بتلاوة آيات القرآن الكريم ألقى مدير التمرين العقيد البحري عبدالله محمد العمري كلمةً أكد خلالها أهمية التمرين المشترك وأنه يأتي إطار مواجهة التحديات والمحافظة السلام والاستقرار المنطقة إضافة التأكيد العديد الأهداف تصب جميعها دائرة الجاهزية التامة والحفاظ أمن وسلم المنطقة والعالم وبين العقيد العمري التمرين يهدف بناء الثقة المتبادلة وتعزيز التعاون القوات البحرية الملكية السعودية والقوات البحرية الصينية الشعبية وتبادل الخبرات وتطوير قدرة المشاركين بالتمرين مجال الإرهاب البحري والقرصنة البحرية ورفع مستوى التدريب

after  stem 
يوصي الأطباء بممارسة التمارين بانتظام للحفاظ الجسم والصحة لأن لممارسة النشاط البدني والحفاظ اللياقة البدنية فوائدَ تُحْصَى وتصل تحسين الصحة البدنية والعقلية أهمية خاصة للأمهات الحوامل وجه التحديد وينقل سكاي نيوز عربية موقع إيف الإلكتروني المعني بأخبار المرأة الأنشطة مثل المشي والسباحة وممارسة التمارين منخفضة التأثير تعود بالنفع كلٍ الأم والطفل وفيما يلي المزايا المذهلة لممارسة الرياضة أثناء الحمل تخفيف آلام الظهر نمو الطفل داخل الرحم يزداد حجمه ووزنه ويتسبب بآلام الظهر تنعكس شكل ألم مناطق مختلفة الجسم وتوجد تمارين محددة للنساء الحوامل لمساعدتهن عضلات الظهر وتخفيف آلام الظهر تحدث عادة بالإضافة الحفاظ تقويم العمود الفقري وبالتالي الوقوف الجيد والنصيحة للمرأة الحامل تبحث التمارين عبر الإنترنت للمساعدة تخفيف آلام الظهر وتقويته تعزيز الصحة العقلية ممارسة التمارين وجعلها أمرًا روتينيًا يفيد المرأة الحامل نفسيًا فالأشخاص يعانون القلق الاكتئاب شعروا بتحسن مزاجهم عندما قاموا بذلك وفي كثير الأحيان تؤدي هرمونات الحمل والضغوط اليومية مشكلات تصل القلق والاكتئاب حدث يمكن يكون عواقب وخيم

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
تحدث فهد الشلاش الخطر حاق وبصديقهعند محاولتهما توثيق سيول بمدينة حائل الثلاثاء الماضيحيث انقلبت مركبتهما كانت نوع جيب ربعثم وُجدت صباح الاربعاء مسافة تقل كيلومتر واحد وذلك جرفتها السيول عبر الوادي وقال الشلاش حديثه عبر سناب سالم التميمي بدأت المغامرة بسبب هواية التصوير والرغبة توثيق الأمطار بـجو مطاردة السحابةإلا قوة السيول حالت رجوعنا حائل وأضاف وثقنا السيول حاولنا الرجوع لحائل سالكين الطريق الأسفلت وكنا حريصين عدم تجاوزه سيارتنا تحركت دقيقة داخل السيول فشلت مقاومة شدة السيل فانحرفت وانقلبت أربع مرات وفي الخامسة استقرت الجانب الأيمنمما سهل خروجنا وأردف أنهما اتجها المدينةإلا خلو المكان الناسجعلهما يقطعان مسافة تسعة كيلو متراتللوصل الأمان وبعد أربع ساعات مشياً وصلا مواطنين اتضح لاحقاً أنهم الأربعة مواطنين أنقذوا عائلة مكونة رجل وزوجته وابنتيه جرفت مركبتهم السيول بنفس الوادي وأشار أنهما نجحا للوصول الأمان مقاومة السيل وصل كتفيهماوبوصولهم للأربعة مواطنينالذين قاموا 

remove # done
remove unwanted charecters done
after  token 
after  stem 
وزع فريق مركز الملك سلمان للإغاثة والأعمال الإنسانية أمس سلة غذائية عاجلة للمتضررين الفيضانات مدينة بلدوين بإقليم هيران الصومال عقد الفريق لقاء وزير الطوارئ والكوارث الصومالي واللجنة الوزارية الحكومية أجل وضع خطة للعمل وتنسيق النشاط الإغاثي وتوزيع المساعدات المتضررين كارثة السيول والفيضانات مدينة بلدوين والمناطق المجاورة وتأتي المساعدات ضمن الجهود الإنسانية والإغاثية المتنوعة تقدمها المملكة خلال المركز العديد الدول المحتاجة والمتضررة واصل مركز الملك سلمان للإغاثة والأعمال الإنسانية بالتعاون جمعية الأيادي البيضاء للأسبوع التاسع التوالي توزيع رغيف خبز يوميًا أسر اليتامى والمحتاجين السوريين واللبنانيين والفلسطينيين شمال لبنان ضمن برنامج مخبز الأمل الخيري ويأتي ضمن الدعم السعودي المتواصل للاجئين مختلف أماكن تواجدهم
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
عقد المجلس البلدي لأمانة العاصمة المقدسة جل

remove # done
remove unwanted charecters done
after  token 
after  stem 
شكا أحد المستثمرين بالسوق المركزي للخضار والفواكه بمركز الشواق جنوب محافظة الليث عدم تجاوب البلدية وقيامها بواجباتها قوله ساهم وبشكل كبير تعثر المشروع الاستثماري يقارب سنة كاملة مبالاة ستؤول إليه الأمور تسبب إعطاء سمعة سيئة وصورة سلبية للمشروع أصبح الموقع جاذب للاستثمار لعدة أسباب أهمها انتشار الباعة الجائلين ووجود السوق السوداء خارج السوق الشعبي والمتمثل بيع الخضار والفواكه والأسماك الطرقات وبجوار السوق تسبب تكبد المستثمر والمستأجرين لخسائر فادحة وأضاف المستثمر للسوق المركزي يوسف أحمد الحضريتي البلدية أفادت سابقاً بأنه سيتم نقل محلات الخضار والفواكه واللحوم والأسماك داخل السوق الشعبي واقتصار النشاط داخله فقط مبيناً البلدية بادئ الأمر أوقفت الرخص للمحلات الخارجية تتماشى نشاط السوق أجل نقلها للسوق الشعبي سرعان قامت البلدية بإعادة فتح الرخص مرة أخرى شهر رمضان الماضي وأشارت أنه عندما آلت الأمور لهذا السوء تقدمنا بخطاب شكوى أمانة جدة بلدية الشواق بتاريخ والمقيد أمانة جدة برقم وعلى ضوء ورد خطاب توجيه سعادة وكيل الأمين 

remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
قامت الإدارة العامة للغات والترجمة بترجمة درس الرئيس العام لشؤون المسجد الحرام والمسجد النبوي الشيخ الدكتور عبدالرحمن عبدالعزيز السديس قدمه بالمسجد الحرام شرح خلاله كتاب تفسير ابن سعدي لآيات سورة الحديد شرح كتاب عمدة الأحكام كتاب الصلاة وتمت ترجمة خمس لغات الإنجليزية الفرنسية الفارسية الأوردو المالاوية وأوضح مدير الإدارة العامة للغات والترجمة عماد باعقيل الإدارة قامت بترجمة الدرس مباشرةً الهواء وذلك ضمن مشروع خادم الحرمين الشريفين للترجمة الفورية لخطب الحرمين الشريفين خلال تخصيص أماكن معينة لكل لغة ووضع لافتات مترجمة للغات المختلفة توضح للحضور أماكنها ووجود مترجمين ميدانيين يرتدون زياً تعريفياً موضحاً لغة يقومون بترجمة الدروس بصورة مباشرة ويجيبون مختلف الاستفسارات وأضاف الإدارة قامت بالإعلان الترجمة صلاة العصر والتعريف بأماكن الترجمة وذلك بمتابعة مساعد مدير الإدارة العامة للغات وللترجمة أحمد الجميعي
remove URLs done
remove usernames done
remove numbers done
remove special characters 

دعت مديرية الدفاع المدني بمنطقة جازان المواطنين والمقيمين توخي الحيطة والحذر وعدم الاقتراب بطون الأودية ومجاري السيول واتخاذ التدابير والاحتياطات اللازمة واتباع إرشادات وتعليمات الدفاع المدني جاء بعدما أصدرت الهيئة العامة للأرصاد وحماية البيئة اليوم تنبيهاً متقدماً بهطول أمطار متوسطة غزيرة منطقة جازان مصحوبة بنشاط الرياح السطحية تؤدي تدنٍ مدى الرؤية وتساقط البَرَد وجريان السيول وتشمل الحالة محافظات أبو عريش والداير بني مالك والريث والعارضة وفيفا وهروب وتستمر الساعة التاسعة مساءً جهة أخرى أصدرت الأرصاد اليوم تنبيهاً متقدماً هطول أمطار متوسطة غزيرة مصحوبة بنشاط الرياح السطحية تؤدي تدني الرؤية عدد محافظات ومدن منطقة عسير وتستمر الساعة الـ مساءً وشمل التنبيه مدينة أبها ومحافظات ومراكز خميس مشيط وأحد رفيدة والحرجة والنماص وبلقرن ورجال ألمع وظهران الجنوب ومحايل وأشار التنبيه الأمطار تؤدي تساقط البَرَد وجريان السيول عددٍ أودية المنطقة
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  ste

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أصدر مكتب وزارة البيئة والمياه والزراعة بمحافظة جدة ترخيص أول عربة متنقلة بالمنطقة متخصصة بالعناية والرعاية للحيوانات الأليفة المنزلية وللحاجة الماسة ونظرًا لتزايد أعداد مالكي الحيوانات الأليفة وأصدرت الوزارة نظامًا يتيح للمستثمرين الراغبين امتلاك عربة متنقلة تقوم بتقديم خدمات العناية والرعاية لملاك وهواة تربية الحيوانات الأليفة نظافة واستحمام وقص شعر وقص أظافر يُطلق عليها قرومنق وتقوم العربة بالتنقل والوصول المستفيد مالك الحيوانات الأليفة مواقعهم ومنازلهم وتقديم الخدمات وتسهل عليهم معاناتهم الدائمة البحث خروج الحيوان المنزل وأيضًا تحافظ صحة الحيوان عدم الاختلاط بحيوانات أخرى وذلك لتفادي انتشار الأمراض الجلدية والصحية وحفاظًا صحة مربي مالكيها وأوضح مدير عام فرع وزارة البيئة والمياه والزراعة بمنطقة مكة المكرمة سعيد جار الله الغامدي الوزارة دائمًا تتطلع لاحتياجات ومتطلبات المنطقة وتقديم الخدمات لمالكي ومقتني الحيوانات والمستثمرين الراغبين الاستثمار بمشروعات المجتمع 

remove # done
remove unwanted charecters done
after  token 
after  stem 
توقعت الهيئة العامة للأرصاد وحماية البيئة تقريرها حالة الطقس لهذا اليوم الفرصة لاتزال مهيأة لهطول أمطار رعدية مصحوبة برياح نشطة تحد مدى الرؤية الأفقية مناطق تبوك الجوف المدينة المنورة حائل القصيم مكة المكرمة الباحة عسير وجازان أجزاءٍ مناطق الحدود الشمالية الشرقية والرياض تنشط الرياح السطحية المثيرة للأتربة الأجزاء الغربية وسط المملكة وأشار التقرير حركة الرياح السطحية البحر الأحمر شمالية غربية غربية الجزء الشمالي وجنوبية غربية جنوبية شرقية الجزأين الجنوبي والأوسط بسرعة كمساعة وارتفاع الموج متر مترين وحالة البحر متوسط الموج بينما تكون حركة الرياح السطحية الخليج العربي شمالية شرقية جنوبية شرقية بسرعة كمساعة وارتفاع الموج متر متر ونصف وحالة البحر متوسط الموج
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
احتشد آلاف اللبنانيين ساحات البلاد لليوم الخامس والعشرين الحراك الشعبي تحت عنوان أحد الإصرار وقت تتعث

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أودع اليوم برنامج حساب المواطن مليار ريال مخصص دعم شهر نوفمبر للمستفيدين المكتملة طلباتهم بلغت نسبة المستفيدين المستوفين لمعايير الاستحقاق الدفعة ليتجاوز عددهم الـ مليون مستفيد وتابع بلغ إجمالي التعويضات المدفوعة بأثر رجعي الدفعة السابقة مليون ريال ليصبح إجمالي دفعه البرنامج للمستفيدين انطلاقته مليار ريال ملايين ريال تعويضات دفعات سابقة وذكر المتحدث الرسمي لبرنامج حساب المواطن سلطان القحطاني نسبة أعداد المستفيدين الرئيسيين ارتفعت يقارب الدفعة السابقة ليصبح عددهم مليون مستفيد مشيرًا إجمالي أرباب الأسر حصلوا الاستحقاق الكامل بمتوسط دعم بلغ ريال للأسرة الواحدة والبالغ عددهم قرابة مليون مستفيد مشكلين نسبته بينما بلغ عدد التابعين مليون مستفيد بلغ عدد المستقلين المستوفين لمعايير الاستحقاق دفعة شهر نوفمبر مليون مستفيد مشكلين إجمالي المستفيدين الرئيسيين وأشار القحطاني نسبة أرباب الأسر بلغ ربات الأسر فقد بلغت نسبتهن بينما بلغت نسبة ال

remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أصدرت لجنة الانضباط والأخلاق الاتحاد السعودي لكرة القدم قراراً برفض احتجاج نادي الاتحاد موضوعاً وقبوله شكلاً بالإضافة مصادرة رسوم الاحتجاج إمكانية الاستئناف توضح أسباب الرفض القرار الصادر وكانت إدارة نادي الاتحاد قدمت احتجاجاً مشاركة لاعب فريق أبها أحمد مصطفى مباراة الاتحاد وأبها ضمن دوري كأس الأمير محمد سلمان للمحترفين وتضمن احتجاج الاتحاد مشاركة اللاعب منتخب مصر للشباب والأولمبي بالإضافة خوض اللاعب مباريات ضمن الدوري المصري والبلجيكي قبل انتقال الأخير لفريق أبها قررت اللجنة تغريم الأهلي مبلغ عشرة آلاف ريال لقيام جمهوره بقذف علبة مياه باتجاه مدرب فريق النادي الأهلي خلال مباراة فريق الاتحاد وتغريم عبدالله الزوري مدافع فريق الوحدة مبلغ ألف ريال بسبب تصريحاته تضمنت إساءة إعلامية تجاه مسؤول مباراة فريقه أمام الرائد
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters d

remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
دعت الإدارة العامة للدفاع المدني بالعاصمة المقدسة المواطنين والمقيمين أخذ الحيطة والحذر نتيجة للتقلبات الجوية المؤثرة وذلك خلال اليوم الجمعة وفقًا للنشرة الصادرة الهيئة العامة للأرصاد وحماية البيئة المتضمنة احتمالية هطول أمطار رعدية متوسطة غزيرة أجزاء منطقة مكة المكرمة العاصمة المقدسة وأهاب المتحدث الرسمي للإدارة العامة للدفاع المدني بالعاصمة المقدسة الرائد نايف الشريف بالجميع التقيد بتعليمات وإرشادات السلامة والحذر والانتباه أثناء قيادة السيارة الطرقات وقت الأمطار خشية الانزلاق والبعد التمديدات الكهربائية تعرضت لمياه الأمطار تفادياً للصعق الكهربائي إضافة تجنب الأماكن المكشوفة والقريبة الأشجار أثناء البرق وعدم المخاطرة بقطع مياه السيول ومراعاة احتمال حدوث سيول منقولة إضافة الابتعاد الأجسام المتحركة والغير ثابتة أثناء نشاط الرياح وأكد الإدارة اتخذت جميع الإجراءات الاحترازية والاستعداد والتهيؤ خلال تطبيق الخطط المعدة لمواجهة أخطار الأمطار والسي

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أعلن وزير الثقافة خلال تغريدة بثها حسابه تويتر تفاصيل الفنون ستدرج التعليم كاشفًا دخول الموسيقى والمسرح والفنون التعليم وذلك عقب لقائه بوزير التعليم وتفصيلاً قال الأمير بدر فرحان وزير الثقافة الموسيقى والمسرح والفنون تعليمنا والقادم أجمل وكان وزير الثقافة عقد اليوم اجتماعاً وزير التعليم رئيس مجلس إدارة المؤسسة العامة للتدريب التقني والمهني الدكتور حمد محمد الشيخ مقر وزارة الثقافة بالدرعية وجرى خلال الاجتماع بحث أوجه التعاون وزارتَي الثقافة والتعليم لتحقيق الأهداف الاستراتيجية الصلة وجرى الاتفاق المبدئي التعاون الوزارتين إدراج الثقافة والفنون مناهج التعليم العام والأهلي إضافةً نقل صلاحية إعطاء التصاريح والرخص للأنشطة والمسارات الثقافية والفنية وزارة الثقافة وأن يكون لوزارة الثقافة التصريح للمعاهد والجامعات والكليات والمدارس الأهلية للبرامج والأنشطة والمسارات التعليمية المستحدثة الثقافة والفنون
remove URLs done
remove usernames done
remove numbers done
remove specia

after  token 
after  stem 
أدان رئيس البرلمان العربي الدكتور مشعل فهم السلمي الهجوم الجبان السياح الأجانب ورجال الأمن مدينة جرش بالمملكة الأردنية اليوم واستنكر رئيس البرلمان العربي بيان اليوم بشدة استهداف المدنيين الأبرياء وقوات الأمن مؤكدًا تضامن البرلمان العربي ووقوفه التام المملكة الأردنية تقوم خطط وإجراءات للحفاظ الأمن العام وفرض تطبيق القانون وضمان سيادة الدولة وعبر ثقته التامة قدرة المملكة الأردنية الهاشمية إفشال المحاولات الجبانة كافة تهدف للنيل أمنها واستقرارها معربًا تمنياته بالشفاء العاجل للمصابين
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
تستكمل اليوم الخميس منافسات دور الـ بطولة كأس خادم الحرمين الشريفين لكرة القدم بإقامة خمس مواجهات نتائجها تقبل القسمة اثنين ففي ملعب نادي النجمة عنيزة يحل الاتفاق ضيفًا ثقيلاً نادي التقدم صاحب المركز جدول ترتيب دوري الدرجة الأولى الساعة عصرًا يسعى الضيوف لاستغلال عامل الخبرة والتفوق الفني للعودة الدمام ببطاقة الترشح للدور 

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
نبهت الهيئة العامة للأرصاد وحماية البيئة ممثلة الإدارة العامة للتحاليل والتوقعات اليوم رياح سطحية نشطة وأتربة مُثارة تؤدي تدنٍ مدى الرؤية عددٍ محافظات منطقة مكة المكرمة تشمل محافظات الخرمة والمويه وتربة ورنية وأشارت الهيئة الحالة تبدأ الساعة الثانية عشرة ظهراً السابعة مساءً أصدرت الهيئة اليوم تنبيهاً بهطول أمطار رعدية منطقة جازان مصحوبة بنشاط الرياح السطحية تشمل محافظات الداير بني مالك والدرب والعارضة وفيفا وهروب مشيرة الحالة ستستمر بمشيئة الله الساعة السابعة مساءً جهتها دعت مديرية الدفاع المدني بمنطقة جازان المواطنين والمقيمين أخذ الحيطة والحذر مثل الحالات وعدم الاقتراب بطون الأودية ومجاري السيول واتخاذ التدابير والاحتياطات اللازمة واتباع إرشادات وتعليمات الدفاع المدني
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
سلمت المملكة العربية السعودية ممثل

after  token 
after  stem 
أعلن المدير الفني للمنتخب السعودي الأول إيرفي رينارد قائمة المنتخب استعدادًا لمواجهتي منتخب أوزبكستان ضمن التصفيات الآسيوية المؤهلة لكأس العالم وكأس آسيا ومنتخب باراجواي الودية وتغادر بعثة المنتخب السعودي العاصمة الأوزبكية طشقند يوم العاشر نوفمبر الجاري يلتقي المنتخب الأوزبكي الرابع عشر نوفمبر الجاري ملعب باختاكور المركزي يلتقي نظيره منتخب باراجواي التاسع عشر الشهر نفسه وضمت قائمة الأخضر لاعبًا النحو التالي محمد العويس فواز القرني أمين بخاري عبدالله مادو زياد الصحفي محمد خبراني حسان تمبكتي ياسر الشهراني سعود عبدالحميد محمد البريك عبد الرحمن العبيد عبدالله الخيبري عبدالله عطيف عبدالرحمن الدوسري عبدالإله المالكي سلمان الفرج سالم الدوسري يحيى الشهري عبدالعزيز البيشي عبد الفتاح عسيري نواف العابد هتان باهبري فراس البريكان عبدالله الحمدان هارون كمارا
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أكد وزير التجارة والاستثمار رئيس مجلس إدارة الهيئة السع

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
يرتكز اتفاق الرياض ترعاه المملكة العربية السعودية وبجهود تحالف دعم الشرعية باليمن المتواصلة والدؤوبة ستة مبادئ أساسية بوسعها التخفيف أنين اليمن وتتمثل أهم المبادئ الالتزام بحقوق المواطنة الكاملة ونبذ التمييز المذهبي والمناطقي ووقف الحملات الإعلامية المسيئة وتوحيد الجهود تحت قيادة تحالف دعم الشرعية لإنهاء انقلاب مليشيات الحوثي ومواجهة تنظيمي القاعدة وداعش بالإضافة تشكيل لجنة التحالف بقيادة السعودية لمتابعة تنفيذ الاتفاق ومشاركة المجلس الانتقالي وفد الحكومة لمشاورات الحل النهائي وذلك بحسب كشفته معلومات ولاقى الاتفاق ترحيباً وتفاؤلاً أوساط اليمنيين لتطبيع الحياة المناطق المحررة أمنياً واقتصادياً ودعم الجبهات الانقلابين رحب المواطنون توصلت إليه الأطراف تفاهمات قبيل التوقيع الاتفاق والتي تسمح بعودة مؤسسات الدولة وكافة السلطات عدن ودمج كافة التشكيلات المسلحة إطار وزارتي الداخلية والدفاع شأنه الحفاظ استقرار اليمن ومؤسساته وحل الملفات السياسية والعسكرية والاقتصادية سيعود 

remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أكدت المديرية العامة للجوازات مَن يقوم بنقل تشغيل المخالفين لنظامَي الإقامة والعمل بمَن فيهم العمالة المتغيبة العمل وخاصة العمالة المنزلية التستر عليهم إيواؤهم تقديم وسيلة وسائل المساعدة يعرض نفسه لعقوبة السجن لمدة تصل ستة أشهر والغرامة تصل ألف ريال والترحيل كان المخالف وافداً وتتعدَد الغرامات بتعدُد المخالفين وحذرت المديرية العامة للجوازات أصحاب المنشآت القيام بتشغيل العمالة المخالفة لنظامَي الإقامة والعمل فيهم العمالة المتغيبة العمل وخاصة العمالة المنزلية أنه حال ارتكاب المخالفات ستطبق بحقهم العقوبة تصل غرامة مالية قدرها ألف ريال وحرمان المنشأة الاستقدام لمدة خمس سنوات والتشهير بالمنشأة وسجن المدير المسؤول لمدة سنة الترحيل كان المدير وافداً وتتعدد الغرامات بتعدُد المخالفين ودعت المديرية العامة للجوازات المواطنين والمقيمين ضرورة الإبلاغ العمالة المخالفة لنظامَي الإقامة والعمل فيهم العمالة المتغيبة العمل وخاصة العمالة المنزلية يعرضوا أنفسهم للعقوبة مشيرة أنه بإمكان صاحب العمل تسجيل ت

remove unwanted charecters done
after  token 
after  stem 
أعلن مجلس إدارة صندوق تنمية الموارد البشرية هدف برئاسة وزير العمل والتنمية الاجتماعية رئيس مجلس إدارة الصندوق المهندس أحمد سليمان الراجحي تعيين تركي عبدالله الجعويني مديرًا عامًا للصندوق وقدم الجعويني الشكر والتقدير لوزير العمل والتنمية الاجتماعية رئيس مجلس إدارة الصندوق وأعضاء المجلس الثقة متطلعاً تحقيق الأهداف المنشودة تخدم عملاء الصندوق والمستفيدين برامجه ومبادراته قدم شكره لمدير عام الصندوق السابق الدكتور محمد أحمد السديري قدمه جهود أثناء توليه إدارة الصندوق متمنياً التوفيق وأكد الصندوق سيعمل خلال الفترة المقبلة حزمة البرامج والمبادرات والممكنات الداعمة لتأهيل وتوظيف وتمكين الكوادر البشرية الوطنية بالشراكة الاستراتيجية القطاعين الحكومي والخاص سائلاً الله وجل التوفيق لخدمة الوطن وأبنائه وحصل تركي الجعويني درجة البكالوريوس نظم المعلومات الإدارية جامعة كلاريون ولاية بنسلفانيا بالولايات المتحدة الأمريكية وبدأ حياته المهنية البنك السعودي البريطاني ساب عام تدرج عدة مناصب تولى منصب المدير الإقليمي لشبكات الفروع وفي عام انتقل العمل

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
فاجأ لاعب ناشئي الشباب عبدالمجيد إبراهيم حضور مباراة فريقه النصر بالاحتفال طريقته الخاصة عقب تسجيله هدفًا شباك النصر كشف فانيلته الداخلية وكتب عليها أمي ورسم قلبًا أحمر ولقيت البادرة الجميلة ثناء وتصفيقًا الحضور تعد مثل الظاهرة نادرة جدًا الملاعب العالمية وكانت المباراة انتهت بالتعادل بهدف لمثله وتأتي ضمن الجولة السادسة للدوري السعودي الممتاز تحت عامًا
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
شهد وصول فريق نادي الشباب لكرة القدم منطقة القصيم أمس الجمعة لخوض مباراة فريق التعاون اليوم السبت الجولة التاسعة دوري الأمير محمد سلمان للمحترفين حادثة غريبة عندما تحدَث أحد المشجعين موجه كاميرا هاتفه اللاعب عبدالملك الخيبري ليخطف الأخير الهاتف ويرميه بعيدًا ويواصل طريقه ووفق مقطع فيديو المشجع قال أثناء تصويره اللاعب 

remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أكد قانوني أنه يستحيل التنفيذ الجبري للحكم الصادر بعودة الزوجة بيت الزوجية مشيراً وجود نصوص شرعية تتوافق حديثه جاء عقب تعميم صادر وزارة العدل حول الموضوع وتفصيلاً قال القانوني عبدالرحمن سلطان لـسبق تعميم نائب وزير العدل تضمن التوجيه بحذف تصنيف الدعاوى وطلبات التنفيذ موقع ناجز للخدمات العدلية تتضمن إلزام الزوجة بالعودة لبيت الزوجية جبراً وأضاف جاء التوجيه متوافقاً تضمنته المادة الخامسة والسبعون نظام التنفيذ نصت أنه ينفذ الحكم الصادر الزوجة بالرجوع لبيت الزوجية جبراً ومؤكداً استحالة التنفيذ الجبري للحكم الصادر بالعودة بيت الزوجية وتابع وفِي حال نشوز الزوجة وامتناعها الرجوع لبيت الزوجية يجب التدخل بالنصح والترغيب العودة لبيت الزوجية والإصلاح عملاً بقوله تعالى وَإِنْ خِفْتُمْ شِقَاقَ بَيْنِهِمَا فَابْعَثُوا حَكَماً مِنْ أَهْلِهِ وَحَكَماً مِنْ أَهْلِهَا إِن يُرِيدَا إِصْلَاحاً يُوَفِقِ اللَهُ بَيْنَهُمَا إِنَ اللَهَ كَانَ عَلِيماً خَبِيرًا سورة النساء وقال أنه يجب ترغيب الزوجة السمع والط

after  token 
after  stem 
دعا فريق الخبراء العرب المعني بتقييم وتحديث خطة التحرك الإعلامي العربي الخارج توحيد الرسالة الإعلامية العربية الإيجابية الموجهة للرأي العام الدولي وطالب الفريق ختام اجتماعه اليوم بمقر الجامعة العربية برئاسة مدير العمليات الإعلامية المسؤول ملف الجامعة العربية بوزارة الإعلام تركي مرزوق العمري رئيس فريق الخبراء بوضع دليل بالمعايير المهنية للاسترشاد لكتابة المحتوى الإعلامي الموجه الخارج وقال العمري عقب نهاية الاجتماع الاجتماع ناقش مدى يومين إجراء تقييم شامل لخطة التحرك الإعلامي العربي الخارج جرى تنفيذه برامج ناقش وضع تصور كامل للجمهور المستهدف وآليات وسبل تنفيذ برنامج وأضاف الفريق توصل لتوصيات دعوة وسائل الإعلام العربية الرسمية والخاصة تعزيز حضور القضية الفلسطينية المشهدين الإعلاميين العربي والعالمي يتوافق أهداف ومحاور خطة التحرك الإعلامي العربي الخارج وأردف التوصيات رحبت بالمقترح التونسي حول وضع تصور شامل يساعد إيجاد آليات تنفيذية عملية لخطة التحرك الإعلامي العربي الخارج وندعو الجانب التونسي لوضع مقترح لرؤية إستراتيجية واضحة تطبق مدى ثلاث سنوات وتأخذ الحسبان الم

after  token 
after  stem 
متر مربع مساحة معرض دهانات الجزيرة افتتاحه منطقة حائل منتصف شهر أكتوبر الجاري بحضور عدد تجار المنطقة وأعيانها وأكثر مهندس واستشاري ومقاول وفني تنفيذ دهانات صمم المعرض بطراز معماري مميز ويتكون دورين متصلين داخلياً ويشتمل غرفة بأثاث فاخر ليعاين العملاء نماذج واقعية غرف منازلهم المتنوعة كغرف المعيشة وغرف المجالس وغرف النوم وغرف الأطفال وغيرها ويضم المعرض عينة جدارية لأحدث تقنيات الشركة وابتكاراتها الدهانات وفي مقدمتها منتج الجزيرة نوتس دهان تدوين الأفكار وتسجيلها الجدران أشبه يكون بالسبورة البيضاء يسهل الرسم والكتابة عليها المسح عناء مجهود علاوة منتج الجزيرة ماجنتيك دهان يتمتع بتقنية المغنطة تجعل الجدار قابلاً للصق جسم ممغنط ليتمكن المستهلك تثبيت ذكرياته وأولوياته ولزائر المعرض يتعرف منتجات الشركة الدهانات الخارجية مثل الجزيرة مكسيم والجزيرة نيوتكس ومنتجاتها الدهانات الداخلية مثل الجزيرة نوفل والجزيرة جرين جانب منتجاتها الدهانات الديكورية كالجزيرة كوريوم والجزيرة تورمالين بالإضافة منتجاتها دهانات الأخشاب ودهانات الحديد ودهانات الأرضيات والعوازل الحرارية والمائية

remove unwanted charecters done
after  token 
after  stem 
تستعد مدرسة متوسطة البندرية بالهفوف بمحافظة الأحساء لتطبيق نظام بصمة الوجه لتسجيل حضور وانصراف طلابها بدءًا الأسبوع القادم وقدم أحد معلمي المدرسة شرحًا النظام خلال مقطع فيديو نُشر حساب المدرسة اليوم مشيرًا أنه تركيب ثلاثة أجهزة بالمدرسة منعًا لازدحام الطلاب التوقيع وجود كاميرات مراقبة وكاميرات موجودة بالنظام لضبط عملية التسجيل والتوقيع وقال النظام تركيبه زاوية زوايا المدرسة يأتي الطالب الصباح ويقف أمام شاشة جهاز البصمة فيتم تسجيل حضور الطالب خلال بصمة الوجه وذلك قبل الساعة السابعة صباحًا أصبحت الساعة السابعة صباحًا ودقيقة واحدة ولم يحضر الطالب فيكون الطابور الصباحي بدأ وعندها تصل رسالة لولي أمر الطالب بشكل تلقائي الطابور بدأ وابنك موجود مضيفًا أصحبت الساعة السابعة والربع ولم يكن الطالب سجل حضوره الجهاز تصل رسالة أخرى لولي أمره بأن الطابور انتهى وابنك موجود بالمدرسة وأما جاءت الساعة الثامنة والطالب يسجل فتصل رسالة ثالثة لولي أمره بأن ابنك غائب المدرسة وفيما يتعلق بتسجيل خروج الطلاب قبل انتهاء الدوام يسجل الطالب بصمة خروج المدرسة

after  stem 
أعاد مجلس الشورى خلال جلسته العادية أعمال السنة الثالثة للدورة السابعة عقدها اليوم الثلاثاء برئاسة رئيس المجلس الشيخ الدكتور عبدالله محمد إبراهيم الشيخ تشكيل لجانه المتخصصة وتسمية رؤساء ونواب رؤساء اللجان لأعمال السنة الرابعة الدورة السابعة للمجلس تبدأ بتاريخ الثالث ربيع الأول لعام وقال مساعد رئيس مجلــس الشورى الدكتور يحيى عبدالله الصمعان المجلس استمع مستهل الجلسة تقرير الأمانة العامة بشأن تكوين لجان المجلس المتخصصة تلاه معالي أمين عام المجلس الأستاذ محمد داخل المطيري وأضاف الرغبة الأولى للأعضاء الانضمام للجان تحققت بنسبة تحققت الرغبة الثانية بنسبة والرغبة الثالثة للأعضاء تحققت بنسبة وصوت المجلس بالموافقة رؤساء اللجان ونوابهم استمر الدكتور علي الشهراني رئيساً للجنة الشؤون الإسلامية والقضائية بقي الدكتور سليمان الفيفي نائباً وترأس لجنة الشؤون الاجتماعية والأسرة والشباب الدكتور عبدالله البلوي واختير الأستاذ عبدالله الخالدي نائباً للرئيس وأصبح محمد العجلان رئيساً للجنة الإدارة والموارد البشرية وحل الدكتور محمد عباس نائباً لجنة الحج والإسكان والخدمات فقد ترأس اللجنة الدكتور أ

after  stem 
أُصيب شخصان الجنسية التشادية تعرُضهما مادة متفجرة بالقرب أحد الجوامع السلم بمحافظة جدة وبحسب معلومات سبق تلقت الجهات الأمنية بلاغًا تعرُض شخصَيْن لإصابات متفرقة بسبب انفجار مادة متفجرة عُثر عليها بجوار أحد المساجد نتج إصابة شخصَيْن الجنسية التشادية نقلهما طريق الهلال الأحمر لأحد المستشفيات القريبة لتلقي العلاج اللازم زالت شرطة محافظة جدة وشعبة الأسلحة والمتفجرات الموقع للتحقيق الحادثة والتأكد نوعية المادة المتفجرة
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
وصل الرئيس محمدو بخاري رئيس جمهورية نيجيريا الاتحادية والوفد المرافق الرياض أمس الاثنين زيارة للمملكة وحضور منتدى مبادرة مستقبل الاستثمار سيُقام الرياض خلال الفترة أكتوبر وكان استقبال الرئيس النيجيري بالصالة الملكية بمطار الملك خالد الدولي الأمير فيصل بندر عبدالعزيز أمير منطقة الرياض وأمين منطقة الرياض المهندس طارق عبدالعزيز الفارس ومدير شرطة منطقة الرياض اللواء فهد زيد المطيري وسفير خادم الحرمين الشريف

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
قال سلاح الجو الأمريكي الطائرة الفضائية السرية التابعة للبنتاجون إكس هبطت فلوريدا يوم الأحد بعدما سجلت أطول رحلة مدارية استمرت عامين لتُنهي بذلك أحدث بعثة اختبار لمجموعة التقنيات العسكرية وحسب وكالة رويترز قال سلاح الجو إكس صنعتها بوينج وهي بدون طيار وصلت مركز كنيدي الفضائي التابع لإدارة الطيران والفضاء ناسا الأمريكية الساعة بتوقيت شرق الولايات المتحدة بعدما قضت يومًا الدوران حول الأرض خامس مهمة لسلاح الجو ضمن برنامج مركبة الاختبار المدارية وأرسلت الطائرة الفضائية يبلغ حجمها حجم حافلة صغيرة وتتشارك الكثير الصفات التصميمية مكوك فضاء ناسا المدار متن الصاروخ فالكون التابع لشركة سبيس إكس لتبدأ مَهمة أدارها مكتب القدرات السريعة التابع لسلاح الجو الأمريكي يتخذ واشنطن مقرًا للقيام بتجارب تكنولوجية سرية مختلفة البيئة الفضائية لفترة طويلة وقالت بابرا باريت وزيرة سلاح الجو الجديدة بيان تُواصل إكس إظهار أهمية الطائرات الفضائية المعاد اس

after  stem 
نقلت شبكة فوكس نيوز الأحد مصدر عسكري رفيع تأكيده مقتل زعيم تنظيم داعش أبو بكر البغدادي تحديد هويته الوجه وذلك الغارة الأميركية نفذتها الولايات المتحدة محافظة إدلب بسوريا وفي تغريدة لمراسلة فوكس نيوز الخاصة بالأمن القومي قالت مصدرًا عسكريًا أميركيًا بارزًا أكد مقتل زعيم داعش أبو بكر البغدادي غارة أميركية إدلب وأضافت جينفير غريفين تأكيد هوية البغدادي ونقلت مصدر أميركي قوله كنا نشك فترة طويلة البغدادي مختبئًا إدلب وفي السياق قال مسؤول تركي البغدادي وصل مكان سوريا وقعت غارة أميركية قبل ساعة تنفيذها بينما أشار مصدر استخباري عراقي قيادات داعش حالة صدمة ونقلت وكالة رويترز مسؤول تركي كبير قوله البغدادي قتل الساعات الأولى صباح الأحد قبل حوالى ساعة العملية وفي الإطار قال مسؤول أميركي لشبكة تركيا تلعب دور مساعدة العملية تنسيق عدم الاشتباك الجيش التركي وأضاف وفق نقلته سكاي نيوز قوات سوريا الديمقراطية يشكل المقاتلون الأكراد عمودها الفقري زودت الجيش الأميركي ببعض المعلومات الاستخباراتية وفي نفس السياق قال مصدر استخباري عراقي رفيع قيادات داعش ومعاونيهم وأعضاء يعرف بمجلس شورى التنظيم الإر

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
قدم مجلس إدارة المؤسسة العامة للخطوط الجوية العربية السعودية التهنئة للمهندس صالح ناصر الجاسر لتعيينه وزيراً للنقل أصدر قراراً بتكليف عضو مجلس الإدارة المنتدب سامي علي سندي بمهام مدير عام المؤسسة وقدم المجلس شكره وتقديره لـالجاسر جهوده المخلصة خلال توليه منصب مدير عام المؤسسة وثمن المجلس الخطوات التطويرية شهدتها المؤسسة خلال فترة إدارته متمنياً التوفيق والسداد منصبه الجديد وقد أصدر المجلس برئاسة الدكتور غسان عبدالرحمن الشبل قراراً بتكليف عضو مجلس الإدارة المنتدب سامي علي سندي بمهام مدير عام المؤسسة ابتداءً اليوم الخميس آملاً التوفيق والسداد
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أقامت الجمعية الخيرية لمكافحة التدخين نقاء صباح أمس الأربعاء بمقرها الرئيسي دورةً تدريبيةً مهارات الإلقاء وكيفية التعامل معه بحضور عدد الإعلاميين مختلف الوسائل الإعلامية وبمشاركة سبق وت

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
طالبت هيئة حقوق الإنسان يطلع حالة تحرش بإبلاغ الجهات المختصة مشددة ضرورة التزام يطلع بحكم عمله معلومات حالة تحرش بالمحافظة سرية المعلومات وقالت حقوق الإنسان خلال الإنفوجرافيك حسابها الرسمي تويتر جريمة التحرش يحول تنازل المجني عدم تقديم شكوى الجهات المختصة نظاماً اتخاذ تراه محققاً للمصلحة العامة وفقاً لأحكام نظام الإجراءات الجزائية والأنظمة الأخرى الصلة وأضافت يجوز الإفصاح هوية المجني الحالات تستلزمها إجراءات الاستدلال التحقيق المحاكمة
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
نعت جامعة حائل طالباً توفي عصر اليوم الأربعاء الموافق أكتوبر أثناء لعبه إحدى مباريات فريق كرة القدم دوري كليات الجامعة المُقام ملاعب كرة القدم مجمع كليات الطلاب وتفصيلاً أوضحت الجامعة بيان أنه الساعة الخامسة عصر اليوم وفي ملاعب كرة الق

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
بخطوة واحدة توافر لأهالي الرياض الراغبين امتلاك وحدات سكنية قطعة أرض وذلك استجابة مالك مساحة تقدر مليون متر مربع لقرار رفع الرسوم قام بتطويرها يتيح الاستفادة ضمن خطوات الحكومة لزيادة تملك المواطنين المساكن وأحدث إعلان برنامج رسوم الأراضي البيضاء التابع لوزارة الإسكان الانتهاء تطوير أرض قبل مالكها خاضعة للرسوم بمساحة مليون متر مربع بالرياض صدى واسعاً المواطنين أشادوا بالخطوات الحكومية المضمار متوقعين تعود الخطوات بفوائد كبيرة المواطنين وسوق العقار بشكل عام وتأتي الخطوة إطار سعي البرنامج لإنهاء الممارسات الاحتكارية للأراضي والمساهمة إيجاد سوق عقاري متوازن وذلك سنوات الخلل الناتج تحول الأراضي سوق للمضاربات حاجة المواطنين المتزايدة للمساكن وثمن المواطن عبدالله شغرود جهود الحكومة الاتجاه وقال وزارة الإسكان بدأت وضع النقاط الحروف أجل إشكالية قلة الأراضي أدت ارتفاع الأسعار بشكل مبالغ وقتٍ سابق ونوه شغرود الإشكالية تسببت أيضاً عدم قد

after  token 
after  stem 
يسعى الجيش اللبناني فتح أكبر عدد الطرقات المغلقة أيام بسبب الاحتجاجات بدأت البلاد الخميس الماضي ونقلت سكاي نيوز عربية العاصمة اللبنانية بيروت مصدر قوله الإجراء الجيش اللبناني جاء أجل تسهيل عودة الحياة طبيعتها بـالحد الأدنى وتسببت الاحتجاجات بيروت ومدن أخرى لبنان إغلاق العديد الشوارع الرئيسية مختلف أنحاء البلاد مدار الأيام الخمسة الماضية وأدى إغلاق الطرق صعوبة وصول الناس أعمالهم تَسَبب إغلاق المحلات التجارية والبنوك والمدارس والجامعات والمؤسسات الحكومية أبوابها وقال القرار الجديد المتعلق بالطرق يقضي بمنع إغلاق طرق حيوية تعيق نقل المواد الأولية مثل المحروقات والقمح والمستلزمات الطبية وأكد الجيش اللبناني يصطدم المحتجين يعبرون غضبهم بطرق عدة لكنه شدد الجيش سيتصدى لأي محاولة تعدٍ الأملاك الخاصة وتدخل الاحتجاجات لبنان الثلاثاء يومها السادس التوالي وسط تمسك المتظاهرين برحيل الحكومة الحالية ورفضهم لحزمة الإصلاحات الطارئة أقرتها محاولة لاحتواء المظاهرات وأقرت الحكومة اللبنانية الاثنين حزمة طارئة الإصلاحات الاقتصادية استجابة للاحتجاجات المناهضة للحكومة أشاد رئيس الوزرا

after  stem 
استغل الصحفيون أصول تركية فعاليات أكبر معرض للكتاب العالم تشارك خلاله آلاف دار نشر دول بمدينة فرانكفورت الألمانية للمطالبة بالإفراج الكتاب والصحفيين الأتراك المعتقلين بسبب آرائهم وأقام الصحفيون يعيش أغلبهم ألمانيا بسبب التحقيقات القانونية القائمة ضدهم تركيا الفعالية لتسليط الضوء الصحفيين والكتاب المعتقلين انقلاب بسبب آرائهم المعارضة لنظام الرئيس رجب أردوغان ووفقاً لصحيفة زمان التركية أوضح الصحفيون بيانهم باللغتين الإنجليزية والألمانية أنهم ينسوا زملاءهم القابعين داخل السجون التركية وقالوا تركيا أصبحت دولة مفتعلة للحروب غياب الصحفيين المعبرين الشارع وآرائه وأشار الصحفيون وجود صحفياً وكاتباً بالسجون تركيا داعين مناصري حقوق الإنسان العالم التضامن المعتقلين تركيا وأضافوا بيانهم بلد أحرق مئات الآلاف الكتب نعايشه يشبه عهد هتلر أصبحت تركيا اليوم أسيرة لنظام أردوغان نظام أردوغان حظر مئات الآلاف الكتب ليلة واحدة فشرع الناس التخلص الكتب بمنازلهم سراً عثر بمنزله كتب محظورة خضع للمحاكمة بتهمة الإرهاب إشارة حظر آلاف المؤلفات الصادرة دور النشر القريبة حركة الخدمة المتهمة قبل أنقرة بتدبي

remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
استقبل مركز الملك عبدالعزيز الثقافي العالمي إثراء بالظهران مليون زائر داخل المملكة وخارجها وذلك ضمن البرامج والفعاليات والأنشطة والتجارب المحلية والإقليمية والعالمية ينظمها المركز خلال العام الجاري وأوضحت مديرة مركز الملك عبدالعزيز الثقافي العالمي إثراء المكلفة فاطمة الراشد رسالة المركز ترتكز إثراء الوطن وأجياله الحاضرة والمستقبلية ضمن ثلاثة محاور رئيسة تتمثل تنمية المعرفة الثقافية والعلمية وتحفيز الإبداع والتفكير الابتكاري وبناء جسور التواصل الحضاري الثقافات والشعوب وأشارت تصدر السعوديين نسبة الزوار بواقع بلغت نسبة الزوار السعوديين وقد تصدرت الفئة العمرية تقل سنة النسبة الأكبر مجمل الزوار بواقع لافتة النظر عدد المبادرات والبرامج والتجارب المحلية والإقليمية والدولية نظمها إثراء بلغت ألف ورشة تدريبية استفاد آلاف مشارك قدم مركز الملك عبدالعزيز الثقافي العالمي إثراء عرضًا مسرحيًا تنوعت عروض أوركسترا مارينسكي الروسية وأوركسترا فينا ولاسكالا الإيطالية جانب عرض سينمائي إضافة المعارض الدائم

remove unwanted charecters done
after  token 
after  stem 
تُستكمل اليوم الأحد مباريات الجولة السابعة مسابقة دوري كأس الأمير محمد سلمان السعودي للمحترفين بمباراتَين إحداهما الفيصلي والحزم والأخرى أبها والفيحاء أبها الفيحاء تقام المباراة تمام الساعة السادسة والنصف خمس دقائق وعنوانها الهروب المراكز المتأخرة يحتل أبها المركز الحادي عشر قبل بداية مباريات الجولة السابعة برصيد نقاط يحتل الفيحاء المركز الرابع عشر برصيد خمس نقاط الفيصلي الحزم تقام المباراة تمام الثامنة مباراة عنوانها الرغبة الصعود للقمة يحتل الفيصلي قبل بداية مباريات الجولة السابعة المركز الرابع برصيد نقطة يحتل الحزم المركز الخامس برصيد نقاط
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
رصد سبق الأسبوعي يعد حافلا بكثير التقارير والتغطيات الصحفية جميع المستويات السياسية والاقتصادية والمحلية وكان أبرزها القمة السعودية الروسية وزيارة الرئيس الروسي للسعودية تُوجت القمة السعودية الروسية الرياض بتوقيع ميثاق للتعاون با

remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
قامت رائدتا الفضاء ناسا كريستينا كوك وجيسيكا مير بأول مهمة سير نسائية الفضاء عملتا خارج محطة الفضاء الدولية لتبديل شاحن بطارية مكسور المثير الأمر مكاناً الأرض لفت انتباه إحداهما ارتفاع آلاف الأميال ووصفته بـمكان رائع اتضح وفق مقطع فيديو نشرته شبكة الإخبارية الأمريكية أنهما كانتا تقصدان موقعاً بُعد كيلومتر جنوب العاصمة السعودية الرياض وكانت صنعت رائدتا الفضاء الأمريكيتان كريستينا كوتش وجيسيكا مير التاريخ الجمعة عندما خرجتا محطة الفضاء الدولية أول سير الفضاء نسائي بالكامل علق الرئيس الأمريكي دونالد ترامب الحدث التاريخي وتحقق الحدث طال انتظاره لإدارة الطيران والفضاء الأمريكية ناسا خلال مهمة روتينية نسبياً لاستبدال بطاريات معطلة السطح الخارجي للمحطة وأعلنت ناسا مقطع مصور مباشر للعملية كوتش ومير خرجتا بالملابس البيضاء المحطة الواقعة ارتفاع كيلومترات فوق الأرض الفضاء الخارجي الساعة صباحاً بتوقيت شرق الولايات المتحدة بتوقيت غرينتش لاستبدال وحدة طاقة

remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أكد الكاتب السعودي صحيفة الأنباء الكويتية منصور الضبعان الواجب كبير المنظمات والفرق التطوعية والقطاع الخاص والحكومة يتعلق بإحصاء المتسولين والذهاب وتوفير فرص عمل ووظائف عادية انتظار لأي مبادرة منهم وقال الضبعان الخطأ انتظار المشرد المتسول المعدم ينهض ويبحث عمل كان يملك أدوات الحياة عاش هامشها وحذر الضبعان خطر المتسولين مبديًا استغرابه الجميع يراهم الجهات المعنية وأضاف مقاله السبعيني الروسي فيشسلاف راسنر وبعد سنوات العيش مشردًا منزل تحول لأحد أشهر المرشدين السياحيين لمعالم ثاني أكبر مدينة روسيا سان بطرسبورغ وأردف القصة الملهمة تجوب العالمالمتبقي فقط استنباط الفوائد واستخراج العوائد واستلهام العبر وتابع مدينة مدن العالم تجد المسحوقين يدفقون ماء الوجه غالبيتهم خطر يحتمل وفي الخليج باب أولى والغريب الجميع يراهم الجهات المعنية وقال الضبعان راسنر يقول للعالم الحل موجود ولكنه نقص القادرين التمام تنتظر المشرد المتسول المعدم ينهض ويبح

remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
اجتمع أفضل الطهاة العرب أرض مركز الملك عبدالعزيز الثقافي العالمي إثراء ضمن أجواء موسم تنوين للإبداع نسخته الثانية تستمر فعالياته مدى يوماً سيقدم الطهاة مزيدًا العروض أكتوبر الجاري جانبها أوضحت الشيف السعودي صالح خلال تقديمها فعالية الـتوب شيف إثراء كأحد فعاليات وأنشطة موسم تنوين الثاني الأفكار لتطوير الأكلات الشعبية السعودية قائمة كونها جزءًا أصيلًا الثقافة السائدة ولاسيما قرب انطلاق أكاديميات حكومية ومعاهد لفن الطهي السعودي والإتيكيت وأضافت صالح أنه الاتفاق مؤخرًا هيئات حكومية لإنشاء معاهد لفن الطهي والإتيكيت تخص المطبخ السعودي خلال العام المقبل وذلك تقديم رؤية ومقترحات بهذا الصدد التجربة التلفزيونية خاضتها مشددة أهمية تدريس أصول المطبخ السعودي يكتنزه نكهات مميزة معمول الدول الأخرى وقالت سأقدم الكبسة بالطريقة الصينية وسيتناول زوار إثراء الكبسة بالأعواد قدمتها أخيرًا السفارة السعودية بالصين أنها قدمت مؤتمر بجنوب أفريقيا طبق السليق السعودي بطريقة غريبة استهوت جميع 

remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
قادت الدكتورة إكرام بليلو أستاذ علم النبات جامعة الملك عبدالله للعلوم والتقنية فريقًا بحثيًا لجمع عينات أشجار النخيل القديمة مزرعة الضابطة التاريخية بجوار مسجد قباء المدينة المنورة وفي التفاصيل قالت الدكتورة إكرام يوجد العالم نوع أشجار النخيل نوع فقط المملكة مضيفة لأن هدفنا الأساس تحسين إنتاج وجودة تمور النخيل المملكة فقد قررنا التركيز تمور عجوة المدينة نظرًا لقيمتها الاجتماعية والدينية البلاد جاء تزامنًا يوم الأغذية العالمي بدأ فريق علماء النبات جامعة الملك عبدالله للعلوم والتقنية كاوست مشروعًا بحثيًا كبيرًا وواعدًا يهدف لتحسين إنتاج التمور وحماية أشجار النخيل العالم يعد المشروع الأول نوعه يتم دراسة جينوم نخيل التمر بشكل شامل وسبق نُشر للدكتورة إكرام بليلو دراسة متميزة العام بالمجلة العلمية تشرح تتمكن النباتات الصحراوية النمو والازدهار الظروف البيئية القاسية والصعبة كالجفاف والحرارة وفي سياق الدراسة نفسها تطور فرق البحث التابعة لمركز الزراعة الصحراوية كاوست أدوات وتقنيات لتحسين زراع

remove # done
remove unwanted charecters done
after  token 
after  stem 
انتقد رئيس الاستخبارات السابق الأمير تركي الفيصل الرئيس الأمريكي دونالد ترامب بسبب قرار الانسحاب سوريا مؤكداً أنه قرار حكيم وقال الفيصل لقاء بالعربية الرئيس الأمريكي ترامب غرابة تعبيره الأشياء وفيما يتعلق بانتشار قوات أمريكية السعودية قال كان الإيرانيون يريدون إحداث اضطرابات فالمملكة وحلفاؤها استعداد لذلك كانوا يريدون يتعاونوا وأن يكونوا شركاء بناء تحقيق السلام والأمن فقط الخليج المنطقة كلها حولنا فهناك مجالٌ للمناقشة وبحسب سبوتنيك عربي بدأت الولايات المتحدة يوم الإثنين الماضي سحب قواتها منطقة شمال شرق سوريا قرب الحدود تركيا قيام الأخيرة بعملية عسكرية لتطهير الأراضي وحدات حماية الشعب الكردية تنشط ضمن تحالف قوات سوريا الديمقراطية المدعوم أمريكياً الحرب داعش وتعدها أنقرة تنظيماً إرهابياً وذراعاً حزب العمال الكردستاني
remove URLs done
remove usernames done
remove numbers done
remove special characters done
remove # done
remove unwanted charecters done
after  token 
after  stem 
أثارت تصريحات النائب اللبناني ماريو عون

In [71]:
data.head()

Unnamed: 0,news_text,processed
0,حذّرت الهيئة العامة للغذاء والدواء من منتج عسل...,"[حذر, هيئ, عمة, غذء, دوء, نتج, عسل, علم, جرة, ..."
1,أقامت حكومة مدينة يوكوهاما، والمعهد الوطني للد...,"[قمت, حكم, دين, وكو, عهد, وطن, درس, سان, جمع, ..."
2,أظهر مقطع فيديو متداول آخر للفتاة المقيمة، وهي...,"[ظهر, قطع, يدو, داول, اخر, لفت, قيم, وهي, حدث,..."
3,أنقذت شجاعة مواطن اليوم فريقًا لشركة متعاقدة م...,"[قذت, شجع, وطن, اليوم, فرق, لشر, عاقد, حدى, اد..."
4,استقبل مدير الدفاع المدني بمنطقة الرياض، اللوا...,"[قبل, دير, دفع, دني, نطق, ريض, واء, خلد, حرق, ..."


### Remove null values 

In [72]:
data = data.dropna(axis=0, subset=['processed'])

data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4126 entries, 0 to 4127
Data columns (total 2 columns):
news_text    4126 non-null object
processed    4126 non-null object
dtypes: object(2)
memory usage: 96.7+ KB


### Extract all words appeared in all documents

In [73]:
total_terms = []
for p in data['processed']:
    #print (p)
    total_terms = total_terms + p

total_terms = list(set(total_terms))
print ("len " , len (total_terms))
TF_table = pd.DataFrame()
#TF_table['doc'] = data['processed']


len  13529


In [74]:
total_terms

['وجث',
 'فتأ',
 'نوح',
 'بصص',
 'لاستهدفت',
 '٥١٤',
 'كضبط',
 'كأيقو',
 'رنج',
 'شطب',
 'ذئب',
 'قبة',
 'واستكمال',
 'حجو',
 'رنبرغ',
 'ترض',
 'روبرتو',
 'بتصريحاته',
 'وخم',
 'متف',
 'سهد',
 'عون',
 'أخمد',
 'زدك',
 'بشا',
 'ميكانيكا',
 'رأت',
 'يجب',
 'فهي',
 'ظرف',
 'جهض',
 'ومعاقبته',
 'مضي',
 'لعي',
 'فيل',
 'حيط',
 'مالامبو',
 'فصل',
 'اجب',
 'يذؤ',
 'صفه',
 'صيدلانية',
 'ائه',
 'موه',
 'حيض',
 'زرع',
 'جبي',
 'وغم',
 'بحو',
 'مغناطيسي',
 'لفك',
 'اعق',
 'هايلوكس',
 'ويم',
 'بودوسيروس',
 'مترولوجي',
 'باراغواي',
 'صح',
 'ومقتنياته',
 'ؤده',
 'وإسبانية',
 'كورتيس',
 'طنةعم',
 'جده',
 'بنب',
 'يكي',
 'فنـ',
 'أعرب',
 'لرش',
 'ولمستشفى',
 'كأحد',
 'مالديف',
 'أسج',
 'غلى',
 'تبغ',
 'تسغ',
 'جحم',
 'موزمبيق',
 'سيخ',
 'واستبعاد',
 'اوعقائدية',
 'حاسيس',
 'أكراد',
 'لذي',
 'نبع',
 'بيت',
 'كربط',
 'اقف',
 'استغرابه',
 'فعت',
 'كند',
 'أخرج',
 'إنجاح',
 'نافيجيتور',
 'بطي',
 'شمي',
 'صرخ',
 'كأنماط',
 'أجيال',
 'بذل',
 'انطلاقته',
 'لمساعدته',
 'مشـاريع',
 'قرش',
 'اسماعيلي',
 'حلی',


### Calculate term frequency TF for all words for each document

In [75]:
TF_table['doc'] = data['processed']
for t in total_terms:
    tff = []
    for d in TF_table['doc']:
        ff = str(d).count(t)
        #tf(t,str(d))
        tff.append(ff)
    TF_table[t]=tff

In [76]:
export_csv = TF_table.to_csv (r'TF_table.csv', index = None, header=True) 

In [78]:
TF_table = pd.read_csv('TF_table.csv')

In [79]:
TF_table.shape

(4126, 13530)

### Clean the new data by removing any term that doesnt appear in any of the documents

In [80]:
TF_table = TF_table.loc[:, (TF_table != 0).any(axis=0)]

In [81]:
TF_table.shape

(4126, 13527)

### Add the text to the new data frame

In [82]:
TF_table['doc'] = data['processed']
TF_table.columns

Index(['doc', 'وجث', 'فتأ', 'نوح', 'بصص', 'لاستهدفت', '٥١٤', 'كضبط', 'كأيقو',
       'رنج',
       ...
       'ريسنج', 'نحق', 'طلو', 'رولاند', 'وتناولته', 'ميزونياكي', 'نبض', 'دنس',
       'سذج', 'غيت'],
      dtype='object', length=13527)

### Calculate the document frequency DF for each term

In [83]:
df = {'doc':'df'}
for t in TF_table.columns[1:]:
    df[t] = TF_table[t].astype(bool).sum(axis=0)

In [84]:
len(df)

13527

In [85]:
uniqueValues = set(df.values())
fz = {value:key for key, value in df.items()}


### Calculate TF-IDF for each term for each document

In [86]:
numDocumentsWithThisTerm = TF_table.loc[TF_table['doc'] == 'df']

idf = {}
count = 1
for t in TF_table.columns[1:]:
    n = TF_table.shape [0]  
    d = float(TF_table.astype(bool).sum(axis=0)[count])
    cc = n/d
    print ("d" , d)
    idf[t] = round(log(float(cc),2),3)
    count = count +1


d 2.0
d 4.0
d 17.0
d 3.0
d 1.0
d 2.0
d 1.0
d 1.0
d 5.0
d 8.0
d 4.0
d 7.0
d 31.0
d 5.0
d 1.0
d 4.0
d 2.0
d 1.0
d 8.0
d 5.0
d 2.0
d 78.0
d 2.0
d 1.0
d 6.0
d 4.0
d 19.0
d 367.0
d 57.0
d 124.0
d 2.0
d 2.0
d 33.0
d 7.0
d 62.0
d 229.0
d 1.0
d 770.0
d 28.0
d 1.0
d 6.0
d 6.0
d 14.0
d 5.0
d 3.0
d 184.0
d 4.0
d 1.0
d 1.0
d 10.0
d 3.0
d 4.0
d 3.0
d 91.0
d 1.0
d 1.0
d 2.0
d 1545.0
d 2.0
d 2.0
d 1.0
d 1.0
d 3.0
d 5.0
d 10.0
d 43.0
d 1.0
d 120.0
d 3.0
d 1.0
d 18.0
d 3.0
d 3.0
d 10.0
d 11.0
d 1.0
d 2.0
d 1.0
d 1.0
d 1.0
d 1.0
d 3.0
d 2.0
d 48.0
d 95.0
d 118.0
d 1.0
d 2.0
d 2.0
d 1.0
d 41.0
d 4.0
d 24.0
d 1.0
d 1.0
d 4.0
d 62.0
d 1.0
d 13.0
d 317.0
d 11.0
d 5.0
d 2.0
d 21.0
d 2.0
d 2.0
d 11.0
d 3.0
d 15.0
d 50.0
d 94.0
d 16.0
d 4.0
d 5.0
d 1.0
d 53.0
d 6.0
d 1.0
d 4.0
d 1.0
d 43.0
d 12.0
d 329.0
d 40.0
d 1.0
d 8.0
d 1.0
d 78.0
d 23.0
d 8.0
d 1.0
d 792.0
d 2.0
d 6.0
d 1.0
d 1.0
d 25.0
d 4.0
d 15.0
d 8.0
d 1.0
d 4.0
d 41.0
d 28.0
d 11.0
d 2.0
d 1.0
d 24.0
d 1.0
d 6.0
d 2.0
d 1.0
d 1.0
d 51.0
d 8.0
d 393

d 1.0
d 393.0
d 13.0
d 60.0
d 1.0
d 29.0
d 2.0
d 1.0
d 5.0
d 7.0
d 9.0
d 1004.0
d 2.0
d 3.0
d 848.0
d 1.0
d 135.0
d 2.0
d 3.0
d 2.0
d 1.0
d 8.0
d 10.0
d 56.0
d 5.0
d 19.0
d 5.0
d 6.0
d 1.0
d 1.0
d 3.0
d 2.0
d 17.0
d 1.0
d 204.0
d 1.0
d 180.0
d 25.0
d 2.0
d 23.0
d 49.0
d 4.0
d 9.0
d 419.0
d 1.0
d 2.0
d 1.0
d 1.0
d 10.0
d 7.0
d 10.0
d 2.0
d 7.0
d 10.0
d 421.0
d 2.0
d 13.0
d 1.0
d 1.0
d 8.0
d 109.0
d 21.0
d 86.0
d 4.0
d 1.0
d 10.0
d 24.0
d 22.0
d 1.0
d 11.0
d 1.0
d 30.0
d 1.0
d 8.0
d 1.0
d 1.0
d 3.0
d 10.0
d 46.0
d 27.0
d 1.0
d 2.0
d 1.0
d 2.0
d 3.0
d 31.0
d 10.0
d 2.0
d 1.0
d 15.0
d 1.0
d 1.0
d 1.0
d 1.0
d 2.0
d 1.0
d 53.0
d 2.0
d 673.0
d 1.0
d 69.0
d 7.0
d 1.0
d 1.0
d 4.0
d 47.0
d 3.0
d 42.0
d 17.0
d 11.0
d 2.0
d 1.0
d 2.0
d 13.0
d 55.0
d 3.0
d 2.0
d 33.0
d 1.0
d 1.0
d 71.0
d 1.0
d 1.0
d 6.0
d 8.0
d 88.0
d 4.0
d 1.0
d 1.0
d 1638.0
d 39.0
d 3.0
d 1.0
d 92.0
d 15.0
d 1.0
d 5.0
d 136.0
d 22.0
d 1.0
d 1.0
d 35.0
d 10.0
d 2046.0
d 1.0
d 1.0
d 62.0
d 16.0
d 15.0
d 3.0
d 862.0
d 260.0
d 19.0
d

d 1.0
d 1.0
d 6.0
d 66.0
d 2.0
d 1.0
d 72.0
d 5.0
d 8.0
d 12.0
d 5.0
d 5.0
d 2.0
d 2.0
d 1.0
d 4.0
d 15.0
d 3.0
d 1.0
d 1.0
d 1.0
d 54.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 24.0
d 2.0
d 53.0
d 1.0
d 1.0
d 1.0
d 318.0
d 406.0
d 48.0
d 5.0
d 9.0
d 1.0
d 1.0
d 1.0
d 2.0
d 8.0
d 1.0
d 11.0
d 63.0
d 2.0
d 1.0
d 62.0
d 5.0
d 1.0
d 2.0
d 2.0
d 25.0
d 3.0
d 20.0
d 1.0
d 3.0
d 1.0
d 2.0
d 5.0
d 5.0
d 2.0
d 9.0
d 1.0
d 1.0
d 23.0
d 1.0
d 60.0
d 188.0
d 15.0
d 2.0
d 1.0
d 63.0
d 3.0
d 1.0
d 16.0
d 2.0
d 32.0
d 2.0
d 2.0
d 1.0
d 20.0
d 1.0
d 1.0
d 3.0
d 7.0
d 1.0
d 52.0
d 2.0
d 2.0
d 1.0
d 4.0
d 4.0
d 7.0
d 28.0
d 1.0
d 2.0
d 243.0
d 4.0
d 1.0
d 1.0
d 2.0
d 3.0
d 2.0
d 1.0
d 2.0
d 1.0
d 1.0
d 2.0
d 5.0
d 5.0
d 1.0
d 1.0
d 13.0
d 11.0
d 260.0
d 1.0
d 671.0
d 226.0
d 54.0
d 1.0
d 1.0
d 53.0
d 6.0
d 3.0
d 1062.0
d 17.0
d 1.0
d 1.0
d 35.0
d 4.0
d 5.0
d 83.0
d 67.0
d 1.0
d 15.0
d 8.0
d 353.0
d 4.0
d 1.0
d 1.0
d 2944.0
d 4.0
d 2.0
d 1.0
d 1.0
d 168.0
d 1.0
d 1.0
d 1.0
d 76.0
d 1.0
d 18.0
d 1.0
d

d 18.0
d 3.0
d 27.0
d 1053.0
d 11.0
d 25.0
d 7.0
d 60.0
d 1.0
d 40.0
d 9.0
d 30.0
d 22.0
d 1.0
d 24.0
d 4.0
d 24.0
d 14.0
d 2.0
d 1.0
d 1.0
d 78.0
d 1.0
d 17.0
d 1.0
d 19.0
d 1.0
d 35.0
d 1.0
d 121.0
d 1.0
d 1.0
d 545.0
d 1.0
d 13.0
d 10.0
d 21.0
d 33.0
d 29.0
d 10.0
d 22.0
d 1.0
d 1.0
d 1.0
d 19.0
d 2.0
d 2.0
d 2.0
d 481.0
d 5.0
d 6.0
d 3.0
d 29.0
d 14.0
d 31.0
d 65.0
d 29.0
d 3.0
d 2.0
d 1.0
d 13.0
d 11.0
d 1.0
d 90.0
d 1.0
d 2.0
d 1.0
d 1.0
d 1.0
d 11.0
d 8.0
d 1.0
d 1.0
d 2.0
d 7.0
d 19.0
d 2.0
d 1.0
d 15.0
d 1.0
d 2.0
d 25.0
d 17.0
d 1.0
d 3.0
d 3.0
d 5.0
d 2.0
d 1.0
d 1.0
d 1.0
d 61.0
d 6.0
d 219.0
d 37.0
d 5.0
d 2.0
d 2.0
d 39.0
d 1.0
d 1.0
d 1.0
d 15.0
d 21.0
d 246.0
d 35.0
d 1.0
d 1.0
d 4.0
d 1.0
d 2.0
d 2.0
d 1.0
d 1.0
d 1.0
d 1.0
d 3.0
d 21.0
d 1.0
d 6.0
d 6.0
d 3.0
d 1.0
d 1.0
d 2.0
d 5.0
d 4.0
d 1.0
d 4.0
d 7.0
d 13.0
d 21.0
d 3.0
d 1.0
d 44.0
d 1.0
d 3.0
d 1.0
d 8.0
d 3.0
d 1.0
d 1.0
d 24.0
d 6.0
d 7.0
d 3.0
d 24.0
d 1.0
d 3.0
d 9.0
d 52.0
d 1.0
d 310.0
d 1.0
d 1.0
d 1.0


d 11.0
d 2.0
d 1.0
d 23.0
d 3.0
d 22.0
d 14.0
d 1.0
d 1.0
d 9.0
d 2.0
d 15.0
d 298.0
d 1.0
d 1.0
d 16.0
d 6.0
d 215.0
d 5.0
d 6.0
d 7.0
d 110.0
d 1.0
d 2.0
d 150.0
d 67.0
d 40.0
d 10.0
d 14.0
d 3.0
d 5.0
d 1.0
d 22.0
d 3.0
d 1.0
d 2.0
d 54.0
d 4.0
d 25.0
d 14.0
d 1.0
d 1.0
d 54.0
d 1.0
d 1.0
d 1.0
d 2.0
d 9.0
d 2.0
d 1.0
d 65.0
d 1677.0
d 6.0
d 1.0
d 12.0
d 1.0
d 3.0
d 1.0
d 1.0
d 4.0
d 17.0
d 4.0
d 84.0
d 22.0
d 6.0
d 1.0
d 36.0
d 40.0
d 1.0
d 138.0
d 1.0
d 268.0
d 10.0
d 1.0
d 1.0
d 2.0
d 48.0
d 1.0
d 4.0
d 1.0
d 2.0
d 37.0
d 1.0
d 1.0
d 20.0
d 31.0
d 5.0
d 216.0
d 101.0
d 1.0
d 1.0
d 888.0
d 170.0
d 252.0
d 4.0
d 2.0
d 1.0
d 7.0
d 3.0
d 2.0
d 4.0
d 8.0
d 1.0
d 24.0
d 11.0
d 193.0
d 17.0
d 28.0
d 121.0
d 57.0
d 1.0
d 7.0
d 1.0
d 1.0
d 3.0
d 1.0
d 8.0
d 12.0
d 20.0
d 70.0
d 10.0
d 40.0
d 14.0
d 5.0
d 4.0
d 1.0
d 1.0
d 12.0
d 2.0
d 1.0
d 1.0
d 6.0
d 1144.0
d 1.0
d 2.0
d 3.0
d 57.0
d 17.0
d 1.0
d 43.0
d 1.0
d 1.0
d 1.0
d 6.0
d 5.0
d 1.0
d 2.0
d 1.0
d 1.0
d 69.0
d 20.0
d 37.0
d 1.0
d 1.0

d 2.0
d 1.0
d 14.0
d 6.0
d 365.0
d 4.0
d 44.0
d 104.0
d 9.0
d 2.0
d 1.0
d 1.0
d 1.0
d 7.0
d 152.0
d 15.0
d 40.0
d 1.0
d 17.0
d 6.0
d 6.0
d 1.0
d 1.0
d 1.0
d 3.0
d 1.0
d 2.0
d 3.0
d 3.0
d 22.0
d 1.0
d 109.0
d 1.0
d 3.0
d 9.0
d 8.0
d 21.0
d 11.0
d 1.0
d 1.0
d 9.0
d 1.0
d 1.0
d 3.0
d 1.0
d 7.0
d 31.0
d 10.0
d 2.0
d 39.0
d 1.0
d 1.0
d 2.0
d 1.0
d 2.0
d 33.0
d 58.0
d 17.0
d 1.0
d 1.0
d 4.0
d 11.0
d 3.0
d 38.0
d 187.0
d 8.0
d 8.0
d 1.0
d 2.0
d 93.0
d 21.0
d 1.0
d 17.0
d 4.0
d 1.0
d 1.0
d 2.0
d 1.0
d 79.0
d 1.0
d 2.0
d 7.0
d 1.0
d 1.0
d 402.0
d 23.0
d 183.0
d 29.0
d 2810.0
d 2.0
d 1.0
d 3.0
d 1.0
d 5.0
d 25.0
d 127.0
d 1.0
d 1.0
d 10.0
d 35.0
d 1.0
d 1.0
d 4.0
d 1.0
d 2.0
d 5.0
d 33.0
d 1.0
d 4.0
d 1.0
d 1.0
d 2.0
d 21.0
d 10.0
d 21.0
d 15.0
d 4.0
d 3.0
d 2.0
d 1.0
d 1.0
d 29.0
d 65.0
d 1.0
d 32.0
d 36.0
d 1.0
d 26.0
d 1.0
d 363.0
d 70.0
d 1.0
d 9.0
d 1.0
d 1.0
d 1499.0
d 2.0
d 6.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 4.0
d 281.0
d 1.0
d 1.0
d 2.0
d 1.0
d 1.0
d 1.0
d 212.0
d 14.0
d 5.0
d 19.

d 4.0
d 10.0
d 3.0
d 1.0
d 9.0
d 186.0
d 2.0
d 1.0
d 1.0
d 3.0
d 710.0
d 3.0
d 2.0
d 1.0
d 2.0
d 15.0
d 1.0
d 17.0
d 5.0
d 8.0
d 93.0
d 1.0
d 4.0
d 1.0
d 1.0
d 54.0
d 16.0
d 8.0
d 1.0
d 23.0
d 2.0
d 1.0
d 4.0
d 3.0
d 1.0
d 27.0
d 2.0
d 12.0
d 2.0
d 3.0
d 3.0
d 1.0
d 6.0
d 1.0
d 53.0
d 1.0
d 28.0
d 38.0
d 1.0
d 130.0
d 2.0
d 2.0
d 1.0
d 1.0
d 72.0
d 480.0
d 1.0
d 1.0
d 1.0
d 4.0
d 1.0
d 1.0
d 2.0
d 1.0
d 1.0
d 1.0
d 1.0
d 3.0
d 3.0
d 1.0
d 1.0
d 15.0
d 10.0
d 4.0
d 1.0
d 131.0
d 1.0
d 3.0
d 11.0
d 1.0
d 1.0
d 20.0
d 2.0
d 23.0
d 3.0
d 3.0
d 12.0
d 78.0
d 1.0
d 19.0
d 967.0
d 1.0
d 9.0
d 1.0
d 1.0
d 277.0
d 4.0
d 1.0
d 1.0
d 1.0
d 7.0
d 31.0
d 22.0
d 484.0
d 9.0
d 16.0
d 1.0
d 10.0
d 183.0
d 4.0
d 1.0
d 1.0
d 103.0
d 11.0
d 10.0
d 1.0
d 1.0
d 48.0
d 1.0
d 26.0
d 5.0
d 100.0
d 6.0
d 3.0
d 30.0
d 10.0
d 1.0
d 1.0
d 2.0
d 21.0
d 6.0
d 3.0
d 12.0
d 1.0
d 1.0
d 344.0
d 284.0
d 2.0
d 3.0
d 1.0
d 2.0
d 1051.0
d 198.0
d 72.0
d 4.0
d 1.0
d 454.0
d 2.0
d 1.0
d 58.0
d 4.0
d 432.0
d 132.0
d 10.0
d 1

d 11.0
d 3.0
d 102.0
d 2.0
d 3.0
d 8.0
d 20.0
d 4.0
d 15.0
d 1.0
d 1.0
d 6.0
d 1.0
d 8.0
d 681.0
d 321.0
d 418.0
d 1.0
d 1.0
d 6.0
d 6.0
d 15.0
d 1.0
d 4.0
d 21.0
d 1.0
d 2.0
d 6.0
d 4.0
d 28.0
d 50.0
d 118.0
d 2.0
d 1.0
d 1.0
d 65.0
d 2.0
d 17.0
d 2.0
d 7.0
d 2.0
d 2.0
d 7.0
d 3.0
d 1.0
d 4.0
d 56.0
d 4.0
d 1.0
d 147.0
d 4.0
d 1.0
d 15.0
d 2.0
d 1.0
d 455.0
d 8.0
d 16.0
d 90.0
d 1.0
d 11.0
d 1.0
d 37.0
d 21.0
d 49.0
d 4.0
d 2.0
d 2.0
d 4.0
d 2.0
d 1.0
d 1.0
d 92.0
d 1.0
d 4.0
d 107.0
d 72.0
d 1.0
d 2.0
d 1.0
d 11.0
d 5.0
d 2.0
d 1.0
d 32.0
d 1.0
d 1.0
d 29.0
d 4.0
d 1.0
d 2.0
d 2.0
d 1.0
d 62.0
d 1333.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 6.0
d 7.0
d 54.0
d 1.0
d 3.0
d 31.0
d 1.0
d 1.0
d 75.0
d 1.0
d 48.0
d 1.0
d 1.0
d 334.0
d 1.0
d 3.0
d 5.0
d 1.0
d 1.0
d 3.0
d 1.0
d 15.0
d 11.0
d 1.0
d 2.0
d 1.0
d 1.0
d 41.0
d 1.0
d 1.0
d 15.0
d 5.0
d 4.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 350.0
d 1.0
d 6.0
d 1.0
d 3.0
d 27.0
d 13.0
d 59.0
d 4.0
d 1.0
d 4.0
d 2.0
d 8.0
d 1.0
d 24.0
d 2.0
d 82.0
d 149

d 3.0
d 1.0
d 127.0
d 2.0
d 177.0
d 1.0
d 997.0
d 8.0
d 1.0
d 10.0
d 1.0
d 1.0
d 6.0
d 2.0
d 1.0
d 4.0
d 1.0
d 38.0
d 1.0
d 50.0
d 7.0
d 315.0
d 2.0
d 3.0
d 1.0
d 1.0
d 2.0
d 4.0
d 1.0
d 33.0
d 25.0
d 12.0
d 1.0
d 3.0
d 1.0
d 1.0
d 12.0
d 31.0
d 2.0
d 1.0
d 26.0
d 1.0
d 2.0
d 5.0
d 4.0
d 1.0
d 1.0
d 1.0
d 1.0
d 2.0
d 24.0
d 90.0
d 2.0
d 1.0
d 44.0
d 108.0
d 20.0
d 2.0
d 7.0
d 1.0
d 203.0
d 67.0
d 60.0
d 1.0
d 112.0
d 6.0
d 8.0
d 1.0
d 1.0
d 54.0
d 2.0
d 6.0
d 3.0
d 36.0
d 1.0
d 958.0
d 31.0
d 1.0
d 1.0
d 15.0
d 646.0
d 40.0
d 1.0
d 2.0
d 69.0
d 26.0
d 1.0
d 1.0
d 1.0
d 1.0
d 188.0
d 32.0
d 1.0
d 4.0
d 1.0
d 1.0
d 1.0
d 11.0
d 8.0
d 1.0
d 9.0
d 1.0
d 1.0
d 1.0
d 135.0
d 5.0
d 26.0
d 1.0
d 1.0
d 1.0
d 1.0
d 2.0
d 2.0
d 1.0
d 1.0
d 13.0
d 7.0
d 79.0
d 1.0
d 2.0
d 1.0
d 1.0
d 9.0
d 18.0
d 3.0
d 2.0
d 4.0
d 1.0
d 1.0
d 36.0
d 520.0
d 1.0
d 1.0
d 40.0
d 4.0
d 1.0
d 32.0
d 30.0
d 10.0
d 3.0
d 1.0
d 56.0
d 48.0
d 4.0
d 2.0
d 25.0
d 1.0
d 6.0
d 149.0
d 1.0
d 9.0
d 27.0
d 6.0
d 1.0
d 1.0
d 1.0
d

d 1.0
d 1.0
d 1.0
d 1.0
d 6.0
d 3.0
d 35.0
d 144.0
d 46.0
d 10.0
d 139.0
d 1.0
d 3.0
d 1.0
d 1.0
d 1.0
d 1.0
d 13.0
d 2.0
d 1557.0
d 22.0
d 25.0
d 1.0
d 18.0
d 2.0
d 7.0
d 11.0
d 13.0
d 9.0
d 1.0
d 11.0
d 2.0
d 1.0
d 25.0
d 25.0
d 88.0
d 7.0
d 21.0
d 7.0
d 87.0
d 1.0
d 39.0
d 1.0
d 39.0
d 19.0
d 31.0
d 21.0
d 30.0
d 134.0
d 391.0
d 51.0
d 1.0
d 1.0
d 1.0
d 1.0
d 1.0
d 20.0
d 1.0
d 3.0
d 9.0
d 4.0
d 5.0
d 57.0
d 2.0
d 20.0
d 234.0
d 10.0
d 24.0
d 1.0
d 1.0
d 3.0
d 2.0
d 1.0
d 1.0
d 8.0
d 4.0
d 3.0
d 1.0
d 1.0
d 10.0
d 1.0
d 1.0
d 11.0
d 9.0
d 1.0
d 128.0
d 1.0
d 3.0
d 14.0
d 3.0
d 9.0
d 1.0
d 2.0
d 1.0
d 2.0
d 19.0
d 1.0
d 15.0
d 2.0
d 3.0
d 61.0
d 35.0
d 5.0
d 1.0
d 1575.0
d 1.0
d 1.0
d 4.0
d 1.0
d 17.0
d 82.0
d 1.0
d 456.0
d 1.0
d 19.0
d 5.0
d 1.0
d 996.0
d 71.0
d 2.0
d 1.0
d 594.0
d 14.0
d 1.0
d 3.0
d 29.0
d 3.0
d 2.0
d 1.0
d 2.0
d 1.0
d 27.0
d 2.0
d 1.0
d 1.0
d 89.0
d 25.0
d 117.0
d 4.0
d 1.0
d 13.0
d 71.0
d 18.0
d 1.0
d 4.0
d 6.0
d 3.0
d 1.0
d 2.0
d 1.0
d 100.0
d 58.0
d 17.0
d 3.0


d 9.0
d 196.0
d 1.0
d 2.0
d 8.0
d 882.0
d 3.0
d 1.0
d 2.0
d 191.0
d 23.0
d 2.0
d 18.0
d 1.0
d 2.0
d 150.0
d 3.0
d 4.0
d 1.0
d 9.0
d 8.0
d 1.0
d 3.0
d 2.0
d 65.0
d 7.0
d 1.0
d 1.0
d 751.0
d 7.0
d 1.0
d 32.0
d 1.0
d 8.0
d 2.0
d 4.0
d 1.0
d 21.0
d 7.0
d 1.0
d 3.0
d 1.0
d 1.0
d 2.0
d 2.0
d 107.0
d 141.0
d 5.0
d 2.0
d 12.0
d 1.0
d 43.0
d 13.0
d 7.0
d 1.0
d 2.0
d 7.0
d 1.0
d 241.0
d 2.0
d 1.0
d 16.0
d 5.0
d 3.0
d 22.0
d 2.0
d 4.0
d 45.0
d 1.0
d 49.0
d 30.0
d 5.0
d 3.0
d 1.0
d 1.0
d 93.0
d 4.0
d 234.0
d 7.0
d 33.0
d 4.0
d 6.0
d 1.0
d 1.0
d 1.0
d 430.0
d 1.0
d 7.0
d 43.0
d 193.0
d 3.0
d 97.0
d 1.0
d 1.0
d 1.0
d 1.0
d 18.0
d 1.0
d 1.0
d 3.0
d 157.0
d 1.0
d 1.0
d 1.0
d 12.0
d 9.0
d 243.0
d 33.0
d 1.0
d 5.0
d 1.0
d 1.0
d 1.0
d 7.0
d 2.0
d 9.0
d 16.0
d 1.0
d 2.0
d 6.0
d 1.0
d 1.0
d 1.0
d 1.0
d 9.0
d 13.0
d 630.0
d 25.0
d 8.0
d 117.0
d 2.0
d 27.0
d 4.0
d 197.0
d 105.0
d 1.0
d 14.0
d 51.0
d 3.0
d 1.0
d 19.0
d 5.0
d 4.0
d 56.0
d 5.0
d 15.0
d 11.0
d 1.0
d 1.0
d 231.0
d 1.0
d 23.0
d 3.0
d 1.0
d 8.0
d 4

In [87]:
TFIDF = pd.DataFrame()
TFIDF = TF_table

In [88]:
for f in TFIDF.columns[1:]:
    TFIDF[f] =  TFIDF[f].apply(lambda col : float(col) * idf[f])

In [89]:
export_csv = TFIDF.to_csv (r'TFIDF2.csv', index = None, header=True) 

In [90]:
TFIDF= TFIDF.drop( columns='doc')

In [91]:
TFIDF.head()

Unnamed: 0,وجث,فتأ,نوح,بصص,لاستهدفت,٥١٤,كضبط,كأيقو,رنج,شطب,...,ريسنج,نحق,طلو,رولاند,وتناولته,ميزونياكي,نبض,دنس,سذج,غيت
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [92]:
temp = TFIDF.transpose()

In [93]:
temp.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,4118,4119,4120,4121,4122,4123,4124,4125,4126,4127
وجث,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
فتأ,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
نوح,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
بصص,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
لاستهدفت,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### For each document, select the terms with highest TFIDF value to be the tag

In [94]:
tags = []
for t in temp.columns[1:]:
    x= temp.nlargest(5,t)
    tags.append(x)

In [95]:
newtag = []
for d in tags:
    t = str(d.index)
    e = t.find('dtype')-2
    newtag.append(t[6:e])

In [96]:
Tags = pd.DataFrame()
Tags['tags'] = newtag

In [97]:
Tags['orig'] = data['news_text']

In [98]:
Tags.head()

Unnamed: 0,tags,orig
0,"['ياب', 'ثقف', 'وكو', 'موتوكو', 'توك']",حذّرت الهيئة العامة للغذاء والدواء من منتج عسل...
1,"['كورنيش', 'نيش', 'رني', 'ورن', 'ندم']",أقامت حكومة مدينة يوكوهاما، والمعهد الوطني للد...
2,"['ـشيول', 'شيو', 'بحة', 'يول', 'سيل']",أظهر مقطع فيديو متداول آخر للفتاة المقيمة، وهي...
3,"['دير', 'حرق', 'واء', 'هلل', 'حمر']",أنقذت شجاعة مواطن اليوم فريقًا لشركة متعاقدة م...
4,"['توفى', 'عثر', 'وفى', 'جث', 'يدن']",استقبل مدير الدفاع المدني بمنطقة الرياض، اللوا...


In [99]:
export_csv = Tags.to_csv (r'NewsTags.csv', index = None, header=True) 

## Conclusion
In this project I worked on Arabic news data-set to add tags as new feature. The worst challenge that I faced during this project was the long running time issue. As future work, I intend to repeat the experiment without stemming and compare the results. Moreover, this work can be a good foundation for developing simple search engine.   