# Introduction
 - This notebook demonstrates text preprocessing by removing stopwords in both English and Arabic using popular libraries like NLTK, spaCy, and Arabic-Stopwords. It first tokenizes the text into words, and then filters out common stopwords such as "the" in English and "من" in Arabic. The notebook also showcases how to customize stopword lists, particularly in spaCy, and how to work with Arabic stopwords using the Arabic-Stopwords library. This preprocessing technique is useful for text analysis, classification tasks, and improving machine learning models by reducing noise and enhancing model accuracy in natural language processing tasks.



In [1]:
# This code will remove all punctuation from the text and print the following output:

import nltk

nltk.download('stopwords')

import re

from nltk.corpus import stopwords



stop_words = set(stopwords.words('english'))



text = "This is a sentence with stop words."

words = text.split()

clean_words = [word for word in words if word not in stop_words]

clean_text = " ".join(clean_words)

print(clean_text)

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
This sentence stop words.


In [2]:
stop_words_arabic = set([

    "من", "إلى", "في", "على", "و", "عن", "مع", "أن", "هذا", "هذه", "كان", "يكون"

])


In [3]:
text = "أنا أحب البرمجة والتعلم في مجال الذكاء الاصطناعي"

words = text.split()

filtered_words = [word for word in words if word not in stop_words_arabic]

print("النص بعد إزالة الكلمات الشائعة:", " ".join(filtered_words))

النص بعد إزالة الكلمات الشائعة: أنا أحب البرمجة والتعلم مجال الذكاء الاصطناعي


In [4]:
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to /usr/share/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
import spacy

nlp = spacy.load('en_core_web_sm')

In [6]:
print(nlp.Defaults.stop_words)

{'front', 'his', 'between', "'m", 'did', 'anyone', 'formerly', 'or', 'three', 'while', 'therein', 'namely', 'me', 'doing', 'our', 'without', 'none', 'she', 'everywhere', 'just', 'herself', 'part', 'among', 'eleven', 'with', 'anyway', 'every', 'ourselves', 'yourselves', 'now', 'yours', 'such', 'n’t', 'eight', 'much', 'others', 'used', 'against', 'who', 'a', 'some', 'was', 'why', 'though', 'mine', 'own', 'other', 'might', 'and', 'via', 'forty', 'become', 'empty', '’ll', 'their', 'how', 'anywhere', 'so', '‘d', 'by', 'he', 'may', 'somewhere', 'thru', 'not', 'would', 'four', 'on', 'you', 'during', 'to', 'thus', 'seems', '’d', 'onto', 'as', 'what', 'hereupon', 'nevertheless', 'n‘t', 'us', 'unless', 'nor', 'two', 'both', 'hereafter', 'serious', 'afterwards', 'back', 'throughout', 'quite', 'indeed', 'could', 'besides', 'it', 'over', 'have', "n't", 'first', 'same', 'if', 'into', 'hundred', 'few', 'either', '‘re', 'next', 'be', 'when', 'upon', 'must', 'third', "'re", 'no', 'seemed', 'across', 'b

In [7]:
nlp.vocab['myself'].is_stop

True

In [8]:
nlp.vocab['mystery'].is_stop

False

In [9]:
nlp.vocab['btw'].is_stop

False

In [10]:
nlp.Defaults.stop_words.add('mystery')

nlp.vocab['mystery'].is_stop = True

In [11]:
nlp.vocab['mystery'].is_stop

True

In [12]:
nlp.vocab['mostly'].is_stop

True

In [13]:
nlp.Defaults.stop_words.remove('mostly')

nlp.vocab['mostly'].is_stop = False

In [14]:
nlp.vocab['mostly'].is_stop

False

In [15]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /usr/share/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [16]:
from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize



stop_words = set(stopwords.words('english'))

print(len(stop_words))

print(stop_words)

179
{'his', 'nor', 'below', 'between', "mightn't", 'did', 'hasn', 'both', 'out', "it's", 'at', 'd', 'or', 'until', 'than', 'while', 'is', 'ain', "should've", 'me', 'it', 'were', 'over', 'have', "shouldn't", 'doing', 'our', 'she', 'further', 'themselves', 'where', 'just', 'having', 'for', "wouldn't", 'herself', "couldn't", 'same', 'my', 'which', 'if', 'with', 'too', 'into', 'being', 'few', 'hadn', 'most', 'do', 'should', 'doesn', 's', 'ourselves', 'weren', 'yourselves', 'yours', 'be', 'now', 'such', 'when', 'them', 'does', 'ours', 'no', 'couldn', 'myself', 'only', 'they', 'against', 'o', 'been', 'who', 'before', 'will', 'y', 'wasn', 'a', "hasn't", "weren't", 'an', "isn't", 'down', 'some', 'but', 'isn', 'was', 'why', 'very', 'again', 'll', 'in', "mustn't", 'itself', 'won', 'whom', 'haven', 'own', "you're", 'its', 'all', 'other', 'ma', 'and', 'under', 'each', 'aren', 'her', 'had', 'more', "hadn't", 'hers', 'of', 'their', 'how', "she's", 'this', 'through', "aren't", 'mustn', 'so', 'by', 't

In [17]:
text = "This is a simple example to demonstrate stopwords removal."

words = word_tokenize(text)

filtered_words = [word for word in words if word.lower() not in stop_words]

print(filtered_words)


['simple', 'example', 'demonstrate', 'stopwords', 'removal', '.']


In [18]:
Ar_SW1 = set(nltk.corpus.stopwords.words("arabic"))

print(len(Ar_SW1))

' | '.join(Ar_SW1)

701


'لك | سبعمائة | أنتم | غداة | ء | أينما | ثلاث | بعد | ذلكم | حاي | بكما | هلّا | سحقا | ريال | صراحة | إحدى | جوان | صهٍ | بؤسا | عوض | كيت | بلى | كأي | لهن | دينار | ة | لا | ليسا | أمّا | ما انفك | لسن | أنشأ | هلا | أ | مكانكما | إياكما | لهم | إنه | كى | مافتئ | مئة | بس | شَتَّانَ | فإذا | ثم | ثلاثين | ثمانين | تفعلين | ابتدأ | لستن | أبريل | م | ظاء | يونيو | إلى | كان | حين | اللواتي | أخذ | اللتيا | فيما | مكانكنّ | إي | ليست | أوّهْ | أيار | أين | كانون | إمّا | هبّ | هاتي | الذين | ضحوة | ثاني | شتانَ | نا | ثامن | لنا | فلس | إما | ه | طاء | ستين | طفق | تجاه | اللذان | ئ | عليه | صاد | عشر | همزة | يوليو | أربعمئة | كي | سبع | كثيرا | هيهات | إياها | انقلب | اللتان | يناير | غ | واحد | ظنَّ | ديسمبر | ليستا | هيّا | اللاتي | درهم | سبعة | رابع | إلّا | كأيّ | بمن | ثمَّ | كأيّن | لاسيما | لدن | هاء | شباط | ص | هذه | لي | بنا | آهاً | هَجْ | مكانكم | لكنَّ | آ | اتخذ | تلكما | آه | يفعلون | فيم | آناء | إنَّ | آي | ثلاثمئة | حادي | في | ث | واهاً | بهن | ستون | تين | واو

In [19]:
from nltk.corpus import stopwords

Ar_SW2 = stopwords.words('arabic')

print(len(Ar_SW2))

' | '.join(Ar_SW2)

754


'إذ | إذا | إذما | إذن | أف | أقل | أكثر | ألا | إلا | التي | الذي | الذين | اللاتي | اللائي | اللتان | اللتيا | اللتين | اللذان | اللذين | اللواتي | إلى | إليك | إليكم | إليكما | إليكن | أم | أما | أما | إما | أن | إن | إنا | أنا | أنت | أنتم | أنتما | أنتن | إنما | إنه | أنى | أنى | آه | آها | أو | أولاء | أولئك | أوه | آي | أي | أيها | إي | أين | أين | أينما | إيه | بخ | بس | بعد | بعض | بك | بكم | بكم | بكما | بكن | بل | بلى | بما | بماذا | بمن | بنا | به | بها | بهم | بهما | بهن | بي | بين | بيد | تلك | تلكم | تلكما | ته | تي | تين | تينك | ثم | ثمة | حاشا | حبذا | حتى | حيث | حيثما | حين | خلا | دون | ذا | ذات | ذاك | ذان | ذانك | ذلك | ذلكم | ذلكما | ذلكن | ذه | ذو | ذوا | ذواتا | ذواتي | ذي | ذين | ذينك | ريث | سوف | سوى | شتان | عدا | عسى | عل | على | عليك | عليه | عما | عن | عند | غير | فإذا | فإن | فلا | فمن | في | فيم | فيما | فيه | فيها | قد | كأن | كأنما | كأي | كأين | كذا | كذلك | كل | كلا | كلاهما | كلتا | كلما | كليكما | كليهما | كم | كم | كما | كي | كيت | كيف | كيفما 

In [20]:
!pip install Arabic-Stopwords

Collecting Arabic-Stopwords
  Downloading Arabic_Stopwords-0.4.3-py3-none-any.whl.metadata (8.9 kB)
Downloading Arabic_Stopwords-0.4.3-py3-none-any.whl (360 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m360.5/360.5 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Arabic-Stopwords
Successfully installed Arabic-Stopwords-0.4.3


In [21]:
import arabicstopwords.arabicstopwords as stp

In [22]:
len(stp.classed_stopwords_list())

508

In [23]:
stp.classed_stopwords_list()

dict_keys(['أن', 'إن', 'عل', 'كأن', 'لعل', 'لكن', 'ليت', 'ثنا', 'بيد', 'سوى', 'غير', 'لاسيما', 'أولئك', 'أولئكم', 'أولاء', 'أولالك', 'تان', 'تانك', 'تلك', 'تلكم', 'تلكما', 'ته', 'تي', 'تين', 'تينك', 'ثم', 'ثمة', 'ذا', 'ذاك', 'ذان', 'ذانك', 'ذلك', 'ذلكم', 'ذلكما', 'ذلكن', 'ذه', 'ذوا', 'ذواتا', 'ذواتي', 'ذوو', 'ذوي', 'ذي', 'ذين', 'ذينك', 'كذلك', 'هؤلاء', 'هاتان', 'هاته', 'هاتي', 'هاتين', 'هاهنا', 'هذا', 'هذان', 'هذه', 'هذي', 'هذين', 'هكذا', 'هنا', 'هناك', 'هنالك', 'أي', 'إذ', 'إذا', 'ابن', 'بعض', 'تجاه', 'تلقاء', 'جميع', 'حسب', 'حيث', 'سبحان', 'شبه', 'شطر', 'كل', 'لعمر', 'لما', 'مثل', 'مع', 'معاذ', 'نحو', 'متى', 'أنى', 'أيان', 'أين', 'بكم', 'بما', 'بماذا', 'بمن', 'كم', 'كيف', 'ما', 'ماذا', 'مما', 'ممن', 'من', 'أينما', 'حيثما', 'كيفما', 'مهما', 'أقل', 'أكثر', 'آها', 'بس', 'حاي', 'صه', 'طاق', 'طق', 'عدس', 'كخ', 'نخ', 'هج', 'وا', 'واها', 'وي', 'آمين', 'آه', 'أف', 'أمامك', 'أوه', 'إليك', 'إليكم', 'إليكما', 'إليكن', 'إيه', 'بخ', 'بطآن', 'بله', 'حذار', 'حي', 'دونك', 'رويدك', 'سرعان', 'شتان', '

In [24]:
len(stp.stopwords_list())

13465

In [25]:
stp.is_stop(u'ممكن')

False

In [26]:
stp.is_stop('منكم')

True

In [27]:
stp.stopword_forms("بين")

['وبينك',
 'بينهم',
 'بينكن',
 'فبينكم',
 'وبينكم',
 'بينك',
 'وبينهن',
 'فبينه',
 'وبينه',
 'فبين',
 'بيننا',
 'فبيني',
 'فبينهن',
 'بينكما',
 'بينكم',
 'وبينكن',
 'بينها',
 'فبينهم',
 'فبينكن',
 'بينهن',
 'وبينكما',
 'وبيني',
 'وبين',
 'وبينهم',
 'فبينهما',
 'بينه',
 'فبينك',
 'وبينهما',
 'فبينكما',
 'بين',
 'وبيننا',
 'بينهما',
 'بيني',
 'وبينها',
 'فبينها',
 'فبيننا']

In [28]:
len(stp.stopword_forms("بين"))

36

In [29]:
stopwords_arabic = [

    'ال', 'في', 'من', 'على', 'إلى', 'أن', 'و', 'مع', 'عن', 'كما', 'إلا', 'ل',

    'أو', 'هو', 'هي', 'كنت', 'كنا', 'منذ', 'كان', 'يكون', 'متى', 'أين', 'لم', 'لذا',

    'كل', 'هذا', 'هذه', 'إلى', 'بعض', 'ولكن', 'تلك', 'أين', 'أنني', 'لا', 'أي', 'هذا'

]

In [30]:
# النص الذي سنعمل عليه

text = "ذهب الطالب إلى الجامعة يوم الإثنين مع أصدقائه وكان الجو جميلا جدا. لن أذهب في هذا الوقت."



# تقسيم النص إلى كلمات

words = text.split()



# تصفية النص لإزالة الكلمات الشائعة

filtered_text = ' '.join([word for word in words if word not in stopwords_arabic])



print("النص بعد إزالة الكلمات الشائعة:", filtered_text)

النص بعد إزالة الكلمات الشائعة: ذهب الطالب الجامعة يوم الإثنين أصدقائه وكان الجو جميلا جدا. لن أذهب الوقت.


In [31]:
SW  = ['on','at','with','the','by','to','this','my']



T = 'I went to the university by bus On this monday with My friend at 9:00'



' '.join([i for i in T.split() if  not i.lower() in SW])

'I went university bus monday friend 9:00'