<a href="https://colab.research.google.com/github/zahr-eddine/nlp_preprocessing_data/blob/main/nlp_preprocessing_data_using_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Preprocessing data using Spacy package** ##

**Dataset**

In [None]:
dataset = [        
"""Perhaps one of the most significant advances made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely
the beginnings of algebra. It is important to understand just how significant this new idea was. It was a revolutionary move away from
the Greek concept of mathematics which was essentially geometry. Algebra was a unifying theory which allowed rational
numbers, irrational numbers, geometrical magnitudes, etc., to all be treated as "algebraic objects". It gave mathematics a whole new
development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the
subject. Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itself in a
way which had not happened before.""",

 """ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي  وهي بدايات الجبر،ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة، فقد كانت خطوة ثورية بعيدا عن
المفهوم اليوناني للرياضيات التي هي في جوهرها  هندسة، الجبركان نظرية موحدة تتحيح الأعداد الكسرية و الأعداد اللا كسرية ، والمقادير الهندسية و غيرها ، أن تتعامل على أنها أجسام جبرية، و أعطت الرياضيات ككل مسارا جديدًا للتطوربمفهوم 
 أوسع بكثير من الذي كان موجودًا من قبل ، وقدم وسيلة للتنمية في هذا الموضوع مستقبلا .و جانب آخر مهم لإدخال أفكار الجبر و هو أنه سمح بتطبيق الرياضيات على نفسها 
بطريقة  لم تحدث من قبل."""
]


**Import Packages**

In [None]:
from spacy.lang.en import English

## **Begin Preprocessing** ##

**Convert text to lowercase**

In [None]:
## Convert to lowercase
text_english = dataset[0].lower()

**Remove punctuations**

**Tokenization**

In [None]:
en = English()
tokenizer_data = en.Defaults.create_tokenizer(en)

def tokenize_text(text):
  data_array = [item for item in tokenizer_data(text)]
  return data_array

In [None]:
import string
punctuations = '''`÷×؛<>_()*&^%][ـ،/:"؟.,'{}~¦+|!”…“–ـ''' + string.punctuation  #all punctuations 
print(punctuations)

def remove_punctuations(text):
  my_clean_text = ''.join([item for item in text if item not in punctuations])
  return my_clean_text

`÷×؛<>_()*&^%][ـ،/:"؟.,'{}~¦+|!”…“–ـ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


**Remove the stopwords**

In [None]:
##import library for stopwords
import spacy
stopwords = spacy.lang.en.stop_words.STOP_WORDS

def remove_stopwords(array):
  my_clean_text = ' '.join([str(item) for item in array if item not in stopwords and item.is_stop is False])
  return my_clean_text

**Lemmatization**

In [None]:
my_extract_var = spacy.load('en')
d = my_extract_var(text_english)
for item in d:
  print(item.lemma_ , item.pos_ , item.text)
  
 

perhaps ADV perhaps
one NUM one
of ADP of
the DET the
most ADV most
significant ADJ significant
advance NOUN advances
make VERB made
by ADP by
arabic ADJ arabic
mathematic NOUN mathematics
begin VERB began
at ADP at
this DET this
time NOUN time
with ADP with
the DET the
work NOUN work
of ADP of
al PROPN al
- PUNCT -
khwarizmi PROPN khwarizmi
, PUNCT ,
namely ADV namely

 SPACE 

the DET the
beginning NOUN beginnings
of ADP of
algebra NOUN algebra
. PUNCT .
-PRON- PRON it
be AUX is
important ADJ important
to PART to
understand VERB understand
just ADV just
how ADV how
significant ADJ significant
this DET this
new ADJ new
idea NOUN idea
be AUX was
. PUNCT .
-PRON- PRON it
be AUX was
a DET a
revolutionary ADJ revolutionary
move NOUN move
away ADV away
from ADP from

 SPACE 

the DET the
greek ADJ greek
concept NOUN concept
of ADP of
mathematic NOUN mathematics
which DET which
be AUX was
essentially ADV essentially
geometry NOUN geometry
. PUNCT .
algebra PROPN algebra
be AUX was
a DET a
u

**Preprocessing function**

In [None]:
## using tokenizer to preprocess data
def preprocessing_data(string_data):

  ## call remove_punctuations function
  array_without_punctuations = remove_punctuations(string_data) 

  ## call tokenize_text function
  data_array = tokenize_text(array_without_punctuations)

  ## call remove_stopwords function
  text_after = remove_stopwords(data_array)
  
  return text_after


In [None]:
 
print(preprocessing_data(dataset[1]))
#print(len(preprocessing_data(text_english)))

ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي   وهي بدايات الجبرومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة فقد كانت خطوة ثورية بعيدا عن 
 المفهوم اليوناني للرياضيات التي هي في جوهرها   هندسة الجبركان نظرية موحدة تتحيح الأعداد الكسرية و الأعداد اللا كسرية   والمقادير الهندسية و غيرها   أن تتعامل على أنها أجسام جبرية و أعطت الرياضيات ككل مسارا جديدًا للتطوربمفهوم 
  أوسع بكثير من الذي كان موجودًا من قبل   وقدم وسيلة للتنمية في هذا الموضوع مستقبلا و جانب آخر مهم لإدخال أفكار الجبر و هو أنه سمح بتطبيق الرياضيات على نفسها 
 بطريقة   لم تحدث من قبل


**Tokenization Arabic using Spacy**

In [None]:
from spacy.lang.ar import Arabic
ar = Arabic()
tokenizer_data = ar.Defaults.create_tokenizer(ar)

def tokenize_arabic_text(text):
  text = text.lower()
  data_array = [item for item in tokenizer_data(text)]
  return data_array

In [None]:
print(tokenize_arabic_text(dataset[1]))

[ربما, كانت, أحد, أهم, التطورات, التي, قامت, بها, الرياضيات, العربية, التي, بدأت, في, هذا, الوقت, بعمل, الخوارزمي,  , وهي, بدايات, الجبر،ومن, المهم, فهم, كيف, كانت, هذه, الفكرة, الجديدة, مهمة, ،, فقد, كانت, خطوة, ثورية, بعيدا, عن, 
, المفهوم, اليوناني, للرياضيات, التي, هي, في, جوهرها,  , هندسة, ،, الجبركان, نظرية, موحدة, تتحيح, الأعداد, الكسرية, و, الأعداد, اللا, كسرية, ،, والمقادير, الهندسية, و, غيرها, ،, أن, تتعامل, على, أنها, أجسام, جبرية, ،, و, أعطت, الرياضيات, ككل, مسارا, جديدًا, للتطوربمفهوم, 
 , أوسع, بكثير, من, الذي, كان, موجودًا, من, قبل, ،, وقدم, وسيلة, للتنمية, في, هذا, الموضوع, مستقبلا, .و, جانب, آخر, مهم, لإدخال, أفكار, الجبر, و, هو, أنه, سمح, بتطبيق, الرياضيات, على, نفسها, 
, بطريقة,  , لم, تحدث, من, قبل, .]


**Remove Arabic Stopwords**

In [None]:
pip install Arabic-Stopwords

Collecting Arabic-Stopwords
[?25l  Downloading https://files.pythonhosted.org/packages/7c/9e/40ee9b10f98b23b32bb7ca3f229ae78ae4379ebcb03cbb7b9e7399686ad8/Arabic_Stopwords-0.3-py3-none-any.whl (353kB)
[K     |████████████████████████████████| 358kB 7.5MB/s 
[?25hCollecting pyarabic>=0.6.2
[?25l  Downloading https://files.pythonhosted.org/packages/76/0e/716094532d87405011677fe8454eaac7305d4a2512aa4118c8a38b8aedfb/PyArabic-0.6.11-py3-none-any.whl (126kB)
[K     |████████████████████████████████| 133kB 12.2MB/s 
[?25hInstalling collected packages: pyarabic, Arabic-Stopwords
Successfully installed Arabic-Stopwords-0.3 pyarabic-0.6.11


In [None]:
import arabicstopwords.arabicstopwords as stp
dir(stp)
stop_glob_words = stp.stopwords_list()
 
def remove_arabic_stopwords(array):
  my_clean_text = ' '.join([str(item) for item in array if item not in stop_glob_words])
  return my_clean_text

In [None]:
remove_arabic_stopwords(tokenize_arabic_text(dataset[1]))

'ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي   وهي بدايات الجبر،ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة ، فقد كانت خطوة ثورية بعيدا عن \n المفهوم اليوناني للرياضيات التي هي في جوهرها   هندسة ، الجبركان نظرية موحدة تتحيح الأعداد الكسرية و الأعداد اللا كسرية ، والمقادير الهندسية و غيرها ، أن تتعامل على أنها أجسام جبرية ، و أعطت الرياضيات ككل مسارا جديدًا للتطوربمفهوم \n  أوسع بكثير من الذي كان موجودًا من قبل ، وقدم وسيلة للتنمية في هذا الموضوع مستقبلا .و جانب آخر مهم لإدخال أفكار الجبر و هو أنه سمح بتطبيق الرياضيات على نفسها \n بطريقة   لم تحدث من قبل .'