In [81]:
import spacy
import re
from spacy.lang.en import English
from spacy.lang.ar import Arabic

In [82]:
nlp_en = spacy.load("en_core_web_sm")
nlp_ar = spacy.blank("ar")

In [83]:
ar_text = "في قلب المدينة المزدحمة، وقف مكتبة رائعة قديمة مليئة بالكتب التي تروي قصص الحضارات القديمة واكتشافات علمية مذهلة وحكايات ملهمة ألهمت أجيالًا."
eng_text = "In the heart of the bustling city, there stood a magnificent old library, filled with books that told stories of ancient civilizations, groundbreaking scientific discoveries, and tales of wonder that inspired generations."

# 1- Tokenization

In [84]:
# Tokenization using split
eng_text = eng_text.split()

# Tokenization using split
ar_text = ar_text.split()

print(eng_text)
print(ar_text)

['In', 'the', 'heart', 'of', 'the', 'bustling', 'city,', 'there', 'stood', 'a', 'magnificent', 'old', 'library,', 'filled', 'with', 'books', 'that', 'told', 'stories', 'of', 'ancient', 'civilizations,', 'groundbreaking', 'scientific', 'discoveries,', 'and', 'tales', 'of', 'wonder', 'that', 'inspired', 'generations.']
['في', 'قلب', 'المدينة', 'المزدحمة،', 'وقف', 'مكتبة', 'رائعة', 'قديمة', 'مليئة', 'بالكتب', 'التي', 'تروي', 'قصص', 'الحضارات', 'القديمة', 'واكتشافات', 'علمية', 'مذهلة', 'وحكايات', 'ملهمة', 'ألهمت', 'أجيالًا.']


# 2- convert to lowercase

In [85]:
# make it lower
eng_text = [i.lower() for i in eng_text]
eng_text

['in',
 'the',
 'heart',
 'of',
 'the',
 'bustling',
 'city,',
 'there',
 'stood',
 'a',
 'magnificent',
 'old',
 'library,',
 'filled',
 'with',
 'books',
 'that',
 'told',
 'stories',
 'of',
 'ancient',
 'civilizations,',
 'groundbreaking',
 'scientific',
 'discoveries,',
 'and',
 'tales',
 'of',
 'wonder',
 'that',
 'inspired',
 'generations.']

# 3- Remove StopWords

In [86]:
# remove stopwords using nltk

# import nltk
# nltk.download('stopwords')
# from nltk.corpus import stopwords

# stopwords = stopwords.words('english')
# stopwords = stopwords.words()
# eng_text_nostopwords = [i for i in eng_text if not i in stopwords]
# eng_text_nostopwords
############################################################################
# remove stopwords using spacy
nlp_en = spacy.load("en_core_web_sm")
nlp_ar = spacy.blank("ar")

doc = nlp_en(" ".join(eng_text))
eng_text = [token.text for token in doc if not token.is_stop]

print(eng_text)
#---------------------------------------------------------------------------
doc = nlp_ar(" ".join(ar_text))
ar_text = [token.text for token in doc if not token.is_stop]

print(ar_text)

['heart', 'bustling', 'city', ',', 'stood', 'magnificent', 'old', 'library', ',', 'filled', 'books', 'told', 'stories', 'ancient', 'civilizations', ',', 'groundbreaking', 'scientific', 'discoveries', ',', 'tales', 'wonder', 'inspired', 'generations', '.']
['قلب', 'المدينة', 'المزدحمة', '،', 'وقف', 'مكتبة', 'رائعة', 'قديمة', 'مليئة', 'بالكتب', 'تروي', 'قصص', 'الحضارات', 'القديمة', 'واكتشافات', 'علمية', 'مذهلة', 'وحكايات', 'ملهمة', 'ألهمت', 'أجيالًا.']


# 4- Noise Removal

In [87]:
# Noise Removal for English
eng_text = [re.sub(r'[^\w\s]','', token) for token in eng_text if token.strip()]
print(eng_text)
# Noise Removal for Arabic
ar_text = [re.sub(r'[^\u0600-\u06FF\s]', '', token) for token in ar_text if token.strip()]
print(ar_text)

['heart', 'bustling', 'city', '', 'stood', 'magnificent', 'old', 'library', '', 'filled', 'books', 'told', 'stories', 'ancient', 'civilizations', '', 'groundbreaking', 'scientific', 'discoveries', '', 'tales', 'wonder', 'inspired', 'generations', '']
['قلب', 'المدينة', 'المزدحمة', '،', 'وقف', 'مكتبة', 'رائعة', 'قديمة', 'مليئة', 'بالكتب', 'تروي', 'قصص', 'الحضارات', 'القديمة', 'واكتشافات', 'علمية', 'مذهلة', 'وحكايات', 'ملهمة', 'ألهمت', 'أجيالًا']


# 5- POS Tagging

In [88]:
eng_text = ' '.join(eng_text)

# POS tagging
doc = nlp_en(eng_text)  # Apply SpaCy NLP model
for i in doc:
    print(i.text, i.pos_)


heart NOUN
bustling VERB
city NOUN
  SPACE
stood VERB
magnificent ADJ
old ADJ
library NOUN
  SPACE
filled VERB
books NOUN
told VERB
stories NOUN
ancient ADJ
civilizations NOUN
  SPACE
groundbreaking VERB
scientific ADJ
discoveries NOUN
  SPACE
tales NOUN
wonder VERB
inspired VERB
generations NOUN
