### Pre-processing the Text in Natural Language Processing
- Part 1: Persian Dataset (Hazm) <-
- Part 2: English Dataset (Nltk)

### Required Libraries

In [1]:
import re
import string
from hazm import sent_tokenize, Normalizer, word_tokenize, stopwords_list, Lemmatizer

### Read Persian Text File

In [2]:
with open('Datasets/hp_fa.txt', 'r', encoding='utf-8') as file:
    text = file.read()

### Remove extra spaces, split text into sentences, and normalize text

In [3]:
normalizer = Normalizer()
# METHOD 1: Number of Sentences -> 6832
# sentences = re.split(r'[.!?]', text)
# sentences = [normalizer.normalize(sentence) for sentence in sentences if sentence.strip()]

# METHOD 2: Number of Sentences -> 7064
sentences = sent_tokenize(normalizer.normalize(text))

# Remove Zero-Width Non-Joiners
sentences = [sentence.replace('\u200c', ' ') for sentence in sentences] 

### Tokenize Words

In [4]:
tokenized_sentences = [word_tokenize(sentence) for sentence in sentences]

### Remove Punctuations

In [5]:
punctuations = string.punctuation + '،' + '؟'
print(punctuations)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~،؟


In [6]:
cleaned_sentences = []
for words in tokenized_sentences:
    cleaned_words = []
    for word in words:
        cleaned_word = ''.join(char for char in word if char not in punctuations)
        if cleaned_word:
            cleaned_words.append(cleaned_word)
    cleaned_sentences.append(cleaned_words)

### Remove Stopwords
Stopwords are often filtered out from text because they do not carry much meaningful information.
Removing stopwords helps reduce noise in the data and improves the performance of text analysis tasks.

In [7]:
stopwords = stopwords_list()
print(stopwords)

['آخرین', 'آقای', 'آمد', 'آمده', 'آمده_است', 'آن', 'آنان', 'آنجا', 'آنها', 'آنچه', 'آنکه', 'آورد', 'آوری', 'آیا', 'ابتدا', 'اثر', 'اجرا', 'اخیر', 'از', 'است', 'اش', 'اغلب', 'افراد', 'افرادی', 'افزود', 'البته', 'اما', 'امر', 'امکان', 'اند', 'او', 'اول', 'اولین', 'اکنون', 'اگر', 'ایشان', 'این', 'اینجا', 'اینکه', 'با', 'بار', 'باره', 'باز', 'باشد', 'باشند', 'باعث', 'بالا', 'باید', 'بخش', 'بخشی', 'بدون', 'بر', 'برابر', 'براساس', 'برای', 'برخی', 'برداری', 'بروز', 'بزرگ', 'بسیار', 'بسیاری', 'بعد', 'بعضی', 'بلکه', 'بنابراین', 'بندی', 'به', 'بهتر', 'بهترین', 'بود', 'بودن', 'بودند', 'بوده', 'بوده_است', 'بی', 'بیان', 'بیرون', 'بیش', 'بیشتر', 'بیشتری', 'بین', 'تا', 'تاکنون', 'تبدیل', 'تحت', 'ترتیب', 'تعداد', 'تعیین', 'تغییر', 'تمام', 'تمامی', 'تنها', 'تهیه', 'تو', 'جا', 'جاری', 'جای', 'جایی', 'جدی', 'جدید', 'جریان', 'جز', 'جمع', 'جمعی', 'حال', 'حالا', 'حالی', 'حتی', 'حد', 'حداقل', 'حدود', 'حل', 'خاص', 'خاطرنشان', 'خصوص', 'خطر', 'خواهد_بود', 'خواهد_شد', 'خواهد_کرد', 'خوب', 'خوبی', 'خود', 'خودش', '

In [8]:
preprocessed_sentences = [[word for word in words if word not in stopwords] for words in cleaned_sentences]

### Remove emojis

In [9]:
# https://stackoverflow.com/a/49146722/330558
def remove_emoji(string):
    emoji_pattern = re.compile("["
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)

In [10]:
preprocessed_sentences = [[remove_emoji(word) for word in words] for words in preprocessed_sentences]

### Apply Lemmatization

In [11]:
lemmatizer = Lemmatizer()
# lemmatized_sentences = [[lemmatizer.lemmatize(word) for word in words] for words in preprocessed_sentences]

# Remove original word, Only lemmatized words
lemmatized_sentences = [
    [lemmatizer.lemmatize(word).split('#')[1] if '#' in lemmatizer.lemmatize(word) else lemmatizer.lemmatize(word) for word in words]
    for words in preprocessed_sentences
]

In [12]:
print(lemmatized_sentences)

[['آقا', 'خانم', 'دورسلی', 'ساکن', 'خانه', 'شماره', 'خیابان', 'پریوت', 'درایو'], ['خانواده', 'معمولی', 'عادی', 'ها', 'بابت', 'راضی', 'خوشنود'], ['خانواده', 'وجه', 'امور', 'مرموز', 'اسرار', 'آمیز', 'سروکار', 'دار', 'سحر', 'جادو', 'مهمل', 'بیهوده', 'ای', 'پندار', 'علاقه', 'ای', 'مسائل', 'دار', 'هست', 'دورسلی', 'مدیر', 'شرکت', 'دریل', 'گرونینگز', 'مردی', 'درشت', 'اندام', 'قوی', 'هیکل', 'گردنی', 'کوتاه', 'سبیل', 'لند'], ['همسر', 'خانم', 'دورسلی', 'زنی', 'لاغر', 'اندام', 'موهای', 'بور', 'گردنی', 'کشیده', 'بلند'], ['لند', 'گردنش', 'برایش', 'مفید', 'تر', 'وقتش', 'سرک', 'کشیدن', 'خانه', 'هست', 'همسایه', 'ها'], ['پسری', 'نام', 'دادلی', 'عقیده', 'خودشان', 'لنگه', 'دار'], ['خانواده', 'هست', 'مرفه', 'کسری', 'دار', 'خانواده', 'رازی', 'برملا'], ['ها', 'هول', 'هراس', 'مبادا', 'روز', 'راز', 'بر'], ['تصور', 'خانواده', 'هست', 'پاتر', 'دان', 'برایشان', 'غیرقابل', 'تحمل'], ['خانم', 'پاتر', 'خواهر', 'خانم', 'دورسلی', 'سال', 'ها', 'ندیدهبودند'], ['واقع', 'خانم', 'دورسلی', 'وانمود', 'خواهری', 'خواهر', 'شوهر'