<div dir="rtl" , style="line-height: 1.9">
<h1 style="color:lightBlue;">نرمالسازی متن</h1>
<p style="font-size: 17px;">نرمال‌سازی متن فرآیند تبدیل متن به یک قالب ثابت و یکنواخت است که درک و پردازش متن را برای کامپیوتر آسان‌تر می‌کند</p>
<h4 style="color:lightgreen;"><li> اهمیت نرمالسازی متن:</h4>
<ul style="font-size: 17px;">
<li>بهبود کارایی: با تبدیل متن به یک قالب استاندارد، کامپیوتر می‌توانند اطلاعات را کارآمدتر مدیریت کنند. تصور کنید به دنبال "donut" می‌گردید - نرمالسازی اطمینان می‌دهد که نتایج شامل  (doughnut) نیز می‌شود
</li>

<li>دقت بیشتر: نرمالسازی ابهام متن را کاهش می‌دهد. برای مثال، "۲۰۰" می‌تواند نشان‌دهنده‌ی ارز یا یک عدد باشد. نرمال‌سازی این موضوع را برای کارهایی مانند تبدیل متن به گفتار یا تحلیل داده‌ها روشن می‌کند
</li>
<li>تحلیل بهتر: نرمالسازی به آماده‌کردن متن برای وظایف پردازش زبان طبیعی (NLP) کمک می‌کند. برنامه‌های کاربردی NLP مانند تحلیل احساسات یا ترجمه ماشینی از متن نرمال شده بهره می‌برند
</li>
</ul>
<h4 style="color:lightgreen;"> <li>برای عادی‌سازی متن، بسته به هدف، از تکنیک‌های مختلفی استفاده می‌شود:</h4>
<ul style="font-size: 17px;">
<li>تغییر حروف: تبدیل تمام متن به حروف کوچک یا بزرگ و استفاده از یونیکد ,حذف کلمات تلفظ </li>
<li>بسط اختصارات و حروف اختصاری: بسط اختصارات مانند "سازمان ملل متحد" به جای "UN"</li>
<li>حذف علائم نگارش: حذف علائم نگارش مانند کاما و نقطه</li>
<li>ریشه‌‌یابی و واژه‌یابی: این تکنیک‌ها کلمات را به ریشه‌ی آن‌ها کاهش می‌دهند (برای مثال، "running" به "run" تبدیل می‌شود). ریشه‌یابی ساده‌تر است، اما همیشه ممکن است کلمات واقعی تولید نکند، در حالی که واژه‌یابی با در نظر گرفتن زمینه، شکل پایه صحیح را انتخاب می‌کند (برای مثال، "بازی می‌کند" برای فعل به "بازی" و برای اسم به "بازیکن" تبدیل می‌شود</li>
</ul>
<h4 style="color:lightgreen;"><li> نرمالسازی متن در بسیاری از برنامه‌های کاربردی  ضروری است:</li></h4>
<ul style="font-size: 17px;">
<li>بازیابی اطلاعات: موتورهای جستجو از نرمالسازی برای بهبود دقت جستجو با در نظر گرفتن عبارات مختلف یک مفهوم استفاده می‌کنند.
</li>
<li>ترجمه ماشینی: عادی‌سازی به ابزارهای ترجمه کمک می‌کند تا معنای واقعی متن را درک کنند و در نتیجه به ترجمه‌های دقیق‌تر منجر شود.
</li>
<li>تحلیل متن: تکنیک‌هایی مانند تحلیل احساسات به متن ندمالشده متکی هستند تا به درستی احساسات منتقل شده در نوشتار را ارزیابی کنند.
</li>
</div>

### Import libraries

In [1]:
import re
import nltk
import pandas as pd
import unidecode
import num2words
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

### Download NLTK Pre-trained models

In [2]:
nltk.download("punkt")
nltk.download("stopwords")
nltk.download("wordnet")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

### Read parquet database as pandas dataframe

In [3]:
# path to Parquet file
dataset = pd.read_parquet("../data/imdb/plain_text/train-00000-of-00001.parquet")
# Access text data (column name is 'text')
text_data = dataset["text"]
# Access class label (column name is 'label')
class_labels = dataset["label"]

### Main function

In [4]:
def preprocess_review(text):
    """
    preprocess the IMdb dataset

    Args:
        text (str): The text of the movie review.

    Returns:
        str: The processed text file
    """
    # Convert to Unicode and remove Accents(ç, Ç ,â, î, ô, ü) and Lowercase conversion
    text = unidecode.unidecode(text).lower()

    # Number replacement( 2 --> two) , "re.sub" Replaces one or many matches with a string
    # m.group(0) capturing group  from a regular expression match stored in variable 
    text = re.sub(r"\d+", lambda m: num2words.num2words(int(m.group(0))), text)
    
    # Remove punctuation(; ,{}, [ < ] ) , non-alphanumeric(&, $, @, %, - ...) characters , URLs , HTML tags
    pattern = r"\n|[^\w\s]|(https?://\S+)|<.*?>"
    text = re.sub(pattern, " ", text)

    # Tokenize
    tokens = word_tokenize(text)

    # Remove stop words (a, an, and, are, as, at, be, but, by, for, if ,...)
    stop_words = set(stopwords.words("english"))
    tokens = [token for token in tokens if token not in stop_words]

    # lemmatization( running --> run )
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word, pos="v") for word in tokens]

    # Join tokens back into text
    processed_text = " ".join(tokens)

    return processed_text

### Save strings to pandas dataframe

In [5]:
# Preprocess text data
preprocessed_text = []
for review in text_data:
    preprocessed_text.append(preprocess_review(review))

# Convert preprocessed data to pandas data frame
df = pd.DataFrame(
    {
        "original_text": text_data,
        "preprocessed_text": preprocessed_text,
        "label": class_labels,
    }
)
# Save as CSV
df.to_csv("preprocessed_data_test.csv", index=False)

In [35]:
df.head()

Unnamed: 0,original_text,preprocessed_text,label
0,I rented I AM CURIOUS-YELLOW from my video sto...,rent curiousyellow video store controversy sur...,0
1,"""I Am Curious: Yellow"" is a risible and preten...",curious yellow risible pretentious steam pile ...,0
2,If only to avoid making this type of film in t...,avoid make type film future film interest expe...,0
3,This film was probably inspired by Godard's Ma...,film probably inspire godards masculin feminin...,0
4,"Oh, brother...after hearing about this ridicul...",oh brotherafter hear ridiculous film umpteen y...,0


### Count the number of word occurrences

In [9]:
def count_word(df, word):
    """
    count word occurrence in each row of column

    Args:
        df (any): dataframe 
        word (str): string lookup

    Returns:
        int: summation of counted word in each row 
    """
    return df["preprocessed_text"].str.count(word).sum()


# Count occurrences
find_word = input()
count_time = count_word(df.copy(), find_word)


print(f"The word '{find_word}' appears {count_time} times")

The word 'good' appears 15640 times


In [None]:
# print(f"The word '{find_word}' appears {(lambda df,word : df["preprocessed_text"].str.count(word).sum())(df.copy(), input())} times")