In [1]:
import pandas as pd
import numpy as np
from hazm import Normalizer, word_tokenize, stopwords_list, Lemmatizer
import re

In [2]:
df = pd.read_csv('Snappfood-comments.csv')
df

Unnamed: 0,date,comment,rate,resturant name
0,2023-10-19,خیلی خوشمزه بود و به موقع و داغ رسید به دستم، ...,۵,فست فود کلوا
1,2023-10-19,مرغ ها خیلی زیاد سرخ شده بودن,۳,فست فود کلوا
2,2023-10-17,خیلی خوشمزه بود,۵,فست فود کلوا
3,2023-09-17,کیفیت بالا ولی قیمت نسبت به حجم پیتزا بالا بود,۵,فست فود کلوا
4,2023-10-03,سس بندری خیلی مزه خاصی داشت و یجورایی شیرین بو...,۳,فست فود کلوا
...,...,...,...,...
6104,2023-01-02,قیمت بالا نسبت به مقدار غذا و سرد بود,۲,اغذیه حس خوب (شبانه)
6105,2023-01-24,کیفیت افتضاح غذا,not rated,اغذیه حس خوب (شبانه)
6106,2023-02-07,دنبال چیز خیلییی خاص نباشین همینک این موقع شب ...,۵,اغذیه حس خوب (شبانه)
6107,2023-02-07,کیفیت همه غذاش مزخرف بود,not rated,اغذیه حس خوب (شبانه)


In [3]:
def update_stopwords(stopwords):
    for word in ['بالا', 'پایین', 'کم', 'زیاد', 'خوب', 'بد', 'عالی','نسبت']:
        try:
            stopwords.remove(word)
        except:
            pass
    return stopwords

In [4]:
def preprocess(text):
    normalizer = Normalizer()
    normalized_text = normalizer.normalize(text)
    tokens = word_tokenize(normalized_text)
    tokens = [token.lower() for token in tokens]
    tokens = [re.sub(r'[^a-zA-Zآ-ی]', '', token) for token in tokens]
    stop_words = set(stopwords_list())
    stop_words = update_stopwords(stop_words)
    tokens = [token for token in tokens if token not in stop_words]
    tokens = [token for token in tokens if token != '']
    lemmatizer = Lemmatizer()
    tokens_lemma = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(tokens_lemma)

In [5]:
df.loc[:, 'preprocessed comment'] = df.loc[:, 'comment']

In [6]:
comments_np = df.loc[:,'preprocessed comment'].values.astype(str)

# Vectorize the preprocessing function using np.vectorize
vectorized_preprocess = np.vectorize(preprocess)

# Apply the vectorized function to the numpy array
df.loc[:, 'preprocessed comment'] = vectorized_preprocess(comments_np)

In [8]:
df

Unnamed: 0,date,comment,rate,resturant name,preprocessed comment
0,2023-10-19,خیلی خوشمزه بود و به موقع و داغ رسید به دستم، ...,۵,فست فود کلوا,خوشمزه موقع داغ دستم خسته بود#باش
1,2023-10-19,مرغ ها خیلی زیاد سرخ شده بودن,۳,فست فود کلوا,مرغ زیاد سرخشده
2,2023-10-17,خیلی خوشمزه بود,۵,فست فود کلوا,خوشمزه
3,2023-09-17,کیفیت بالا ولی قیمت نسبت به حجم پیتزا بالا بود,۵,فست فود کلوا,کیفیت بالا قیمت نسبت حجم پیتزا بالا
4,2023-10-03,سس بندری خیلی مزه خاصی داشت و یجورایی شیرین بو...,۳,فست فود کلوا,سس بندر مزه خاص یجورایی شیرین حجم مواد داخل سا...
...,...,...,...,...,...
6104,2023-01-02,قیمت بالا نسبت به مقدار غذا و سرد بود,۲,اغذیه حس خوب (شبانه),قیمت بالا نسبت مقدار غذا سرد
6105,2023-01-24,کیفیت افتضاح غذا,not rated,اغذیه حس خوب (شبانه),کیفیت افتضاح غذا
6106,2023-02-07,دنبال چیز خیلییی خاص نباشین همینک این موقع شب ...,۵,اغذیه حس خوب (شبانه),دنبال نباشین همینک موقع شب سمنان هست خوبه معمو...
6107,2023-02-07,کیفیت همه غذاش مزخرف بود,not rated,اغذیه حس خوب (شبانه),کیفیت غذا مزخرف
