In [70]:
import numpy as np
import pandas as pd
import nltk

In [71]:
#Download requirements
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\pouri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [72]:
data = pd.read_csv('Data/digikala_comment.csv')
data

Unnamed: 0,comment
0,نسبت به قیمتش ارزش خرید داره\nجاداره، طراحیش ق...
1,چند ماهی میشه که گرفتمش‌. برای برنامه نویسی و ...
2,پراید ستون جدید
3,اقا همه چیش خوبه فقط از پایین زیاد حاشیه داره ...
4,گوسی هو اوی p10 lite سیپیو و دوربین و رمش از ا...
...,...
235,پوشش دهی صفر.اصلا پیشنهاد نمیکنم
236,نصب این فن خیلی راحته و دردسر زیادی نداره درض...
237,بی کیفیت
238,سلام ٬ چندماهی میشه این پاور بانک رو تهیه کردم...


In [73]:
# Sentence Tokenizing
from nltk.tokenize import sent_tokenize

def sentence_tokenizing(text):
    return sentence_tokenizing(text)

data['comment'] = data.apply(lambda text:sent_tokenize(text['comment']), axis=1)
data

Unnamed: 0,comment
0,[نسبت به قیمتش ارزش خرید داره\nجاداره، طراحیش ...
1,"[چند ماهی میشه که گرفتمش‌., برای برنامه نویسی ..."
2,[پراید ستون جدید]
3,[اقا همه چیش خوبه فقط از پایین زیاد حاشیه داره...
4,[گوسی هو اوی p10 lite سیپیو و دوربین و رمش از ...
...,...
235,[پوشش دهی صفر.اصلا پیشنهاد نمیکنم]
236,[نصب این فن خیلی راحته و دردسر زیادی نداره در...
237,[بی کیفیت]
238,[سلام ٬ چندماهی میشه این پاور بانک رو تهیه کرد...


In [74]:
import re
import string

def clean_fa_text(text):
    #removing english characters and signs
    text = ''.join([i for i in text if not ((65 <= ord(i) <91)
                                            or (97 <= ord(i) < 123)
                                            or (48 <= ord(i) < 58))])

    #removing nbsp
    text_list = []
    for char in text:
        if ord(char) == 160:
            text_list.append(' ')
            continue
        text_list.append(char)
    text = ''.join(text_list)

    # removing sign
    text = ''.join([i for i in text if ord(i) not in [33, 34, 35, 36, 37, 38,
                                                      39, 40, 41, 42, 43, 44,
                                                      45, 46, 47, 58, 59, 60,
                                                      61, 62, 63, 64, 91, 92,
                                                      93, 94, 95, 96, 123, 124,
                                                      125, 126, 1548, 1567]])
    text = re.sub('\[.*?\]', '', text)
    text = re.sub('<.*?>+', '', text)
    text = re.sub('[%s]' % re.escape(string.punctuation), '', text)
    text = re.sub('\n', '', text)
    text = re.sub('\w*\d\w*', '', text)
    return text

def apply_clean(list_sentence: list):
    new_list = []
    for sent in list_sentence:
        new_list.append(clean_fa_text(sent))
    return new_list

data['comment'] = data['comment'].apply(apply_clean)
data

Unnamed: 0,comment
0,[نسبت به قیمتش ارزش خرید دارهجاداره طراحیش قشن...
1,"[چند ماهی میشه که گرفتمش‌, برای برنامه نویسی و..."
2,[پراید ستون جدید]
3,[اقا همه چیش خوبه فقط از پایین زیاد حاشیه داره...
4,[گوسی هو اوی سیپیو و دوربین و رمش از این خیل...
...,...
235,[پوشش دهی صفراصلا پیشنهاد نمیکنم]
236,[نصب این فن خیلی راحته و دردسر زیادی نداره در...
237,[بی کیفیت]
238,[سلام ٬ چندماهی میشه این پاور بانک رو تهیه کرد...


In [75]:
#text normalizing
from hazm import Normalizer

def apply_normalizer(list_sentence: list):
    new_list = []
    norm = Normalizer()
    for sent in list_sentence:
        new_list.append(norm.normalize(sent))
    return new_list

data['comment'] = data['comment'].apply(apply_normalizer)
data

Unnamed: 0,comment
0,[نسبت به قیمتش ارزش خرید دارهجاداره طراحیش قشن...
1,"[چند ماهی میشه که گرفتمش, برای برنامه نویسی و ..."
2,[پراید ستون جدید]
3,[اقا همه چیش خوبه فقط از پایین زیاد حاشیه داره...
4,[گوسی هو اوی سیپیو و دوربین و رمش از این خیلی ...
...,...
235,[پوشش دهی صفراصلا پیشنهاد نمی‌کنم]
236,[نصب این فن خیلی راحته و دردسر زیادی نداره درض...
237,[بی‌کیفیت]
238,[سلام ٬ چندماهی میشه این پاور بانک رو تهیه کرد...
