# Install the Hazm library for Persian text processing


In [2]:
!pip install hazm



# Import necessary modules

In [3]:
from hazm import *
from collections import Counter
import pandas as pd
import string

# Load the POS tagger model



In [4]:
tagger = POSTagger(model='/content/pos_tagger.model')


# Load the CSV file containing comments


In [5]:

df = pd.read_csv('/content/digikala_comment.csv')

# Preprocessing function for cleaning and normalizing sentences


In [6]:
def preprocess_sentences(comments):

    normalizer = Normalizer()
    normalized_comments = [normalizer.normalize(comment) for comment in comments]
    punctuations = string.punctuation + '،' + '؟'
    cleaned_comments = [''.join(char for char in comment if char not in punctuations) for comment in normalized_comments]

    return cleaned_comments


In [7]:
df['cleaned_comments'] = preprocess_sentences(df['comment'])

# Combine all comments into a single string for initial inspection


In [8]:
all_comments = " ".join(df['cleaned_comments'])
print(all_comments)

نسبت به قیمتش ارزش خرید داره
جاداره طراحیش قشنگه
تنها مشکلش بندهای ضعیفش هست که باعث میشه استحکام چندانی نداشنه باشه چند ماهی میشه که گرفتمش برای برنامه نویسی و کارای گرافیکی ازش استفاده می‌کنم واقعا از هر لحاظ بگین عالیه پراید ستون جدید اقا همه چیش خوبه فقط از پایین زیاد حاشیه داره که با روشن شدن گوشی بیشتر هم میشه و نکته دیگه اینکه به خاطر این‌که اطرافش یه کوچلو خمیده هست گلس بعد یه مدتی جدا مشیه 

ولی در کل با این قیمت بهترین گوشی هست و همه چی داره از دوربین گرفته تا رم و سی پی یو و گرافیک و حسگر‌های مختلف و خیلی چیزای دیگه گوسی هو اوی p ۱۰ lite سیپیو و دوربین و رمش از این خیلی بهتره خودتون میتونین برین تمام مقایسه‌های p ۱۰ liteو این گوشیو ببینین چادر سبک و زیباییه دوختشم عالیه

جنسشم خیلی خوبه چروک نمیشه خیلی خوبه حتما پیشنهاد می‌کنم من چند روزیه این خردکن رو گرفتم 
واقعا کارکرد خوبی داره طراحی ظاهر خردکن هم به نسبت بقیه خردکن‌ها خیلی زیباتره 
تیغه‌های بسیار تیزی داره که اگه موقع شستن حواستون نباشه خیلی راحت دستتون رو میبره جنس کاسه و تیغه هم که خیلی با کیفیت هستش 
پیاز گوجه گردو و

#Apply POS tagging to each text in the DataFrame
# Create a new column 'Tagged' that contains the POS tagging for each *comment*

In [9]:
df['Tagged'] = df['cleaned_comments'].apply(lambda comment: tagger.tag(word_tokenize(comment)))

In [10]:
# Task 2-3: Count occurrences of each POS tag
from collections import Counter

# Initialize a Counter to count the occurrences of POS tags

In [11]:
pos_counter = Counter()

# Update the counter with POS tags from the 'Tagged' column


In [12]:
for tagged in df['Tagged']:
    pos_counter.update(tag for _, tag in tagged)

# Print the occurrences of each POS tag


In [13]:
print("POS Tag Occurrences:")
for tag, count in pos_counter.items():
    print(f"{tag}: {count}")

POS Tag Occurrences:
NOUN: 2202
ADP: 791
NOUN,EZ: 1122
VERB: 1350
ADV: 549
ADJ: 746
SCONJ: 293
ADJ,EZ: 168
DET: 251
ADP,EZ: 177
CCONJ: 650
DET,EZ: 18
NUM: 330
PRON: 235
PUNCT: 30
ADV,EZ: 24
NUM,EZ: 3
PRON,EZ: 4
INTJ: 1


# Initialize a Counter for counting nouns

In [14]:
noun_counter = Counter()

# Extract nouns and count their occurrences


In [16]:

for tagged in df['Tagged']:
    for token, tag in tagged:
        if tag in ['NN', 'NNS', 'NNP', 'NNPS']:
            noun_counter.update([token])

# Get the top 15 most repeated nouns

In [17]:
top_15_nouns = noun_counter.most_common(15)


# Print the top 15 most repeated nouns and their counts

In [18]:
print("Top 15 Most Repeated Nouns:")
for noun, count in top_15_nouns:
    print(f"{noun}: {count}")

Top 15 Most Repeated Nouns:
گوشی: 69
کیفیت: 47
استفاده: 40
یه: 40
قیمت: 30
نسبت: 27
نظر: 27
۸: 27
خرید: 26
یک: 24
دو: 24
پیشنهاد: 23
رو: 23
میشه: 20
شارژ: 19


# Save the modified DataFrame (including POS tagging) into a new CSV file


In [19]:
df.to_csv("output_with_pos.csv", index=False)