In [1]:
import re
import sys
import pandas as pd
from datetime import datetime


In [2]:
pd.options.display.max_columns= None
pd.options.display.max_colwidth= None
pd.options.display.max_rows = None

In [3]:
# ngram_analysis.py

from sklearn.feature_extraction.text import CountVectorizer
# from hazm import Normalizer, word_tokenize, Stemmer, Lemmatizer, stopwords_list

from connect_to_database_func import connect_db

# ---------------------------
# 1) Fetch comments from DB
# ---------------------------
def fetch_comments(sentiment=None, min_len=2, limit=None):
    """
    Fetch comments (id, title, grade, description, sentiment_result) from DB.
    Optionally filter by sentiment ('negative', 'positive', etc.) and non-empty text.
    """
    conn = connect_db()
    cur = conn.cursor()

    base = """
        SELECT id, title, grade, description, COALESCE(sentiment_result, '') as sentiment_result
        FROM comments
        WHERE description IS NOT NULL
          AND trim(description) <> ''
    """
    args = []
    if sentiment:
        base += " AND lower(sentiment_result) = lower(%s)"
        args.append(sentiment)
    base += " ORDER BY id ASC"
    if limit:
        base += " LIMIT %s"
        args.append(limit)

    cur.execute(base, tuple(args))
    rows = cur.fetchall()
    cur.close()
    conn.close()

    df = pd.DataFrame(rows, columns=["id", "title", "grade", "description", "sentiment_result"])
    # drop very short strings
    df = df[df["description"].str.len() >= min_len].reset_index(drop=True)
    return df






In [4]:
df = fetch_comments()

In [5]:
df.tail(5)

Unnamed: 0,id,title,grade,description,sentiment_result
6640,14918,انتقال وجه,5,خیلی عالی بود\n ازکار کردن بااپ لذت بردم,very positive
6641,14927,خرید شارژ,5,عالی بود وباسرعت زیاد,very positive
6642,14937,انتقال وجه,4,رسید پیچیده است میتواند مفهومی تر مینمال‌تر باشد و از پالت رنگی مشخصی استفاده کند,no sentiment expressed
6643,14940,انتقال وجه,5,عالی بود,very positive
6644,14949,انتقال وجه,5,عالی,very positive


In [6]:
df.head()

Unnamed: 0,id,title,grade,description,sentiment_result
0,1,پرداخت قبض,3,جایی نداره که من بنویسم این موبایل به نام چه کسی هست,no sentiment expressed
1,2,پرداخت قبض,3,به من نگفت که شماره تلفن را باید با کد شهر وارد کنی,negative
2,3,پرداخت قبض,3,قبض تلفن ثابت رو پرداخت کردم. به من نگفت با پیش شماره وارد کن.\n ذخیره هم نکرد قبض را,negative
3,4,پرداخت قبض,4,پس از پرداخت قبض و در حین باز شدن منوی تجربه، یک خطای انگلیسی در صفحه ظاهر شد و به صورت اتوماتیک بسته شد,negative
4,5,سایر,1,منوی حالات نمایش بصورت دوحالت تاریک و روشن میباشد و نیازی به گزینه پیش فرض ندارد.,negative


In [7]:
from preprocessing_main import preprocess

df["preprocessed_comments"]= df["description"].apply(lambda x: preprocess(x,convert_arabic_characters=True, remove_numbers=True, replace_multiple_spaces=True, convert_emojis=True, remove_diacritic=True))

In [8]:
df.head()

Unnamed: 0,id,title,grade,description,sentiment_result,preprocessed_comments
0,1,پرداخت قبض,3,جایی نداره که من بنویسم این موبایل به نام چه کسی هست,no sentiment expressed,جایی نداره که من بنویسم این موبایل به نام چه کسی هست
1,2,پرداخت قبض,3,به من نگفت که شماره تلفن را باید با کد شهر وارد کنی,negative,به من نگفت که شماره تلفن را باید با کد شهر وارد کنی
2,3,پرداخت قبض,3,قبض تلفن ثابت رو پرداخت کردم. به من نگفت با پیش شماره وارد کن.\n ذخیره هم نکرد قبض را,negative,قبض تلفن ثابت رو پرداخت کردم. به من نگفت با پیش شماره وارد کن. ذخیره هم نکرد قبض را
3,4,پرداخت قبض,4,پس از پرداخت قبض و در حین باز شدن منوی تجربه، یک خطای انگلیسی در صفحه ظاهر شد و به صورت اتوماتیک بسته شد,negative,پس از پرداخت قبض و در حین باز شدن منوی تجربه، یک خطای انگلیسی در صفحه ظاهر شد و به صورت اتوماتیک بسته شد
4,5,سایر,1,منوی حالات نمایش بصورت دوحالت تاریک و روشن میباشد و نیازی به گزینه پیش فرض ندارد.,negative,منوی حالات نمایش بصورت دوحالت تاریک و روشن میباشد و نیازی به گزینه پیش فرض ندارد.


In [9]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/mahdi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
# -----------------------------------
# 2) Preprocess & tokenize
# -----------------------------------
from nltk.tokenize import word_tokenize


def clean_and_tokenize(text: str):
    if not isinstance(text, str):
        return []

    # Use your custom preprocessing
    cleaned_text = preprocess(
        text,
        convert_farsi_numbers=True,
        convert_arabic_characters=True,
        remove_diacritic=True,
        remove_numbers=True,
        remove_punctuations=True,
        replace_multiple_spaces=True,
        remove_ha_suffix=True
    )

    # Use NLTK tokenizer (works fine for Persian with spacing)
    tokens = word_tokenize(cleaned_text)

    # Keep Persian words only (optional regex filter)
    tokens = [t for t in tokens if re.match(r"^[\u0600-\u06FF]+$", t)]
    return tokens



In [19]:
# -----------------------------------
# 3) TF-IDF weighted n-grams
# -----------------------------------

from sklearn.feature_extraction.text import TfidfVectorizer

def extract_top_ngrams_tfidf(
    texts,
    ngram_range=(2, 4),
    top_k=30,
    min_df=3,
    max_df=0.6,
    max_features=30000
):
    """Extract top TF-IDF weighted n-grams"""
    vectorizer = TfidfVectorizer(
        tokenizer=clean_and_tokenize,
        preprocessor=lambda x: x,
        token_pattern=None,
        ngram_range=ngram_range,
        min_df=min_df,
        max_df=max_df,
        max_features=max_features
    )

    X = vectorizer.fit_transform(texts)
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = X.sum(axis=0).A1

    df_tfidf = pd.DataFrame({
        "ngram": feature_names,
        "tfidf": tfidf_scores
    }).sort_values("tfidf", ascending=False).head(top_k).reset_index(drop=True)

    df_tfidf["n"] = df_tfidf["ngram"].str.count(" ") + 1
    return df_tfidf



In [20]:
# 4) Group sentiments (3 categories)
# ---------------------------------
def group_sentiments(df):
    df = df.copy()
    df["sentiment_group"] = "neutral"  # default group

    df.loc[df["sentiment_result"].str.lower().isin(["negative", "very negative"]), "sentiment_group"] = "negative"
    df.loc[df["sentiment_result"].str.lower().isin(["positive", "very positive"]), "sentiment_group"] = "positive"
    df.loc[df["sentiment_result"].str.lower().isin(["neutral", "mixed", "no sentiment expressed"]), "sentiment_group"] = "neutral"

    return df



In [21]:
import nltk

# Add local path in case it's not found
nltk.data.path.append("/home/mahdi/nltk_data")

# Ensure both punkt and punkt_tab are available
for pkg in ["punkt", "punkt_tab"]:
    try:
        nltk.data.find(f"tokenizers/{pkg}")
    except LookupError:
        nltk.download(pkg, quiet=True)


In [26]:
# ---------------------------------
# 5) Main analysis pipeline
# ---------------------------------
import os

def main(limit=None):
    print("Fetching comments from database...")
    df = fetch_comments(limit)
    if df.empty:
        print("No comments found.")
        return

    df = group_sentiments(df)
    print(f"Total comments: {len(df)}")

    # ----- ALL comments
    print("\n🔹 Top n-grams (ALL):")
    df_all = extract_top_ngrams_tfidf(df["description"].tolist())
    print(df_all)

    # ----- NEGATIVE
    df_neg = df[df["sentiment_group"] == "negative"]
    if not df_neg.empty:
        print("\n🔴 Top n-grams (NEGATIVE group):")
        df_neg_tfidf = extract_top_ngrams_tfidf(df_neg["description"].tolist())
        print(df_neg_tfidf)
    else:
        df_neg_tfidf = pd.DataFrame()

    # ----- POSITIVE
    df_pos = df[df["sentiment_group"] == "positive"]
    if not df_pos.empty:
        print("\n🟢 Top n-grams (POSITIVE group):")
        df_pos_tfidf = extract_top_ngrams_tfidf(df_pos["description"].tolist())
        print(df_pos_tfidf)
    else:
        df_pos_tfidf = pd.DataFrame()

    # ----- NEUTRAL
    df_neu = df[df["sentiment_group"] == "neutral"]
    if not df_neu.empty:
        print("\n⚪ Top n-grams (NEUTRAL group):")
        df_neu_tfidf = extract_top_ngrams_tfidf(df_neu["description"].tolist())
        print(df_neu_tfidf)
    else:
        df_neu_tfidf = pd.DataFrame()

    # ----- Save to CSVs
    output_dir = "results"
    os.makedirs(output_dir, exist_ok=True)

    df_all.to_csv(os.path.join(output_dir, "tfidf_all.csv"), index=False)
    if not df_neg_tfidf.empty:
        df_neg_tfidf.to_csv(os.path.join(output_dir, "tfidf_negative.csv"), index=False)
    if not df_pos_tfidf.empty:
        df_pos_tfidf.to_csv(os.path.join(output_dir, "tfidf_positive.csv"), index=False)
    if not df_neu_tfidf.empty:
        df_neu_tfidf.to_csv(os.path.join(output_dir, "tfidf_neutral.csv"), index=False)

    print("\n✅ TF-IDF n-gram analysis completed. CSV files generated.")




In [27]:
if __name__ == "__main__":
    import nltk
    nltk.download("punkt", quiet=True)
    sys.exit(main(limit=None))  # set limit=1000 for faster testing

Fetching comments from database...
Total comments: 6645

🔹 Top n-grams (ALL):
            ngram       tfidf  n
0        عالی بود  132.558406  2
1      احراز هویت   80.436336  2
2      انتقال وجه   53.345697  2
3      نمایش داده   51.940069  2
4         خوب بود   45.868107  2
5         در قسمت   45.847604  2
6      بسیار عالی   35.873348  2
7         با سلام   30.786489  2
8        بانک ملت   30.556686  2
9       نرم افزار   29.700850  2
10         بعد از   29.007036  2
11     وجود ندارد   28.271212  2
12     همراه بانک   26.781951  2
13         می شود   25.552856  2
14     شماره کارت   24.812762  2
15        کارت به   24.483148  2
16  دستیار هوشمند   24.019487  2
17        در صفحه   23.966191  2
18       خطا میده   23.794319  2
19     شماره حساب   23.391692  2
20       داده شود   23.325995  2
21      حساب مبدا   22.801239  2
22         عالی و   22.500452  2
23      شارژ حساب   22.025093  2
24         نیست و   21.692300  2
25        به کارت   21.520488  2
26        حساب را   21.437803  

SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)
