# Mount and libraries and data

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
cd "/content/drive/MyDrive/NLP/digikala_data"

/content/drive/MyDrive/NLP/digikala_data


Installing requirements

In [None]:
!pip install pandas numpy hazm tqdm openpyxl scikit-learn transformers sentencepiece
!pip install scikit-learn
!pip install summa
!pip install ace_tools

Importing Libraries

In [None]:
import os, re
import pandas as pd
from tqdm import tqdm
from hazm import Normalizer, sent_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
import numpy as np

In [None]:
COMMENTS_FULL = "digikala-comments.csv"
COMMENTS_PATH = "digikala-comments.csv"
FULL_COMMENTS_FILE = "digikala-comments.csv"

COMMENTS_FILE = "subset_comments.csv"
COMMENTS_SUBSET_PATH = "subset_comments.csv"

PRODUCT_SUBSET_PATH  = "subset_product.csv"
PRODUCT_FILE  = "subset_product.csv"

PRODUCT_PATH  = "cleaned-products.csv"

PRODUCTS_FULL = "digikala-products.csv"
FULL_PRODUCT_FILE  = "digikala-products.csv"
#OUTPUT_EXCEL  = "product_summaries.xlsx"
OUTPUT_CSV = "product_summaries.csv"

MAX_COMMENTS      = 400
MAX_SUM_SENTENCES = 30
MIN_SENT_LEN_WORD = 5

In [None]:
if not os.path.exists(COMMENTS_FILE) or not os.path.exists(PRODUCT_FILE):
    print("Subset files not found — creating 1/5 random sample ...")

    full_comments = pd.read_csv(FULL_COMMENTS_FILE)
    full_products = pd.read_csv(FULL_PRODUCT_FILE, low_memory=False)

    sampled_products = full_products.sample(frac=0.2, random_state=42)
    sampled_comments = full_comments[full_comments['product_id'].isin(sampled_products['id'])]

    sampled_comments.to_csv(COMMENTS_FILE, index=False)
    sampled_products.to_csv(PRODUCT_FILE, index=False)

    print(f"Saved {len(sampled_comments)} comments and {len(sampled_products)} products to subset files.")

# Trying Persian question generation models to make questions from summaries

mT5 fine-tuned specifically for generating questions from Persian text

In [None]:
!pip install fuzzywuzzy --quiet

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
import torch, torchvision
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from transformers import BitsAndBytesConfig
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
from fuzzywuzzy import fuzz



In [None]:
model_id = "myrkur/persian-question-generator"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model     = AutoModelForSeq2SeqLM.from_pretrained(model_id)

qg_pipeline = pipeline(
    "text2text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto"
)

print("Model loaded successfully.")

tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.4M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/416 [00:00<?, ?B/s]

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers


config.json:   0%|          | 0.00/827 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/142 [00:00<?, ?B/s]

Device set to use cuda:0


Model loaded successfully.


In [None]:
from transformers import pipeline

pipe = pipeline("summarization", model="myrkur/persian-question-generator", device_map="auto")
sample_text = """تهران، پایتخت ایران، پرجمعیت‌ترین شهر این کشور است و مرکز سیاسی، اقتصادی و فرهنگی ایران محسوب می‌شود."""
generated_question = pipe([sample_text], temperature=0.3, do_sample=True, repetition_penalty=1.1)
print(generated_question)

Device set to use cuda:0


[{'summary_text': '### تهران کجاست؟'}]


In [None]:
prompt = """
لطفاً ۳ سوال از متن زیر طراحی کن:
متن:
تهران، پایتخت ایران، پرجمعیت‌ترین شهر این کشور است و مرکز سیاسی، اقتصادی و فرهنگی ایران محسوب می‌شود.
"""

inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
outputs = model.generate(
    **inputs,
    max_length=128,
    num_return_sequences=1,
    do_sample=True,
    top_p=0.9,
    temperature=0.99,
    repetition_penalty=1.2
)
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded)

کدام شهر بیشتر ایران است؟


In [None]:
few_shot_examples = """
سؤال: این محصول چه امتیازی دارد؟
جواب: این محصول امتیاز میانگین 4.07 از 5 را کسب کرده است.

سؤال: کاربران درباره قیمت این محصول چه نظری دارند؟
جواب: کاربران قیمت را منصفانه و مناسب دانسته‌اند.

سؤال: چه نقاط قوتی برای این محصول ذکر شده است؟
جواب: کیفیت ساخت بالا، خدمات پس از فروش خوب، نصب سریع و قیمت مناسب.

سؤال: چه مشکلاتی برای محصول گزارش شده است؟
جواب: مشکلاتی مانند خرابی مانومتر، هزینه نصب بالا و ضعف در گارانتی وجود دارد.

سؤال: نصب دستگاه آسان است؟
جواب: بله، نصب سریع و آسان گزارش شده است.
"""

In [None]:
def clean_text(text):
    return text.replace("\n", " ").strip()

In [None]:
def generate_questions_and_answers(summary_text, num_questions=5):
    prompt = f"""
شما یک مدل تولید سوال و جواب از متن فارسی هستید. برای متن زیر، {num_questions} سؤال متنوع و مرتبط با جواب کوتاه تولید کن.

مثال‌ها:
{few_shot_examples}

متن:
{summary_text}

سوال و جواب:
"""

    outputs = qg_pipeline(
    prompt,
    max_new_tokens=150,
    do_sample=True,
    top_p=0.9,
    temperature=0.8,
    num_return_sequences=num_questions*3,
    num_beams=1
)

    qa_pairs = []
    for out in outputs:
        text = out["generated_text"].strip()
        if "سؤال:" in text and "جواب:" in text:
            q = text.split("جواب:")[0].replace("سؤال:", "").strip()
            a = text.split("جواب:")[1].strip()
            qa_pairs.append({"question": q, "answer": a})

    unique_qas = []
    for qa in qa_pairs:
        q = qa["question"]
        if not any(fuzz.token_sort_ratio(q, uqa["question"]) > 70 for uqa in unique_qas):
            unique_qas.append(qa)
        if len(unique_qas) >= num_questions:
            break

    for qa in unique_qas:
        ans = qa["answer"]
        start = summary_text.find(ans)
        end = start + len(ans) if start >= 0 else -1
        qa["start"] = start
        qa["end"] = end

    return unique_qas

In [None]:
sample_summary = '''خلاصه نظرات:
نظر 1: عالی
نظر 2: عالی
نظر 3: کیفیت قابل قبول و مناسب
نظر 4: برای هر خونه نیاز
نظر 5: نصب راحت قیمت عالی

خلاصه ویژگی ها:
عنوان این محصول دستگاه تصفیه کننده آب آکوآ اسپرینگ مدل RO-S151 به همراه فیلتر رسوبگیر گلیتز از دسته بندی سلامت محیط و تصفیه کننده آب میباشد.
این محصول امتیاز میانگین 4.07/5 از تعداد 29 رای دارد. همچنین 50 نفر آن را پسندیده اند و 50 نفر از آن راضی نبوده اند.

از نظر برخی کاربران این محصول دارای نقاط قوت زیر بوده است:
خدمات پس از فروش
کیفیت ساخت بالا
به درد بخور
به قیمت
پشتیبانی خوب
نصب سریع
کیفیت خوب
قیمت منصفانه
طعم خوب اب
کم صدا بودن پمپ
قیمت مناسب

از نظر برخی کاربران این محصول دارای نقاط ضعف زیر بوده است:
عدم پشتیبانی از شهرهای دیگر
مانومتر آن کار نکرد
متاسفانه یکی از سر های تصفیه خراب بود
هزینه نصب
زود از کار افتاد
اصلا رو گارانتی حساب نکنید
نصاب های گوش بر
گارانتی
خدمات پس ازفروش'''

In [None]:
results = generate_questions_and_answers(sample_summary, num_questions=5)

for i, out in enumerate(results):
    print(f"Output {i+1}: {out['generated_text']}\n")

In [None]:
!pip install transformers sentencepiece fuzzywuzzy --quiet

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
from fuzzywuzzy import fuzz
import torch

model_id = "myrkur/persian-question-generator"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)

device = 0 if torch.cuda.is_available() else -1

qg_pipeline = pipeline(
    "text2text-generation",
    model=model,
    tokenizer=tokenizer,
    device=device
)

few_shot_examples = """
سؤال: این محصول چه امتیازی دارد؟
جواب: این محصول امتیاز میانگین 4.07 از 5 را کسب کرده است.

سؤال: کاربران درباره قیمت این محصول چه نظری دارند؟
جواب: کاربران قیمت را منصفانه و مناسب دانسته‌اند.

سؤال: چه نقاط قوتی برای این محصول ذکر شده است؟
جواب: کیفیت ساخت بالا، خدمات پس از فروش خوب، نصب سریع و قیمت مناسب.

سؤال: چه مشکلاتی برای محصول گزارش شده است؟
جواب: مشکلاتی مانند خرابی مانومتر، هزینه نصب بالا و ضعف در گارانتی وجود دارد.

سؤال: نصب دستگاه آسان است؟
جواب: بله، نصب سریع و آسان گزارش شده است.
"""

def generate_questions_and_answers(summary_text, num_questions=5):
    prompt = f"""
شما یک مدل تولید سوال و جواب از متن فارسی هستید. برای متن زیر، {num_questions} سؤال متنوع و مرتبط با جواب کوتاه تولید کن.

مثال‌ها:
{few_shot_examples}

متن:
{summary_text}

سوال و جواب:
"""

    outputs = qg_pipeline(
        prompt,
        max_new_tokens=150,
        do_sample=True,
        top_p=0.9,
        temperature=0.7,
        num_return_sequences=num_questions * 3,
        num_beams=1
    )

    qa_pairs = []
    for out in outputs:
        text = out["generated_text"].strip()
        if "سؤال:" in text and "جواب:" in text:
            question_part = text.split("جواب:")[0].replace("سؤال:", "").strip()
            answer_part = text.split("جواب:")[1].strip()
            qa_pairs.append({"question": question_part, "answer": answer_part})

    unique_qas = []
    for qa in qa_pairs:
        q = qa["question"]
        if not any(fuzz.token_sort_ratio(q, uqa["question"]) > 70 for uqa in unique_qas):
            unique_qas.append(qa)
        if len(unique_qas) >= num_questions:
            break

    for qa in unique_qas:
        ans = qa["answer"]
        start = summary_text.find(ans)
        end = start + len(ans) if start >= 0 else -1
        qa["start"] = start
        qa["end"] = end

    return unique_qas

sample_summary = '''خلاصه نظرات:
نظر 1: عالی
نظر 2: عالی
نظر 3: کیفیت قابل قبول و مناسب
نظر 4: برای هر خونه نیاز
نظر 5: نصب راحت قیمت عالی

خلاصه ویژگی ها:
عنوان این محصول دستگاه تصفیه کننده آب آکوآ اسپرینگ مدل RO-S151 به همراه فیلتر رسوبگیر گلیتز از دسته بندی سلامت محیط و تصفیه کننده آب میباشد.
این محصول امتیاز میانگین 4.07/5 از تعداد 29 رای دارد. همچنین 50 نفر آن را پسندیده اند و 50 نفر از آن راضی نبوده اند.

از نظر برخی کاربران این محصول دارای نقاط قوت زیر بوده است:
خدمات پس از فروش
کیفیت ساخت بالا
به درد بخور
به قیمت
پشتیبانی خوب
نصب سریع
کیفیت خوب
قیمت منصفانه
طعم خوب اب
کم صدا بودن پمپ
قیمت مناسب

از نظر برخی کاربران این محصول دارای نقاط ضعف زیر بوده است:
عدم پشتیبانی از شهرهای دیگر
مانومتر آن کار نکرد
متاسفانه یکی از سر های تصفیه خراب بود
هزینه نصب
زود از کار افتاد
اصلا رو گارانتی حساب نکنید
نصاب های گوش بر
گارانتی
خدمات پس ازفروش'''

results = generate_questions_and_answers(sample_summary, num_questions=5)

for i, qa in enumerate(results, 1):
    print(f"سوال {i}: {qa['question']}")
    print(f"جواب {i}: {qa['answer']}")
    print(f"start: {qa['start']}, end: {qa['end']}")
    print("-" * 40)


Device set to use cuda:0


Old method:

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("final_subset_product_summaries.csv")

In [None]:
df.head(5)

Unnamed: 0,product_id,title_fa,brand,category1,category2,price,min_price_last_month,rate_mean,rate_cnt,likes,dislikes,pros_sample,cons_sample,comments_summary,full_summary
0,9458737,جاکلیدی رزینی مدل حرف s,متفرقه,دست سازه های هنری,جاکلیدی,795000,0,3.6,5,6,1,---,---,نظر 1: مطابق تصویر زیبا و قشنگه\nنظر 2: یه جا ...,خلاصه نظرات:\nنظر 1: مطابق تصویر زیبا و قشنگه\...
1,10810562,کرم مرطوب کننده بیوتیسا مدل ویتامینه حجم 150 م...,بیوتیسا,مراقبت پوست,کرم مرطوب کننده و نرم کننده,1278000,0,4.0,1,0,0,---,---,نظر 1: محصولات بیوتیسا خیلی با کیفیت هستند. ام...,خلاصه نظرات:\nنظر 1: محصولات بیوتیسا خیلی با ک...
2,6954724,ادو پرفیوم زنانه کاساموراتی مدل LIRA حجم 100 م...,کاساموراتی,عطر و ادکلن زنانه,,70000000,70000000,5.0,1,4,0,---,---,نظر 1: حتی عکسهایی که گذاشتن مربوط به فیکش هست...,خلاصه نظرات:\nنظر 1: حتی عکسهایی که گذاشتن مرب...
3,2516695,کتاب مکالمه زبان انگلیسی + گرامر در 60 روز: دو...,انتشارات جنگل,کتاب زبان,,795000,695000,2.335714,56,12,0,هر درس گرامر و لغت با هم داره\nداشتن نکته و سو...,نمی دانم\nمعانی لغات بدون مثال و تلفظ\nقیمت زی...,نظر 1: مناسبه\nنظر 2: خوبه\nنظر 3: آموزنده و ک...,خلاصه نظرات:\nنظر 1: مناسبه\nنظر 2: خوبه\nنظر ...
4,617546,تی شرت آستین کوتاه مردانه شین دیزاین طرح حروف ...,شین دیزاین,لباس مردانه,تی شرت مردانه,690000,0,2.943,200,52,3,خنک\nارزان\nعالی بود\nسایز درست\nقیمت خوب\nجنس...,بی کیفیت.\nنامرغوب و با سایز غلط\nکیفیت پایین\...,نظر 1: بدبدبدبدبددبدبددبد\nنظر 2: لاستیکه\nنظر...,خلاصه نظرات:\nنظر 1: بدبدبدبدبددبدبددبد\nنظر 2...


In [None]:
def generate_questions_from_summary(summary_text, num_questions=5):
    prompt = f'''
    از روی متن زیر، {num_questions} سؤال متفاوت طراحی کن.
متن:
{summary_text}
    '''

    outputs = qg_pipeline(
        prompt,
        max_length=64,
        do_sample=True,
        top_p=0.9,
        temperature=0.99,
        num_return_sequences=num_questions,
        num_beams=1
    )
    questions = [out["generated_text"].strip() for out in outputs]
    return questions

sample_df = df.head(50).copy()

sample_df['questions'] = sample_df['full_summary'].apply(lambda x: generate_questions_from_summary(x, num_questions=5))

print(sample_df[['full_summary', 'questions']])

sample_df[['title_fa', 'full_summary', 'questions']].to_csv("sample_with_questions.csv", index=False)
sample_df.to_excel("sample_with_questions.xlsx")

Both `max_new_tokens` (=256) and `max_length`(=64) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=256) and `max_length`(=64) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=256) and `max_length`(=64) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=256) and `max_length`(=64) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both

                                         full_summary  \
0   خلاصه نظرات:\nنظر 1: مطابق تصویر زیبا و قشنگه\...   
1   خلاصه نظرات:\nنظر 1: محصولات بیوتیسا خیلی با ک...   
2   خلاصه نظرات:\nنظر 1: حتی عکسهایی که گذاشتن مرب...   
3   خلاصه نظرات:\nنظر 1: مناسبه\nنظر 2: خوبه\nنظر ...   
4   خلاصه نظرات:\nنظر 1: بدبدبدبدبددبدبددبد\nنظر 2...   
5   خلاصه نظرات:\nنظر 1: پلاک نازک وکوچیکه،. لبه ه...   
6   خلاصه نظرات:\nنظر 1: کارش رضایت بخشه\nنظر 2: ب...   
7   خلاصه نظرات:\nنظر 1: جنسش زیاد خوب نیست\nنظر 2...   
8   خلاصه نظرات:\nنظر 1: Kheyli khoshbue\nنظر 2: ع...   
9   خلاصه نظرات:\nنظر 1: کاملا راضی بودم.\nنظر 2: ...   
10  خلاصه نظرات:\nنظر 1: کاملا معمولی\nنظر 2: خوشگ...   
11  خلاصه نظرات:\nنظر 1: عالیه\nنظر 2: کوچیو بود\n...   
12  خلاصه نظرات:\nنظر 1: کتاب خوبیه\nنظر 2: کتاب ع...   
13  خلاصه نظرات:\nنظر 1: به تظرم فیک بود\nنظر 2: ب...   
14  خلاصه نظرات:\nنظر 1: ممنونن\nنظر 2: مناسب\nنظر...   
15  خلاصه نظرات:\nنظر 1: عالی نسبت به بازار\nنظر 2...   
16  خلاصه نظرات:\nنظر 1: برای م

## PersianLLaMA-13B

In [None]:
!pip install bitsandbytes accelerate

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.1-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.2->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-c

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "ViraIntelligentDataMining/PersianLLaMA-13B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "این متن به فارسی است"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(inputs["input_ids"])
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

In [None]:
model_id = "ViraIntelligentDataMining/PersianLLaMA-13B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.float16
)

In [None]:
qg_llm = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    do_sample=True,
    top_p=0.9,
    temperature=0.7,
    max_new_tokens=64,
    num_return_sequences=5,
    num_beams=1,
)

Device set to use cuda:0


In [None]:
def generate_questions_llm(summary_text, num_questions=5):
    prompt = (
        "متن زیر را بخوان و چند سؤال متنوع درباره‌ی آن بنویس:\n"
        f"{summary_text}\n"
        "سؤالات:\n1."
    )
    out = qg_llm(prompt)
    text = out[0]["generated_text"]
    return text.splitlines()[:num_questions]

sample = '''خلاصه نظرات:
نظر 1: مطابق تصویر زیبا و قشنگه
نظر 2: یه جا کلیدی خیلی ساده که یه عکس خیلی شیک ازش گذاشتن داخل سایت. باقیمت خیلی بالا. من ۸۰ تومن خریدم که اصلا با این قیمت ارزش خرید نداره
نظر 3: خیلی زیبا و شیک، دقیقا ظاهر شبیه عکس
نظر 4: با این قیمت ارزش نداره
نظر 5: خیلی خوشگل و براق بود


خلاصه ویژگی ها:
عنوان این محصول جاکلیدی رزینی مدل حرف s از دسته بندی دست سازه های هنری و جاکلیدی میباشد.
این محصول امتیاز میانگین 3.60/5 از تعداد 5 رای دارد. همچنین 6 نفر آن را پسندیده اند و 1 نفر از آن راضی نبوده اند.

هیچ نقطه ضعف و نقطه قوتی برای این محصول توسط کاربران ثبت نشده است.'''

print(generate_questions_llm(sample, 5))

In [None]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

model_id = "ViraIntelligentDataMining/PersianLLaMA-13B"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto",
    torch_dtype=torch.float16,
)

In [None]:
qg_llm = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=64,
    do_sample=True,
    top_p=0.9,
    temperature=0.7,
    num_return_sequences=5,
    num_beams=1
)

Device set to use cuda:0


In [None]:
def generate_questions_llm(summary_text: str, num_questions: int = 5) -> list[str]:
    prompt = (
        "متن زیر را بخوان و چند سؤال متنوع درباره‌ی آن بنویس:\n"
        f"{summary_text}\n"
        "سؤالات:\n1."
    )
    outs = qg_llm(prompt)
    text = outs[0]["generated_text"]
    lines = [l.strip() for l in text.splitlines()
             if re.match(r"^[12۳-۹]\s*[\.٫]", l)]
    return lines[:num_questions]

In [None]:
import time, re
sample = "این دستگاه کیفیت ساخت بالایی دارد و باتری آن تا دو روز شارژ نگه می‌دارد."
t0 = time.time()
qs = generate_questions_llm(sample, num_questions=5)
print("Generated in", time.time() - t0, "seconds")
for i, q in enumerate(qs, 1):
    print(f"سؤال {i}: {q}")

Generated in 54.68255639076233 seconds
سؤال 1: 1. آیا این جمله با جمله زیر یک جمله است؟  [NEW_LINE]  «این دستگاه کیفیت ساخت بالایی دارد و باتری آن تا دو روز شارژ نگه می‌دارد.»  [NEW_LINE] ۲. آیا این جمله با جمله زیر یک جمله است؟  [NEW_LINE]  «


In [None]:
sample = '''خلاصه نظرات:
نظر 1: مطابق تصویر زیبا و قشنگه
نظر 2: یه جا کلیدی خیلی ساده که یه عکس خیلی شیک ازش گذاشتن داخل سایت. باقیمت خیلی بالا. من ۸۰ تومن خریدم که اصلا با این قیمت ارزش خرید نداره
نظر 3: خیلی زیبا و شیک، دقیقا ظاهر شبیه عکس
نظر 4: با این قیمت ارزش نداره
نظر 5: خیلی خوشگل و براق بود


خلاصه ویژگی ها:
عنوان این محصول جاکلیدی رزینی مدل حرف s از دسته بندی دست سازه های هنری و جاکلیدی میباشد.
این محصول امتیاز میانگین 3.60/5 از تعداد 5 رای دارد. همچنین 6 نفر آن را پسندیده اند و 1 نفر از آن راضی نبوده اند.

هیچ نقطه ضعف و نقطه قوتی برای این محصول توسط کاربران ثبت نشده است.'''
t0 = time.time()
qs = generate_questions_llm(sample, num_questions=5)
print("Generated in", time.time() - t0, "seconds")
for i, q in enumerate(qs, 1):
    print(f"سؤال {i}: {q}")

Generated in 60.14301943778992 seconds
سؤال 1: 1. در کدام وبسایت‌ها می‌توانید این محصول را خریداری کنید؟ (البته می‌توانید در این وبسایت هم این محصول را خریداری کنید)  [NEW_LINE] ۲. این محصول از چه جنس ساخته‌شده است؟  [NEW_LINE] ۳. این محصول از چه مواد


## Persian Mistral

In [None]:
from transformers import AutoTokenizer, LlamaForCausalLM

model_id = "aidal/Persian-Mistral-7B"
tokenizer_id = "baffo32/decapoda-research-llama-7B-hf"

tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
model = LlamaForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")

tokenizer_config.json:   0%|          | 0.00/142 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message.
You are using a model of type mistral to instantiate a model of type llama. This is not supported for all configurations of models and can yield errors.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]



In [None]:
def generate_questions(summary_text, num_questions=5):
    prompt = f"""شما یک مدل تولید سوال هستید. لطفا {num_questions} سوال متنوع و مرتبط درباره متن زیر بنویسید:

متن:
{summary_text}

سوال‌ها:
1."""

    outputs = pipe(
        prompt,
        max_new_tokens=256,
        do_sample=True,
        top_p=0.9,
        temperature=0.8,
        num_return_sequences=1
    )

    generated_text = outputs[0]["generated_text"]


    questions = re.split(r"\n?\d+\.", generated_text)
    questions = [q.strip() for q in questions if q.strip()]
    questions = questions[:num_questions]

    return questions

sample_summary = """خلاصه نظرات:
نظر 1: عالی
نظر 2: عالی
نظر 3: کیفیت قابل قبول و مناسب
نظر 4: برای هر خونه نیاز
نظر 5: نصب راحت قیمت عالی

خلاصه ویژگی ها:
عنوان این محصول دستگاه تصفیه کننده آب آکوآ اسپرینگ مدل RO-S151 به همراه فیلتر رسوبگیر گلیتز از دسته بندی سلامت محیط و تصفیه کننده آب میباشد.
این محصول امتیاز میانگین 4.07/5 از تعداد 29 رای دارد. همچنین 50 نفر آن را پسندیده اند و 50 نفر از آن راضی نبوده اند.

از نظر برخی کاربران این محصول دارای نقاط قوت زیر بوده است:
خدمات پس از فروش
کیفیت ساخت بالا
به درد بخور
به قیمت
پشتیبانی خوب
نصب سریع
کیفیت خوب
قیمت منصفانه
طعم خوب اب
کم صدا بودن پمپ
قیمت مناسب

از نظر برخی کاربران این محصول دارای نقاط ضعف زیر بوده است:
عدم پشتیبانی از شهرهای دیگر
مانومتر آن کار نکرد
متاسفانه یکی از سر های تصفیه خراب بود
هزینه نصب
زود از کار افتاد
اصلا رو گارانتی حساب نکنید
نصاب های گوش بر
گارانتی
خدمات پس ازفروش"""

questions = generate_questions(sample_summary, num_questions=5)
for i, q in enumerate(questions, 1):
    print(f"سوال {i}: {q}")

## Persian Mind

In [None]:
%pip install bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.1-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Downloading bitsandbytes-0.46.1-py3-none-manylinux_2_24_x86_64.whl (72.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m72.9/72.9 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.46.1


In [None]:
import torch
device = "cuda"

In [None]:
from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
)
model = AutoModelForCausalLM.from_pretrained(
    "universitytehran/PersianMind-v1.0",
    quantization_config=quantization_config,
    device_map="auto"
)

In [None]:
model = AutoModelForCausalLM.from_pretrained(
    "universitytehran/PersianMind-v1.0",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    device_map={"": device},
)

tokenizer = AutoTokenizer.from_pretrained(
    "universitytehran/PersianMind-v1.0",
)

In [None]:
TEMPLATE = "{context}\nYou: {prompt}\nPersianMind: "
CONTEXT = "This is a conversation with PersianMind. It is an artificial intelligence model designed by a team of " \
    "NLP experts at the University of Tehran to help you with various tasks such as answering questions, " \
    "providing recommendations, and helping with decision making. You can ask it anything you want and " \
    "it will do its best to give you accurate and relevant information."
PROMPT = "در مورد هوش مصنوعی توضیح بده."

model_input = TEMPLATE.format(context=CONTEXT, prompt=PROMPT)
input_tokens = tokenizer(model_input, return_tensors="pt")
input_tokens = input_tokens.to(device)
generate_ids = model.generate(**input_tokens, max_new_tokens=512, do_sample=False, repetition_penalty=1.1)
model_output = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

print(model_output[len(model_input):])

In [None]:
TEMPLATE = "{context}\nYou: {prompt}\nPersianMind: "
CONTEXT = "This is a conversation with PersianMind. It is an artificial intelligence model designed by a team of " \
    "NLP experts at the University of Tehran to help you with various tasks such as answering questions, " \
    "providing recommendations, and helping with decision making. You can ask it anything you want and " \
    "it will do its best to give you accurate and relevant information."

TEXT = '''من سینا دانشگر هستم، دانشجوی علوم کامپیوتر دانشگاه شریف. در حال حاضر ۲۱ سالمه و سعی میکنم که تمرین درس پردازش زبان‌های طبیعی را به بهترین نحو ممکن انجام دهم.
هدف نهایی بنده کسب نمره‌ی ۲۰ در این درس می‌باشد. استاد این درس نیز دکتر احسان عسگری هستند.
'''

PROMPT = f"از متن زیر ۵ سوال فارسی روان و جذاب بساز که کمک کند نکات مهم متن مشخص شود:\n{TEXT}\nسوال‌ها: دقت کن که سوال‌هات تکراری نباشن و خلاقیت لازم رو به خرج بدی"

model_input = TEMPLATE.format(context=CONTEXT, prompt=PROMPT)
input_tokens = tokenizer(model_input, return_tensors="pt")
input_tokens = input_tokens.to(device)
generate_ids = model.generate(**input_tokens, max_new_tokens=512, do_sample=False, repetition_penalty=1.1)
model_output = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

print(model_output[len(model_input):])

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


1) از نظر شما این محصول چه ویژگی هایی داره؟ 2) آیا این محصول در مقایسه با سایر محصولات مشابه ارزش خرید رو داره؟ 3) آیا این محصول به درد شما میخوره یا نه؟ 4) آیا این محصول به درد شما میخوره یا نه؟ 5) آیا این محصول به درد شما میخوره یا نه؟


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model_name = "universitytehran/PersianMind-v1.0"


tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

text = """
خلاصه نظرات:
نظر 1: مطابق تصویر زیبا و قشنگه
نظر 2: یه جا کلیدی خیلی ساده که یه عکس خیلی شیک ازش گذاشتن داخل سایت. باقیمت خیلی بالا. من ۸۰ تومن خریدم که اصلا با این قیمت ارزش خرید نداره
نظر 3: خیلی زیبا و شیک، دقیقا ظاهر شبیه عکس
نظر 4: با این قیمت ارزش نداره
نظر 5: خیلی خوشگل و براق بود

خلاصه ویژگی ها:
عنوان این محصول جاکلیدی رزینی مدل حرف s از دسته بندی دست سازه های هنری و جاکلیدی میباشد.
این محصول امتیاز میانگین 3.60/5 از تعداد 5 رای دارد. همچنین 6 نفر آن را پسندیده اند و 1 نفر از آن راضی نبوده اند.
"""

prompt = f"از متن زیر ۵ سوال فارسی روان و جذاب بساز که کمک کند نکات مهم متن مشخص شود:\n{text}\nسوال‌ها:"

output = generator(prompt, max_length=300, num_return_sequences=1)[0]["generated_text"]

In [None]:
print(output)

## Google MT5 small (just test!)

In [None]:
!pip install transformers accelerate --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m81.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m93.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m59.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m12.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
from transformers import MT5ForConditionalGeneration, MT5Tokenizer
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline

In [None]:
pipe = pipeline(
    task="summarization",
    model="myrkur/persian-question-generator",
    tokenizer="myrkur/persian-question-generator",
    device=0 if __import__("torch").cuda.is_available() else -1
)

Device set to use cuda:0


In [None]:
input_text = """
خلاصه نظرات:
نظر 1: عالی
نظر 2: عالی
نظر 3: کیفیت قابل قبول و مناسب
نظر 4: برای هر خونه نیاز
نظر 5: نصب راحت قیمت عالی

خلاصه ویژگی ها:
عنوان این محصول دستگاه تصفیه کننده آب آکوآ اسپرینگ مدل RO-S151 به همراه فیلتر رسوبگیر گلیتز از دسته بندی سلامت محیط و تصفیه کننده آب میباشد.
این محصول امتیاز میانگین 4.07/5 از تعداد 29 رای دارد. همچنین 50 نفر آن را پسندیده اند و 50 نفر از آن راضی نبوده اند.

از نظر برخی کاربران این محصول دارای نقاط قوت زیر بوده است:
خدمات پس از فروش
کیفیت ساخت بالا
به درد بخور
به قیمت
پشتیبانی خوب
نصب سریع
کیفیت خوب
قیمت منصفانه
طعم خوب اب
کم صدا بودن پمپ
قیمت مناسب

از نظر برخی کاربران این محصول دارای نقاط ضعف زیر بوده است:
عدم پشتیبانی از شهرهای دیگر
مانومتر آن کار نکرد
متاسفانه یکی از سر های تصفیه خراب بود
هزینه نصب
زود از کار افتاد
اصلا رو گارانتی حساب نکنید
نصاب های گوش بر
گارانتی
خدمات پس ازفروش
"""

In [None]:
questions = pipe([input_text], do_sample=False, temperature=0.3, repetition_penalty=1.2)

print("سوالات تولید شده:\n")
print(questions[0])

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


سوالات تولید شده:

{'summary_text': 'بهترین دستگاه تصفیه کننده آب آکوآ اسپرینگ کدام است؟'}


In [None]:
prompt = f"""
از متن زیر، ۵ سؤال متنوع به همراه جواب طراحی کن. هر سؤال باید یک جنبهٔ متفاوت از محصول را بررسی کند.
مثلاً: کیفیت ساخت، خدمات پس از فروش، قیمت، کاربرد، معایب، مزایا، و ...
بعد از هر سوال جواب آن را هم بنویس


قوانین طراحی سؤال:
- تکراری نباشند
- هم‌پوشانی معنایی نداشته باشند
- واضح و دقیق باشند
- موضوعات مختلف را بپوشانند
- جواب آنها در متن باشد
- جواب آنها را هم بنویس

متن:
{input_text}
"""

questions = pipe(prompt)

In [None]:
tokenizer = AutoTokenizer.from_pretrained("myrkur/persian-question-generator")
model = AutoModelForSeq2SeqLM.from_pretrained("myrkur/persian-question-generator")

In [None]:
inputs = tokenizer(prompt, return_tensors="pt", max_length=512, truncation=True)

outputs = model.generate(
    **inputs,
    max_length=128,
    num_beams=5,
    num_return_sequences=5,
    no_repeat_ngram_size=3,
    early_stopping=True
)

In [None]:
print("سوالات:\n")
for i, out in enumerate(outputs):
    q = tokenizer.decode(out, skip_special_tokens=True)
    print(f"{i+1}. {q}")

سوالات:

1. بهترین دستگاه تصفیه کننده آب آکوآ اسپرینگ کدام است؟
2. چرا دستگاه تصفیه کننده آب آکوآ اسپرینگ خوبه؟
3. چرا دستگاه تصفیه آب آکوآ اسپرینگ خوبه؟
4. چرا دستگاه تصفیه کننده آب آکوآ اسپرینگ را انتخاب کنیم؟
5. چرا باید دستگاه تصفیه کننده آب آکوآ اسپرینگ را انتخاب کنیم؟


## New multi-lingual model (valhalla)

In [None]:
!pip install transformers sentencepiece --quiet

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = "valhalla/t5-small-qg-hl"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

In [None]:
text = """
عنوان این محصول دستگاه تصفیه کننده آب آکوآ اسپرینگ مدل RO-S151 به همراه فیلتر رسوبگیر گلیتز از دسته بندی سلامت محیط و تصفیه کننده آب میباشد.
این محصول امتیاز میانگین 4.07/5 از تعداد 29 رای دارد. همچنین 50 نفر آن را پسندیده اند و 50 نفر از آن راضی نبوده اند.

از نظر برخی کاربران این محصول دارای نقاط قوت زیر بوده است:
خدمات پس از فروش، کیفیت ساخت بالا، به درد بخور، به قیمت، پشتیبانی خوب، نصب سریع، کیفیت خوب، قیمت منصفانه، طعم خوب آب، کم صدا بودن پمپ، قیمت مناسب

از نظر برخی کاربران این محصول دارای نقاط ضعف زیر بوده است:
عدم پشتیبانی از شهرهای دیگر، مانومتر آن کار نکرد، متاسفانه یکی از سرهای تصفیه خراب بود، هزینه نصب، زود از کار افتاد، اصلا رو گارانتی حساب نکنید، نصاب های گوش بر، گارانتی، خدمات پس ازفروش
"""

In [None]:
highlights = [
    "امتیاز میانگین 4.07/5 از تعداد 29 رای",
    "خدمات پس از فروش",
    "کیفیت ساخت بالا",
    "قیمت منصفانه",
    "مانومتر آن کار نکرد",
    "گارانتی"
]

In [None]:
def generate_question(highlight, context):
    hl_text = context.replace(highlight, f"<hl> {highlight} <hl>")
    input_text = f"generate question: {hl_text}"

    input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)
    with torch.no_grad():
        output_ids = model.generate(input_ids, max_length=64, num_beams=4, early_stopping=True)

    question = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    return question

print("✅ سوالات تولید شده:\n")
for h in highlights:
    question = generate_question(h, text)
    print(f"🔹 Highlight: {h}")
    print(f"❓ Question: {question}\n")

✅ سوالات تولید شده:

🔹 Highlight: امتیاز میانگین 4.07/5 از تعداد 29 رای
❓ Question:     ?

🔹 Highlight: خدمات پس از فروش
❓ Question:        :                       

🔹 Highlight: کیفیت ساخت بالا
❓ Question:                                

🔹 Highlight: قیمت منصفانه
❓ Question:            ?

🔹 Highlight: مانومتر آن کار نکرد
❓ Question:             ?

🔹 Highlight: گارانتی
❓ Question:           ?



# Gemini API

In [None]:
!pip install --quiet google-generativeai pandas tqdm

In [None]:
import os
os.environ["GOOGLE_API_KEY"] = "AIzaSyBeIMMaKKyyNEHdXHRhX_7nGBkmEh5k_Pw"

In [None]:
import google.generativeai as genai
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

MODEL = genai.GenerativeModel("gemini-1.5-flash")

In [None]:
PROMPT_TEMPLATE = """
از خلاصهٔ زیر برای همین محصول، ۳ تا ۵ سؤال کوتاه به زبان فارسی بساز
و برای هر سؤال یک پاسخ کوتاه (۱-۲ جمله) بده که در خلاصه باشد.
خروجی را دقیقا به صورت JSON آرایه‌ای از آبجکت‌های
{{"question": "...", "answer": "..."}} برگردان. هیچ متن اضافه‌ای نیاید.

خلاصهٔ محصول:
\"\"\"{summary}\"\"\"
"""

In [None]:
import pandas as pd, json, time
from tqdm.auto import tqdm

CSV = "/content/drive/MyDrive/Test.csv"
df  = pd.read_csv(CSV)

In [None]:
def qa_from_summary(summary: str, retries=3):
    prompt = PROMPT_TEMPLATE.format(summary=summary[:3500])
    for _ in range(retries):
        try:
            resp = MODEL.generate_content(
                prompt,
                generation_config={
                    "temperature": 0.7,
                    "max_output_tokens": 256,
                },
            )
            return json.loads(resp.text)
        except Exception as e:
            time.sleep(2)
    return []

results = []
for i, row in tqdm(df.iterrows(), total=len(df)):
    qas = qa_from_summary(row["full_summary"])
    results.append({
        "product_id": row["product_id"],
        "qa": qas
    })

  0%|          | 0/3 [00:00<?, ?it/s]

ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6313.06ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1285.35ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1509.96ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 5155.47ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 6139.18ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 1008.35ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint (127.0.0.1) 2717.41ms
ERROR:tornado.access:503 POST /v1beta/models/gemini-1.5-flash:

In [None]:
import json, pathlib
pathlib.Path("qa_results.jsonl").write_text(
    "\n".join(json.dumps(r, ensure_ascii=False) for r in results),
    encoding="utf-8"
)

print("File saved --> test_qa_results.jsonl")

File saved --> test_qa_results.jsonl


# NER Detection - Machine Translation - English QG

In [None]:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Looking in indexes: https://download.pytorch.org/whl/cpu
Collecting torch
  Using cached https://download.pytorch.org/whl/cpu/torch-2.7.1%2Bcpu-cp312-cp312-win_amd64.whl.metadata (27 kB)
Collecting torchvision
  Using cached https://download.pytorch.org/whl/cpu/torchvision-0.22.1%2Bcpu-cp312-cp312-win_amd64.whl.metadata (6.3 kB)
Collecting torchaudio
  Using cached https://download.pytorch.org/whl/cpu/torchaudio-2.7.1%2Bcpu-cp312-cp312-win_amd64.whl.metadata (6.8 kB)
Collecting sympy>=1.13.3 (from torch)
  Using cached https://download.pytorch.org/whl/sympy-1.13.3-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch)
  Using cached https://download.pytorch.org/whl/networkx-3.3-py3-none-any.whl.metadata (5.1 kB)
Using cached https://download.pytorch.org/whl/cpu/torch-2.7.1%2Bcpu-cp312-cp312-win_amd64.whl (216.0 MB)
Using cached https://download.pytorch.org/whl/cpu/torchvision-0.22.1%2Bcpu-cp312-cp312-win_amd64.whl (1.7 MB)
Using cached https://download.pytorch.org/whl/cpu/t



Looking in indexes: https://download.pytorch.org/whl/cu121
Collecting torch
  Downloading https://download.pytorch.org/whl/cu121/torch-2.5.1%2Bcu121-cp312-cp312-win_amd64.whl (2449.3 MB)
     ---------------------------------------- 0.0/2.4 GB ? eta -:--:--
     ---------------------------------------- 0.0/2.4 GB ? eta -:--:--
     ---------------------------------------- 0.0/2.4 GB 3.4 MB/s eta 0:12:09
     ---------------------------------------- 0.0/2.4 GB 3.9 MB/s eta 0:10:32
     ---------------------------------------- 0.0/2.4 GB 4.0 MB/s eta 0:10:15
     ---------------------------------------- 0.0/2.4 GB 4.2 MB/s eta 0:09:43
     ---------------------------------------- 0.0/2.4 GB 4.4 MB/s eta 0:09:17
     ---------------------------------------- 0.0/2.4 GB 4.6 MB/s eta 0:08:50
     ---------------------------------------- 0.0/2.4 GB 4.8 MB/s eta 0:08:27
     ---------------------------------------- 0.0/2.4 GB 4.7 MB/s eta 0:08:44
     ---------------------------------------- 0



Looking in indexes: https://download.pytorch.org/whl/cu121Note: you may need to restart the kernel to use updated packages.

Collecting torch
  Downloading https://download.pytorch.org/whl/cu121/torch-2.5.1%2Bcu121-cp312-cp312-win_amd64.whl (2449.3 MB)
     ---------------------------------------- 0.0/2.4 GB ? eta -:--:--
     ---------------------------------------- 0.0/2.4 GB ? eta -:--:--
     ---------------------------------------- 0.0/2.4 GB ? eta -:--:--
     ---------------------------------------- 0.0/2.4 GB 837.5 kB/s eta 0:48:44
     ---------------------------------------- 0.0/2.4 GB 837.5 kB/s eta 0:48:44
     ---------------------------------------- 0.0/2.4 GB 699.0 kB/s eta 0:58:23
     ---------------------------------------- 0.0/2.4 GB 699.0 kB/s eta 0:58:23
     ---------------------------------------- 0.0/2.4 GB 689.2 kB/s eta 0:59:13
     ---------------------------------------- 0.0/2.4 GB 762.6 kB/s eta 0:53:31
     ---------------------------------------- 0.0/2.4 



     ------- -------------------------------- 0.4/2.4 GB 572.5 kB/s eta 0:58:21
     ------- -------------------------------- 0.4/2.4 GB 572.5 kB/s eta 0:58:21
     ------- -------------------------------- 0.4/2.4 GB 570.7 kB/s eta 0:58:32
     ------- -------------------------------- 0.4/2.4 GB 570.7 kB/s eta 0:58:32
     ------- -------------------------------- 0.4/2.4 GB 564.2 kB/s eta 0:59:11
     ------- -------------------------------- 0.4/2.4 GB 564.2 kB/s eta 0:59:11
     ------- -------------------------------- 0.4/2.4 GB 568.0 kB/s eta 0:58:47
     ------- -------------------------------- 0.4/2.4 GB 563.9 kB/s eta 0:59:12
     ------- -------------------------------- 0.4/2.4 GB 563.9 kB/s eta 0:59:12
     ------- -------------------------------- 0.4/2.4 GB 562.8 kB/s eta 0:59:19
     ------- -------------------------------- 0.4/2.4 GB 562.8 kB/s eta 0:59:19
     ------- -------------------------------- 0.4/2.4 GB 561.3 kB/s eta 0:59:28
     ------- ---------------------------

**Libraries**

In [None]:
import torch
import pandas as pd, json, uuid
from tqdm.auto import tqdm
from transformers import pipeline

**NER Phase**

In [None]:
ner = pipeline(
        task="token-classification",
        model="HooshvareLab/bert-fa-base-uncased-ner-peyma",
        aggregation_strategy="simple",
        device=0
)

In [None]:
txt = "من گوشی سامسونگ Galaxy S23 Ultra را خریدم."
print(ner(txt))

In [None]:
def mask_entities(text: str):
    ents  = ner(text)
    ent_map = {}
    masked  = text
    for e in sorted(ents, key=lambda x: x["start"], reverse=True):
        placeholder = f"[ENT_{uuid.uuid4().hex[:8]}]"
        masked      = masked[:e["start"]] + placeholder + masked[e["end"]:]
        ent_map[placeholder] = text[e["start"]:e["end"]]
    return masked, ent_map

In [None]:
INPUT_CSV  = "highest_3000_info_data.csv"
OUTPUT_CSV = "NER_3000_data.csv"

In [None]:
df = pd.read_csv(INPUT_CSV)

In [None]:
masked_col, map_col = [], []
for txt in tqdm(df["full_summary"].astype(str), desc="Masking NER"):
    m, mp = mask_entities(txt)
    masked_col.append(m)
    map_col.append(json.dumps(mp, ensure_ascii=False))

In [None]:
df["summary_NER"] = masked_col
df["entity_map"]  = map_col

In [None]:
df.to_csv(OUTPUT_CSV, index=False, columns=[*df.columns])

print(f"File saved → {OUTPUT_CSV}")

In [None]:
df[["summary_NER"]].head(2)

# gpt-4o-mini API (Final)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
cd '/content/drive/MyDrive/NLP/digikala_data'

/content/drive/MyDrive/NLP/digikala_data


In [None]:
!pip install --upgrade tenacity tqdm openai

Defaulting to user installation because normal site-packages is not writeable
Collecting tenacity
  Using cached tenacity-9.1.2-py3-none-any.whl.metadata (1.2 kB)
Collecting openai
  Downloading openai-1.99.1-py3-none-any.whl.metadata (29 kB)
Using cached tenacity-9.1.2-py3-none-any.whl (28 kB)
Downloading openai-1.99.1-py3-none-any.whl (767 kB)
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   ---------------------------------------- 0.0/767.8 kB ? eta -:--:--
   ------------- -------------------------- 262.1/767.8 kB ? eta -:--:--
   ------------- -------------------------- 262.1/767.8 kB ? eta -:--:--
   ------------- -------------------------- 262.1/767.8 kB ? eta -:--:--
   ------------------------- ------------ 524.3/767.8 kB 356.7 kB/s eta 0:00:0


[notice] A new release of pip is available: 25.0.1 -> 25.2
[notice] To update, run: C:\Program Files\Python311\python.exe -m pip install --upgrade pip


In [None]:
import os, json, time
import pandas as pd
from tqdm.auto import tqdm
from tenacity import retry, wait_random_exponential, stop_after_attempt
from openai import OpenAI

In [None]:
API_KEY   = "sk-Mji2jQO3nICTnZV3gm61OwzaLyMH07X6iQCKtRSTwWGosiM7"
BASE_URL  = "https://api.gapgpt.app/v1"
MODEL_ID  = "gpt-4o-mini"

In [None]:
client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

In [None]:
BATCH_SIZE = 5
START_IDX  = 0

In [None]:
SYSTEM_MSG = (
    "شما یک مولّد پرسش و پاسخ هستید. برای هر خلاصه‌ٔ محصول که به‌زبان فارسی دریافت می‌کنید، "
    "۳ تا ۵ سؤال کوتاه، متنوّع و غیرتکراری بنویس، سپس برای هر کدام پاسخی صریح و دقیق از داخل خلاصه بده.\n"
    "– پاسخ‌ها حتماً داخل متن خلاصه باشند؛ از حدس خارج از متن خودداری کن.\n"
    "– استفاده از **نام دقیق محصول در متن تمام سؤال‌ها و پاسخ‌ها الزامی است**، حتی اگر چند بار تکرار شود.\n"
    "– استفاده از عباراتی مانند «این دستگاه»، «محصول»، «کالا»، «دستگاه مورد نظر» و ... **ممنوع است**.\n"
    "– خروجی را به فرمت واضح زیر بنویس، به‌طوری که هر سؤال و پاسخ با خط جداکننده جدا شده باشند:\n\n"
    "Q1: …\nA1: …\n\n"
    "---\n\n"
    "Q2: …\nA2: …\n\n"
    "---\n\n"
    "Q3: …\nA3: …\n\n"
    "---"
)

In [None]:
@retry(wait=wait_random_exponential(min=4, max=20), stop=stop_after_attempt(5))
def generate_qa(summary: str) -> str:
    rsp = client.chat.completions.create(
        model=MODEL_ID,
        messages=[
            {"role": "system", "content": SYSTEM_MSG},
            {"role": "user",   "content": summary[:3500]}
        ],
        temperature=0.7,
        max_tokens=512,
    )
    return rsp.choices[0].message.content.strip()

In [None]:
CSV_IN   = "highest_3000_info_data.csv"
CSV_OUT  = "highest_3000_info_data_QA.csv"
EXCEL_OUT ="highest_3000_info_data_QA.xlsx"

In [None]:
df = pd.read_csv(CSV_IN)
qa_list = []

if "qa_pairs" not in df.columns:
    df["qa_pairs"] = ""

In [None]:
batch_df = df.iloc[START_IDX : START_IDX + BATCH_SIZE]

qa_results = []
for summ in tqdm(batch_df["full_summary"],
                 desc=f"Gen rows {START_IDX}-{START_IDX+BATCH_SIZE-1}"):
    try:
        qa_results.append(generate_qa(summ))
    except Exception as e:
        qa_results.append(f"<<ERROR: {e}>>")

df.loc[START_IDX : START_IDX + BATCH_SIZE - 1, "qa_pairs"] = qa_results

START_IDX += BATCH_SIZE

Gen rows 10-14: 100%|██████████| 5/5 [00:32<00:00,  6.49s/it]


In [None]:
df["qa_pairs"].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            Q1: آیا دستگاه در زمان دراز جواب می‌دهد؟\nA1: بله، نظر 2 اشاره کرده که "در زمان دراز جواب میده!"\n\n---\n\nQ2: آیا پوست را تیره می‌کند؟\nA2: بله، نظر 3 بیان می‌کند که "پوستو تیره میکنه و گاها سوزش ایجاد می کنه."\n\n---\n\nQ3: آیا دستگاه برای پوست‌های گندمی موثر است؟\nA3: نظر 18 می‌گوید که "بخشهایی که گندمی هستن با همین مقدار استفاده حدود ۱۰ تا ۲۰ درصد" تاثیر گذاشته است.\n\n---\n\nQ4: آیا دستگاه شارژی است یا سیمی؟\nA4: نظر 9 توضیح می‌دهد که "من فکر می کردم شارژیه ولی سیم 

In [None]:
pd.set_option("display.max_colwidth", None)
print(df["qa_pairs"])

0                                                                                                                                                                                                                                                                                                                                                                           Q1: چه تاثیری بر روی پوست گندمی دارد؟\nA1: بر اساس نظر 8، فردی که پوست گندمی دارد، اظهار کرده است که بعد از سه دفعه استفاده هیچ تاثیری نداشته و نه تار مویی ریخته و نه نازک شده است.\n\n---\n\nQ2: آیا استفاده از دستگاه برای موهای بیکینی مؤثر است؟\nA2: طبق نظر 6، فردی بیان کرده که برای موهای معمولی کمی جواب داده اما موهای بیکینی همونجوری مونده و باید دید گذر زمان چطور می‌شود.\n\n---\n\nQ3: آیا این دستگاه باعث سوزش پوست می‌شود؟\nA3: در نظر 3 ذکر شده که این دستگاه گاها سوزش ایجاد می‌کند و در نظر 19 نیز گفته شده که هنگام استفاده، دستگاه زود داغ می‌کند و سوزش بیشتری حس می‌شود.\n\n---\n\nQ4: آیا استفاده منظم از دستگاه به نتایج مطلوب می‌

In [None]:
df.head()

In [None]:
df.to_csv("CSV_OUT", index=False)
print("File saved →", CSV_OUT)

File saved → highest_3000_info_data_QA.csv


In [None]:
df["qa_pairs"].to_csv("questions.txt", index=False, header=False, encoding="utf-8")

In [None]:
df.to_excel(EXCEL_OUT, index=False)
print("File saved →", EXCEL_OUT)