#  MentalQA Dataset Description

The full dataset consists of **500 annotated samples**. For the purpose of this shared task, we are using only the **training and development set**:

- **Train+Dev Set**: 350 samples  
- **Test Set**: 150 samples (withheld for evaluation purposes)

---

###  Dataset File: `MentalQA_500_data.csv` (tab-separated)

This dataset was recently accepted in the *IEEE ACCESS* journal.  
It contains **four columns** as follows:

1. **Question**  
2. **Answer**  
3. **Question Types** (`final_QT`)  
4. **Answer Strategies** (`final_AS`)

---

###  Question Type Labels (`final_QT`)

| Label | Name                       |Description |
|----------|----------------------------|----------------
| A        | **Diagnosis**              | Questions about clinical findings, tests, disease criteria, and manifestations. |
| B        | **Treatment**              | Questions about therapies, drug use, side effects, and contraindications. |
| C        | **Anatomy and Physiology** | Basic medical knowledge (e.g., tissues, organs, metabolism). |
| D        | **Epidemiology**           | Disease progression, prognosis, etiology, and risk factors. |
| E        | **Healthy Lifestyle**      | Diet, exercise, mood, and lifestyle factors affecting mental health. |
| F        | **Provider Choices**       | Recommendations for doctors, hospitals, or medical departments. |
| Z        | **Other**                  | General or uncategorized questions. |

---

###  Answer Strategy Labels (`final_AS`)

| Label   | Name              | Description |
|---------|-----------|-------------|
| 1       | **Information**    | Provides factual data, explanations, or resources. |
| 2       |  **Direct Guidance**| Offers suggestions, instructions, or behavioral advice. |
| 3       | **Emotional Support** | Gives reassurance, empathy, or emotional encouragement. |





GitHub: https://github.com/hasanhuz/MentalQA/tree/main

Paper: https://arxiv.org/abs/2405.12619

In [None]:
!pip install openai==0.28
!pip install bert-score
!pip install -U langchain langchain-community
!pip install -U langchain-groq

Collecting openai==0.28
  Downloading openai-0.28.0-py3-none-any.whl.metadata (13 kB)
Downloading openai-0.28.0-py3-none-any.whl (76 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/76.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.5/76.5 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 1.98.0
    Uninstalling openai-1.98.0:
      Successfully uninstalled openai-1.98.0
Successfully installed openai-0.28.0
Collecting bert-score
  Downloading bert_score-0.3.13-py3-none-any.whl.metadata (15 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.0.0->bert-score)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.0.0->bert-score)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

In [None]:
pd.set_option("display.max_colwidth", None, "display.max_rows", None)

In [None]:
data = pd.read_csv('/content/Train_Dev.tsv', sep='\t')
data.sample(3)

Unnamed: 0,question,answer,final_QT,final_AS
146,انا شاب اعاني من الرهاب الاجتماعي منذ الطفولة وصعوبة في تكوين الصداقات والمعارف وزاد مرضى في الآونة الأخيرة بصورة كبيرة حيث تعطلت حياتي أكثر واصبحت حياتي أكثر تعقيدا من السابق ارجو المساعدة وشكرا,تحتاج إلى علاج نفسي مكثف,"['A', 'B']",['2']
222,السلام عليكم .فتاة ابلغ ال 17 عشر و اشعر انني لست بخير و هذا منذ القدم لكنني لم الحظ هذا الا قبل اسبوع او اكثر اعاني من تقلب مزاجي السريع جدا مثلا ان كنت حزينة فأصبح سعيدة في غضون دقائق ثم اغضب و ابتسم في وسط غضبي ...ابكي بعدها لا مكالمة طبيعية مع الناس الا و قد اكون شعرت بالف شعور .ما الحل,العلاج النفسي هو الحل,"['A', 'C', 'E']",['1']
66,افكر كثير لدرجه تنسيني مافعلت او ماذا سوف افعل كثرة القلق والارق المزمن والشعور بالسلبيه والخوف قد يصل الم جسدي,تمارين الاسترخاء و موسيقا ألفا مبدئيا,"['D', 'E']","['1', '2']"


### Start Cleaning Dataset
##  Data Preprocessing and Cleaning Overview

Before performing any analysis or model evaluation, it is crucial to clean and normalize the dataset to ensure consistency and quality.

This section outlines the preprocessing steps applied to the MentalQA Arabic dataset.

---

###  Cleaning Steps Applied:

1. **Displayed full text columns** – Enabled full visibility of long question/answer text using `pd.set_option("display.max_colwidth", None)`.
2. **Email Removal** – Removed any embedded email addresses using regular expressions.
3. **Separation Rules** – Inserted spaces between:
   - Arabic letters and numbers (e.g., "دواء20" → "دواء 20")
   - Arabic and English terms (e.g., "علاجmg" → "علاج mg")
   - Numbers and English words (e.g., "mg75" → "mg 75")
4. **Punctuation Cleanup** – Removed all punctuation marks except the Arabic question mark "؟".
5. **Arabic Letter Normalization** – Standardized variations of alef (ا), ta marbuta (ه), and others.
6. **Numeric Normalization** – Converted Arabic-Indic numerals (٠١٢...) to Western digits (012...).
7. **Repetition Reduction** – Compressed elongated words (e.g., "رااااائع" → "رائع").
8. **Question Mark Spacing** – Ensured space before and after "؟" to avoid it sticking to adjacent words.
9. **Custom Corrections** – Applied multiple custom dictionaries to fix common spelling errors, typos, and fused terms (e.g., "ماا" → "ما", "بلنتحار" → "بالانتحار").

---

###  Word-Level Error Detection via Frequency Analysis

To further enhance text quality, we analyzed both the cleaned questions and answers at the word level:

- Combined all tokens from `question_clean_1` and `answer_clean_1`.
- Used `collections.Counter` to calculate word frequencies.
- Created a sorted DataFrame to highlight rare and suspicious words.
- Manually reviewed low-frequency words to detect:
  - Typos (e.g., "هاذا", "معايا", "مفارقهمتصل")
  - Word merges and informal language
- Built custom correction dictionaries based on the findings to normalize the vocabulary.

This iterative refinement helped reduce vocabulary noise and improve input quality for downstream modeling.


In [None]:
data.columns

Index(['question', 'answer', 'final_QT', 'final_AS'], dtype='object')

In [None]:
data.shape

(350, 4)

In [None]:
df = data[['question', 'answer']]
df

Unnamed: 0,question,answer
0,هل يعتبر الخوف من عدم الإنجاب مستقبلاً حالة عادية خاصةً لما أكون متعلقة بأطفال كثيراً وأنا على وجه جواز أنا خايفة جداً,سد تى نعم ان هناك العديد من القلق النفسى المرتبط بحالات العقم و حب الانجاب لدرج ان لم يتحقق هدا تكون له مضار سلوكيه و نفسيه ودعينى اشير الى مثال اخر نتعامل معه نحن اخصائ النسائيه و العقم و حالات الاحباط التى تتم ايضا بمرحله النفاس و كيفيه رفض الام لطفلها و هناك العديد و عليه انصح و قبل الزواج ان نتعا مل معهز دابراهيم هنداوى مستشار النسائيه والعقم والغدد وطفال الانابيب-مدينه الحسين الطبيه-الاردن ibraheemhindawi2000@yahoo.com
1,من سنه تقريبا و انا أذي نفسي ب اكثر من طريقة و ما اعرف كيف اتخلص من ذي العادة، و بدت تجيني افكار بإنهاء حياتي و حاولت انتحر باكثر من مرة و أكثر من طريقة,يجب العرض علي طبيب اختصاصي امراض نفسية سوف يقوم بالتشخيص والعلاج اللازم بالجلسات والادوية..
2,السلام عليكم مشكلتي تقتصر على تكرار كلمة معينة لمدة طويلة من الزمن مثلا اذا سمعت شخص قام بتكرار كلمة معينة ابقى اكررها مع نفسي احاول توقيف نفسي ولكن دون جدوى حتى اصاب بلاحباط اصبت بهذا الشي من قبل والحمد لله تخلصت منه ولكنه رجع مع العلم ان الوسواس شائع في عائلتنا قالت امي استغفري بدل تكرار وشكرا,الوسواس القهري هو من الامراض الشاءعة ويكون في صورة افكار وسواسية متكررة او افعال متكررة ويلعب عامل الوراثة دور مهم ويحتاج الي علاج دواءي بالاضافة الي جلسات علاج نفسي
3,اكتئاب وفوبيا من المجتمع وانعزال وانطوائية وتعامل بسلبية,العلاج النفسي المعرفي السلوكي يعطي نتائج جيدة و كذلك العلاج الدوائي ان لزم الامر الكثير من الحالات تستجيب للعلاج النفسي وحده
4,هل الإحساس بقرب الاجل و الخوف من الموت و الاحلام من اعراض الاكتئاب و القلق؟! و كيف يمكنني تخطي هذه المرحلة لان حياتي اصبحت جحيم,نعم بالاضافه للكثير من الاعراض الاخرى الطبيب النفسي بعد التقييم الدقيق الشامل لكل الاعراض سيوصف لك مضادات الاكتئاب و مزيلات للقلق مع علاج معرفي سلوكي
5,اهلا يا طبيب ، انا اعاني من عدة أعراض لمدة اسبوعين تقريبا . اعاني من حزن و ضيق في تنفس و بأفكار موت وايذاء نفسي وعدم رغبة بحياة . و اشعر بإرهاق بعض احيانا,راجعي طبيب امراض نفسية وسيساعدك في تجاوز الازمة
6,انا مصاب باضطراب الشخصية الحديه ومريت بالعلاج الجدلي السلوكي ومتابع بالادويه لكنه مرض عقلي مزمن موروث لا يمكن علاجه، لذا سؤالي هل يتم البحث في مجال الصحه العقلية والاهتمام به أم لا ؟ وارجو ان اعرف مصدر لاتابع فيه اخر الابحاث لان بحثت في كل مكان تقريباً ولا اجد ما يبشرني ابداً .. وشكراً,الموضوع قيد البحث العلمى سواء فى دقة التشخيص او طريقة العلاج
7,عاني من مشكلة الخوف من اذية الغرباء وعدم اخذ حقي منهم لذلك عندما اسير في الاماكن العامة يكون سيري بطريقة حذره وملفته للانتباه ربما ويقطه ولا استطيع التركيز واعاني صعوبة تذكر الكلمات الذي اردت قولها وايضاً اتذكر احداث الماضي واعاتب نفسي عليها مثل تأنيب الضمير واخاف من وقوع مكروه لي لدرجة كتمان ذلك ال,حضرتك تعاني من قلق شديد يحتاج الاهتمام و الفحص النفسي لاختيار العلاج المناسب
8,ماهو افضل دواء لعلاج المخاوف والقلق و الاكتئاب و تكون اعراضه بسيطة ؟,العلاج السلوكي والمعرفي عن طريق تصحيح المفاهيم الخاطئة يعتبر افضل طرق العلاج لكثير من تلك الاعراض عن طريق المتابعه مع اخصائي نفسي
9,هل يمكن أن يشعر المكتئب بلحظات من السعاده البسيطه,يعرف الاكتئاب بشكل عام على أنه اضطراب في المزاج يسبب الشعور بالحزن المستمر وفقدان الاهتمام بالحياة، وقد يرافق الأشخاص المصابون بالاكتئاب الشعور بالحزن في بعض الأحيان وهو أمر طبيعي ويحدث نتيجة خسارة شيء معين أو نتيجة مواجهة تحديات الحياة المختلفة وغيرها، إلا أن استمرار الشعور بالحزن وزيادة شدته مع الشعور بالعجز واليأس يستدعي زيارة الطبيب لتحديد السبب والعلاج المناسب. ويرتبط الاكتئاب بأعراض معينة تختلف من شخص لآخر، مع العلم أنه يتم تشخيص الاكتئاب في حال استمرار خمسة أو أكثر من هذه الأعراض لمدة أسبوعين على الأقل ومن هذه الأعراض: المزاج المحبط معظم ساعات اليوم وخاصة في الصباح. الشعور بالتعب ونقص في الطاقة والنشاط معظم ساعات اليوم. الشعور بالذنب وانعدام القيمة معظم الأوقات. الشعور بالتشاؤم واليأس. الصعوبة في التركيز ومشاكل في الذاكرة. النوم كثيراً أو عدم القدرة على النوم. التفكير في الانتحار والموت. التغيرات في الوزن. تجدر الإشارة إلى أن أعراض الاكتئاب قد تختلف من شخص لآخر ومن الممكن أن يشعر الشخص المصاب بالاكتئاب بلحظات من السعادة البسيطة ويعتبر ذلك مؤشراً إيجابياً على الاستجابة للعلاج أو البدء بتحسن الأعراض. ويمكن تحفيز شعور الشخص المصاب بالاكتئاب بلحظات من السعادة البسيطة من خلال اتباع النصائح التالية: التخلص من الاكتئاب والتوقف عن التفكير بالإصابة به، وتجنب الاجترار أي تجاوز مشكلة بشكل متكرر دون استكمالها. التفكير الإيحابي من أجل تحفيز استبدال الأفكار السلبية بأفكار إيجابية. القناعة أن الشعور بالحزن أمر طبيعي وأن الاكتئاب قد يتداخل مع سير الحياة. العمل على إحصاء النعم والقيم الأخرى التي يملكها الشخص. العلم أن الاستمرار في الطريق الخاطئ قد يجعل الاكتئاب أسوأ. العمل على اتباع نمط حياة صحي خال من الكحول والتدخين. العمل على اتباع نمط غذائي صحي مع ممارسة التمارين الرياضية. الحصول على قسط كاف من النوم والراحة. للمزيد: ما هي انواع الاكتئاب؟ اعراض الاكتئاب الجسدية كيفية التوقف عن دواء الاكتئاب بطريقة صحيحة


In [None]:
import re

def clean_arabic_text(text):
    if pd.isnull(text):
        return ""
    # 0. Normalize numbers
    text = text.translate(str.maketrans("٠١٢٣٤٥٦٧٨٩", "0123456789"))

    # 1. Remove Email (واستبداله بمسافة)
    text = re.sub(r'\S*@\S+', ' ', text)

    # 2. Make Distance between Arabic and Numbers/English
    text = re.sub(r'([ء-ي])(\d+)', r'\1 \2', text)
    text = re.sub(r'(\d+)([ء-ي])', r'\1 \2', text)
    text = re.sub(r'([ء-ي])([a-zA-Z]+)', r'\1 \2', text)
    text = re.sub(r'([a-zA-Z]+)([ء-ي])', r'\1 \2', text)
    text = re.sub(r'([a-zA-Z]+)(\d+)', r'\1 \2', text)
    text = re.sub(r'(\d+)([a-zA-Z]+)', r'\1 \2', text)

    # 3. Remove repeated characters (مثلاً: كييييف → كيف)
    text = re.sub(r'(.)\1{2,}', r'\1', text)

    # 4. Normalize Arabic letters
    text = re.sub(r'[إأآا]', 'ا', text)
    text = re.sub(r'ة', 'ه', text)
    text = re.sub(r'گ', 'ك', text)

    # 5. Remove punctuation (except ؟) مع استبدالها بمسافة
    text = re.sub(r'[^\w\s؟]', ' ', text)

    # 6. Ensure space before and after question mark
    text = re.sub(r'\s*؟\s*', ' ؟ ', text)

    # 7. Remove extra whitespaces
    text = re.sub(r'\s+', ' ', text).strip()

    return text

df["question_clean_1"] = df["question"].apply(clean_arabic_text)
df["answer_clean_1"] = df["answer"].apply(clean_arabic_text)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["question_clean_1"] = df["question"].apply(clean_arabic_text)


In [None]:
all_text = ' '.join(df['question_clean_1'].astype(str))
words = all_text.split()
word_freq = Counter(words)
freq_df = pd.DataFrame(word_freq.items(), columns=['word', 'count']).sort_values(by='count', ascending=True)
freq_df

Unnamed: 0,word,count
1994,والنفور,1
1976,زنا,1
1974,بيومين,1
1973,زواجي,1
1972,موعد,1
1971,التونه,1
1970,البيض,1
1969,كريهه,1
1968,رائحه,1
1998,امضيت,1


In [None]:
def apply_custom_corrections(text):
    corrections = {
        "قي": "في",
        "انااذكر": "أنا أذكر",
        "ماا": "ما",
        "عليكماعاني": "عليكم اعاني",
        "هده": "هذه",
        "للاكتئا": "للاكتئاب",
        "بلسوء": "ب السوء",
        "ءاذي": "الذي",
        "ماكدر": "ما اقدر",
        "معايا": "معي",
        "حتا": "حتى",
        "انوا": "أنه",
        "اخري": "أخرى",
        "بلنتحار": "ب الانتحار",
        "بلاحباط": "ب الإحباط",
        "منهاا": "منها",
        "ابغا": "أريد",
        "طمانتني": "طمنتني",
        "وواحبها": "واحبها",
        "مفعولخ": "مفعوله",

    }

    for wrong, right in corrections.items():
        text = text.replace(wrong, right)
    return text

df["question_clean_2"] = df["question_clean_1"].apply(apply_custom_corrections)
#df["answer_clean_2"] = df["answer_clean_1"].apply(clean_arabic_text)

In [None]:
all_text_ = ' '.join(df['answer_clean_1'].astype(str))
words_ = all_text_.split()
word_freq_ = Counter(words_)
freq_df_ = pd.DataFrame(word_freq_.items(), columns=['word', 'count']).sort_values(by='count', ascending=True)
freq_df_

Unnamed: 0,word,count
3825,تعالج,1
3826,بنتائج,1
17,يتحقق,1
18,هدا,1
21,مضار,1
24,ودعينى,1
25,اشير,1
29,نتعامل,1
2558,صادقا,1
2528,الحب,1


In [None]:
def apply_answer_corrections(text):
    corrections = {
        "النفسيوربما": "النفسي وربما",
        "العقاقيرويستحسن": "العقاقير ويستحسن",
        "وضروريوايذاء": "و ضروري و إيذاء",
        "والجرعهليقدرها": "و الجرعة ليقدرها",
        "تسوءوربما": "تسوء وربما",
        "تغييراو": "تغيير أو",
        "ابق": "أبقى",
        "الادويهنحتاج": "الأدوية نحتاج",
        "الاعتماديهالاعتماد": "الاعتمادية الاعتماد",
        "الحلتدريجيا": "الحل تدريجا",
        "مفارقهالتعلق": "مفارقة التعلق",
        "خطيرهلانها": "خطيرة لأنها",
        "نفسيالافكاراالانتحاريه": "نفسي الأفكار الانتحارية",
        "الخضارقللي": "الخضار قللي",
        "غلى": "على",
        "الجتماعي": "الاجتماعي",
        "لكليهماونتوقف": "لكليهما و نتوقف",
        "وانواعهاولوم": "و أنواعها و لوم",
        "الناسنحتاج": "الناس نحتاج",
        "المراءه": "المراة",
        "هاذا": "هذا",
        "المسسبه": "المسببه",
        "اى": "اي",
        "عضوى": "عضوي",
        "النفسانيالافكار": "النفساني الأفكار",
        "هدا": "هذا",
        "اسرغ": "اسرع",
        "والاسترخاءوهذا": "و الاسترخاء و هذا",
        "الاخرفتصل": "الاخر فتصل",
        "الاخروعندما": "الاخر و عندما",
        "دواءي": "دوائي",
        "مشهورهاسمها": "مشهور اسمه"
    }

    for wrong, right in corrections.items():
        text = text.replace(wrong, right)
    return text

df["answer_clean_2"] = df["answer_clean_1"].apply(apply_answer_corrections)

In [None]:
# Cleaning Columns
df[['question_clean_2', 'answer_clean_2']]

Unnamed: 0,question_clean_2,answer_clean_2
0,هل يعتبر الخوف من عدم الانجاب مستقبلا حاله عاديه خاصه لما اكون متعلقه باطفال كثيرا وانا على وجه جواز انا خايفه جدا,سد تى نعم ان هناك العديد من القلق النفسى المرتبط بحالات العقم و حب الانجاب لدرج ان لم يتحقق هذا تكون له مضار سلوكيه و نفسيه ودعينى اشير الى مثال اخر نتعامل معه نحن اخصائ النسائيه و العقم و حالات الاحباط التى تتم ايضا بمرحله النفاس و كيفيه رفض الام لطفلها و هناك العديد و عليه انصح و قبل الزواج ان نتعا مل معهز دابراهيم هنداوى مستشار النسائيه والعقم والغدد وطفال الانابيب مدينه الحسين الطبيه الاردن
1,من سنه تقريبا و انا اذي نفسي ب اكثر من طريقه و ما اعرف كيف اتخلص من ذي العاده و بدت تجيني افكار بانهاء حياتي و حاولت انتحر باكثر من مره و اكثر من طريقه,يجب العرض علي طبيب اختصاصي امراض نفسيه سوف يقوم بالتشخيص والعلاج اللازم بالجلسات والادويه
2,السلام عليكم مشكلتي تقتصر على تكرار كلمه معينه لمده طويله من الزمن مثلا اذا سمعت شخص قام بتكرار كلمه معينه ابقى اكررها مع نفسي احاول توفيف نفسي ولكن دون جدوى حتى اصاب ب الإحباط اصبت بهذا الشي من قبل والحمد لله تخلصت منه ولكنه رجع مع العلم ان الوسواس شائع في عائلتنا قالت امي استغفري بدل تكرار وشكرا,الوسواس القهري هو من الامراض الشاءعه ويكون في صوره افكار وسواسيه متكرره او افعال متكرره ويلعب عامل الوراثه دور مهم ويحتاج الي علاج دوائي بالاضافه الي جلسات علاج نفسي
3,اكتئاب وفوبيا من المجتمع وانعزال وانطوائيه وتعامل بسلبيه,العلاج النفسي المعرفي السلوكي يعطي نتائج جيده و كذلك العلاج الدوائي ان لزم الامر الكثير من الحالات تستجيب للعلاج النفسي وحده
4,هل الاحساس بقرب الاجل و الخوف من الموت و الاحلام من اعراض الاكتئاب و القلق ؟ و كيف يمكنني تخطي هذه المرحله لان حياتي اصبحت جحيم,نعم بالاضافه للكثير من الاعراض الاخرى الطبيب النفسي بعد التقييم الدقيق الشامل لكل الاعراض سيوصف لك مضادات الاكتئاب و مزيلات للقلق مع علاج معرفي سلوكي
5,اهلا يا طبيب انا اعاني من عده اعراض لمده اسبوعين تقريبا اعاني من حزن و ضيق في تنفس و بافكار موت وايذاء نفسي وعدم رغبه بحياه و اشعر بارهاق بعض احيانا,راجعي طبيب امراض نفسيه وسيساعدك في تجاوز الازمه
6,انا مصاب باضطراب الشخصيه الحديه ومريت بالعلاج الجدلي السلوكي ومتابع بالادويه لكنه مرض عقلي مزمن موروث لا يمكن علاجه لذا سؤالي هل يتم البحث في مجال الصحه العقليه والاهتمام به ام لا ؟ وارجو ان اعرف مصدر لاتابع فيه اخر الابحاث لان بحثت في كل مكان تقريبا ولا اجد ما يبشرني ابدا وشكرا,الموضوع قيد البحث العلمى سواء فى دقه التشخيص او طريقه العلاج
7,عاني من مشكله الخوف من اذيه الغرباء وعدم اخذ حفي منهم لذلك عندما اسير في الاماكن العامه يكون سيري بطريقه حذره وملفته للانتباه ربما ويقطه ولا استطيع التركيز واعاني صعوبه تذكر الكلمات الذي اردت قولها وايضا اتذكر احداث الماضي واعاتب نفسي عليها مثل تانيب الضمير واخاف من وقوع مكروه لي لدرجه كتمان ذلك ال,حضرتك تعاني من قلق شديد يحتاج الاهتمام و الفحص النفسي لاختيار العلاج المناسب
8,ماهو افضل دواء لعلاج المخاوف والقلق و الاكتئاب و تكون اعراضه بسيطه ؟,العلاج السلوكي والمعرفي عن طريق تصحيح المفاهيم الخاطئه يعتبر افضل طرق العلاج لكثير من تلك الاعراض عن طريق المتابعه مع اخصائي نفسي
9,هل يمكن ان يشعر المكتئب بلحظات من السعاده البسيطه,يعرف الاكتئاب بشكل عام على انه اضطراب في المزاج يسبب الشعور بالحزن المستمر وفقدان الاهتمام بالحياه وقد يرافق الاشخاص المصابون بالاكتئاب الشعور بالحزن في بعض الاحيان وهو امر طبيعي ويحدث نتيجه خساره شيء معين او نتيجه مواجهه تحديات الحياه المختلفه وغيرها الا ان استمرار الشعور بالحزن وزياده شدته مع الشعور بالعجز والياس يستدعي زياره الطبيب لتحديد السبب والعلاج المناسب ويرتبط الاكتئاب باعراض معينه تختلف من شخص لاخر مع العلم انه يتم تشخيص الاكتئاب في حال استمرار خمسه او اكثر من هذه الاعراض لمده اسبوعين على الاقل ومن هذه الاعراض المزاج المحبط معظم ساعات اليوم وخاصه في الصباح الشعور بالتعب ونقص في الطاقه والنشاط معظم ساعات اليوم الشعور بالذنب وانعدام القيمه معظم الاوقات الشعور بالتشاؤم والياس الصعوبه في التركيز ومشاكل في الذاكره النوم كثيرا او عدم القدره على النوم التفكير في الانتحار والموت التغيرات في الوزن تجدر الاشاره الى ان اعراض الاكتئاب قد تختلف من شخص لاخر ومن الممكن ان يشعر الشخص المصاب بالاكتئاب بلحظات من السعاده البسيطه ويعتبر ذلك مؤشرا ايجابيا على الاستجابه للعلاج او البدء بتحسن الاعراض ويمكن تحفيز شعور الشخص المصاب بالاكتئاب بلحظات من السعاده البسيطه من خلال اتباع النصائح التاليه التخلص من الاكتئاب والتوقف عن التفكير بالاصابه به وتجنب الاجترار اي تجاوز مشكله بشكل متكرر دون استكمالها التفكير الايحابي من اجل تحفيز استبدال الافكار السلبيه بافكار ايجابيه القناعه ان الشعور بالحزن امر طبيعي وان الاكتئاب قد يتداخل مع سير الحياه العمل على احصاء النعم والقيم الاخرى التي يملكها الشخص العلم ان الاستمرار في الطريق الخاطئ قد يجعل الاكتئاب اسوا العمل على اتباع نمط حياه صحي خال من الكحول والتدخين العمل على اتباع نمط غذائي صحي مع ممارسه التمارين الرياضيه الحصول على قسط كاف من النوم والراحه للمزيد ما هي انواع الاكتئاب ؟ اعراض الاكتئاب الجسديه كيفيه التوقف عن دواء الاكتئاب بطريقه صحيحه


In [None]:
GROQ_API_KEY="gsk_...."
from langchain_groq import ChatGroq
from langchain.schema import HumanMessage


chat = ChatGroq(
    groq_api_key=GROQ_API_KEY,
    model_name="llama3-70b-8192",
    temperature=0.1,
    max_tokens=1024
)

In [None]:
def build_zero_shot_prompt(question):
    return f"أجب على السؤال التالي باحترافية وباللغة العربية:\n\nالسؤال: {question}\n\nالإجابة:"

In [None]:
def generate_llama_answer(question):
    prompt = build_zero_shot_prompt(question)
    response = chat.invoke([
        HumanMessage(content=prompt)
    ])
    return response.content.strip()


In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_zero_shot_answer'] = sample_df['question_clean_2'].apply(generate_llama_answer)
sample_df.to_csv("llama3_zero_shot_generated_answers.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_zero_shot_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_f1'] = F1.tolist()
sample_df.to_csv("llama3_zero_shot_generated_answers.csv", index=False)
print(f"✅ Average BERTScore F1: {F1.mean().item():.2f}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 28.35 seconds, 0.35 sentences/sec
✅ Average BERTScore F1: 0.61


In [None]:
example_1 = {
    "question": "بقالي اكتر من اسبوعين مش بنام ولا باكل و لو نمت ساعه واحده في اليوم افضل صاحيه 3 ايام و بحلم بكابوس بيتكرر علي طول اني باذى نفسي لدرجه اني فكرت في كده	",
    "answer": "أنتي بحاجه لزيارة طبيب نفسي للتقيم اخذ السيره المرضيه بشكل ادق ولمعرفة تفاصيل اخرى مهمه في التشخيص لا تترددي في الاستشاره لان علامات المرض النفسي الحاد بدات تظهر بقله الحاجه للنوم تمنياتي بالشفاء العاجل	"
}

example_2 = {
    "question": "تمنعني ظروف ما اقدر اروح دكتور اخصائي ولا اشرح حالتي كدامه صرت افكر بالانتحار بسبب هاي الحاله شي مخيف أشد أنواع العذاب لدرجه الموت أهون الموت أهون	",
    "answer": "السلام عليكم علاج الادمان محتاج طبيب وادوية والاهم يكون عندك اراده قويه للتخلص من هذه السموم وعلى قدر عزيمتك هيكون التوفيق لنجاح العلاج ساعد نفسك	"
}

example_3 = {
    "question": "اعاني من الخوف وتنبؤات من كلام اهلي وبصمتهم انهم يبون يقتلوني بدون سبب والي محرضهم ابوي",
    "answer": "التقلبات المزاجيه في سنك المبكره كثيره ومن المفيد مراجعه طبيب للتشخيص الدقيق	"
}


In [None]:
def build_fewshot_prompt(new_question):
    prompt = f"""
أجب على الأسئلة التالية باحترافية وباللغة العربية:

س: {example_1['question']}
ج: {example_1['answer']}

س: {example_2['question']}
ج: {example_2['answer']}

س: {example_3['question']}
ج: {example_3['answer']}

س: {new_question}
ج:"""
    return prompt.strip()

In [None]:
def generate_llama_answer(question):
    prompt = build_fewshot_prompt(question)
    response = chat.invoke([
        HumanMessage(content=prompt)
    ])
    return response.content.strip()


In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_few_shot_answer'] = sample_df['question_clean_2'].apply(generate_llama_answer)
sample_df.to_csv("llama_few_shot_answer.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_few_shot_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_f1'] = F1.tolist()
sample_df.to_csv("llama_few_shot_answer.csv", index=False)
print(f"✅ Average BERTScore F1: {F1.mean().item():.2f}")

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 8.81 seconds, 1.13 sentences/sec
✅ Average BERTScore F1: 0.66


In [None]:
import random

def generate_fewshot_sc_answer(question, n=10): # I traied 5 answers then 10 anwsers but the F1 is same
    answers = []
    for _ in range(n):
        prompt = build_fewshot_prompt(question)
        response = chat.invoke(prompt, temperature=0.1)
        answer = response.content.strip()
        answers.append(answer)

    most_common = Counter(answers).most_common(1)[0][0]
    return most_common

In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_fewshot_sc_answer'] = sample_df['question_clean_2'].apply(generate_fewshot_sc_answer)
sample_df.to_csv("llama_fewshot_sc_answer.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_fewshot_sc_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_f1'] = F1.tolist()
sample_df.to_csv("llama_fewshot_sc_answer.csv", index=False)
print(f"✅ Average BERTScore F1: {F1.mean().item():.2f}")

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 9.10 seconds, 1.10 sentences/sec
✅ Average BERTScore F1: 0.66


In [None]:
def generate_multiple_llama_answers(question, n=5):
    answers = []
    for _ in range(n):
        prompt = build_fewshot_prompt(question)
        response = chat.invoke(prompt, temperature=0.1)
        answers.append(response.content.strip())
    return answers

In [None]:
def build_refinement_prompt(question, answers):
    joined_answers = "\n\n".join(
    [f"Answer {i+1}: {ans}" for i, ans in enumerate(answers)]
    )

    return f"""Question: {question}

    These are different answers to the same question:

    {joined_answers}

    Based on the previous answers, write an improved and ideal answer, taking into account accuracy and clarity:

Final answer:"""

In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_er_answer'] = sample_df['question_clean_2'].apply(
    lambda q: build_refinement_prompt(q, generate_multiple_llama_answers(q, n=5))
)
sample_df.to_csv("llama_er_answer.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_er_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_er_answer'] = F1.tolist()
sample_df.to_csv("llama_er_answer.csv", index=False)
print(f"✅ Average BERTScore F1: {F1.mean().item():.2f}")

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 24.64 seconds, 0.41 sentences/sec
✅ Average BERTScore F1: 0.61


In [None]:
example_1 = {
    "question": "بقالي اكتر من اسبوعين مش بنام ولا باكل و لو نمت ساعه واحده في اليوم افضل صاحيه 3 ايام و بحلم بكابوس بيتكرر علي طول اني باذى نفسي لدرجه اني فكرت في كده	",
    "answer": "أنتي بحاجه لزيارة طبيب نفسي للتقيم اخذ السيره المرضيه بشكل ادق ولمعرفة تفاصيل اخرى مهمه في التشخيص لا تترددي في الاستشاره لان علامات المرض النفسي الحاد بدات تظهر بقله الحاجه للنوم تمنياتي بالشفاء العاجل	"
}

example_2 = {
    "question": "تمنعني ظروف ما اقدر اروح دكتور اخصائي ولا اشرح حالتي كدامه صرت افكر بالانتحار بسبب هاي الحاله شي مخيف أشد أنواع العذاب لدرجه الموت أهون الموت أهون	",
    "answer": "السلام عليكم علاج الادمان محتاج طبيب وادوية والاهم يكون عندك اراده قويه للتخلص من هذه السموم وعلى قدر عزيمتك هيكون التوفيق لنجاح العلاج ساعد نفسك	"
}

example_3 = {
    "question": "اعاني من الخوف وتنبؤات من كلام اهلي وبصمتهم انهم يبون يقتلوني بدون سبب والي محرضهم ابوي",
    "answer": "التقلبات المزاجيه في سنك المبكره كثيره ومن المفيد مراجعه طبيب للتشخيص الدقيق	"
}

example_4 = {
    "question": "عمرها 15 منذ قرابه شهرين او اكثر بدات حالتها تتغير من الهدوء الى العصبيه وعدم النوم",
    "answer": "هناك العديد من الاسئله هل يوجد خلافات في المنزل هل تعرضت لاي ضغوط او اي صدمه ؟ يمكنك التواصل مباشره مع معالج نفسي للمساعده"
}

example_5 = {
    "question": "قلق وتوتر ووسواس قهري وتاتاه في الكلام وعجز داخلي اظن اني مكروه واني لا اقدر افعل شي	",
    "answer": "انشغل بالدراسه اوالعمل او الانشطه الاجتماعيه ومع تلقي العلاج النفسي تتحسن الحاله مع التدريب والصبر"
}


In [None]:
def build_fewshot_5_prompt(new_question):
    prompt = f"""
أجب على الأسئلة التالية باحترافية وباللغة العربية:

س: {example_1['question']}
ج: {example_1['answer']}

س: {example_2['question']}
ج: {example_2['answer']}

س: {example_3['question']}
ج: {example_3['answer']}

س: {example_4['question']}
ج: {example_4['answer']}

س: {example_5['question']}
ج: {example_5['answer']}

س: {new_question}
ج:"""
    return prompt.strip()

In [None]:
def generate_llama_fewshot_5_answer(question):
    prompt = build_fewshot_5_prompt(question)
    response = chat.invoke([
        HumanMessage(content=prompt)
    ])
    return response.content.strip()

In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_fewshot_5_answer'] = sample_df['question_clean_2'].apply(generate_llama_fewshot_5_answer)
sample_df.to_csv("llama_fewshot_5_answer.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_fewshot_5_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_fewshot_5'] = F1.tolist()
sample_df.to_csv("llama_fewshot_5_answer.csv", index=False)
print(f"✅ 5 - Few-Shot BERTScore F1: {F1.mean().item():.2f}")

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 11.81 seconds, 0.42 sentences/sec
✅ 5 - Few-Shot BERTScore F1: 0.62


In [None]:
def build_fewshot_cot_prompt(new_question):
    prompt = f"""

Question: I can't sleep and feel stressed all day. Do I have a mental illness?

Let's analyze the condition gradually:
1. Look at the symptoms: insomnia (inability to sleep) and constant stress.
2. Associated with: disorders such as generalized anxiety or depression.
3. To properly diagnose the condition: You must know a few things.
4. To answer: Provide a professional answer that takes into account the above factors using one or more of the strategies:
- providing information
- Direct answers
- Emotional support

Answer: It is best to consult a psychologist to evaluate the condition. Lifestyle changes or behavioral therapy may help alleviate the symptoms.

Make sure your answer is fully formatted in Arabic and specifically designed to diagnose mental health conditions

Question: {new_question}
Answer:"""
    return prompt.strip()

In [None]:
def generate_llama_fewshot_cot_answer(question):
    prompt = build_fewshot_cot_prompt(question)
    response = chat.invoke([
        HumanMessage(content=prompt)
    ])
    return response.content.strip()

In [None]:
sample_df = df[['question_clean_2', 'answer_clean_2']].sample(n=10, random_state=42).copy()
sample_df['llama_fewshot_cot_answer'] = sample_df['question_clean_2'].apply(generate_llama_fewshot_cot_answer)
sample_df.to_csv("llama_fewshot_cot_answer.csv", index=False)

In [None]:
from bert_score import score

P, R, F1 = score(
    sample_df['llama_fewshot_cot_answer'].tolist(),
    sample_df['answer_clean_2'].tolist(),
    lang="ar",
    verbose=True
)

sample_df['bertscore_llama_fewshot_cot_answer'] = F1.tolist()
sample_df.to_csv("llama_fewshot_cot_answer.csv", index=False)
print(f"✅ CoT BERTScore F1: {F1.mean().item():.2f}")

calculating scores...
computing bert embedding.


  0%|          | 0/1 [00:00<?, ?it/s]

  return forward_call(*args, **kwargs)


computing greedy matching.


  0%|          | 0/1 [00:00<?, ?it/s]

done in 24.67 seconds, 0.41 sentences/sec
✅ CoT BERTScore F1: 0.62


In [6]:
!pip install -U google-generativeai



In [2]:
from huggingface_hub import login
login()  # أدخل توكن HF

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [8]:
import google.generativeai as genai
print(f"Google Generative AI version: {genai.__version__}")

Google Generative AI version: 0.8.5


In [3]:
from huggingface_hub import __version__ as hf_version
print(f"Hugging Face Hub version: {hf_version}")

Hugging Face Hub version: 0.34.3


In [5]:
import sys
print(f"Python version: {sys.version}")

Python version: 3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]


In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer

# Allam
allam_model = AutoModelForCausalLM.from_pretrained("ALLaM-AI/ALLaM-7B-Instruct-preview", torch_dtype="auto", device_map="auto")
allam_tokenizer = AutoTokenizer.from_pretrained("ALLaM-AI/ALLaM-7B-Instruct-preview")

# Qwen
qwen_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-7B-Instruct", torch_dtype="auto", device_map="auto")
qwen_tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")

config.json:   0%|          | 0.00/686 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.03G [00:00<?, ?B/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]



tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/1.23M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/663 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/3.56G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]



tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

In [None]:
# FINAL aLLAm
def gen_hf(model, tokenizer, prompt):
    # 1. Tokenize the prompt and move to model's device
    toks = tokenizer(prompt, return_tensors="pt").to(model.device)

    # 2. Generate the model output
    out = model.generate(**toks, max_new_tokens=1024, temperature=0.1, do_sample=True, top_p=0.9)

    # 3. Decode only the generated part (exclude input prompt)
    generated_tokens = out[0][toks["input_ids"].shape[1]:]
    response = tokenizer.decode(generated_tokens, skip_special_tokens=True)

    return response


In [None]:
# FINAL Qwen
def gen_qwen(model, tokenizer, prompt):
    # 1. Tokenize the prompt and move to model's device
    toks = tokenizer(prompt, return_tensors="pt").to(model.device)

    # 2. Generate output
    out = model.generate(**toks, max_new_tokens=1024, temperature=0.1, do_sample=True, top_p=0.9)

    # 3. Decode only the generated part
    generated_tokens = out[0][toks["input_ids"].shape[1]:]
    response = tokenizer.decode(generated_tokens, skip_special_tokens=True)

    return response

In [None]:
# FINAL Gemini
import google.generativeai as genai
genai.configure(api_key="..")
gemini_model = genai.GenerativeModel("gemini-2.5-flash")

def gen_gemini(model, prompt, max_output_tokens=1024, temperature=0.1, top_p=0.9):
    response = model.generate_content(prompt)
    return response.text


In [None]:
#FINAL GPT

import openai

openai.api_key = "sk-proj...."
openai_model = "gpt-4o"

def gen_openai(prompt, model_name):
    response = openai.ChatCompletion.create(
        model=model_name,
        messages=[
            {"role": "user", "content": prompt}], max_tokens=1024,
                            temperature=0.1,
                            top_p=0.9
                            )
    return response.choices[0].message.content

In [None]:
# FINAL

import pandas as pd
from tqdm import tqdm
from bert_score import score

# Load 15 samples
#df = pd.read_csv("Train_Dev.tsv", sep="\t")
df_sample = df[['question_clean_2', 'answer_clean_2']].dropna().sample(n=20, random_state=42).reset_index(drop=True)

# Prepare all prompts
df_sample["prompt"] = df_sample["question_clean_2"].apply(build_fewshot_prompt)

# Initialize result containers
results = {
    "allam": [],
    "qwen": [],
    "gpt": [],
    "gemini": []
}


In [None]:
#FINAL

# Allam
for prompt in tqdm(df_sample["prompt"], desc="Allam"):
    ans = gen_hf(allam_model, allam_tokenizer, prompt)
    results["allam"].append(ans)

# Qwen
for prompt in tqdm(df_sample["prompt"], desc="Qwen"):
    ans = gen_qwen(qwen_model, qwen_tokenizer, prompt)
    results["qwen"].append(ans)

# OpenAI GPT
for prompt in tqdm(df_sample["prompt"], desc="GPT"):
    ans = gen_openai(prompt, openai_model)
    results["gpt"].append(ans)

# Gemini
for prompt in tqdm(df_sample["prompt"], desc="Gemini"):
    ans = gen_gemini(gemini_model, prompt)
    results["gemini"].append(ans)


Allam:   0%|          | 0/20 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Allam:   5%|▌         | 1/20 [1:17:59<24:41:51, 4679.53s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [None]:
bert_results = {}

for model_name in results.keys():
    print(f"Scoring {model_name}...")
    P, R, F1 = score(
        results[model_name],
        df_sample["answer_clean_2"].tolist(),
        lang="ar",
        verbose=True
    )
    bert_results[model_name] = {
        "precision": P.mean().item(),
        "recall": R.mean().item(),
        "f1": F1.mean().item()
    }


In [None]:
print("\n📊 Final Average BERTScore F1 per Model:")
for model_name, scores in bert_results.items():
    print(f"{model_name}: F1 = {scores['f1']:.4f}")