In [16]:
"""!pip install arabic_reshaper
!pip install python-bidi
!pip install camel-tools
!pip install rouge-score
!pip install nltk"""

from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
from typing import List, Tuple, Dict
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from collections import Counter
import re
from textblob import TextBlob
import arabic_reshaper
from bidi.algorithm import get_display
from camel_tools.utils.normalize import normalize_unicode
from camel_tools.tokenizers.word import simple_word_tokenize
generated_answers_llama = ['هناك العديد من النماذج المختلفة لنماذج التدريب في التعلم الآلي، وتختلف حسب التطبيق والموضوع. بعض النماذج الشائعة تشمل:\n\n1. **النماذج الخطية**: وهي أكثر نماذج التدريب استخدامًا وسهلة التحليل. تتميز بتحديد العوامل المتعلقة بالدالة من خلال معادلة خطية.\n\n2. **النماذج اللينية**: تشبه النماذج الخطية، ولكنها توفر مرونة أكثر وتستطيع التعامل مع البيانات المتراكمة أو غير المتسلسلة.\n\n3. **النماذج العشوائية**: تستخدم الارتباطات العشوائية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n4. **النماذج الدورانية**: تستخدم توجيهات دورية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n5. **النماذج الجريئة**: تستخدم تقنيات جريئة لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n6. **النماذج الربطية**: تستخدم تقنيات ربط لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة bigger في التعامل مع البيانات غير المتراكمة.\n\n7. **النماذج الشبكية**: تستخدم شبكات عصبية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n8. **النماذج الدورية**: تستخدم تقنيات دورية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n9. **النماذج الجرية**: تستخدم تقنيات جريئة لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n10. **النماذج الربطية**: تستخدم تقنيات ربط لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\nهذه قائمة ببعض الأنواع المختلفة لنماذج التدريب في التعلم الآلي. تختلف كل نوع من النماذج حسب التطبيق والموضوع.', 'الفرق الرئيسية بين التعلم تحت الإشراف والتعلم غير المنظم هي:\n\n1- تعلم تحت الإشراف: يعتمد على وجود قائد أو مدرب منعزل، ويستند على التفاعل بشكل مباشر مع المرضى. في هذا النوع من التعلم، يتعلم المرضى من خلال الدروس والأنشطة التي تُقدمها القيد أو المدرب، ويمتصفون المعلومات والمهارات من خلال التفاعل المستمر معهم.\n\n2- تعلم غير المنظم: يعتمد على وجود قائد أو مدرب منعزلاً، ولكن لا يستند إلى التفاعل بشكل مباشر مع المرضى. في هذا النوع من التعلم، تُقدم الدروس والأنشطة التي تُقدمها القيد أو المدرب، ويمتصف المرضى المعلومات والمهارات من خلال الاستماع والقراءة أو استخدام الموارد المتاحة بلا وجود للتفاعل المستمر معهم.', 'السببية وتشابهها بالارتباط هي مصطلحين يُستخدمان في الفلسفة والفيزياء لوصف العلاقات بين الأحداث أو events. بينهما فرق مهم.\n\nالسببية:\nتُعد السببية مصدرًا للعلاقة بين الأحداث، حيث أن حدث A يكون سببًا لحدث B إذا كانت الحدث B تؤدي إلى حدث A. في هذه الحالة، يعتبر حدث A السببي لحدث B، ويعني أن حدث B لا يمكن أن يحدث دون حدث A.\n\nالارتباط:\nيُعد الارتباط مصدرًا للعلاقة بين الأحداث، ولكن لا يعني أن أحد الأحداث هو سبب للآخر. في هذه الحالة، يعتبر وجود علاقة بين الأحداث من غير المرجح أو غير متوقع، ويمكن أن يكون هناك عدة عوامل تؤثر على هذه العلاقة.\n\nمثال:\n\n*   السببية: إذا كان حدث A يسبب حدث B، فمن المحتمل أن حدث B سيكون سببًا لحدث C.\n*   الارتباط: إذا كان هناك علاقة بين الأحداث A و B، ولكن لا توجد سببية مباشرة بينهما، فإن العلاقة بينهم يمكن أن تكون من غير المرجح أو غير متوقع.\n\nفي النهاية، السببية تعني أن حدث A هو سبب لحدث B، بينما الارتباط يعني أن هناك علاقة بين الأحداث ولكن لا توجد سببية مباشرة.']

dataset = [
    {
        "question": "ما هي الأنواع المختلفة لنماذج التدريب في التعلم الآلي؟",
        "answer": (
            "في مجال التعلم الآلي، توجد ثلاثة أنواع رئيسية لنماذج التدريب:\n"
            "1. **التعلم الخاضع للإشراف** (Supervised Learning): حيث يتم استخدام بيانات مُعلّمة لتوجيه النموذج. هذا النوع من التعلم يعتمد على وجود بيانات مُدخلة ومخرجات معروفة، ويهدف إلى تعلم النموذج على التنبؤ بالمخرجات بناءً على المدخلات الجديدة.\n"
            "2. **التعلم غير الخاضع للإشراف** (Unsupervised Learning): والذي يعتمد على اكتشاف الأنماط والعلاقات داخل البيانات غير المُعلّمة. هذا النوع من التعلم يهدف إلى اكتشاف البنية الكامنة في البيانات، مثل المجموعات أو العناقيد، دون وجود مخرجات معروفة.\n"
            "3. **التعلم التعزيزي** (Reinforcement Learning): حيث يتعلم النموذج من خلال التفاعل مع البيئة وتعزيز السلوك الذي يؤدي إلى تحقيق الأهداف. هذا النوع من التعلم يعتمد على وجود وكيل يتفاعل مع البيئة، ويهدف إلى تعلم النموذج على اتخاذ القرارات التي تؤدي إلى تحقيق الأهداف."
        ),
        "domain_terms": [
            "Supervised Learning",
            "Unsupervised Learning",
            "Reinforcement Learning",
            "التعلم الخاضع للإشراف",
            "التعلم غير الخاضع للإشراف",
            "التعلم التعزيزي"
        ]
    },
    {
        "question": "ما هو الفرق الرئيسي بين التعلم تحت الإشراف والتعلم غير المنظم؟",
        "answer": (
            "الفرق الرئيسي بين التعلم تحت الإشراف (Supervised Learning) والتعلم غير المنظم (Unsupervised Learning) يكمن في وجود أو غياب البيانات المُعلّمة.\n"
            "* التعلم تحت الإشراف يستخدم بيانات تحتوي على مخرجات أو إجابات صحيحة لتدريب النموذج. الهدف في هذا النوع من التعلم هو بناء نموذج للتنبؤ بالمخرجات بناءً على بيانات جديدة.\n"
            "* التعلم غير المنظم يعتمد على بيانات غير معلّمة لا تحتوي على مخرجات محددة. الهدف في هذا النوع من التعلم هو اكتشاف الأنماط والعلاقات داخل البيانات."
        ),
        "domain_terms": [
            "Supervised Learning",
            "Unsupervised Learning",
            "التعلم تحت الإشراف",
            "التعلم غير المنظم"
        ]
    },
    {
        "question": "ما هو الفرق بين السببية والارتباط؟",
        "answer": (
            "السببية تشير إلى العلاقة التي تؤدي فيها التغييرات في أحد المتغيرات إلى تغييرات في متغير آخر، حيث تكون هناك علاقة بين السبب والنتيجة.\n"
            "* على سبيل المثال، يمكن أن يكون هناك علاقة سببية بين التدخين والإصابة بسرطان الرئة، حيث يؤدي التدخين إلى زيادة خطر الإصابة بسرطان الرئة.\n"
            "أما الارتباط فيشير إلى العلاقة بين متغيرين أو أكثر من حيث كيفية تحركهم معًا، ولكن لا يعني بالضرورة أن أحدهم يسبب الآخر.\n"
            "* على سبيل المثال، يمكن أن يكون هناك ارتباط بين درجات الحرارة العالية وزيادة في استهلاك المثلجات، لكن هذا لا يعني أن زيادة الحرارة هي السبب في زيادة الاستهلاك."
        ),
        "domain_terms": [
            "السببية",
            "الارتباط",
            "العلاقة السببية",
            "الارتباط بين المتغيرات"
        ]
    }
]
generated_answers_mistral7b = ["""
    "
نماذج التدريب المستقبلية (Supervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات مُحددة أو بيانات مُعلقة لتكون قادرة على تعلم خطوات تصحيح أو تحديد الخاصية.
نماذج التدريب الغير مستقبلية (Unsupervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات غير مُحددة أو بيانات مُجمدة، لكي تكون قادرة على التعلم بشكل خاص في معرفة خاصية جديدة أو فرز البيانات في مجموعات غير مُحددة.
نماذج التدريب السياسية (Semi-Supervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات مُحددة وغير مُحددة، لكي تكون قادرة على التعلم بشكل خاص في معرفة خاصية جديدة.
نماذج التدريب المستمر (Reinforcement Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات غير مُحددة أو مُحددة، لكي تكون قادرة على التعلم بشكل خاص في إجراء الاختيارات المميزة في مستوى أعلى. """" ",

    """أحد الفرق الرئيسي الرئيسي بين التعلم تحت الإشراف (Supervised Learning) وغير المنظم (Unsupervised Learning) هو عدم وجود مثال معلم (Labeled Data) في الخطوة الثانية.

1. التعلم المنظم (Supervised Learning): يتم تدريب النموذج على مجموعة من البيانات المُعلمة (Labeled Data), حيث يكون هناك أسئلة والتي يتم عرضها للنموذج ويتم عرض إجابة صحيحة (Correct Answer) لها. بعد ذلك، يتم استخدام النموذج المُدرب للتعليم على مجموعة من البيانات التي لم تتم عرضها للنموذج أثناء التدريب (Test Data) ويتم قياس النجاح الرأسي (Accuracy) للنموذج.
2. التعلم الغير منظم (Unsupervised Learning): لا يوجد هناك إجابة صحيحة لأسئلة النموذج. النموذج يتعلم بالنفس من البيانات، ويقوم بفرزها إلى فئات أو تحديث خصائصها.

كلما زادت عدم الإشراف على البيانات، كلما زادت الصعوبة في التعليق على مشاكل حقيقية. بالطبيعة، إذا كانت المشكلة غير مُعرفة أو لا يوجد بيانات مُعلمة لها، فهناك حاجة إلى التعلم الغير منظم. في الخطوة الثانية، يتم استخدام النموذج المُدرب للتعليق على مشاكل حقيقية غير مُعرفة.""",
                     """
                     نعم، إن السببية والارتباط محدودتان للأسئلة في التعلم الآلي.

* **السببية** (features) هي المقاييس التي يتم تحديدها للمشكلة ويتم استخدامها في عملية التحليل. مثلًا، إذا كنت تريد تحليل أنواع سبائك جديدة، فتحدد مقاييسها المتعددة مثل الحجم النوعي، والرصيف، والمعدن الخام.
* **الارتباط** (relationship) هو علاقة بين السببية والإرجاع (output) مثل علاقة الحجم النوعي بالسبائك والتصنيع.

في التعلم الآلي، نحدد السببية ونحللها بأشكال مختلفة مثل الإحصاء الأساسي (regression) والإقرار (classification). على الإطلاق، يؤدي العمل على السببية إلى معرفة علاقتها بالإرجاع.
"""]

In [17]:
class ArabicLightStemmer:
    def __init__(self):
        """
        Initialize the Arabic Light Stemmer with prefix and suffix patterns
        """
        # Common prefixes (ال, لل, بال, كال, فال, لل)
        self.prefixes = [
            'ال', 'لل', 'بال', 'كال', 'فال', 'لل', 'وال'
        ]

        # Common suffixes (ة, ه, ية, ات, ين, ون, ان, تي, تن, كم, هن, نا, يه, ته, تم)
        self.suffixes = [
            'ة', 'ه', 'ية', 'ات', 'ين', 'ون', 'ان', 'تي', 'تن',
            'كم', 'هن', 'نا', 'يه', 'ته', 'تم', 'كن', 'ني', 'وا', 'ما', 'تا'
        ]

        # Length-three patterns
        self.patterns = {
            'فاع': 'فعل',
            'فعل': 'فعل',
            'فعي': 'فعل',
            'فاعل': 'فعل',
            'مفعل': 'فعل',
            'تفعل': 'فعل',
            'مفعول': 'فعل',
            'يفعل': 'فعل',
            'تفاعل': 'فعل',
            'مفاعل': 'فعل',
            'افتعل': 'فعل',
            'افعال': 'فعل',
            'فعال': 'فعل'
        }

    def remove_diacritics(self, word: str) -> str:
        """
        Remove Arabic diacritical marks from the word

        Args:
            word: Arabic word

        Returns:
            Word without diacritical marks
        """
        return re.sub(r'[\u064B-\u065F\u0640]', '', word)

    def normalize_hamza(self, word: str) -> str:
        """
        Normalize different forms of hamza to a single form

        Args:
            word: Arabic word

        Returns:
            Word with normalized hamza
        """
        # Convert hamza forms to alef
        hamza_forms = ['أ', 'إ', 'آ']
        for hamza in hamza_forms:
            word = word.replace(hamza, 'ا')
        return word

    def remove_prefix(self, word: str) -> str:
        """
        Remove common Arabic prefixes from the word

        Args:
            word: Arabic word

        Returns:
            Word with prefix removed if found
        """
        if len(word) < 4:  # Don't process words that are too short
            return word

        for prefix in sorted(self.prefixes, key=len, reverse=True):
            if word.startswith(prefix) and len(word) > len(prefix) + 2:
                return word[len(prefix):]
        return word

    def remove_suffix(self, word: str) -> str:
        """
        Remove common Arabic suffixes from the word

        Args:
            word: Arabic word

        Returns:
            Word with suffix removed if found
        """
        if len(word) < 4:  # Don't process words that are too short
            return word

        for suffix in sorted(self.suffixes, key=len, reverse=True):
            if word.endswith(suffix) and len(word) > len(suffix) + 2:
                return word[:-len(suffix)]
        return word

    def normalize_pattern(self, word: str) -> str:
        """
        Normalize word pattern to its root form if possible

        Args:
            word: Arabic word

        Returns:
            Word with normalized pattern
        """
        if len(word) < 3:
            return word

        # Extract the pattern for length-three words
        if len(word) == 3:
            return word

        # Check for known patterns
        for pattern, replacement in self.patterns.items():
            if len(word) == len(pattern) and self._matches_pattern(word, pattern):
                return replacement

        return word

    def _matches_pattern(self, word: str, pattern: str) -> bool:
        """
        Check if a word matches a given pattern

        Args:
            word: Arabic word
            pattern: Pattern to match against

        Returns:
            True if word matches pattern, False otherwise
        """
        if len(word) != len(pattern):
            return False

        # Extract root letters based on pattern
        root_positions = [i for i, char in enumerate(pattern) if char in 'فعل']
        non_root_positions = [i for i, char in enumerate(pattern) if char not in 'فعل']

        # Check if non-root letters match the pattern
        for pos in non_root_positions:
            if word[pos] != pattern[pos]:
                return False

        return True

    def stem(self, word: str) -> str:
        """
        Apply light stemming to an Arabic word

        Args:
            word: Arabic word to stem

        Returns:
            Stemmed word
        """
        if not word:
            return word

        # Preprocessing
        word = self.remove_diacritics(word)
        word = self.normalize_hamza(word)

        # Remove affixes
        word = self.remove_prefix(word)
        word = self.remove_suffix(word)

        # Normalize patterns
        word = self.normalize_pattern(word)

        return word

    def stem_text(self, text: str) -> List[str]:
        """
        Apply stemming to all words in a text

        Args:
            text: Arabic text

        Returns:
            List of stemmed words
        """
        # Split text into words (simple tokenization)
        words = text.split()

        # Apply stemming to each word
        return [self.stem(word) for word in words]

In [18]:
class ArabicTokenizer:
    def __init__(self):
        """
        Initialize the Arabic tokenizer with necessary patterns and rules
        """
        # Arabic punctuation marks
        self.ar_punctuation = set('،؛؟٪'"«»…٬٫'")

        # Additional punctuation that might appear in Arabic text
        self.en_punctuation = set(',.!?;:\'"`()[]{}<>/-+*=\\|~@#$%^&')

        # Arabic numbers
        self.ar_numbers = set('٠١٢٣٤٥٦٧٨٩')

        # Compile regex patterns
        self.patterns = {
            'tatweel': re.compile(r'\u0640+'),  # Tatweel character
            'spacing': re.compile(r'\s+'),  # Multiple spaces
            'digits': re.compile(r'[\u0660-\u0669\u06F0-\u06F9\d]+'),  # Arabic and English digits
            'symbols': re.compile(r'[﷼﷽٪‰\u0660-\u0669]'),  # Special symbols
            'english': re.compile(r'[a-zA-Z]+[a-zA-Z\d]*'),  # English words
            'urls': re.compile(r'https?://\S+|www\.\S+'),  # URLs
            'emails': re.compile(r'\S+@\S+\.\S+'),  # Email addresses
            'mentions': re.compile(r'@\w+'),  # Social media mentions
            'hashtags': re.compile(r'#\w+'),  # Hashtags
        }

    def is_arabic_char(self, char: str) -> bool:
        """
        Check if a character is an Arabic letter

        Args:
            char: Single character to check

        Returns:
            True if the character is an Arabic letter
        """
        return '\u0600' <= char <= '\u06FF' or '\u0750' <= char <= '\u077F'

    def remove_tatweel(self, text: str) -> str:
        """
        Remove tatweel (kashida) from text

        Args:
            text: Input text

        Returns:
            Text with tatweel removed
        """
        return self.patterns['tatweel'].sub('', text)

    def normalize_spaces(self, text: str) -> str:
        """
        Normalize multiple spaces to single space

        Args:
            text: Input text

        Returns:
            Text with normalized spaces
        """
        return self.patterns['spacing'].sub(' ', text)

    def handle_special_tokens(self, text: str) -> List[str]:
        """
        Extract special tokens (URLs, emails, mentions, hashtags)

        Args:
            text: Input text

        Returns:
            List of special tokens found
        """
        special_tokens = []

        # Find and collect special tokens
        for pattern_name in ['urls', 'emails', 'mentions', 'hashtags']:
            matches = self.patterns[pattern_name].finditer(text)
            special_tokens.extend(match.group() for match in matches)

        return special_tokens

    def tokenize(self, text: str, preserve_special: bool = True) -> List[str]:
        """
        Tokenize Arabic text

        Args:
            text: Input Arabic text
            preserve_special: Whether to preserve special tokens (URLs, emails, etc.)

        Returns:
            List of tokens
        """
        if not text:
            return []

        # Initial preprocessing
        text = self.normalize_spaces(text)
        text = self.remove_tatweel(text)

        # Handle special tokens
        special_tokens = []
        if preserve_special:
            special_tokens = self.handle_special_tokens(text)
            # Replace special tokens with placeholders
            for token in special_tokens:
                text = text.replace(token, ' __SPECIAL__ ')

        tokens = []
        current_token = []

        for char in text:
            # Skip placeholders (will be replaced later)
            if char == '_':
                continue

            # Handle whitespace
            if char.isspace():
                if current_token:
                    tokens.append(''.join(current_token))
                    current_token = []
                continue

            # Handle Arabic letters
            if self.is_arabic_char(char):
                current_token.append(char)
                continue

            # Handle numbers (both Arabic and English)
            if char.isdigit() or char in self.ar_numbers:
                if current_token and not (current_token[-1].isdigit() or current_token[-1] in self.ar_numbers):
                    tokens.append(''.join(current_token))
                    current_token = []
                current_token.append(char)
                continue

            # Handle punctuation
            if char in self.ar_punctuation or char in self.en_punctuation:
                if current_token:
                    tokens.append(''.join(current_token))
                    current_token = []
                tokens.append(char)
                continue

            # Handle other characters
            if current_token:
                tokens.append(''.join(current_token))
                current_token = []
            tokens.append(char)

        # Add final token if exists
        if current_token:
            tokens.append(''.join(current_token))

        # Restore special tokens
        if preserve_special:
            tokens = [token if token != '__SPECIAL__' else special_tokens.pop(0)
                     for token in tokens if token != ' ']

        return [token for token in tokens if token.strip()]

    def tokenize_text(self, text: str, preserve_special: bool = True) -> List[str]:
        """
        Tokenize a complete text, handling multiple sentences

        Args:
            text: Input text
            preserve_special: Whether to preserve special tokens

        Returns:
            List of tokens
        """
        # Split text into sentences (basic implementation)
        sentences = re.split(r'[.!?؟।\n]+', text)

        # Tokenize each sentence
        all_tokens = []
        for sentence in sentences:
            if sentence.strip():
                tokens = self.tokenize(sentence, preserve_special)
                all_tokens.extend(tokens)

        return all_tokens

    @staticmethod
    def detokenize(tokens: List[str]) -> str:
        """
        Combine tokens back into text

        Args:
            tokens: List of tokens

        Returns:
            Combined text
        """
        text = ''
        for i, token in enumerate(tokens):
            # Don't add space before punctuation
            if i > 0 and not (token in '،؛؟.!?:;' or token.startswith('#') or token.startswith('@')):
                text += ' '
            text += token
        return text.strip()

def arabic_tokenize(text: str, preserve_special: bool = True) -> List[str]:
    """
    Convenience function for tokenizing Arabic text

    Args:
        text: Input Arabic text
        preserve_special: Whether to preserve special tokens

    Returns:
        List of tokens
    """
    tokenizer = ArabicTokenizer()
    return tokenizer.tokenize_text(text, preserve_special)

In [19]:
import math
class ArabicTextEvaluator:
    def __init__(self, model_name: str = 'bert-base-multilingual-cased'):
        """
        Initialize with a multilingual model more suitable for Arabic
        """
        self.embedding_model = SentenceTransformer(model_name)
        self.rouge_scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
        self.smoothing = SmoothingFunction().method4
        self.arabic_stemmer = ArabicLightStemmer()
        self.tokenizer = ArabicTokenizer()  # Initialize the tokenizer

    def preprocess_arabic_text(self, text: str) -> str:
        """
        Enhanced Arabic text preprocessing
        """
        if not text or not isinstance(text, str):
            return ""

        # Normalize Unicode representations
        text = normalize_unicode(text)

        # Remove diacritics, tatweel, and kashida
        text = re.sub(r'[\u064B-\u065F\u0640]', '', text)

        # Normalize Arabic characters
        replacements = {
            'أ': 'ا', 'إ': 'ا', 'آ': 'ا',  # Alef forms
            'ى': 'ي', 'ئ': 'ي',  # Yaa forms
            'ة': 'ه',  # Taa marbouta
            '٠': '0', '١': '1', '٢': '2', '٣': '3', '٤': '4',  # Arabic numerals
            '٥': '5', '٦': '6', '٧': '7', '٨': '8', '٩': '9'
        }
        for old, new in replacements.items():
            text = text.replace(old, new)

        return text.strip()

    def tokenize_text(self, text: str) -> List[str]:
        """
        Tokenize Arabic text using ArabicTokenizer

        Args:
            text: Input Arabic text

        Returns:
            List of tokens
        """
        return self.tokenizer.tokenize_text(text)

    def compute_fluency_score(self, text: str) -> float:
        """
        Compute Arabic text fluency score
        """
        if not text:
            return 0.0

        # Basic fluency metrics using the tokenizer
        words = self.tokenize_text(text)
        if not words:
            return 0.0

        # Check for basic Arabic sentence structure
        has_verb = any(self.is_arabic_verb(word) for word in words)
        has_noun = any(self.is_arabic_noun(word) for word in words)
        proper_length = 3 <= len(words) <= 50  # Reasonable sentence length

        # Combine metrics
        fluency_score = (has_verb + has_noun + proper_length) / 3
        return fluency_score

    def compute_semantic_coherence(self, generated: str, reference: str) -> float:
        """
        Compute semantic coherence between generated and reference texts.
        """
        gen_emb = self.embedding_model.encode([generated], convert_to_tensor=True)
        ref_emb = self.embedding_model.encode([reference], convert_to_tensor=True)
        return float(cosine_similarity(gen_emb, ref_emb)[0][0])

    def compute_domain_coverage(
        self,
        text: str,
        domain_terms: List[str],
        weights: Dict[str, float] = None
    ) -> float:
        """
        Improved domain coverage with stemming and proper tokenization
        """
        if not text or not domain_terms:
            return 0.0

        if weights is None:
            weights = {term: 1.0 for term in domain_terms}

        # Preprocess and stem text using proper tokenization
        text_tokens = set(self.tokenize_text(text))
        text_stems = {self.arabic_stemmer.stem(token) for token in text_tokens}

        # Stem domain terms
        domain_stems = {self.arabic_stemmer.stem(term): term for term in domain_terms}

        # Calculate coverage with stemming
        covered_terms = set()
        for text_stem in text_stems:
            if text_stem in domain_stems:
                covered_terms.add(domain_stems[text_stem])

        weighted_coverage = sum(weights.get(term, 1.0) for term in covered_terms)
        total_weight = sum(weights.values())

        return weighted_coverage / total_weight if total_weight > 0 else 0.0

    def compute_enhanced_wssa(
        self,
        generated_answers: List[str],
        reference_answers: List[str],
        domain_terms: List[List[str]],
        weights: Dict[str, float] = None
    ) -> List[Dict[str, float]]:
        """
        Improved WSSA implementation with proper tokenization
        """
        if weights is None:
            weights = {
                'semantic': 0.35,
                'domain': 0.25,
                'fluency': 0.15,
                'bleu': 0.15,
                'rouge': 0.10
            }

        # Validate weights
        if not math.isclose(sum(weights.values()), 1.0, rel_tol=1e-9):
            raise ValueError("Weights must sum to 1.0")

        results = []

        for gen_ans, ref_ans, terms in zip(generated_answers, reference_answers, domain_terms):
            # Preprocess texts
            gen_ans_proc = self.preprocess_arabic_text(gen_ans)
            ref_ans_proc = self.preprocess_arabic_text(ref_ans)

            if not gen_ans_proc or not ref_ans_proc:
                continue

            # Component scores
            semantic_score = self.compute_semantic_coherence(gen_ans_proc, ref_ans_proc)
            domain_score = self.compute_domain_coverage(gen_ans_proc, terms)
            fluency_score = self.compute_fluency_score(gen_ans_proc)

            # BLEU score with proper tokenization
            bleu_score = sentence_bleu(
                [self.tokenize_text(ref_ans_proc)],
                self.tokenize_text(gen_ans_proc),
                smoothing_function=self.smoothing
            )

            # ROUGE scores
            rouge_scores = self.rouge_scorer.score(ref_ans_proc, gen_ans_proc)
            rouge_l = rouge_scores['rougeL'].fmeasure

            # Compute weighted final score
            final_score = (
                weights['semantic'] * semantic_score +
                weights['domain'] * domain_score +
                weights['fluency'] * fluency_score +
                weights['bleu'] * bleu_score +
                weights['rouge'] * rouge_l
            )

            metrics = {
                'final_score': final_score,
                'semantic_coherence': semantic_score,
                'domain_coverage': domain_score,
                'fluency': fluency_score,
                'bleu': bleu_score,
                'rouge_l': rouge_l
            }

            results.append(metrics)

        return results

    def is_arabic_verb(self, word: str) -> bool:
        """
        Simple check if a word is likely an Arabic verb
        Note: This is a basic implementation and should be enhanced
        """
        # Common verb patterns
        verb_patterns = [
            'فعل', 'يفعل', 'افعل', 'مفعول',
            'فاعل', 'تفعل', 'انفعل', 'استفعل'
        ]
        stemmed_word = self.arabic_stemmer.stem(word)
        return any(pattern in stemmed_word for pattern in verb_patterns)

    def is_arabic_noun(self, word: str) -> bool:
        """
        Simple check if a word is likely an Arabic noun
        Note: This is a basic implementation and should be enhanced
        """
        # Common noun patterns
        noun_patterns = [
            'فاعل', 'مفعول', 'فعال', 'فعيل',
            'مفعل', 'مفعال', 'فعلان', 'فعول'
        ]
        stemmed_word = self.arabic_stemmer.stem(word)
        return any(pattern in stemmed_word for pattern in noun_patterns)
# Example usage
correct_answers = [item["answer"] for item in dataset]
domain_terms = [item["domain_terms"] for item in dataset]
evaluator = ArabicTextEvaluator()

# Compute results for both models
results_llama = evaluator.compute_enhanced_wssa(generated_answers_llama, correct_answers, domain_terms)
results_mistral7b = evaluator.compute_enhanced_wssa(generated_answers_mistral7b, correct_answers, domain_terms)

# Display results for each model
print("\nResults for LLaMA:")
for i, metrics in enumerate(results_llama, 1):
    print(f"\nQuestion {i} Evaluation Metrics:")
    for metric, score in metrics.items():
        print(f"{metric}: {score:.4f}")





Results for LLaMA:

Question 1 Evaluation Metrics:
final_score: 0.3788
semantic_coherence: 0.8449
domain_coverage: 0.0000
fluency: 0.3333
bleu: 0.0205
rouge_l: 0.3000

Question 2 Evaluation Metrics:
final_score: 0.3798
semantic_coherence: 0.9058
domain_coverage: 0.0000
fluency: 0.3333
bleu: 0.0854
rouge_l: 0.0000

Question 3 Evaluation Metrics:
final_score: 0.5015
semantic_coherence: 0.9201
domain_coverage: 0.5000
fluency: 0.3333
bleu: 0.0295
rouge_l: 0.0000


In [20]:

print("\nResults for Mistral7B:")
for i, metrics in enumerate(results_mistral7b, 1):
    print(f"\nQuestion {i} Evaluation Metrics:")
    for metric, score in metrics.items():
        print(f"{metric}: {score:.4f}")



Results for Mistral7B:

Question 1 Evaluation Metrics:
final_score: 0.4872
semantic_coherence: 0.9173
domain_coverage: 0.0000
fluency: 0.3333
bleu: 0.3303
rouge_l: 0.6667

Question 2 Evaluation Metrics:
final_score: 0.4381
semantic_coherence: 0.9310
domain_coverage: 0.0000
fluency: 0.3333
bleu: 0.1829
rouge_l: 0.3478

Question 3 Evaluation Metrics:
final_score: 0.4867
semantic_coherence: 0.8870
domain_coverage: 0.5000
fluency: 0.3333
bleu: 0.0086
rouge_l: 0.0000


In [21]:

# Compare results between models
print("\nComparison between LLaMA and Mistral7B:")
comparison_results = []
for i, (llama_metrics, mistral_metrics) in enumerate(zip(results_llama, results_mistral7b), 1):
    comparison = {
        'question': i,
        'better_model': 'LLaMA' if llama_metrics['final_score'] > mistral_metrics['final_score'] else 'Mistral7B',
        'llama_final_score': llama_metrics['final_score'],
        'mistral_final_score': mistral_metrics['final_score'],
        'semantic_difference': llama_metrics['semantic_coherence'] - mistral_metrics['semantic_coherence'],
        'domain_difference': llama_metrics['domain_coverage'] - mistral_metrics['domain_coverage'],
        'bleu_difference': llama_metrics['bleu'] - mistral_metrics['bleu'],
        'rouge_difference': llama_metrics['rouge_l'] - mistral_metrics['rouge_l']
    }
    comparison_results.append(comparison)

    print(f"\nQuestion {i} Comparison:")
    print(f"Better Model: {comparison['better_model']}")
    print(f"LLaMA Final Score: {comparison['llama_final_score']:.4f}")
    print(f"Mistral7B Final Score: {comparison['mistral_final_score']:.4f}")
    print(f"Semantic Coherence Difference: {comparison['semantic_difference']:.4f}")
    print(f"Domain Coverage Difference: {comparison['domain_difference']:.4f}")
    print(f"BLEU Difference: {comparison['bleu_difference']:.4f}")
    print(f"ROUGE-L Difference: {comparison['rouge_difference']:.4f}")




Comparison between LLaMA and Mistral7B:

Question 1 Comparison:
Better Model: Mistral7B
LLaMA Final Score: 0.3788
Mistral7B Final Score: 0.4872
Semantic Coherence Difference: -0.0724
Domain Coverage Difference: 0.0000
BLEU Difference: -0.3098
ROUGE-L Difference: -0.3667

Question 2 Comparison:
Better Model: Mistral7B
LLaMA Final Score: 0.3798
Mistral7B Final Score: 0.4381
Semantic Coherence Difference: -0.0253
Domain Coverage Difference: 0.0000
BLEU Difference: -0.0975
ROUGE-L Difference: -0.3478

Question 3 Comparison:
Better Model: LLaMA
LLaMA Final Score: 0.5015
Mistral7B Final Score: 0.4867
Semantic Coherence Difference: 0.0331
Domain Coverage Difference: 0.0000
BLEU Difference: 0.0210
ROUGE-L Difference: 0.0000
