In [None]:
"""!pip install arabic_reshaper
!pip install python-bidi
!pip install camel-tools
!pip install rouge-score
!pip install nltk"""

from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
from typing import List, Tuple, Dict
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from collections import Counter
import re
from textblob import TextBlob
import arabic_reshaper
from bidi.algorithm import get_display
from camel_tools.utils.normalize import normalize_unicode
from camel_tools.tokenizers.word import simple_word_tokenize
generated_answers_llama = ['هناك العديد من النماذج المختلفة لنماذج التدريب في التعلم الآلي، وتختلف حسب التطبيق والموضوع. بعض النماذج الشائعة تشمل:\n\n1. **النماذج الخطية**: وهي أكثر نماذج التدريب استخدامًا وسهلة التحليل. تتميز بتحديد العوامل المتعلقة بالدالة من خلال معادلة خطية.\n\n2. **النماذج اللينية**: تشبه النماذج الخطية، ولكنها توفر مرونة أكثر وتستطيع التعامل مع البيانات المتراكمة أو غير المتسلسلة.\n\n3. **النماذج العشوائية**: تستخدم الارتباطات العشوائية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n4. **النماذج الدورانية**: تستخدم توجيهات دورية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n5. **النماذج الجريئة**: تستخدم تقنيات جريئة لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n6. **النماذج الربطية**: تستخدم تقنيات ربط لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة bigger في التعامل مع البيانات غير المتراكمة.\n\n7. **النماذج الشبكية**: تستخدم شبكات عصبية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n8. **النماذج الدورية**: تستخدم تقنيات دورية لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n9. **النماذج الجرية**: تستخدم تقنيات جريئة لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\n10. **النماذج الربطية**: تستخدم تقنيات ربط لتحديد العوامل المتعلقة بالدالة. يمكن أن تكون هذه النماذج أكثر تعقيدًا، ولكنها توفر مرونة أكبر في التعامل مع البيانات غير المتراكمة.\n\nهذه قائمة ببعض الأنواع المختلفة لنماذج التدريب في التعلم الآلي. تختلف كل نوع من النماذج حسب التطبيق والموضوع.', 'الفرق الرئيسية بين التعلم تحت الإشراف والتعلم غير المنظم هي:\n\n1- تعلم تحت الإشراف: يعتمد على وجود قائد أو مدرب منعزل، ويستند على التفاعل بشكل مباشر مع المرضى. في هذا النوع من التعلم، يتعلم المرضى من خلال الدروس والأنشطة التي تُقدمها القيد أو المدرب، ويمتصفون المعلومات والمهارات من خلال التفاعل المستمر معهم.\n\n2- تعلم غير المنظم: يعتمد على وجود قائد أو مدرب منعزلاً، ولكن لا يستند إلى التفاعل بشكل مباشر مع المرضى. في هذا النوع من التعلم، تُقدم الدروس والأنشطة التي تُقدمها القيد أو المدرب، ويمتصف المرضى المعلومات والمهارات من خلال الاستماع والقراءة أو استخدام الموارد المتاحة بلا وجود للتفاعل المستمر معهم.', 'السببية وتشابهها بالارتباط هي مصطلحين يُستخدمان في الفلسفة والفيزياء لوصف العلاقات بين الأحداث أو events. بينهما فرق مهم.\n\nالسببية:\nتُعد السببية مصدرًا للعلاقة بين الأحداث، حيث أن حدث A يكون سببًا لحدث B إذا كانت الحدث B تؤدي إلى حدث A. في هذه الحالة، يعتبر حدث A السببي لحدث B، ويعني أن حدث B لا يمكن أن يحدث دون حدث A.\n\nالارتباط:\nيُعد الارتباط مصدرًا للعلاقة بين الأحداث، ولكن لا يعني أن أحد الأحداث هو سبب للآخر. في هذه الحالة، يعتبر وجود علاقة بين الأحداث من غير المرجح أو غير متوقع، ويمكن أن يكون هناك عدة عوامل تؤثر على هذه العلاقة.\n\nمثال:\n\n*   السببية: إذا كان حدث A يسبب حدث B، فمن المحتمل أن حدث B سيكون سببًا لحدث C.\n*   الارتباط: إذا كان هناك علاقة بين الأحداث A و B، ولكن لا توجد سببية مباشرة بينهما، فإن العلاقة بينهم يمكن أن تكون من غير المرجح أو غير متوقع.\n\nفي النهاية، السببية تعني أن حدث A هو سبب لحدث B، بينما الارتباط يعني أن هناك علاقة بين الأحداث ولكن لا توجد سببية مباشرة.']

dataset = [
    {
        "question": "ما هي الأنواع المختلفة لنماذج التدريب في التعلم الآلي؟",
        "answer": (
            "في مجال التعلم الآلي، توجد ثلاثة أنواع رئيسية لنماذج التدريب:\n"
            "1. **التعلم الخاضع للإشراف** (Supervised Learning): حيث يتم استخدام بيانات مُعلّمة لتوجيه النموذج. هذا النوع من التعلم يعتمد على وجود بيانات مُدخلة ومخرجات معروفة، ويهدف إلى تعلم النموذج على التنبؤ بالمخرجات بناءً على المدخلات الجديدة.\n"
            "2. **التعلم غير الخاضع للإشراف** (Unsupervised Learning): والذي يعتمد على اكتشاف الأنماط والعلاقات داخل البيانات غير المُعلّمة. هذا النوع من التعلم يهدف إلى اكتشاف البنية الكامنة في البيانات، مثل المجموعات أو العناقيد، دون وجود مخرجات معروفة.\n"
            "3. **التعلم التعزيزي** (Reinforcement Learning): حيث يتعلم النموذج من خلال التفاعل مع البيئة وتعزيز السلوك الذي يؤدي إلى تحقيق الأهداف. هذا النوع من التعلم يعتمد على وجود وكيل يتفاعل مع البيئة، ويهدف إلى تعلم النموذج على اتخاذ القرارات التي تؤدي إلى تحقيق الأهداف."
        ),
        "domain_terms": [
            "Supervised Learning",
            "Unsupervised Learning",
            "Reinforcement Learning",
            "التعلم الخاضع للإشراف",
            "التعلم غير الخاضع للإشراف",
            "التعلم التعزيزي"
        ]
    },
    {
        "question": "ما هو الفرق الرئيسي بين التعلم تحت الإشراف والتعلم غير المنظم؟",
        "answer": (
            "الفرق الرئيسي بين التعلم تحت الإشراف (Supervised Learning) والتعلم غير المنظم (Unsupervised Learning) يكمن في وجود أو غياب البيانات المُعلّمة.\n"
            "* التعلم تحت الإشراف يستخدم بيانات تحتوي على مخرجات أو إجابات صحيحة لتدريب النموذج. الهدف في هذا النوع من التعلم هو بناء نموذج للتنبؤ بالمخرجات بناءً على بيانات جديدة.\n"
            "* التعلم غير المنظم يعتمد على بيانات غير معلّمة لا تحتوي على مخرجات محددة. الهدف في هذا النوع من التعلم هو اكتشاف الأنماط والعلاقات داخل البيانات."
        ),
        "domain_terms": [
            "Supervised Learning",
            "Unsupervised Learning",
            "التعلم تحت الإشراف",
            "التعلم غير المنظم"
        ]
    },
    {
        "question": "ما هو الفرق بين السببية والارتباط؟",
        "answer": (
            "السببية تشير إلى العلاقة التي تؤدي فيها التغييرات في أحد المتغيرات إلى تغييرات في متغير آخر، حيث تكون هناك علاقة بين السبب والنتيجة.\n"
            "* على سبيل المثال، يمكن أن يكون هناك علاقة سببية بين التدخين والإصابة بسرطان الرئة، حيث يؤدي التدخين إلى زيادة خطر الإصابة بسرطان الرئة.\n"
            "أما الارتباط فيشير إلى العلاقة بين متغيرين أو أكثر من حيث كيفية تحركهم معًا، ولكن لا يعني بالضرورة أن أحدهم يسبب الآخر.\n"
            "* على سبيل المثال، يمكن أن يكون هناك ارتباط بين درجات الحرارة العالية وزيادة في استهلاك المثلجات، لكن هذا لا يعني أن زيادة الحرارة هي السبب في زيادة الاستهلاك."
        ),
        "domain_terms": [
            "السببية",
            "الارتباط",
            "العلاقة السببية",
            "الارتباط بين المتغيرات"
        ]
    }
]
generated_answers_mistral7b = ["""
    "
نماذج التدريب المستقبلية (Supervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات مُحددة أو بيانات مُعلقة لتكون قادرة على تعلم خطوات تصحيح أو تحديد الخاصية.
نماذج التدريب الغير مستقبلية (Unsupervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات غير مُحددة أو بيانات مُجمدة، لكي تكون قادرة على التعلم بشكل خاص في معرفة خاصية جديدة أو فرز البيانات في مجموعات غير مُحددة.
نماذج التدريب السياسية (Semi-Supervised Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات مُحددة وغير مُحددة، لكي تكون قادرة على التعلم بشكل خاص في معرفة خاصية جديدة.
نماذج التدريب المستمر (Reinforcement Learning) : هي نوع من النماذج التي تتطلب معالجة بيانات غير مُحددة أو مُحددة، لكي تكون قادرة على التعلم بشكل خاص في إجراء الاختيارات المميزة في مستوى أعلى. """" ",

    """أحد الفرق الرئيسي الرئيسي بين التعلم تحت الإشراف (Supervised Learning) وغير المنظم (Unsupervised Learning) هو عدم وجود مثال معلم (Labeled Data) في الخطوة الثانية.

1. التعلم المنظم (Supervised Learning): يتم تدريب النموذج على مجموعة من البيانات المُعلمة (Labeled Data), حيث يكون هناك أسئلة والتي يتم عرضها للنموذج ويتم عرض إجابة صحيحة (Correct Answer) لها. بعد ذلك، يتم استخدام النموذج المُدرب للتعليم على مجموعة من البيانات التي لم تتم عرضها للنموذج أثناء التدريب (Test Data) ويتم قياس النجاح الرأسي (Accuracy) للنموذج.
2. التعلم الغير منظم (Unsupervised Learning): لا يوجد هناك إجابة صحيحة لأسئلة النموذج. النموذج يتعلم بالنفس من البيانات، ويقوم بفرزها إلى فئات أو تحديث خصائصها.

كلما زادت عدم الإشراف على البيانات، كلما زادت الصعوبة في التعليق على مشاكل حقيقية. بالطبيعة، إذا كانت المشكلة غير مُعرفة أو لا يوجد بيانات مُعلمة لها، فهناك حاجة إلى التعلم الغير منظم. في الخطوة الثانية، يتم استخدام النموذج المُدرب للتعليق على مشاكل حقيقية غير مُعرفة.""",
                     """
                     نعم، إن السببية والارتباط محدودتان للأسئلة في التعلم الآلي.

* **السببية** (features) هي المقاييس التي يتم تحديدها للمشكلة ويتم استخدامها في عملية التحليل. مثلًا، إذا كنت تريد تحليل أنواع سبائك جديدة، فتحدد مقاييسها المتعددة مثل الحجم النوعي، والرصيف، والمعدن الخام.
* **الارتباط** (relationship) هو علاقة بين السببية والإرجاع (output) مثل علاقة الحجم النوعي بالسبائك والتصنيع.

في التعلم الآلي، نحدد السببية ونحللها بأشكال مختلفة مثل الإحصاء الأساسي (regression) والإقرار (classification). على الإطلاق، يؤدي العمل على السببية إلى معرفة علاقتها بالإرجاع.
"""]

In [None]:
class ArabicTextEvaluator:
    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        """
        Initialize the Arabic text evaluator with necessary models and tools.

        Args:
            model_name: Name of the sentence transformer model to use
        """
        self.embedding_model = SentenceTransformer(model_name)
        self.rouge_scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
        self.smoothing = SmoothingFunction().method4

    def preprocess_arabic_text(self, text: str) -> str:
        """
        Preprocess Arabic text for better evaluation.

        Args:
            text: Input Arabic text

        Returns:
            Preprocessed text
        """
        # Normalize Unicode representations
        text = normalize_unicode(text)

        # Remove diacritics and tatweel
        text = re.sub(r'[\u064B-\u065F\u0640]', '', text)

        # Normalize Arabic characters
        replacements = {
            'أ': 'ا', 'إ': 'ا', 'آ': 'ا',
            'ى': 'ي', 'ة': 'ه'
        }
        for old, new in replacements.items():
            text = text.replace(old, new)

        return text

    def compute_semantic_coherence(self, generated: str, reference: str) -> float:
        """
        Compute semantic coherence between generated and reference texts.

        Args:
            generated: Generated Arabic text
            reference: Reference Arabic text

        Returns:
            Semantic coherence score
        """
        gen_emb = self.embedding_model.encode([generated], convert_to_tensor=True)
        ref_emb = self.embedding_model.encode([reference], convert_to_tensor=True)
        return float(cosine_similarity(gen_emb, ref_emb)[0][0])

    def compute_domain_coverage(
        self,
        text: str,
        domain_terms: List[str],
        weights: Dict[str, float] = None
    ) -> float:
        """
        Compute domain-specific terminology coverage with term importance weighting.

        Args:
            text: Input text
            domain_terms: List of domain-specific terms
            weights: Optional term importance weights

        Returns:
            Domain coverage score
        """
        if weights is None:
            weights = {term: 1.0 for term in domain_terms}

        text_tokens = set(simple_word_tokenize(text))
        covered_terms = text_tokens.intersection(set(domain_terms))

        weighted_coverage = sum(weights.get(term, 1.0) for term in covered_terms)
        total_weight = sum(weights.values())

        return weighted_coverage / total_weight if total_weight > 0 else 0.0

    def compute_enhanced_wssa(
        self,
        generated_answers: List[str],
        reference_answers: List[str],
        domain_terms: List[List[str]],
        weights: Dict[str, float] = None
    ) -> List[Dict[str, float]]:
        """
        Compute Enhanced WSSA (Weighted Semantic Similarity with Arabic-specific Adjustments)

        Args:
            generated_answers: List of generated answers
            reference_answers: List of reference answers
            domain_terms: List of domain-specific terms for each answer
            weights: Optional component weights

        Returns:
            List of evaluation metrics for each answer
        """
        if weights is None:
            weights = {
                'semantic': 0.35,
                'domain': 0.25,
                'fluency': 0.15,
                'bleu': 0.15,
                'rouge': 0.10
            }

        results = []

        for gen_ans, ref_ans, terms in zip(generated_answers, reference_answers, domain_terms):
            # Preprocess texts
            gen_ans_proc = self.preprocess_arabic_text(gen_ans)
            ref_ans_proc = self.preprocess_arabic_text(ref_ans)

            # Component scores
            semantic_score = self.compute_semantic_coherence(gen_ans_proc, ref_ans_proc)
            domain_score = self.compute_domain_coverage(gen_ans_proc, terms)

            # BLEU score with Arabic-specific tokenization
            bleu_score = sentence_bleu(
                [simple_word_tokenize(ref_ans_proc)],
                simple_word_tokenize(gen_ans_proc),
                smoothing_function=self.smoothing
            )

            # ROUGE scores
            rouge_scores = self.rouge_scorer.score(ref_ans_proc, gen_ans_proc)
            rouge_l = rouge_scores['rougeL'].fmeasure

            # Compute weighted final score
            final_score = (
                weights['semantic'] * semantic_score +
                weights['domain'] * domain_score +
                weights['bleu'] * bleu_score +
                weights['rouge'] * rouge_l
            )

            metrics = {
                'final_score': final_score,
                'semantic_coherence': semantic_score,
                'domain_coverage': domain_score,
                'bleu': bleu_score,
                'rouge_l': rouge_l
            }

            results.append(metrics)

        return results

# Example usage
evaluator = ArabicTextEvaluator()

# Compute results for both models
results_llama = evaluator.compute_enhanced_wssa(generated_answers_llama, correct_answers, domain_terms)
results_mistral7b = evaluator.compute_enhanced_wssa(generated_answers_mistral7b, correct_answers, domain_terms)

# Display results for each model
print("\nResults for LLaMA:")
for i, metrics in enumerate(results_llama, 1):
    print(f"\nQuestion {i} Evaluation Metrics:")
    for metric, score in metrics.items():
        print(f"{metric}: {score:.4f}")



Results for LLaMA:

Question 1 Evaluation Metrics:
final_score: 0.3163
semantic_coherence: 0.8001
domain_coverage: 0.0000
bleu: 0.0413
rouge_l: 0.3000

Question 2 Evaluation Metrics:
final_score: 0.3225
semantic_coherence: 0.8749
domain_coverage: 0.0000
bleu: 0.1083
rouge_l: 0.0000

Question 3 Evaluation Metrics:
final_score: 0.3425
semantic_coherence: 0.7832
domain_coverage: 0.2500
bleu: 0.0390
rouge_l: 0.0000


In [None]:

print("\nResults for Mistral7B:")
for i, metrics in enumerate(results_mistral7b, 1):
    print(f"\nQuestion {i} Evaluation Metrics:")
    for metric, score in metrics.items():
        print(f"{metric}: {score:.4f}")



Results for Mistral7B:

Question 1 Evaluation Metrics:
final_score: 0.3662
semantic_coherence: 0.8205
domain_coverage: 0.0000
bleu: 0.0820
rouge_l: 0.6667

Question 2 Evaluation Metrics:
final_score: 0.3461
semantic_coherence: 0.8538
domain_coverage: 0.0000
bleu: 0.0835
rouge_l: 0.3478

Question 3 Evaluation Metrics:
final_score: 0.3900
semantic_coherence: 0.9289
domain_coverage: 0.2500
bleu: 0.0159
rouge_l: 0.0000


In [None]:

# Compare results between models
print("\nComparison between LLaMA and Mistral7B:")
comparison_results = []
for i, (llama_metrics, mistral_metrics) in enumerate(zip(results_llama, results_mistral7b), 1):
    comparison = {
        'question': i,
        'better_model': 'LLaMA' if llama_metrics['final_score'] > mistral_metrics['final_score'] else 'Mistral7B',
        'llama_final_score': llama_metrics['final_score'],
        'mistral_final_score': mistral_metrics['final_score'],
        'semantic_difference': llama_metrics['semantic_coherence'] - mistral_metrics['semantic_coherence'],
        'domain_difference': llama_metrics['domain_coverage'] - mistral_metrics['domain_coverage'],
        'bleu_difference': llama_metrics['bleu'] - mistral_metrics['bleu'],
        'rouge_difference': llama_metrics['rouge_l'] - mistral_metrics['rouge_l']
    }
    comparison_results.append(comparison)

    print(f"\nQuestion {i} Comparison:")
    print(f"Better Model: {comparison['better_model']}")
    print(f"LLaMA Final Score: {comparison['llama_final_score']:.4f}")
    print(f"Mistral7B Final Score: {comparison['mistral_final_score']:.4f}")
    print(f"Semantic Coherence Difference: {comparison['semantic_difference']:.4f}")
    print(f"Domain Coverage Difference: {comparison['domain_difference']:.4f}")
    print(f"BLEU Difference: {comparison['bleu_difference']:.4f}")
    print(f"ROUGE-L Difference: {comparison['rouge_difference']:.4f}")




Comparison between LLaMA and Mistral7B:

Question 1 Comparison:
Better Model: Mistral7B
LLaMA Final Score: 0.3163
Mistral7B Final Score: 0.3662
Semantic Coherence Difference: -0.0204
Domain Coverage Difference: 0.0000
BLEU Difference: -0.0407
ROUGE-L Difference: -0.3667

Question 2 Comparison:
Better Model: Mistral7B
LLaMA Final Score: 0.3225
Mistral7B Final Score: 0.3461
Semantic Coherence Difference: 0.0211
Domain Coverage Difference: 0.0000
BLEU Difference: 0.0248
ROUGE-L Difference: -0.3478

Question 3 Comparison:
Better Model: Mistral7B
LLaMA Final Score: 0.3425
Mistral7B Final Score: 0.3900
Semantic Coherence Difference: -0.1457
Domain Coverage Difference: 0.0000
BLEU Difference: 0.0230
ROUGE-L Difference: 0.0000
