<a href="https://colab.research.google.com/github/ForuzanShafiei/Article_drf/blob/master/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [9]:
# @title Default title text
!pip install transformers datasets torch rouge-score nltk evaluate accelerate --quiet
!pip install fsspec==2023.6.0 --quiet  # رفع مشکل بارگذاری دیتاست

import torch
import pandas as pd
import numpy as np
from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM,
    Trainer,
    TrainingArguments,
    DataCollatorForSeq2Seq
)
from datasets import load_dataset, Dataset
import evaluate
import nltk
from rouge_score import rouge_scorer
import warnings
warnings.filterwarnings('ignore')

try:
    nltk.download('punkt', quiet=True)
except:
    pass

print("✅ کتابخانه‌ها با موفقیت نصب شدند")

class TextSummarizer:
    def __init__(self, model_name, max_input_length=1024, max_target_length=128):
        self.model_name = model_name
        self.max_input_length = max_input_length
        self.max_target_length = max_target_length

        print(f"🔄 بارگذاری مدل {model_name}...")
        try:
            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
            self.model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
        except Exception as e:
            print(f"⚠️ خطا در بارگذاری مدل: {e}")
            return
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model.to(self.device)
        print(f"✅ مدل بر روی {self.device} بارگذاری شد")
        try:
            self.rouge_metric = evaluate.load("rouge")
        except:
            print("⚠️ متریک ROUGE بارگذاری نشد، از rouge_scorer استفاده می‌شود")
            self.rouge_scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)

    def preprocess_function(self, examples):
        inputs = examples["article"] if "article" in examples else examples["text"]
        targets = examples["highlights"] if "highlights" in examples else examples["summary"]

        model_inputs = self.tokenizer(
            inputs,
            max_length=self.max_input_length,
            truncation=True,
            padding=True
        )

        with self.tokenizer.as_target_tokenizer():
            labels = self.tokenizer(
                targets,
                max_length=self.max_target_length,
                truncation=True,
                padding=True
            )

        model_inputs["labels"] = labels["input_ids"]
        return model_inputs

    def compute_rouge_manually(self, predictions, references):
        scores = {'rouge1': [], 'rouge2': [], 'rougeL': []}

        for pred, ref in zip(predictions, references):
            score = self.rouge_scorer.score(ref, pred)
            scores['rouge1'].append(score['rouge1'].fmeasure)
            scores['rouge2'].append(score['rouge2'].fmeasure)
            scores['rougeL'].append(score['rougeL'].fmeasure)

        return {
            'rouge1': np.mean(scores['rouge1']),
            'rouge2': np.mean(scores['rouge2']),
            'rougeL': np.mean(scores['rougeL'])
        }

    def generate_summary(self, text, max_length=150, min_length=30):
        inputs = self.tokenizer(
            text,
            max_length=self.max_input_length,
            truncation=True,
            return_tensors="pt"
        ).to(self.device)

        try:
            with torch.no_grad():
                summary_ids = self.model.generate(
                    inputs["input_ids"],
                    max_length=max_length,
                    min_length=min_length,
                    length_penalty=2.0,
                    num_beams=4,
                    early_stopping=True
                )

            summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)
            return summary
        except Exception as e:
            print(f"خطا در تولید خلاصه: {e}")
            return "خلاصه تولید نشد"

    def evaluate_on_dataset(self, test_dataset, sample_size=50):
        print(f"🔍 ارزیابی مدل روی {sample_size} نمونه...")
        if len(test_dataset) > sample_size:
            test_dataset = test_dataset.shuffle(seed=42).select(range(sample_size))

        predictions = []
        references = []

        for i, example in enumerate(test_dataset):
            if i % 10 == 0:
                print(f"پردازش {i}/{len(test_dataset)}...")

            article = example["article"] if "article" in example else example["text"]
            reference = example["highlights"] if "highlights" in example else example["summary"]

            prediction = self.generate_summary(article)

            predictions.append(prediction)
            references.append(reference)

        try:
            rouge_scores = self.rouge_metric.compute(
                predictions=predictions,
                references=references,
                use_stemmer=True
            )
        except:
            rouge_scores = self.compute_rouge_manually(predictions, references)
        print("\n📊 نتایج ارزیابی:")
        print(f"ROUGE-1: {rouge_scores['rouge1']:.4f}")
        print(f"ROUGE-2: {rouge_scores['rouge2']:.4f}")
        print(f"ROUGE-L: {rouge_scores['rougeL']:.4f}")

        return rouge_scores, predictions, references

# =============================================================================
# قسمت الف: خالصه‌سازی با مدل BART روی دیتاست CNN/DailyMail
# =============================================================================

print("\n" + "="*60)
print("قسمت الف: خالصه‌سازی با BART روی CNN/DailyMail")
print("="*60)
print("📥 بارگذاری دیتاست CNN/DailyMail...")
try:
    cnn_dataset = load_dataset("cnn_dailymail", "3.0.0")
    print("✅ دیتاست با موفقیت بارگذاری شد")
except Exception as e:
    print(f"⚠️ خطا در بارگذاری دیتاست: {e}")
    print("🔄 ایجاد دیتاست نمونه...")
    sample_data = {
        "article": [
            """The technology industry has seen remarkable growth in artificial intelligence applications over the past decade. Machine learning algorithms are now being used in various sectors including healthcare, finance, and transportation. Deep learning models have achieved breakthrough results in image recognition, natural language processing, and game playing. Companies are investing billions of dollars in AI research and development. The integration of AI into everyday applications has become increasingly common, with virtual assistants, recommendation systems, and autonomous vehicles becoming mainstream. However, concerns about job displacement, privacy, and ethical implications of AI continue to be debated by experts and policymakers.""",

            """Climate change represents one of the most pressing challenges of our time. Rising global temperatures have led to melting ice caps, rising sea levels, and extreme weather events. The scientific community has reached a consensus that human activities, particularly the burning of fossil fuels, are the primary drivers of climate change. Governments around the world are implementing policies to reduce greenhouse gas emissions and transition to renewable energy sources. The Paris Climate Agreement represents a global effort to limit temperature increases and mitigate the effects of climate change. Individual actions, such as reducing energy consumption and supporting sustainable practices, also play a crucial role in addressing this crisis.""",

            """The COVID-19 pandemic has fundamentally changed the way we work, learn, and interact. Remote work has become the norm for many organizations, leading to increased adoption of digital collaboration tools. Educational institutions have shifted to online learning platforms, transforming traditional teaching methods. The healthcare system has adapted to provide telemedicine services and manage unprecedented patient loads. Economic impacts have been severe, with many businesses struggling to survive and unemployment rates reaching historic levels. However, the pandemic has also accelerated innovation in biotechnology, with vaccines developed in record time through international collaboration."""
        ],

        "highlights": [
            "AI technology has grown significantly with applications in healthcare, finance, and transportation, though concerns about job displacement and ethics remain.",
            "Climate change caused by human activities requires global action through renewable energy transition and emission reduction policies.",
            "COVID-19 pandemic transformed work, education, and healthcare while accelerating biotechnology innovation despite severe economic impacts."
        ]
    }
    from datasets import Dataset
    cnn_dataset = {
        'train': Dataset.from_dict({k: v * 100 for k, v in sample_data.items()}),
        'validation': Dataset.from_dict(sample_data),
        'test': Dataset.from_dict(sample_data)
    }

print(f"تعداد نمونه‌های train: {len(cnn_dataset['train'])}")
print(f"تعداد نمونه‌های validation: {len(cnn_dataset['validation'])}")
print(f"تعداد نمونه‌های test: {len(cnn_dataset['test'])}")

print("\n📄 نمونه‌ای از داده:")
example = cnn_dataset['train'][0]
print(f"طول مقاله: {len(example['article'])} کاراکتر")
print(f"طول خلاصه: {len(example['highlights'])} کاراکتر")
print(f"\nشروع مقاله: {example['article'][:200]}...")
print(f"\nخلاصه: {example['highlights']}")

small_test = cnn_dataset['test'].shuffle(seed=42).select(range(min(50, len(cnn_dataset['test']))))

print("\n🤖 ایجاد مدل BART...")
bart_summarizer = TextSummarizer("facebook/bart-large-cnn")

print("\n🧪 ارزیابی مدل BART پیش‌تربیت شده...")
bart_scores, bart_predictions, bart_references = bart_summarizer.evaluate_on_dataset(small_test)

print("\n📝 نمونه‌هایی از خلاصه‌های تولید شده:")
for i in range(min(3, len(small_test))):
    print(f"\n--- نمونه {i+1} ---")
    print(f"مقاله اصلی: {small_test[i]['article'][:300]}...")
    print(f"\nخلاصه مرجع: {bart_references[i]}")
    print(f"\nخلاصه تولید شده: {bart_predictions[i]}")
    print("-" * 50)

# =============================================================================
# قسمت ب: خالصه‌سازی با mBART روی دیتاست فارسی
# =============================================================================

print("\n" + "="*60)
print("قسمت ب: خالصه‌سازی با mBART روی دیتاست فارسی")
print("="*60)

persian_data = {
    "text": [
        """هوش مصنوعی یکی از مهم‌ترین فناوری‌های قرن بیست و یکم محسوب می‌شود که قابلیت شبیه‌سازی هوش انسانی توسط ماشین‌ها را فراهم می‌کند. این فناوری در حوزه‌های مختلفی مانند پزشکی، حمل و نقل، آموزش و تجارت کاربرد گسترده‌ای یافته است. یادگیری ماشین و یادگیری عمیق دو شاخه اصلی هوش مصنوعی هستند که باعث پیشرفت‌های چشمگیری در تشخیص تصاویر، پردازش زبان طبیعی و بازی‌های رایانه‌ای شده‌اند. شرکت‌های بزرگ فناوری میلیاردها دلار در تحقیق و توسعه هوش مصنوعی سرمایه‌گذاری می‌کنند و این فناوری به تدریج وارد زندگی روزمره مردم شده است.""",

        """تغییرات اقلیمی یکی از بزرگترین چالش‌های زیست محیطی عصر حاضر محسوب می‌شود. افزایش دمای جهانی منجر به ذوب یخچال‌های قطبی، بالا آمدن سطح دریاها و وقوع پدیده‌های جوی شدید شده است. جامعه علمی بر این نکته اتفاق نظر دارد که فعالیت‌های انسانی، به ویژه سوزاندن سوخت‌های فسیلی، عامل اصلی تغییرات اقلیمی هستند. دولت‌های جهان در حال اجرای سیاست‌هایی برای کاهش انتشار گازهای گلخانه‌ای و انتقال به منابع انرژی تجدیدپذیر هستند. توافقنامه پاریس نمونه‌ای از تلاش جهانی برای محدود کردن افزایش دما و کاهش اثرات تغییرات اقلیمی است.""",

        """پاندمی کووید-19 به طور بنیادی نحوه کار، تحصیل و تعامل ما را تغییر داده است. کار از راه دور برای بسیاری از سازمان‌ها به امری عادی تبدیل شده و استفاده از ابزارهای همکاری دیجیتال افزایش یافته است. مؤسسات آموزشی به پلتفرم‌های یادگیری آنلاین روی آورده‌اند و روش‌های سنتی تدریس دستخوش تحول شده‌اند. سیستم بهداشت و درمان نیز برای ارائه خدمات پزشکی از راه دور و مدیریت بار بیماران سازگار شده است. اثرات اقتصادی این پاندمی شدید بوده و بسیاری از کسب و کارها برای بقا تلاش می‌کنند، اما این بحران همچنین نوآوری در بیوتکنولوژی را تسریع کرده است.""",

        """فناوری بلاک چین انقلابی در حوزه ذخیره‌سازی و انتقال اطلاعات محسوب می‌شود که بر پایه توزیع داده‌ها در شبکه‌ای از رایانه‌ها عمل کرده و امنیت بالایی را فراهم می‌کند. این فناوری که ابتدا برای ارزهای دیجیتال مانند بیت کوین طراحی شد، اکنون کاربردهای گسترده‌ای در مدیریت زنجیره تامین، شناسایی هویت، ثبت املاک و حتی رای‌گیری الکترونیکی دارد. ماهیت غیرمتمرکز بلاک چین باعث کاهش وابستگی به نهادهای واسطه شده و شفافیت بیشتری در معاملات ایجاد کرده است. با این حال، چالش‌هایی مانند مصرف انرژی بالا، مقیاس‌پذیری و نیاز به استانداردسازی همچنان وجود دارند.""",

        """انرژی‌های تجدیدپذیر شامل انرژی خورشیدی، بادی، آبی و زمین گرمایی به عنوان جایگزین‌های پایدار برای سوخت‌های فسیلی در حال گسترش هستند. پیشرفت‌های تکنولوژیکی باعث کاهش هزینه تولید انرژی از این منابع شده و آن‌ها را از نظر اقتصادی رقابتی کرده است. بسیاری از کشورها اهداف جاه‌طلبانه‌ای برای افزایش سهم انرژی‌های تجدیدپذیر در سبد انرژی خود تعیین کرده‌اند. سرمایه‌گذاری در زیرساخت‌های انرژی پاک نه تنها به کاهش آلودگی محیط زیست کمک می‌کند بلکه فرصت‌های شغلی جدید نیز ایجاد می‌کند. با این حال، چالش‌هایی مانند ذخیره‌سازی انرژی و تطبیق شبکه برق با منابع متغیر همچنان باقی مانده‌اند."""
    ],

    "summary": [
        "هوش مصنوعی فناوری مهم قرن بیست و یکم است که در حوزه‌های مختلف کاربرد دارد و شرکت‌ها میلیاردها دلار در آن سرمایه‌گذاری می‌کنند.",
        "تغییرات اقلیمی چالش بزرگ زیست محیطی است که ناشی از فعالیت‌های انسانی بوده و نیاز به اقدام جهانی دارد.",
        "پاندمی کووید-19 نحوه کار و تحصیل را تغییر داده و نوآوری در بیوتکنولوژی را تسریع کرده است.",
        "بلاک چین فناوری انقلابی برای ذخیره امن داده‌ها است که کاربردهای فراتر از ارز دیجیتال دارد.",
        "انرژی‌های تجدیدپذیر جایگزین پایدار سوخت‌های فسیلی هستند که با پیشرفت تکنولوژی اقتصادی شده‌اند."
    ]
}
persian_dataset = Dataset.from_dict(persian_data)
print(f"📊 تعداد نمونه‌های فارسی: {len(persian_dataset)}")
print("\n📄 نمونه‌ای از داده فارسی:")
print(f"متن: {persian_dataset[0]['text'][:200]}...")
print(f"خلاصه: {persian_dataset[0]['summary']}")

print("\n🤖 ایجاد مدل mBART...")
try:
    mbart_summarizer = TextSummarizer("facebook/mbart-large-50", max_input_length=512, max_target_length=64)

    print("\n🧪 تست مدل mBART روی متون فارسی...")

    persian_predictions = []
    for i, example in enumerate(persian_dataset):
        print(f"\n--- نمونه فارسی {i+1} ---")
        print(f"متن اصلی: {example['text'][:200]}...")
        generated_summary = mbart_summarizer.generate_summary(
            example['text'],
            max_length=100,
            min_length=20
        )

        persian_predictions.append(generated_summary)
        print(f"\nخلاصه مرجع: {example['summary']}")
        print(f"خلاصه تولید شده: {generated_summary}")
        print("-" * 60)
    persian_references = [ex['summary'] for ex in persian_dataset]
    try:
        persian_scores = mbart_summarizer.compute_rouge_manually(persian_predictions, persian_references)
        print(f"\n📊 نتایج ارزیابی فارسی:")
        print(f"ROUGE-1: {persian_scores['rouge1']:.4f}")
        print(f"ROUGE-2: {persian_scores['rouge2']:.4f}")
        print(f"ROUGE-L: {persian_scores['rougeL']:.4f}")
    except Exception as e:
        print(f"⚠️ خطا در محاسبه ROUGE فارسی: {e}")
        persian_scores = {'rouge1': 0, 'rouge2': 0, 'rougeL': 0}

except Exception as e:
    print(f"⚠️ خطا در ایجاد مدل mBART: {e}")
    print("🔄 استفاده از مدل BART برای متون فارسی...")
    for i, example in enumerate(persian_dataset):
        print(f"\n--- نمونه فارسی {i+1} ---")
        print(f"متن اصلی: {example['text'][:200]}...")

        generated_summary = bart_summarizer.generate_summary(
            example['text'],
            max_length=100,
            min_length=20
        )

        print(f"\nخلاصه مرجع: {example['summary']}")
        print(f"خلاصه تولید شده: {generated_summary}")
        print("-" * 60)

    persian_scores = {'rouge1': 'N/A', 'rouge2': 'N/A', 'rougeL': 'N/A'}

# =============================================================================
# مقایسه عملکرد مدل‌ها
# =============================================================================

print("\n" + "="*60)
print("مقایسه عملکرد مدل‌ها")
print("="*60)

comparison_data = {
    'مدل': ['BART (انگلیسی)', 'mBART (فارسی)'],
    'دیتاست': ['CNN/DailyMail', 'نمونه فارسی'],
    'ROUGE-1': [f"{bart_scores['rouge1']:.4f}", f"{persian_scores['rouge1']}" if isinstance(persian_scores['rouge1'], str) else f"{persian_scores['rouge1']:.4f}"],
    'ROUGE-2': [f"{bart_scores['rouge2']:.4f}", f"{persian_scores['rouge2']}" if isinstance(persian_scores['rouge2'], str) else f"{persian_scores['rouge2']:.4f}"],
    'ROUGE-L': [f"{bart_scores['rougeL']:.4f}", f"{persian_scores['rougeL']}" if isinstance(persian_scores['rougeL'], str) else f"{persian_scores['rougeL']:.4f}"],
}

comparison_df = pd.DataFrame(comparison_data)
print(comparison_df.to_string(index=False))


✅ کتابخانه‌ها با موفقیت نصب شدند

قسمت الف: خالصه‌سازی با BART روی CNN/DailyMail
📥 بارگذاری دیتاست CNN/DailyMail...
⚠️ خطا در بارگذاری دیتاست: Invalid pattern: '**' can only be an entire path component
🔄 ایجاد دیتاست نمونه...
تعداد نمونه‌های train: 300
تعداد نمونه‌های validation: 3
تعداد نمونه‌های test: 3

📄 نمونه‌ای از داده:
طول مقاله: 739 کاراکتر
طول خلاصه: 157 کاراکتر

شروع مقاله: The technology industry has seen remarkable growth in artificial intelligence applications over the past decade. Machine learning algorithms are now being used in various sectors including healthcare,...

خلاصه: AI technology has grown significantly with applications in healthcare, finance, and transportation, though concerns about job displacement and ethics remain.

🤖 ایجاد مدل BART...
🔄 بارگذاری مدل facebook/bart-large-cnn...
✅ مدل بر روی cpu بارگذاری شد

🧪 ارزیابی مدل BART پیش‌تربیت شده...
🔍 ارزیابی مدل روی 50 نمونه...
پردازش 0/3...

📊 نتایج ارزیابی:
ROUGE-1: 0.2527
ROUGE-2: 0.0711
ROUGE-L: 0.2293

📝 ن