# Welcome to Our Graduation Project: **"Automatic Story Generation - Hakawaty"**

This notebook provides a detailed walkthrough of the steps involved in fine-tuning Quen2.5-7B to achieve optimal performance in generating high-quality stories. After extensive experimentation with various parameters, we present our approach to create the best possible stories.



In [None]:
# Fine-tuning Quen2.5-7B
    version: Quen2.5-7B-4bit

**install unsloth**

unsloth is a library that makes  fine-tuning LLMs  x2 faster, use 70% less memory, and with no degradation in accuracy!

In [None]:
%%capture
!pip install unsloth
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git


In [None]:
from unsloth import FastLanguageModel
import torch


max_seq_length = 1024
dtype = None
load_in_4bit = True

pretrained_model, pretrained_tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen2.5-7B",
    max_seq_length=1024,
    dtype=None,
    load_in_4bit=True,
)


==((====))==  Unsloth 2024.12.12: Fast Qwen2 patching. Transformers: 4.47.1.
   \\   /|    GPU: Tesla T4. Max memory: 14.748 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1+cu121. CUDA: 7.5. CUDA Toolkit: 12.1. Triton: 3.1.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post1. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


**adding LoRA adapters**

 so we only need to update 1 to 10% of all parameters!

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 8,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

Unsloth 2024.12.12 patched 28 layers with 28 QKV layers, 28 O layers and 28 MLP layers.



## Data Preparation

In [None]:
import pandas as pd
from datasets import Dataset


file_path = "/content/merged_file.xlsx"
data = pd.read_excel(file_path)


data = data[["Prompt", "Story"]]


FileNotFoundError: [Errno 2] No such file or directory: '/content/merged_file.xlsx'

1- prepare dataset in a **converasation format** that is compatible with Quen2.5-7B

In [None]:

template = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""

def format_for_finetuning(row):
    instruction = row["Prompt"]
    response = row["Story"]

    formatted_text = template.format(instruction, response) + tokenizer.eos_token
    return {"text": formatted_text}

In [None]:

formatted_data = data.apply(format_for_finetuning, axis=1).tolist()


formatted_df = pd.DataFrame(formatted_data)


hf_dataset = Dataset.from_pandas(formatted_df)


print(hf_dataset[0])

2- **split the formatted data** into training, validation, and test sets.
**Split dataset into:**
*   Train: 80%
*   Validation: 10%
*   Test: 10%

In [None]:
from datasets import Dataset
import pandas as pd

def split_data(dataset, train_ratio=0.8, val_ratio=0.1, test_ratio=0.1):


  assert train_ratio + val_ratio + test_ratio == 1.0, "Ratios must sum to 1."

  dataset_size = len(dataset)
  train_size = int(dataset_size * train_ratio)
  val_size = int(dataset_size * val_ratio)
  test_size = dataset_size - train_size - val_size

  train_dataset = dataset.select(range(train_size))
  val_dataset = dataset.select(range(train_size, train_size + val_size))
  test_dataset = dataset.select(range(train_size + val_size, dataset_size))

  return {
      "train": train_dataset,
      "validation": val_dataset,
      "test": test_dataset
  }


split_datasets = split_data(hf_dataset)

train_dataset = split_datasets["train"]
validation_dataset = split_datasets["validation"]
test_dataset = split_datasets["test"]

print("Train dataset size:", len(train_dataset))
print("Validation dataset size:", len(validation_dataset))
print("Test dataset size:", len(test_dataset))

Train dataset size: 896
Validation dataset size: 112
Test dataset size: 112


# Train the model

### using Huggingface TRL's `SFTTrainer` (Supervised Fine-tuning Trainer)

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments, EarlyStoppingCallback
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset,
    eval_dataset=validation_dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        num_train_epochs=5,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        evaluation_strategy="steps",
        save_steps=50,
        eval_steps=10,
        optim="adamw_8bit",
        weight_decay=0.05,
        max_grad_norm=3.0,
        load_best_model_at_end=True,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
    ),
    callbacks=[EarlyStoppingCallback(
        early_stopping_patience=35,
        early_stopping_threshold=0.01,
    )],
)




Map (num_proc=2):   0%|          | 0/896 [00:00<?, ? examples/s]

Map (num_proc=2):   0%|          | 0/112 [00:00<?, ? examples/s]

We also use Unsloth's train_on_completions method to only train on the assistant outputs and ignore the loss on the user's inputs.



In [None]:
from unsloth.chat_templates import train_on_responses_only
trainer = train_on_responses_only(
    trainer,
    instruction_part = "<|start_header_id|>user<|end_header_id|>\n\n",
    response_part = "<|start_header_id|>assistant<|end_header_id|>\n\n",
)

Map:   0%|          | 0/896 [00:00<?, ? examples/s]

Map:   0%|          | 0/112 [00:00<?, ? examples/s]

We verify masking is actually done:

In [None]:
tokenizer.decode(trainer.train_dataset[5]["input_ids"])

'Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nأكتب قصة قصيرة تكون مفهومة للأطفال في عمر 3-5. نهاية القصة يجب أن تكون سعيدة. عدد الشخصيات في القصة يجب أن يكون 3. الدرس المستفاد من القصة هو اتق شر من أحسنت اليه. بلد الأحداث هي  البحرين. الأحداث تدور في فصل الربيع.  أكتب القصة مباشرة.\n\n### Response:\nفي يوم جميل من أيام الربيع بالبحرين، استيقظ الأصدقاء الثلاثة: حميد وفرح والبطة بطوطة، مع طلوع الشمس الدافئة. كان حميد وفرح يسكنان قريبين من بعضهما البعض، وكانا يعشقان اللعب في الحدائق الغنّاء بالأزهار والأشجار المليئة بالثمار، بينما كانت بطوطة ترافقهما دائمًا، مستمتعة بالماء والبرك الصغيرة التي خلفتها أمطار الربيع.\n\nذات يوم، وأثناء لعبهم معًا، وجدوا عصفور صغير مصاب تحت شجرة. أظهر الأصدقاء الثلاثة قلوبهم الطيبة وقرروا مساعدته. عالجوا جناحه الصغير بكل حرص وحنان، وأعطوه الماء والطعام حتى يستعيد قواه.\n\nلكن بعد أيام، عندما شفي العصفور وأصبح قادرًا على الطيران مجددًا، سرق قطعة خبز كان حميد يحضرها للفطور وطار بها

In [None]:
tokenizer.decode(trainer.eval_dataset[5]["input_ids"])

'Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\nأكتب قصة قصيرة تكون مفهومة للأطفال في عمر 5-8. نهاية القصة يجب أن تكون حزينة. عدد الشخصيات في القصة يجب أن يكون 1. بلد الأحداث هي  فلسطين.  أكتب القصة مباشرة.\n\n### Response:\nفي قرية صغيرة وجميلة في فلسطين، عاشت قطة بيضاء صغيرة يُدعى موزا. كان موزا يحب اللعب بين أشجار الزيتون والنوم تحت أشعة الشمس الدافئة. لكن الشيء الذي كان يحبه أكثر من أي شيء آخر هو الجلوس على الشرفة في المساء لينظر إلى النجوم مع صديقه الوحيد في العالم، القمر.\n\nكل ليلة، كان موزا ينتظر بفارغ الصبر غروب الشمس ليبدأ حديثه مع القمر. كان يشاركه أحلامه الصغيرة ومغامرات يومه، وكيف أنه يحلم بزيارة القمر يومًا ما. القمر، بدوره، كان ينصت إليه دائمًا ويضيء له طريقه في الليل.\n\nولكن، في إحدى الليالي، لاحظ موزا شيئًا غير عادي. القمر لم يظهر. بدأ موزا يشعر بالقلق والحزن. لم يستطع النوم وظل ينتظر طوال الليل، لكن القمر لم يأتِ. مرت الليالي، وكل ليلة كان موزا يأمل بظهور صديقه، لكن دون جدوى. \n\nبمرور ال

In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = NVIDIA A100-SXM4-40GB. Max memory = 39.564 GB.
11.543 GB of memory reserved.


Parameters adjusted for training:
* Epoch: 5
* Early stopping: 35
* Drop out: 0.2
* rank: 8
* weight decay:0.5
* max_grad: 3.0

In [None]:
# Start Training

In [None]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 896 | Num Epochs = 5
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 560
 "-____-"     Number of trainable parameters = 20,185,088


Step,Training Loss,Validation Loss
10,1.5284,1.53808
20,1.3292,1.381554
30,1.308,1.357298
40,1.2772,1.321462
50,1.2632,1.306162
60,1.2956,1.297671
70,1.2643,1.286159
80,1.2716,1.276663
90,1.2121,1.26839
100,1.2482,1.263191


In [None]:
#@title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

1748.9159 seconds used for training.
29.15 minutes used for training.
Peak reserved memory = 13.254 GB.
Peak reserved memory for training = 1.711 GB.
Peak reserved memory % of max memory = 33.5 %.
Peak reserved memory for training % of max memory = 4.325 %.



### Saving, loading finetuned models


In [None]:
from huggingface_hub import login
login(token="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")

In [None]:
# Save model and tokenizer locally in a separate directory
model.save_pretrained("./qwen_arabic_stories_5_epochs_local")
tokenizer.save_pretrained("./qwen_arabic_stories_5_epochs_local")


('./qwen_arabic_stories_5_epochs_local/tokenizer_config.json',
 './qwen_arabic_stories_5_epochs_local/special_tokens_map.json',
 './qwen_arabic_stories_5_epochs_local/vocab.json',
 './qwen_arabic_stories_5_epochs_local/merges.txt',
 './qwen_arabic_stories_5_epochs_local/added_tokens.json',
 './qwen_arabic_stories_5_epochs_local/tokenizer.json')

In [None]:
model.push_to_hub("GhadyIbra250/qwen_arabic_stories_5_epochs_show", token="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")
tokenizer.push_to_hub("GhadyIbra250/qwen_arabic_stories_5_epochs_show", token="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")


README.md:   0%|          | 0.00/577 [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/80.8M [00:00<?, ?B/s]

Saved model to https://huggingface.co/lamaishere/qwen_arabic_storiessss_5_epochs


  0%|          | 0/1 [00:00<?, ?it/s]

tokenizer.json:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

## Inference


In [None]:
!pip install --upgrade transformers

In [None]:
%%capture
!pip install unsloth
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

In [None]:
pip install language_tool_python

In [None]:
!pip install --upgrade pip

In [None]:
!git clone https://github.com/google-research/bleurt.git
%cd bleurt
!pip install .

In [None]:
import re
import pandas as pd
from transformers import TextStreamer, GPT2LMHeadModel, GPT2Tokenizer,AutoModelForCausalLM, AutoTokenizer
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import language_tool_python  # For Arabic grammar detection
import torch
from bleurt import score
from collections import Counter
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM



# Initialize Sentence-BERT model for semantic relatedness (Coherence Metrics)
semantic_model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

# Load BLEURT model
bleurt_scorer = score.BleurtScorer()

# Load multilingual BART model to insure it works with Arabic
mbart_tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
mbart_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

In [None]:

# Initialize the model and tokenizer
from unsloth import FastLanguageModel
from transformers import TextStreamer

model, tokenizer = FastLanguageModel.from_pretrained(
 model_name= "lamaishere/qwenE3_v4",


    max_seq_length=1024,
    dtype="float16",
    load_in_4bit=True
)
FastLanguageModel.for_inference(model)  # Enable faster inference

# Initialize the text streamer for real-time decoding
text_streamer = TextStreamer(tokenizer)

In [None]:
def calculate_bleurt(reference_story, generated_story):
    return bleurt_scorer.score(references=[reference_story], candidates=[generated_story])[0]

def calculate_semantic_coherence(story):
    sentences = story.split('.')
    embeddings = semantic_model.encode(sentences)
    similarity_scores = cosine_similarity(embeddings)
    return similarity_scores.mean()

def detect_grammar_errors(text):
    matches = language_tool.check(text)
    return len(matches)

def calculate_perplexity(text):
    encodings = mbart_tokenizer.encode(text, return_tensors='pt').to(mbart_model.device)  # Move to same device as the model
    with torch.no_grad():
        output = mbart_model(encodings, labels=encodings)
    log_likelihood = output.loss * encodings.size(1)
    return torch.exp(log_likelihood / encodings.size(1)).item()

def calculate_diversity(generated_story):
    words = generated_story.split()
    distinct_1 = len(set(words)) / len(words) if words else 0
    ngrams_2 = [tuple(words[i:i+2]) for i in range(len(words)-1)] if len(words) > 1 else []
    distinct_2 = len(set(ngrams_2)) / len(ngrams_2) if ngrams_2 else 0
    return distinct_1, distinct_2


In [None]:
language_tool = language_tool_python.LanguageTool("ar")
prompts = [

    "أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 5-8. أحداث القصة يجب أن تدور في الجزيرة. نهاية القصة يجب أن تكون حزينة. عدد الشخصيات في القصة يجب أن يكون 3. بلد الأحداث هي اليمن. النشاط السباحة. أضف تحولا غير متوقع في الأحداث: الكشف عن أن الحدث الرئيسي كان خدعة. أكتب القصة مباشرة.",
    "أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 5-8. نهاية القصة يجب أن تكون سعيدة. يجب أن يكون هناك حوار. عدد الشخصيات في القصة يجب أن يكون 3. الدرس المستفاد من القصة هو الحب. بلد الأحداث هي الإمارات العربية المتحدة. النشاط السباحة. أكتب القصة مباشرة.",
    "أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 5-8. أحداث القصة يجب أن تدور في المزرعة. نهاية القصة يجب أن تكون سعيدة. عدد الشخصيات في القصة يجب أن يكون 3. الدرس المستفاد من القصة هو الأخوة. موضوع القصة يجب أن يكون السفر. بلد الأحداث هي المملكة العربية السعودية. النشاط القيام بالأشغال اليدوية. يجب أن تحتوي القصة على شعور بالخوف. أكتب القصة مباشرة.",
    "أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 3-5. نهاية القصة يجب أن تكون سعيدة. عدد الشخصيات في القصة يجب أن يكون 2. بلد الأحداث هي سوريا. الأحداث تدور في فصل الربيع. النشاط البستنة. أكتب القصة مباشرة.",
    "أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 3-5. أحداث القصة يجب أن تدور في الصحراء. نهاية القصة يجب أن تكون حزينة. يجب أن يكون هناك حوار. عدد الشخصيات في القصة يجب أن يكون 3. بلد الأحداث هي الكويت. الأحداث تدور في فصل الصيف. النشاط البستنة. أضف تحولا غير متوقع في الأحداث: الكشف عن أن الحدث الرئيسي كان خدعة. أكتب القصة مباشرة."
,"أكتب قصة قصيرة تكون مفهومة للأطفال في عمر 5-8. أحداث القصة يجب أن تدور في المدرسة. نهاية القصة يجب أن تكون حزينة. عدد الشخصيات في القصة يجب أن يكون 1. الدرس المستفاد من القصة هو الأصدقاء الحقيقيون يبقون معك في جميع الظروف. بلد الأحداث هي الصومال. يجب أن تحتوي القصة على شعور بالانزعاج. أكتب القصة مباشرة. "

]


stories = [
    """في زاوية بعيدة من اليمن، تقبع جزيرة صغيرة جميلة لم يعبث بها الزمان. في هذه الجزيرة، كان يعيش ثلاثة أطفال صغار: يوسف، عمر، وسارة. كانوا أفضل الأصدقاء وشاركوا في جميع المغامرات معاً. أكثر نشاط يحبونه هو السباحة في المحيط الأزرق الساحر الذي يحيط بجزيرتهم.

    ذات يوم، أثناء استكشافهم الشاطئ الجنوبي البعيد للجزيرة، وجدوا قارباً قديماً مخبأ بين الصخور. كان يوسف مغامرًا جريئًا واقترح على الفور خوض مغامرة في البحر. عمر وسارة، مع تردد في البداية، وافقا أخيرًا بعد إلحاح من يوسف.

    استعد الأصدقاء الثلاثة وأبحروا بالقارب، يحلمون بمغامرات خارجة عن العادة. لكن بعد ساعات قليلة من الإبحار، بدأت السماء تغيم والأمواج ترتفع. قلوبهم امتلأت بالخوف وسرعان ما أدركوا أنهم فقدوا طريق العودة إلى الجزيرة. بدأ القلق يتملكهم حتى لمح يوسف طوفًا يطفو على الماء على بعد بضعة أمتار.

    بكل قوتهم، تمكنوا من جر الطوف إلى قاربهم، وعلى متنه رسالة في زجاجة. كانت الرسالة من طفل آخر يدعي أنه محتجز على جزيرة مجهولة ويحتاج إلى الإنقاذ. مليئين بالحماس لمساعدة ذلك الطفل المسكين، تحول خوفهم إلى شجاعة.

    لكن بينما كانوا يحاولون تركيز اتجاهاتهم وفقاً للرسالة، بدأ الطقس يتحسن وكشفت الأمواج عن معالم جزيرتهم الصغيرة. في تلك اللحظة، أدركوا أنهم لم يبتعدوا كثيرًا وأن الرسالة كانت مجرد خدعة ضاعت أو تم التخلي عنها عن قصد.

    عادوا إلى الجزيرة بقلوب ثقيلة، ليس لأنهم خدعوا، بل لأنهم بذلوا كل ذلك الجهد والمخاوف من أجل شيء لم يكن حقيقيًا. وقفوا على الشاطئ وهم ينظرون إلى الأفق، يفكرون في الطفل الخيالي الذي أرادوا مساعدته. في تلك اللحظة، تعلم يوسف، عمر، وسارة درسًا قاسيًا عن الحلم والواقع، وأن الخطر الحقيقي أحيانًا يكمن في الخداع وليس في البحر العريض.""",
    """في يوم مشمس جميل في دولة الإمارات العربية المتحدة، كانت هناك طفلة صغيرة تُدعى ليلى، وأخوها سعيد، وأفضل صديق لهما، تيمور، يجتمعون في حديقة بجانب البحر. كانوا يخططون لقضاء يوم ممتع في التعلم كيفية السباحة.

    ليلى بحماس: "أتمنى حقًا أن أتعلم السباحة اليوم!"

    تيمور بابتسامة: "لا تقلقي، ليلى. سنتعلم معًا. أنا أيضًا لم أسبح من قبل!"

    سعيد، الذي كان يعرف بعض الأساسيات، قال بثقة: "سأكون مدربكما! ولكن، يجب أن نعد بأن ندعم بعضنا البعض، بغض النظر عما يحدث."

    تعاهد الأصدقاء الثلاثة على دعم بعضهم البعض. بدأوا بالدخول إلى الماء ببطء، حيث شرح سعيد كيفية التنفس والتحرك بالماء. في البداية، كانت ليلى وتيمور قلقين، ولكن بمساعدة وتشجيع سعيد، بدأوا الشعور بالراحة أكثر في الماء.

    بعد بضع ساعات وبعض المحاولات، بدأت ليلى وتيمور يسبحان بثقة أكبر. يضحكون ويلعبون في الماء، مما جعل اليوم أكثر خصوصية.

    ليلى بسعادة: "لقد فعلناها! شكرًا لك، سعيد. لولا مساعدتك، ما كنت لأتمكن من فعلها."

    تيمور موافقًا: "نعم، أنا ممتن جدًا. اليوم تعلمت أن بمساعدة وحب الأصدقاء، يمكننا التغلب على مخاوفنا."

    سعيد بابتسامة فخورة: "أنا سعيد جدًا بكما. التعلم مع الأصدقاء يجعل كل تحدي أسهل."

    وهكذا، قضى الأصدقاء الثلاثة باقي اليوم يلعبون ويسبحون في البحر، ممتنين للدروس التي تعلموها والذكريات التي خلقوها معًا.""",
    """كان هناك ثلاثة أشقاء يعيشون في مزرعة صغيرة في المملكة العربية السعودية، هم: حسام، سعد، وعمر. كانوا يحبون المزرعة والحياة الهادئة والبسيطة فيها، ولكن لديهم رغبة قوية في السفر واكتشاف العالم.

    في أحد الأيام، وجد الأشقاء خريطة قديمة مدفونة في الحديقة. كانت خريطة لكنز مدفون في جزء آخر من المملكة. أثارت الخريطة فضولهم ورغبتهم في المغامرة، لذا قرروا السفر للبحث عن الكنز.

    مراعاة للخوف من الغربة والمجهول، قرروا العمل معاً، مستعملين حبهم للأشغال اليدوية لتجهيز كل ما يحتاجونه للرحلة، من خيمة وأدوات بحث. قال سعد: "الأخوة تعني البقاء معاً، خاصة في الأوقات الصعبة".

    وهكذا بدأت رحلتهم، مسافرون معاً عبر الصحراء الواسعة. كانت الرحلة صعبة وشاقة وأحياناً مخيفة ولكنهم لم يستسلموا. حتى في الأوقات الصعبة، كانوا يتذكرون كلمات سعد، ويشجعون بعضهم البعض للمضي قدماً.

    بعد أيام من السفر والبحث، وجد الأشقاء الكنز. ولكن لم يكن ذهباً أو جواهر، وإنما كان تمثال صغير جنبه رسالة قديمة تقول: "الأخوة هي الكنز الحقيقي".

    رغم تحطمهم قليلاً عندما أدركوا أن الكنز ليس ذهباً، إلا أنهم بدأوا في مشاركة ضحكاتهم عندما تدركوا الرسالة الحقيقية.

    عاد الأشقاء إلى المزرعة، يحملون التمثال كتذكار لرحلتهم. بالرغم من الخوف والصعوبات التي واجهوها، أدركوا أن الرحلة زادت من تماسكهم كأشقاء وقربت بينهم غير فقط كأخوة، بل كأصدقاء أيضاً.""",
    """في بلدة جميلة وهادئة في سوريا، خلال أجمل فصول السنة، الربيع، كان يعيش صبي صغير يُدعى يامن وجدته الطيبة أميرة. يامن كان يحب الألوان والزهور التي تتفتح في الربيع، وكان دائمًا ما يتمنى أن يكون لديه حديقة خاصة به مليئة بالأزهار الجميلة.

     في يوم مشمس جميل، قررت جدته أميرة أن تعلمه نشاطًا جديدًا يجمع بين الفرح واللعب، وهو البستنة. بدأت بإعطاء يامن بذورًا صغيرة لزرعها، قائلةً له: "كل بذرة تزرعها بحب، ستنمو لتصبح زهرة جميلة، مثل قلبك الطيب يا يامن."

     أخذ يامن البذور بحماسة وبدأ بزراعتها في الحديقة الصغيرة بجانب منزله. كل يوم، كان يسقيها بماء وكثير من الحب، ويتحدث إليها قائلًا: "أنا متشوق لرؤيتكم تنمو وتصبحون أجمل الزهور!" وكانت جدته تساعده وتراقبه بفخر وابتسامة لا تفارق وجهها.

    مرت الأيام، وبدأت البذور الصغيرة تتحول إلى براعم تدريجيا، ثم إلى زهور ملونة تضفي البهجة في كل مكان. يامن لم يصدق عينيه، كانت حديقته التي زرعها بيديه الصغيرتين تحفة فنية من الألوان والعطور.""",
    """في صحراء الكويت الواسعة، حيث تتلألأ حبات الرمل تحت شمس الصيف الحارقة، كان يعيش ثلاثة أصدقاء: الجمل ياسين، الثعلب تميم، و السلحفاة نورا. قرروا ذات يوم أن يجربوا بستنة شيء مميز في وسط هذه الصحراء الجافة، حلمهم كان أن يروا الورود تتفتح على الرمال الذهبية.

    "هل تعتقدون أن الورود يمكن أن تنمو هنا؟" سألت نورا بفضول، وهي تنظر إلى الأرض الجافة.
    "لما لا؟" رد ياسين بتفاؤل كبير. "بمجرد أن نزرع البذور ونعتني بها جيدًا، ستنمو بالتأكيد!"

    وهكذا، بدأ الأصدقاء الثلاثة بمشروعهم. أحضروا ماء من بئر بعيدة وراحوا يسقون البذور كل يوم تحت حرارة الشمس الحارقة. مرت الأيام، وكل يوم يحلمون برؤية الورود تزهر.

    لكن بعد عدة أسابيع من العناية والاهتمام، لم تظهر أي إشارة لنمو الورود. بدأ الشك يتسلل إلى قلوبهم.

    "ربما الصحراء ليست المكان المناسب للورود لتنمو..." قال تميم بحزن."""
    ,"كان هناك طفل صغير يدعى عبد الله ، كان يعيش في الصومال. كان عبد الله يدرس في المدرسة المجاورة لمنزله. كان فرحاً وواثقاً من نفسه ولا يعتبر الحياة تحدياً. كل يوم، كان يذهب إلى المدرسة بمرح وسعادة. وجد عبد الله الدراسة متعة عظيمة وكان يشعر بالسعادة وهو يفهم كل شيء. ورغم كل الصعاب والمشاكل التي واجهته في المدرسة كعدم وجود كتب أو لوازم مدرسية، إلا أنه باستمرار يحاول أن يصبح طالبا متفوقا. لكن، حدث شيء حزين جعل السعادة تتغير إلى حزن تام. أصيب عبد الله بمرض خطير في يومٍ من الأيام. اتضح أن الطفل يحتاج إلى الراحة التامة والابتعاد عن المدرسة لفترة طويلة. كان ذلك حادثاً ضخماً شديد الحزن. بقي عبد الله في منزله وهو يفتقد المدرسة وصديقه الأعز. بينما كان يتأمل من نافذته، كان يعتقد أن أصدقائه في المدرسة قد نسوه. ولكنه كان مخطئا. كل يوم، كان أصدقاءه يأتون إلى منزله بعد المدرسة لتعليمه ما تعلموا في المدرسة في ذلك اليوم. أثبت أصدقاءه أنهم الأصدقاء الحقيقيون، فبقوا معه في مرضه ولم يتخلوا عنه. في نهاية المطاف، حتى لو كانت القصة حزينة، إلا أنها تجعلنا نتذكر أن الأصدقاء الحقيقيون هم أولئك الذين يبقون معك في الصعاب. وعلمتنا هذه القصة أن الانزعاج والمرض لا يمكن أن يقف في وجه الصداقة الحقيقي"
]
# Initialize results dictionary
results = {
    'bleurt_score': [],
    'semantic_coherence': [],
    'grammar_errors': [],
    'distinct_1': [],
    'distinct_2': [],
    'perplexity': []
}

# Generate and evaluate stories
generated_stories = []

for i, (prompt) in enumerate(zip(prompts)):
    print(f"Processing Example {i + 1}:")
    print(f"Prompt: {prompt}")

    # Modify the prompt to include a clear marker
    marked_prompt = f"{prompt}\n\n### Response:\n"

    # Generate the story
    inputs = tokenizer(
        [marked_prompt],
        return_tensors="pt",
        add_special_tokens=True,
        padding=True,
        truncation=True
    ).to("cuda")

    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_new_tokens=1024,
      temperature=1.2,
        min_p=0.0001

    )

    generated_story = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)

# Clean and store the generated story
    generated_story = generated_story.strip()
    generated_stories.append(generated_story)

# Print the result
    print(f"Generated Story: {generated_story}\n")


# Evaluate generated stories
for i, (generated_story) in enumerate(zip(generated_stories)):
    print(f"Evaluating Story {i + 1}:")
    bleurt_score = calculate_bleurt(reference_story, generated_story)
    semantic_coherence = calculate_semantic_coherence(generated_story)
    grammar_errors = detect_grammar_errors(generated_story)
    distinct_1, distinct_2 = calculate_diversity(generated_story)
    perplexity = calculate_perplexity(generated_story)

    results['bleurt_score'].append(bleurt_score)
    results['semantic_coherence'].append(semantic_coherence)
    results['grammar_errors'].append(grammar_errors)
    results['distinct_1'].append(distinct_1)
    results['distinct_2'].append(distinct_2)
    results['perplexity'].append(perplexity)

    print(f"BLEURT Score: {bleurt_score}")
    print(f"Semantic Coherence: {semantic_coherence}")
    print(f"Grammar Errors: {grammar_errors}")
    print(f"Distinct 1-gram Score: {distinct_1}")
    print(f"Distinct 2-gram Score: {distinct_2}")
    print(f"Perplexity: {perplexity}\n")

# Calculate the average for each metric
average_results = {key: sum(value) / len(value) for key, value in results.items()}

# Print the average results
print("Average Evaluation Metrics:")
for metric, avg in average_results.items():
    print(f"{metric}: {avg:.4f}")
