In [None]:
# Install dependencies for ALLaM and Bohour
!pip install transformers datasets torch accelerate bitsandbytes wandb arabic-reshaper python-bidi
!pip install git+https://github.com/MagedSaeed/Bohour.git
!pip install -U transformers sentencepiece accelerate datasets evaluate
!pip install openai==0.28

Collecting datasets
  Downloading datasets-3.5.1-py3-none-any.whl.metadata (19 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.45.5-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting arabic-reshaper
  Downloading arabic_reshaper-3.0.0-py3-none-any.whl.metadata (12 kB)
Collecting python-bidi
  Downloading python_bidi-0.6.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2025.3.0,>=2023.1.0 (from fsspec[http]<=2025.3.0,>=2023.1.0->datasets)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Do

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel, PeftConfig
import os
from google.colab import drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Define paths
save_path = "/content/drive/MyDrive/allam_fine_tuned_Ashar_v2"
checkpoint_path = os.path.join(save_path, "checkpoint-6894")

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(checkpoint_path)

# Load the base ALLaM model
base_model_name = "ALLaM-AI/ALLaM-7B-Instruct-preview"
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_8bit=True  # Matches your training setup
)

# Load the PEFT (LoRA) checkpoint
model = PeftModel.from_pretrained(base_model, checkpoint_path)
model.eval()  # Set to evaluation mode

# Ensure padding token consistency
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    model.config.pad_token_id = model.config.eos_token_id

print("Model and tokenizer loaded from Checkpoint-6000")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/684 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.03G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

Model and tokenizer loaded from Checkpoint-6000


In [None]:
# Helper to build the input prompt
ST_BAYT_TOKEN = "<|bayt|>"
VERSE_TOKEN   = "<|verse|>"
ED_BAYT_TOKEN = "<|endbayt|>"

def build_prompt(title: str, meter: str, theme: str = "عامة", qafiyah: str = "م") -> str:
    return f"""أنشئ قصيدة عربية فصيحة وفقاً للمواصفات التالية:

العنوان: {title}
البحر: {meter}
نوع القصيدة: {theme}
القافية: {qafiyah}

مواصفات القصيدة:
- التزام بالبحر {meter}
- كل بيت ينتهي بحرف :{qafiyah}
- متناسقة مع موضوع :{title}

الهيكل المطلوب:
{ST_BAYT_TOKEN} الشطر الأول {VERSE_TOKEN} الشطر الثاني {ED_BAYT_TOKEN}

اكتب القصيدة:"""


In [None]:
# Define the input details
title = "جامعة سعود منبع الفخر والأمل"
meter = "الطويل"
theme = "قصيدة قصيره"
qafiyah = "ل"

# Build the prompt
prompt = build_prompt(title, meter, theme, qafiyah)
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Tokenize and generate
inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
gen_ids = model.generate(
    **inputs,
    max_new_tokens=128,
    temperature=0.7,
    top_p=0.9,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id
)

# Decode the generated text
generated_text = tokenizer.decode(
    gen_ids[0][inputs.input_ids.shape[-1]:],
    skip_special_tokens=False
)

print("\nGenerated by Fine-tuned Model:")
print("="*80)
print(generated_text)
print("="*80)





Generated by Fine-tuned Model:
[/يب :جامعة سعود منبع الفخر والأمل <|verse|> جامعة للعلماء من كل أهل <|endbayt|> جامعة للحكمة والصدق والنهى <|verse|> جامعة للعلم والمجد والفضل <|endbayt|> جامعة للسعي والعزم والعلا <|verse|> جامعة للعلم والعمل والعدل <|endbayt|> جامعة للحلم والنهى والبلاغة <|verse|> جامعة للعدل والشرف والمثل <|endbayt|> جامعة للشرف والصدق والوفا <|verse|> جامعة للحلم والعزم والعمل <|endbayt|>


In [None]:
import openai

# Set your OpenAI API Key

# Build the enhancement prompt for GPT
gpt_prompt = f"""
أنت شاعر عربي فصيح، وخبير بالعروض والقوافي.

مهمتك:
- مراجعة القصيدة التالية لغويًا وعروضيًا.
- تحسين جودة الأبيات مع الحفاظ على البحر والقافية الأصلية.
- تأكد من أن القافية ثابتة في جميع الأبيات، ولا تتغير أثناء التحسين.
- حذف أي تكرار زائد دون الإخلال بالمعنى أو الوزن.
- الحفاظ على الفكرة الأساسية للقصيدة دون تغييرها.

ملاحظات مهمة:
- لا تضف شروحات أو تعليقات، فقط أعِد كتابة القصيدة بشكل محسن.
- احرص أن تكون الأبيات متوازنة عروضياً ومتسقة من حيث السجع والوزن.
- تأكد من أن القافية لا تتغير وأنها تبقى ثابتة في جميع الأبيات.

القصيدة:

\"\"\"
{generated_text}
\"\"\"
"""

# Request GPT to enhance
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "أنت شاعر محترف ومُدقق عروض."},
        {"role": "user", "content": gpt_prompt}
    ],
    temperature=0.4,
    max_tokens=800
)

# Get enhanced poem
enhanced_poem = response['choices'][0]['message']['content']

print("\nEnhanced by GPT:")
print("="*80)
print(enhanced_poem)
print("="*80)



Enhanced by GPT:
جامعة سعود، مصب الفخر والأمل
مهد العلماء من كل حي ودار
جامعة الحكمة، الصدق، والنهى
بيت العلم، المجد، والفضل البار
جامعة السعي، العزم، والعلا
مدرسة العلم، العمل، والعدل الجزار
جامعة الحلم، النهى، والبلاغة
محكمة العدل، الشرف، والمثل النضار
جامعة الشرف، الصدق، والوفا
معقل الحلم، العزم، والعمل الصرار
