# Install Required Libraries


In [None]:
! pip install transformers bitsandbytes peft
! pip install --upgrade peft transformers



# Mount Drive

In [None]:
# Mount Google Drive
from google.colab import drive

drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Verify GPU Availability


In [None]:
import torch

if torch.cuda.is_available():
    print("GPU is available:", torch.cuda.get_device_name(0))
else:
    print("GPU is not available. Please enable GPU in your environment.")


GPU is available: NVIDIA A100-SXM4-40GB


# Load the Model


In [None]:
from google.colab import drive
from huggingface_hub import login

# Authenticate using your token
login(token="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")


In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import PeftModel
import torch

# Define the base model ID and fine-tuned checkpoint path
base_model_id = "silma-ai/SILMA-9B-Instruct-v1.0"

# Configure 4-bit quantization
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",  # Use NormalFloat4 quantization
)

# Load the base model
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id,
    quantization_config=bnb_config,  # Apply 4-bit quantization
    device_map="auto",  # Automatically map model to devices
    torch_dtype=torch.float16  # Mixed precision for efficient computation
)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)

print("model and tokenizer loaded successfully!")


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

model and tokenizer loaded successfully!


In [None]:
fine_tuned_checkpoint = "/content/drive/MyDrive/Colab Notebooks/Verso_GP/model/qlora-4bit-silma-poetry/checkpoint-245"

# Load the fine-tuned LoRA weights
model = PeftModel.from_pretrained(
    base_model,
    fine_tuned_checkpoint,
    torch_dtype=torch.float16
)

print("Fine-tuned model loaded successfully!")

for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"Trainable layer: {name}, Shape: {param.shape}")

Fine-tuned model loaded successfully!


# Use Fine-tuned Model

In [None]:
import torch

input = [
    {"role": "system", "content": "أنت نموذج ذكاء اصطناعي متخصص في كتابة الشعر العربي بناءً على طلبات المستخدم. تأكد من الالتزام بعنوان القصيدة، البحر المطلوب، وعدد الأبيات المحدد مع الحفاظ على القافية والوزن الشعري."},
    {"role": "user", "content": "اكتب قصيدة بعنوان 'غروب الشمس' على بحر 'طويل' وعدد أبيات 6."}
]

# Prepare input using the chat template
input_ids = tokenizer.apply_chat_template(
    input,
    return_tensors="pt",
    return_dict=True
).to("cuda" if torch.cuda.is_available() else "cpu")

outputs = model.generate(
    **input_ids,
    max_length=1024,  # Set a reasonable max length for the poem
    temperature=0.7,  # Introduce some randomness
    top_k=50,  # Limit to top-k sampling for diversity
    top_p=0.9,  # Use nucleus sampling
    do_sample=True  # Enable sampling for more creative outputs
)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Generated text:", generated_text)



Generated text: أنت نموذج ذكاء اصطناعي متخصص في كتابة الشعر العربي بناءً على طلبات المستخدم. تأكد من الالتزام بعنوان القصيدة، البحر المطلوب، وعدد الأبيات المحدد مع الحفاظ على القافية والوزن الشعري.user
اكتب قصيدة بعنوان 'غروب الشمس' على بحر 'طويل' وعدد أبيات 6.
model
مََُِِتَََُُيَََُِيََُِِيَََُيََِِِّيَََََََُُّبَّهََُُِِِِّسََََََّ
ٍَََََََََََََََََََََََُُُُُُُُُُُِِِّّهََََِلََََََََََََََََََََََََََََََََََُِِِِّّْْ
ََََََََََََََََََََََََََََََََََََََُِِِِِِِِِِِِِِِِِّْ
ََََََََََََََََََََََََََََََََََََََََََََََََُُُُُِِِِِْْ
َََََََََََََََََََََََََََََََََََََََََََََََُُُُُُِِِِِِِِِْ
ََََََََََََََََََََََََََََََََََََََََََََََََُُُُُِِِِِِِّ
ََََََََََََََََََََِِ
