In [None]:
!pip install qwen_vl_utils

In [None]:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
from PIL import Image
import torch
import os
import csv

In [None]:
# Load processor and model
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-VL-7B-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    attn_implementation="eager"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

# Define folder path for images
image_folder = "/content/drive/MyDrive/ImageVal/Test/images"
output_csv = "/content/drive/MyDrive/ImageVal/Test/Test_dataset_captions_nofinetune_2nd_round.csv"

# Prepare CSV file for writing
with open(output_csv, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(["image_file", "arabic_caption"])

    # Process each image in the folder
    for image_file in os.listdir(image_folder):
        if image_file.lower().endswith(('.png', '.jpg', '.jpeg')):
            image_path = os.path.join(image_folder, image_file)
            try:
                image = Image.open(image_path)
                messages = [
                    {
                        "role": "user",
                        "content": [
                            {"type": "image", "image": image},
                            {
                                "type": "text",
                                "text": (
                                     "You are an expert in visual scene understanding and multilingual caption generation."
                                     "Analyze the content of this image, which is potentially related to the palestnian Nakba"
                                     "and Israeli occupation of Palestine, and provide a concise and meaningful caption in Arabic - about 15 to 50 words."
                                     "The caption should reflect the scene's content, emotional context, and should be natural and culturally appropriate."
                                     " Do not include any English or metadata — The caption must be in Arabic."
                                ),
                            },
                        ],
                    }
                ]

                text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
                image_inputs, _ = process_vision_info(messages)
                inputs = processor(
                    text=[text],
                    images=image_inputs,
                    padding=True,
                    return_tensors="pt",
                )
                inputs = inputs.to(model.device)

                with torch.no_grad():
                    generated_ids = model.generate(**inputs, max_new_tokens=128)

                generated_ids_trimmed = [
                    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
                ]
                output_text = processor.batch_decode(
                    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
                )

                print(f"{image_file}: {output_text[0]}")
                writer.writerow([image_file, output_text[0]])

            except Exception as e:
                print(f"Failed to process {image_file}: {e}")

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

ISH.PH01.12.004.jpg: "صورة تاريخية تظهر جنودا يمارسون التدريبات العسكرية في ظل الظروف الصعبة، تعكس التحدي والصمود في وجه الظروف الصعبة."
ISH.PH01.12.010.jpg: صورة تاريخية تظهر جماعة منople يحملون أسلحة في ميدان، ربما تشير إلى التدريبات العسكرية أو التعبير عن الولاء للقضية الفلسطينية.
ISH.PH01.12.003.jpg: صورة تاريخية تظهر جنداً منمارسون التدريبات العسكرية في مخيم للاجئين، تعبيراً عن الصمود والتحدي في وجه الظروف الصعبة.
ISH.PH01.12.001.jpg: صورة تاريخية تظهر جماعة منople يشاركون في تمرين عسكري، ربما في سياق التدريبات العسكرية أو التحضير للقتال.
ISH.PH01.12.011.jpg: صورة تاريخية تظهر جماعة منople يمارسون التدريبات العسكرية في ظل ظروف صعبة، مما يعكس التحديات والصمود في مواجهة الظروف الصعبة.
ISH.PH01.12.007.jpg: صورة لجنود يجلسون على الأرض، يحمل أحدهم سلاحًا ثقيلًا، بينما الآخرون يتحدثون أو يستمعون. يبدو الوضع صعبًا ومحبطًا، يعكس التوتر والقلق في المنطقة.
ISH.PH01.12.006.jpg: صورة تاريخية تظهر جنداً عسكرياً يحمل سلاحاً ثقابياً، يعكس الوضع الأمني في منطقة فلسطين المحتلة.
ISH.PH01.12.009.jpg