In [None]:
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
import json
from PIL import Image
import matplotlib.pyplot as plt
from tqdm import tqdm
import re
import torch

# Model and processor paths
model_dir = "Qwen/Qwen2-VL-2B-Instruct"
model = Qwen2VLForConditionalGeneration.from_pretrained(model_dir).to("cuda")
processor = AutoProcessor.from_pretrained(
    model_dir,
    image_min_pixels=1024,
    image_max_pixels=589824
)
processor.tokenizer.padding_side = 'left'

def patch_tokenizer_and_processor(tokenizer, processor):
    if tokenizer.pad_token is None:
        if tokenizer.eos_token is not None:
            tokenizer.pad_token = tokenizer.eos_token
        else:
            tokenizer.pad_token = "<|endoftext|>"
    if tokenizer.pad_token_id is None:
        if tokenizer.eos_token_id is not None:
            tokenizer.pad_token_id = tokenizer.eos_token_id
        else:
            tokenizer.pad_token_id = 0
    if tokenizer.bos_token_id is None:
        if tokenizer.eos_token_id is not None:
            tokenizer.bos_token_id = tokenizer.eos_token_id
        else:
            tokenizer.bos_token_id = 0
    if tokenizer.eos_token_id is None:
        if hasattr(tokenizer, "eos_token") and tokenizer.eos_token is not None:
            tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids(tokenizer.eos_token)
        else:
            tokenizer.eos_token_id = 0
    processor.pad_token = tokenizer.pad_token
    processor.pad_token_id = tokenizer.pad_token_id
    processor.bos_token_id = tokenizer.bos_token_id
    processor.eos_token_id = tokenizer.eos_token_id

patch_tokenizer_and_processor(processor.tokenizer, processor)

def extract_answer(text):
    match = re.search(r"<answer>\s*([A-D])\s*</answer>", text, re.IGNORECASE)
    if match:
        return match.group(1).upper()
    return None

def evaluate(
    test_jsonl,
    model,
    processor,
    device="cuda",
    max_new_tokens=256,
    batch_size=4,
):
    """Evaluate a single test set with optional image visualization."""
    samples = []
    with open(test_jsonl, "r") as f:
        for line in f:
            samples.append(json.loads(line))
    correct = 0
    total = 0

    for i in tqdm(range(0, len(samples), batch_size), desc="Evaluating"):
        batch = samples[i:i+batch_size]
        prompts = [sample["prompt"] for sample in batch]
        def resize_if_needed(img, max_size=768):
            if img.width > max_size or img.height > max_size:
                img.thumbnail((max_size, max_size), Image.LANCZOS)
            return img
        images = [resize_if_needed(Image.open(sample["image_path"]).convert("RGB")) for sample in batch]
        gt_letters = [extract_answer(sample.get("chosen", "")) for sample in batch]
        text_inputs = [
            processor.apply_chat_template(
                [{"role": "user", "content": [
                    {"type": "image"},
                    {"type": "text", "text": prompt}
                ]}],
                tokenize=False,
                add_generation_prompt=True
            )
            for prompt in prompts
        ]
        inputs = processor(text=text_inputs, images=images, return_tensors="pt", padding=True).to(device)
        with torch.no_grad():
            generated_ids = model.generate(**inputs, max_new_tokens=max_new_tokens)
        input_len = inputs['input_ids'].shape[1]
        decoded = processor.batch_decode(generated_ids[:, input_len:], skip_special_tokens=True)
        for idx, (pred, gt, prompt, image_path, img) in enumerate(zip(decoded, gt_letters, prompts, [sample["image_path"] for sample in batch], images)):
            pred_letter = extract_answer(pred)
            if pred_letter and gt and pred_letter == gt:
                correct += 1
            total += 1

        del inputs, generated_ids
        torch.cuda.empty_cache()
    accuracy = correct / total if total > 0 else 0
    print(f"\nAccuracy: {accuracy:.4f} ({correct}/{total})")

test_sets = {
    "MRI (in-domain)": "/home/vishnu/data/llamafactory_env/LLaMA-Factory/test_sets/test_mri_dpo.jsonl",
    "CT (OOD)": "/home/vishnu/data/llamafactory_env/LLaMA-Factory/test_sets/test_ct_dpo.jsonl",
    "X-ray (OOD)": "/home/vishnu/data/llamafactory_env/LLaMA-Factory/test_sets/test_xray_dpo.jsonl"
}

  from .autonotebook import tqdm as notebook_tqdm



Loading checkpoint shards:   0%|                                                                                                                                                      | 0/2 [00:00<?, ?it/s]


Loading checkpoint shards:  50%|███████████████████████████████████████████████████████████████████████                                                                       | 1/2 [00:01<00:01,  1.22s/it]


Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.78it/s]


Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.51it/s]




Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.


You have video processor config saved in `preprocessor.json` file which is deprecated. Video processor configs should be saved in their own `video_preprocessor.json` file. You can rename the file or load and save the processor back which renames it automatically. Loading from `preprocessor.json` will be removed in v5.0.


In [2]:
print("\nEvaluating on MRI (in-domain)...")
evaluate(
    test_sets["MRI (in-domain)"],
    model,
    processor,
    batch_size=4
)


Evaluating on MRI (in-domain)...



Evaluating:   0%|                                                                                                                                                                    | 0/38 [00:00<?, ?it/s]


Evaluating:   3%|████                                                                                                                                                        | 1/38 [00:05<03:10,  5.16s/it]


Evaluating:   5%|████████▏                                                                                                                                                   | 2/38 [00:09<02:45,  4.60s/it]


Evaluating:   8%|████████████▎                                                                                                                                               | 3/38 [00:13<02:28,  4.25s/it]


Evaluating:  11%|████████████████▍                                                                                                                                           | 4/38 [00:17<02:21,  4.17s/it]


Evaluating:  13%|████████████████████▌                                                                                                                                       | 5/38 [00:21<02:23,  4.34s/it]


Evaluating:  16%|████████████████████████▋                                                                                                                                   | 6/38 [00:24<01:58,  3.71s/it]


Evaluating:  18%|████████████████████████████▋                                                                                                                               | 7/38 [00:29<02:05,  4.04s/it]


Evaluating:  21%|████████████████████████████████▊                                                                                                                           | 8/38 [00:33<02:07,  4.26s/it]


Evaluating:  24%|████████████████████████████████████▉                                                                                                                       | 9/38 [00:37<01:57,  4.04s/it]


Evaluating:  26%|████████████████████████████████████████▊                                                                                                                  | 10/38 [00:40<01:46,  3.80s/it]


Evaluating:  29%|████████████████████████████████████████████▊                                                                                                              | 11/38 [00:44<01:45,  3.90s/it]


Evaluating:  32%|████████████████████████████████████████████████▉                                                                                                          | 12/38 [00:49<01:47,  4.15s/it]


Evaluating:  34%|█████████████████████████████████████████████████████                                                                                                      | 13/38 [00:53<01:42,  4.11s/it]


Evaluating:  37%|█████████████████████████████████████████████████████████                                                                                                  | 14/38 [00:57<01:38,  4.10s/it]


Evaluating:  39%|█████████████████████████████████████████████████████████████▏                                                                                             | 15/38 [01:01<01:36,  4.19s/it]


Evaluating:  42%|█████████████████████████████████████████████████████████████████▎                                                                                         | 16/38 [01:05<01:26,  3.94s/it]


Evaluating:  45%|█████████████████████████████████████████████████████████████████████▎                                                                                     | 17/38 [01:08<01:17,  3.67s/it]


Evaluating:  47%|█████████████████████████████████████████████████████████████████████████▍                                                                                 | 18/38 [01:12<01:18,  3.91s/it]


Evaluating:  50%|█████████████████████████████████████████████████████████████████████████████▌                                                                             | 19/38 [01:16<01:15,  3.97s/it]


Evaluating:  53%|█████████████████████████████████████████████████████████████████████████████████▌                                                                         | 20/38 [01:20<01:10,  3.89s/it]


Evaluating:  55%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 21/38 [01:24<01:08,  4.02s/it]


Evaluating:  58%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 22/38 [01:27<00:55,  3.46s/it]


Evaluating:  61%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 23/38 [01:31<00:56,  3.74s/it]


Evaluating:  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 24/38 [01:36<00:55,  3.98s/it]


Evaluating:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 25/38 [01:40<00:54,  4.20s/it]


Evaluating:  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 26/38 [01:45<00:51,  4.33s/it]


Evaluating:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 27/38 [01:50<00:49,  4.47s/it]


Evaluating:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 28/38 [01:53<00:42,  4.20s/it]


Evaluating:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 29/38 [01:58<00:39,  4.36s/it]


Evaluating:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 30/38 [02:02<00:32,  4.11s/it]


Evaluating:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 31/38 [02:04<00:26,  3.73s/it]


Evaluating:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 32/38 [02:08<00:21,  3.63s/it]


Evaluating:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 33/38 [02:12<00:18,  3.76s/it]


Evaluating:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 34/38 [02:16<00:15,  3.95s/it]


Evaluating:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 35/38 [02:20<00:11,  3.97s/it]


Evaluating:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 36/38 [02:25<00:08,  4.14s/it]


Evaluating:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 37/38 [02:29<00:04,  4.30s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [02:32<00:00,  3.75s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [02:32<00:00,  4.01s/it]


Accuracy: 0.3200 (48/150)





In [3]:
print("\nEvaluating on CT (OOD)...")
evaluate(
    test_sets["CT (OOD)"],
    model,
    processor,
    batch_size=4
)


Evaluating on CT (OOD)...



Evaluating:   0%|                                                                                                                                                                    | 0/38 [00:00<?, ?it/s]


Evaluating:   3%|████                                                                                                                                                        | 1/38 [00:04<02:43,  4.42s/it]


Evaluating:   5%|████████▏                                                                                                                                                   | 2/38 [00:09<02:45,  4.59s/it]


Evaluating:   8%|████████████▎                                                                                                                                               | 3/38 [00:12<02:18,  3.97s/it]


Evaluating:  11%|████████████████▍                                                                                                                                           | 4/38 [00:15<01:58,  3.49s/it]


Evaluating:  13%|████████████████████▌                                                                                                                                       | 5/38 [00:19<02:10,  3.95s/it]


Evaluating:  16%|████████████████████████▋                                                                                                                                   | 6/38 [00:24<02:09,  4.05s/it]


Evaluating:  18%|████████████████████████████▋                                                                                                                               | 7/38 [00:26<01:52,  3.61s/it]


Evaluating:  21%|████████████████████████████████▊                                                                                                                           | 8/38 [00:29<01:38,  3.30s/it]


Evaluating:  24%|████████████████████████████████████▉                                                                                                                       | 9/38 [00:33<01:45,  3.64s/it]


Evaluating:  26%|████████████████████████████████████████▊                                                                                                                  | 10/38 [00:38<01:47,  3.84s/it]


Evaluating:  29%|████████████████████████████████████████████▊                                                                                                              | 11/38 [00:41<01:41,  3.74s/it]


Evaluating:  32%|████████████████████████████████████████████████▉                                                                                                          | 12/38 [00:46<01:43,  3.97s/it]


Evaluating:  34%|█████████████████████████████████████████████████████                                                                                                      | 13/38 [00:49<01:36,  3.85s/it]


Evaluating:  37%|█████████████████████████████████████████████████████████                                                                                                  | 14/38 [00:53<01:35,  3.98s/it]


Evaluating:  39%|█████████████████████████████████████████████████████████████▏                                                                                             | 15/38 [00:58<01:32,  4.02s/it]


Evaluating:  42%|█████████████████████████████████████████████████████████████████▎                                                                                         | 16/38 [01:02<01:28,  4.01s/it]


Evaluating:  45%|█████████████████████████████████████████████████████████████████████▎                                                                                     | 17/38 [01:06<01:25,  4.08s/it]


Evaluating:  47%|█████████████████████████████████████████████████████████████████████████▍                                                                                 | 18/38 [01:09<01:15,  3.77s/it]


Evaluating:  50%|█████████████████████████████████████████████████████████████████████████████▌                                                                             | 19/38 [01:13<01:16,  4.00s/it]


Evaluating:  53%|█████████████████████████████████████████████████████████████████████████████████▌                                                                         | 20/38 [01:17<01:07,  3.76s/it]


Evaluating:  55%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 21/38 [01:20<01:03,  3.71s/it]


Evaluating:  58%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 22/38 [01:25<01:03,  3.99s/it]


Evaluating:  61%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 23/38 [01:30<01:03,  4.20s/it]


Evaluating:  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 24/38 [01:32<00:53,  3.81s/it]


Evaluating:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 25/38 [01:35<00:45,  3.50s/it]


Evaluating:  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 26/38 [01:40<00:46,  3.87s/it]


Evaluating:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 27/38 [01:45<00:44,  4.07s/it]


Evaluating:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 28/38 [01:49<00:42,  4.21s/it]


Evaluating:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 29/38 [01:52<00:34,  3.88s/it]


Evaluating:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 30/38 [01:57<00:32,  4.09s/it]


Evaluating:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 31/38 [02:00<00:27,  3.93s/it]


Evaluating:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 32/38 [02:04<00:22,  3.73s/it]


Evaluating:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 33/38 [02:08<00:19,  3.99s/it]


Evaluating:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 34/38 [02:13<00:16,  4.22s/it]


Evaluating:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 35/38 [02:17<00:12,  4.09s/it]


Evaluating:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 36/38 [02:20<00:07,  3.92s/it]


Evaluating:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 37/38 [02:23<00:03,  3.52s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [02:26<00:00,  3.46s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [02:26<00:00,  3.86s/it]


Accuracy: 0.3467 (52/150)





In [None]:
print("\nEvaluating on X-ray (OOD)...")
evaluate(
    test_sets["X-ray (OOD)"],
    model,
    processor,
    batch_size=4
)


Evaluating on X-ray (OOD)...



Evaluating:   0%|                                                                                                                                                                    | 0/38 [00:00<?, ?it/s]


Evaluating:   3%|████                                                                                                                                                        | 1/38 [00:06<03:50,  6.24s/it]


Evaluating:   5%|████████▏                                                                                                                                                   | 2/38 [00:11<03:30,  5.84s/it]


Evaluating:   8%|████████████▎                                                                                                                                               | 3/38 [00:18<03:33,  6.10s/it]


Evaluating:  11%|████████████████▍                                                                                                                                           | 4/38 [00:23<03:20,  5.91s/it]


Evaluating:  13%|████████████████████▌                                                                                                                                       | 5/38 [00:29<03:08,  5.71s/it]


Evaluating:  16%|████████████████████████▋                                                                                                                                   | 6/38 [00:33<02:49,  5.30s/it]


Evaluating:  18%|████████████████████████████▋                                                                                                                               | 7/38 [00:39<02:50,  5.51s/it]


Evaluating:  21%|████████████████████████████████▊                                                                                                                           | 8/38 [00:43<02:29,  4.99s/it]


Evaluating:  24%|████████████████████████████████████▉                                                                                                                       | 9/38 [00:48<02:26,  5.04s/it]


Evaluating:  26%|████████████████████████████████████████▊                                                                                                                  | 10/38 [00:56<02:46,  5.96s/it]


Evaluating:  29%|████████████████████████████████████████████▊                                                                                                              | 11/38 [01:04<02:56,  6.54s/it]


Evaluating:  32%|████████████████████████████████████████████████▉                                                                                                          | 12/38 [01:10<02:44,  6.33s/it]


Evaluating:  34%|█████████████████████████████████████████████████████                                                                                                      | 13/38 [01:17<02:45,  6.60s/it]


Evaluating:  37%|█████████████████████████████████████████████████████████                                                                                                  | 14/38 [01:24<02:42,  6.78s/it]


Evaluating:  39%|█████████████████████████████████████████████████████████████▏                                                                                             | 15/38 [01:29<02:18,  6.01s/it]


Evaluating:  42%|█████████████████████████████████████████████████████████████████▎                                                                                         | 16/38 [01:36<02:23,  6.52s/it]


Evaluating:  45%|█████████████████████████████████████████████████████████████████████▎                                                                                     | 17/38 [01:43<02:16,  6.51s/it]


Evaluating:  47%|█████████████████████████████████████████████████████████████████████████▍                                                                                 | 18/38 [01:50<02:16,  6.84s/it]


Evaluating:  50%|█████████████████████████████████████████████████████████████████████████████▌                                                                             | 19/38 [01:56<02:03,  6.51s/it]


Evaluating:  53%|█████████████████████████████████████████████████████████████████████████████████▌                                                                         | 20/38 [02:00<01:44,  5.81s/it]


Evaluating:  55%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 21/38 [02:05<01:35,  5.61s/it]


Evaluating:  58%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 22/38 [02:11<01:31,  5.70s/it]


Evaluating:  61%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 23/38 [02:18<01:29,  5.98s/it]


Evaluating:  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 24/38 [02:25<01:27,  6.27s/it]


Evaluating:  66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 25/38 [02:31<01:20,  6.19s/it]


Evaluating:  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 26/38 [02:39<01:19,  6.65s/it]


Evaluating:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 27/38 [02:46<01:16,  6.96s/it]


Evaluating:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 28/38 [02:53<01:09,  6.93s/it]


Evaluating:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 29/38 [03:00<01:01,  6.78s/it]


Evaluating:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 30/38 [03:05<00:51,  6.49s/it]


Evaluating:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 31/38 [03:09<00:39,  5.59s/it]


Evaluating:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 32/38 [03:15<00:35,  5.87s/it]


Evaluating:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 33/38 [03:21<00:28,  5.65s/it]


Evaluating:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 34/38 [03:27<00:24,  6.01s/it]


Evaluating:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 35/38 [03:33<00:17,  5.87s/it]


Evaluating:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 36/38 [03:39<00:11,  5.91s/it]


Evaluating:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 37/38 [03:43<00:05,  5.35s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [03:47<00:00,  4.85s/it]


Evaluating: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [03:47<00:00,  5.98s/it]


Accuracy: 0.3733 (56/150)



