In [30]:
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

import os
from tqdm import tqdm
import json
import signal
import argparse
import wandb
import pandas as pd

import copy
import re


import sys
from collections import defaultdict
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score,confusion_matrix
from pathlib import Path

In [2]:
from PIL import Image
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

In [57]:
sys.argv = [
    'notebook',  
    '--modelname' , 'Qwen/Qwen2-VL-72B-Instruct' , 
    '--data', '/root/home/data',
    '--data_path','/mnt/Gbenga_Enemy/ramy/results/test_llama3_90b.json',
    '--data_path_files','/mnt/Gbenga_Enemy/ramy/WACV-2025-Workshop-ViGIR',
    '--results_dir', '/mnt/Gbenga_Enemy/ramy/results',
]

In [58]:
parser = argparse.ArgumentParser(description="A script to run V-LLMs on different image classification datasets")

In [59]:
parser.add_argument("--modelname", type=str, required=True, help="The name of the V-LLM model")
parser.add_argument("--data", type=str, required=True, help="Path to the data")
parser.add_argument("--data_path", type=str, required=True, help="Path to the image data dir")
parser.add_argument("--data_path_files", type=str, required=True, help="Path to the image data dir")
parser.add_argument("--results_dir", type=str, required=True, help="Folder name to save results")

args = parser.parse_args()

In [24]:
def prepare_inference_inputs_textOnly(prompt):
    messages = [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt},
            ],
        }
    ]
    

    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    image_inputs, video_inputs = process_vision_info(messages)
    inputs = processor(  text=[text] ,      padding=True,    return_tensors="pt",)
    
    return inputs

In [7]:
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-72B-Instruct")

model = Qwen2VLForConditionalGeneration.from_pretrained(
    args.modelname,
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
).eval()

`Qwen2VLRotaryEmbedding` can now be fully parameterized by passing the model config through the `config` argument. All other arguments will be removed in v4.46
Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 38/38 [08:02<00:00, 12.69s/it]


In [60]:
# Load test set:
file_path = os.path.join(args.data_path)
with open(file_path, 'r') as file:
    data = json.load(file)

print('Number of Annotated GT Images: ', len(data.keys()))
data_keys_test = list(data.keys())
print('Number of Annotated GT Images (List): ', len(data_keys_test))

Number of Annotated GT Images:  311
Number of Annotated GT Images (List):  311


In [69]:
file_path = os.path.join(args.data_path)
print(file_path)

/mnt/Gbenga_Enemy/ramy/results/test_llama3_90b.json


In [61]:
data

{'415': [[{'label': '4', 'labelers': ['Ali', 'Dr.Lory']},
   'Given these six images of the exact same area and collected over a period of 10 years, do you see a low point in the terrain? Answer with yes or no only!',
   'No.'],
  [{'label': '4', 'labelers': ['Ali', 'Dr.Lory']},
   'Given these six images of the exact same area and collected over a period of 10 years, do narrow, winding paths or channels appear? Answer with yes or no only!',
   'No.'],
  [{'label': '4', 'labelers': ['Ali', 'Dr.Lory']},
   'Given these six images of the exact same area and collected over a period of 10 years, are there winding paths that become intermittent recurrent? Answer with yes or no only!',
   'No.'],
  [{'label': '4', 'labelers': ['Ali', 'Dr.Lory']},
   'Given these six images of the exact same area and collected over a period of 10 years, are there any linear depressions or ruts which appear more pronounced along natural drainage lines or slopes? Answer with yes or no only!',
   'No.'],
  [{'la

In [62]:
data_reformated = {}

for key, item in data.items():
    q_and_a = []
    for i in range(len(item)):
        tmp = item[i][1:]   
        q_and_a.append(tmp)

    data_reformated[key] = q_and_a
    

In [63]:
data_prompt = {}
for key, item in data_reformated.items():
    prompt = "\n".join([f"Q: {qa[0]}\nA: {qa[1]}" for qa in item])
    data_prompt[key] = [prompt]

In [64]:
count = 0
saving_response=copy.deepcopy(data_prompt)

for key, info in tqdm(data_prompt.items()):


    question = "Based on the following questions and their answers, determine if there is evidence of an ephemeral gully in the observed area. Carefully analyze all the questions and the responses to assess.\n\n"
    question += info[0]
    question += "\n\nAfter considering these responses, provide a clear conclusion: Is there evidence of an ephemeral gully? Answer with yes or no only."
    
        
    count+=1

    inputs=prepare_inference_inputs_textOnly(question)
    inputs = inputs.to("cuda")

    generated_ids = model.generate(**inputs, max_new_tokens=128)
    generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
    response = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
    print(key,response)
    
    saving_response[key].append(response[0])

    
    
with open(os.path.join(args.results_dir,f'test_{args.modelname[-21:]}-Aggregating-QAs-Dispose.json'), "w") as file:
    json.dump(saving_response, file)

  0%|▎                                                                                  | 1/311 [00:00<04:24,  1.17it/s]

415 ['No.']


  1%|▌                                                                                  | 2/311 [00:01<04:17,  1.20it/s]

1020 ['No.']


  1%|▊                                                                                  | 3/311 [00:02<04:14,  1.21it/s]

105 ['No.']


  1%|█                                                                                  | 4/311 [00:03<04:13,  1.21it/s]

439 ['No.']


  2%|█▎                                                                                 | 5/311 [00:04<04:11,  1.22it/s]

914 ['Yes.']


  2%|█▌                                                                                 | 6/311 [00:04<04:10,  1.22it/s]

1099 ['No.']


  2%|█▊                                                                                 | 7/311 [00:05<04:09,  1.22it/s]

1065 ['No.']


  3%|██▏                                                                                | 8/311 [00:06<04:08,  1.22it/s]

373 ['No.']


  3%|██▍                                                                                | 9/311 [00:07<04:08,  1.22it/s]

166 ['No.']


  3%|██▋                                                                               | 10/311 [00:08<04:07,  1.22it/s]

396 ['No.']


  4%|██▉                                                                               | 11/311 [00:09<04:06,  1.22it/s]

837 ['No.']


  4%|███▏                                                                              | 12/311 [00:09<04:05,  1.22it/s]

685 ['Yes.']


  4%|███▍                                                                              | 13/311 [00:10<04:04,  1.22it/s]

226 ['Yes.']


  5%|███▋                                                                              | 14/311 [00:11<04:04,  1.22it/s]

956 ['No.']


  5%|███▉                                                                              | 15/311 [00:12<04:03,  1.22it/s]

70 ['No.']


  5%|████▏                                                                             | 16/311 [00:13<04:02,  1.22it/s]

604 ['No.']


  5%|████▍                                                                             | 17/311 [00:13<04:01,  1.22it/s]

1067 ['No.']


  6%|████▋                                                                             | 18/311 [00:14<04:01,  1.22it/s]

118 ['No.']


  6%|█████                                                                             | 19/311 [00:15<04:00,  1.22it/s]

774 ['No.']


  6%|█████▎                                                                            | 20/311 [00:16<03:59,  1.22it/s]

521 ['No.']


  7%|█████▌                                                                            | 21/311 [00:17<03:58,  1.22it/s]

910 ['No.']


  7%|█████▊                                                                            | 22/311 [00:18<03:57,  1.22it/s]

975 ['Yes.']


  7%|██████                                                                            | 23/311 [00:18<03:56,  1.22it/s]

352 ['No.']


  8%|██████▎                                                                           | 24/311 [00:19<03:55,  1.22it/s]

761 ['No.']


  8%|██████▌                                                                           | 25/311 [00:20<03:54,  1.22it/s]

1007 ['No.']


  8%|██████▊                                                                           | 26/311 [00:21<03:53,  1.22it/s]

428 ['No.']


  9%|███████                                                                           | 27/311 [00:22<03:52,  1.22it/s]

1038 ['No.']


  9%|███████▍                                                                          | 28/311 [00:23<03:51,  1.22it/s]

50 ['No.']


  9%|███████▋                                                                          | 29/311 [00:23<03:50,  1.22it/s]

838 ['No.']


 10%|███████▉                                                                          | 30/311 [00:24<03:50,  1.22it/s]

126 ['No.']


 10%|████████▏                                                                         | 31/311 [00:25<03:49,  1.22it/s]

1078 ['Yes.']


 10%|████████▍                                                                         | 32/311 [00:26<03:48,  1.22it/s]

944 ['No.']


 11%|████████▋                                                                         | 33/311 [00:27<03:48,  1.22it/s]

532 ['No.']


 11%|████████▉                                                                         | 34/311 [00:27<03:47,  1.22it/s]

1041 ['No.']


 11%|█████████▏                                                                        | 35/311 [00:28<03:46,  1.22it/s]

540 ['No.']


 12%|█████████▍                                                                        | 36/311 [00:29<03:46,  1.22it/s]

128 ['No.']


 12%|█████████▊                                                                        | 37/311 [00:30<03:45,  1.22it/s]

722 ['No.']


 12%|██████████                                                                        | 38/311 [00:31<03:44,  1.22it/s]

478 ['No.']


 13%|██████████▎                                                                       | 39/311 [00:32<03:43,  1.22it/s]

639 ['No.']


 13%|██████████▌                                                                       | 40/311 [00:32<03:42,  1.22it/s]

668 ['Yes.']


 13%|██████████▊                                                                       | 41/311 [00:33<03:42,  1.22it/s]

343 ['No.']


 14%|███████████                                                                       | 42/311 [00:34<03:41,  1.22it/s]

1021 ['No.']


 14%|███████████▎                                                                      | 43/311 [00:35<03:40,  1.22it/s]

552 ['No.']


 14%|███████████▌                                                                      | 44/311 [00:36<03:39,  1.22it/s]

848 ['No.']


 14%|███████████▊                                                                      | 45/311 [00:36<03:38,  1.22it/s]

74 ['No.']


 15%|████████████▏                                                                     | 46/311 [00:37<03:38,  1.22it/s]

520 ['No.']


 15%|████████████▍                                                                     | 47/311 [00:38<03:37,  1.21it/s]

1032 ['No.']


 15%|████████████▋                                                                     | 48/311 [00:39<03:36,  1.21it/s]

615 ['No.']


 16%|████████████▉                                                                     | 49/311 [00:40<03:35,  1.21it/s]

536 ['No.']


 16%|█████████████▏                                                                    | 50/311 [00:41<03:34,  1.22it/s]

1117 ['No.']


 16%|█████████████▍                                                                    | 51/311 [00:41<03:33,  1.22it/s]

646 ['No.']


 17%|█████████████▋                                                                    | 52/311 [00:42<03:33,  1.21it/s]

390 ['No.']


 17%|█████████████▉                                                                    | 53/311 [00:43<03:32,  1.21it/s]

923 ['No.']


 17%|██████████████▏                                                                   | 54/311 [00:44<03:31,  1.21it/s]

194 ['Yes.']


 18%|██████████████▌                                                                   | 55/311 [00:45<03:30,  1.21it/s]

216 ['No.']


 18%|██████████████▊                                                                   | 56/311 [00:46<03:29,  1.22it/s]

99 ['No.']


 18%|███████████████                                                                   | 57/311 [00:46<03:29,  1.21it/s]

372 ['No.']


 19%|███████████████▎                                                                  | 58/311 [00:47<03:28,  1.21it/s]

857 ['No.']


 19%|███████████████▌                                                                  | 59/311 [00:48<03:27,  1.21it/s]

335 ['Yes.']


 19%|███████████████▊                                                                  | 60/311 [00:49<03:27,  1.21it/s]

505 ['No.']


 20%|████████████████                                                                  | 61/311 [00:50<03:26,  1.21it/s]

972 ['No.']


 20%|████████████████▎                                                                 | 62/311 [00:50<03:25,  1.21it/s]

727 ['No.']


 20%|████████████████▌                                                                 | 63/311 [00:51<03:24,  1.21it/s]

1064 ['No.']


 21%|████████████████▊                                                                 | 64/311 [00:52<03:23,  1.21it/s]

740 ['Yes.']


 21%|█████████████████▏                                                                | 65/311 [00:53<03:22,  1.21it/s]

182 ['No.']


 21%|█████████████████▍                                                                | 66/311 [00:54<03:21,  1.21it/s]

316 ['No.']


 22%|█████████████████▋                                                                | 67/311 [00:55<03:20,  1.21it/s]

706 ['No.']


 22%|█████████████████▉                                                                | 68/311 [00:55<03:20,  1.21it/s]

193 ['Yes.']


 22%|██████████████████▏                                                               | 69/311 [00:56<03:19,  1.21it/s]

882 ['No.']


 23%|██████████████████▍                                                               | 70/311 [00:57<03:18,  1.21it/s]

932 ['No.']


 23%|██████████████████▋                                                               | 71/311 [00:58<03:17,  1.21it/s]

174 ['No.']


 23%|██████████████████▉                                                               | 72/311 [00:59<03:16,  1.21it/s]

440 ['No.']


 23%|███████████████████▏                                                              | 73/311 [01:00<03:16,  1.21it/s]

965 ['No.']


 24%|███████████████████▌                                                              | 74/311 [01:00<03:15,  1.21it/s]

1140 ['No.']


 24%|███████████████████▊                                                              | 75/311 [01:01<03:14,  1.21it/s]

273 ['Yes.']


 24%|████████████████████                                                              | 76/311 [01:02<03:13,  1.21it/s]

878 ['No.']


 25%|████████████████████▎                                                             | 77/311 [01:03<03:12,  1.21it/s]

826 ['No.']


 25%|████████████████████▌                                                             | 78/311 [01:04<03:11,  1.21it/s]

596 ['No.']


 25%|████████████████████▊                                                             | 79/311 [01:04<03:10,  1.21it/s]

1123 ['No.']


 26%|█████████████████████                                                             | 80/311 [01:05<03:10,  1.21it/s]

1031 ['No.']


 26%|█████████████████████▎                                                            | 81/311 [01:06<03:09,  1.21it/s]

942 ['No.']


 26%|█████████████████████▌                                                            | 82/311 [01:07<03:08,  1.21it/s]

239 ['No.']


 27%|█████████████████████▉                                                            | 83/311 [01:08<03:07,  1.21it/s]

1005 ['No.']


 27%|██████████████████████▏                                                           | 84/311 [01:09<03:07,  1.21it/s]

139 ['No.']


 27%|██████████████████████▍                                                           | 85/311 [01:09<03:06,  1.21it/s]

11 ['No.']


 28%|██████████████████████▋                                                           | 86/311 [01:10<03:05,  1.21it/s]

855 ['No.']


 28%|██████████████████████▉                                                           | 87/311 [01:11<03:04,  1.21it/s]

836 ['No.']


 28%|███████████████████████▏                                                          | 88/311 [01:12<03:03,  1.21it/s]

97 ['No.']


 29%|███████████████████████▍                                                          | 89/311 [01:13<03:02,  1.21it/s]

124 ['No.']


 29%|███████████████████████▋                                                          | 90/311 [01:14<03:02,  1.21it/s]

568 ['No.']


 29%|███████████████████████▉                                                          | 91/311 [01:14<03:01,  1.21it/s]

387 ['No.']


 30%|████████████████████████▎                                                         | 92/311 [01:15<03:00,  1.21it/s]

171 ['No.']


 30%|████████████████████████▌                                                         | 93/311 [01:16<02:59,  1.21it/s]

644 ['No.']


 30%|████████████████████████▊                                                         | 94/311 [01:17<02:58,  1.21it/s]

695 ['No.']


 31%|█████████████████████████                                                         | 95/311 [01:18<02:58,  1.21it/s]

12 ['No.']


 31%|█████████████████████████▎                                                        | 96/311 [01:19<02:57,  1.21it/s]

739 ['No.']


 31%|█████████████████████████▌                                                        | 97/311 [01:19<02:56,  1.21it/s]

732 ['No.']


 32%|█████████████████████████▊                                                        | 98/311 [01:20<02:55,  1.21it/s]

1035 ['No.']


 32%|██████████████████████████                                                        | 99/311 [01:21<02:54,  1.21it/s]

242 ['No.']


 32%|██████████████████████████                                                       | 100/311 [01:22<02:53,  1.21it/s]

441 ['No.']


 32%|██████████████████████████▎                                                      | 101/311 [01:23<02:52,  1.21it/s]

928 ['No.']


 33%|██████████████████████████▌                                                      | 102/311 [01:23<02:52,  1.21it/s]

71 ['No.']


 33%|██████████████████████████▊                                                      | 103/311 [01:24<02:51,  1.21it/s]

248 ['No.']


 33%|███████████████████████████                                                      | 104/311 [01:25<02:50,  1.21it/s]

794 ['No.']


 34%|███████████████████████████▎                                                     | 105/311 [01:26<02:49,  1.21it/s]

458 ['No.']


 34%|███████████████████████████▌                                                     | 106/311 [01:27<02:48,  1.21it/s]

915 ['Yes.']


 34%|███████████████████████████▊                                                     | 107/311 [01:28<02:48,  1.21it/s]

475 ['No.']


 35%|████████████████████████████▏                                                    | 108/311 [01:28<02:47,  1.21it/s]

1050 ['No.']


 35%|████████████████████████████▍                                                    | 109/311 [01:29<02:46,  1.21it/s]

546 ['No.']


 35%|████████████████████████████▋                                                    | 110/311 [01:30<02:45,  1.21it/s]

556 ['No.']


 36%|████████████████████████████▉                                                    | 111/311 [01:31<02:44,  1.21it/s]

619 ['No.']


 36%|█████████████████████████████▏                                                   | 112/311 [01:32<02:43,  1.21it/s]

721 ['No.']


 36%|█████████████████████████████▍                                                   | 113/311 [01:33<02:43,  1.21it/s]

614 ['No.']


 37%|█████████████████████████████▋                                                   | 114/311 [01:33<02:42,  1.21it/s]

626 ['No.']


 37%|█████████████████████████████▉                                                   | 115/311 [01:34<02:41,  1.21it/s]

404 ['No.']


 37%|██████████████████████████████▏                                                  | 116/311 [01:35<02:40,  1.21it/s]

759 ['No.']


 38%|██████████████████████████████▍                                                  | 117/311 [01:36<02:39,  1.21it/s]

334 ['No.']


 38%|██████████████████████████████▋                                                  | 118/311 [01:37<02:38,  1.21it/s]

486 ['No.']


 38%|██████████████████████████████▉                                                  | 119/311 [01:37<02:38,  1.21it/s]

153 ['No.']


 39%|███████████████████████████████▎                                                 | 120/311 [01:38<02:37,  1.21it/s]

5 ['No.']


 39%|███████████████████████████████▌                                                 | 121/311 [01:39<02:36,  1.21it/s]

1010 ['No.']


 39%|███████████████████████████████▊                                                 | 122/311 [01:40<02:35,  1.21it/s]

272 ['No.']


 40%|████████████████████████████████                                                 | 123/311 [01:41<02:34,  1.21it/s]

219 ['Yes.']


 40%|████████████████████████████████▎                                                | 124/311 [01:42<02:34,  1.21it/s]

125 ['No.']


 40%|████████████████████████████████▌                                                | 125/311 [01:42<02:33,  1.21it/s]

222 ['No.']


 41%|████████████████████████████████▊                                                | 126/311 [01:43<02:32,  1.21it/s]

1098 ['No.']


 41%|█████████████████████████████████                                                | 127/311 [01:44<02:31,  1.21it/s]

758 ['No.']


 41%|█████████████████████████████████▎                                               | 128/311 [01:45<02:30,  1.21it/s]

213 ['No.']


 41%|█████████████████████████████████▌                                               | 129/311 [01:46<02:30,  1.21it/s]

235 ['No.']


 42%|█████████████████████████████████▊                                               | 130/311 [01:47<02:29,  1.21it/s]

916 ['No.']


 42%|██████████████████████████████████                                               | 131/311 [01:47<02:28,  1.21it/s]

253 ['No.']


 42%|██████████████████████████████████▍                                              | 132/311 [01:48<02:27,  1.21it/s]

573 ['No.']


 43%|██████████████████████████████████▋                                              | 133/311 [01:49<02:26,  1.21it/s]

636 ['No.']


 43%|██████████████████████████████████▉                                              | 134/311 [01:50<02:25,  1.21it/s]

1053 ['No.']


 43%|███████████████████████████████████▏                                             | 135/311 [01:51<02:24,  1.21it/s]

927 ['No.']


 44%|███████████████████████████████████▍                                             | 136/311 [01:51<02:24,  1.21it/s]

398 ['Yes.']


 44%|███████████████████████████████████▋                                             | 137/311 [01:52<02:23,  1.21it/s]

231 ['No.']


 44%|███████████████████████████████████▉                                             | 138/311 [01:53<02:22,  1.21it/s]

502 ['No.']


 45%|████████████████████████████████████▏                                            | 139/311 [01:54<02:21,  1.21it/s]

410 ['No.']


 45%|████████████████████████████████████▍                                            | 140/311 [01:55<02:20,  1.21it/s]

4 ['No.']


 45%|████████████████████████████████████▋                                            | 141/311 [01:56<02:20,  1.21it/s]

895 ['No.']


 46%|████████████████████████████████████▉                                            | 142/311 [01:56<02:19,  1.21it/s]

344 ['No.']


 46%|█████████████████████████████████████▏                                           | 143/311 [01:57<02:18,  1.21it/s]

202 ['No.']


 46%|█████████████████████████████████████▌                                           | 144/311 [01:58<02:17,  1.21it/s]

399 ['No.']


 47%|█████████████████████████████████████▊                                           | 145/311 [01:59<02:16,  1.21it/s]

724 ['No.']


 47%|██████████████████████████████████████                                           | 146/311 [02:00<02:15,  1.21it/s]

534 ['No.']


 47%|██████████████████████████████████████▎                                          | 147/311 [02:01<02:15,  1.21it/s]

225 ['No.']


 48%|██████████████████████████████████████▌                                          | 148/311 [02:01<02:14,  1.21it/s]

669 ['No.']


 48%|██████████████████████████████████████▊                                          | 149/311 [02:02<02:13,  1.21it/s]

538 ['No.']


 48%|███████████████████████████████████████                                          | 150/311 [02:03<02:12,  1.21it/s]

306 ['No.']


 49%|███████████████████████████████████████▎                                         | 151/311 [02:04<02:11,  1.21it/s]

840 ['No.']


 49%|███████████████████████████████████████▌                                         | 152/311 [02:05<02:10,  1.21it/s]

190 ['Yes.']


 49%|███████████████████████████████████████▊                                         | 153/311 [02:05<02:10,  1.21it/s]

418 ['No.']


 50%|████████████████████████████████████████                                         | 154/311 [02:06<02:09,  1.21it/s]

337 ['Yes.']


 50%|████████████████████████████████████████▎                                        | 155/311 [02:07<02:08,  1.21it/s]

541 ['No.']


 50%|████████████████████████████████████████▋                                        | 156/311 [02:08<02:07,  1.21it/s]

930 ['No.']


 50%|████████████████████████████████████████▉                                        | 157/311 [02:09<02:07,  1.21it/s]

411 ['No.']


 51%|█████████████████████████████████████████▏                                       | 158/311 [02:10<02:06,  1.21it/s]

529 ['No.']


 51%|█████████████████████████████████████████▍                                       | 159/311 [02:10<02:05,  1.21it/s]

447 ['No.']


 51%|█████████████████████████████████████████▋                                       | 160/311 [02:11<02:04,  1.21it/s]

701 ['Yes.']


 52%|█████████████████████████████████████████▉                                       | 161/311 [02:12<02:03,  1.21it/s]

1085 ['No.']


 52%|██████████████████████████████████████████▏                                      | 162/311 [02:13<02:02,  1.21it/s]

513 ['No.']


 52%|██████████████████████████████████████████▍                                      | 163/311 [02:14<02:02,  1.21it/s]

1073 ['No.']


 53%|██████████████████████████████████████████▋                                      | 164/311 [02:15<02:01,  1.21it/s]

820 ['No.']


 53%|██████████████████████████████████████████▉                                      | 165/311 [02:15<02:00,  1.21it/s]

224 ['No.']


 53%|███████████████████████████████████████████▏                                     | 166/311 [02:16<01:59,  1.21it/s]

551 ['No.']


 54%|███████████████████████████████████████████▍                                     | 167/311 [02:17<01:58,  1.21it/s]

312 ['No.']


 54%|███████████████████████████████████████████▊                                     | 168/311 [02:18<01:57,  1.21it/s]

847 ['No.']


 54%|████████████████████████████████████████████                                     | 169/311 [02:19<01:57,  1.21it/s]

476 ['No.']


 55%|████████████████████████████████████████████▎                                    | 170/311 [02:19<01:56,  1.21it/s]

250 ['No.']


 55%|████████████████████████████████████████████▌                                    | 171/311 [02:20<01:55,  1.21it/s]

129 ['No.']


 55%|████████████████████████████████████████████▊                                    | 172/311 [02:21<01:54,  1.21it/s]

579 ['No.']


 56%|█████████████████████████████████████████████                                    | 173/311 [02:22<01:53,  1.21it/s]

742 ['No.']


 56%|█████████████████████████████████████████████▎                                   | 174/311 [02:23<01:52,  1.21it/s]

10 ['No.']


 56%|█████████████████████████████████████████████▌                                   | 175/311 [02:24<01:52,  1.21it/s]

392 ['No.']


 57%|█████████████████████████████████████████████▊                                   | 176/311 [02:24<01:51,  1.21it/s]

377 ['No.']


 57%|██████████████████████████████████████████████                                   | 177/311 [02:25<01:50,  1.21it/s]

950 ['No.']


 57%|██████████████████████████████████████████████▎                                  | 178/311 [02:26<01:49,  1.21it/s]

454 ['No.']


 58%|██████████████████████████████████████████████▌                                  | 179/311 [02:27<01:48,  1.21it/s]

686 ['Yes.']


 58%|██████████████████████████████████████████████▉                                  | 180/311 [02:28<01:47,  1.21it/s]

569 ['No.']


 58%|███████████████████████████████████████████████▏                                 | 181/311 [02:29<01:47,  1.21it/s]

236 ['Yes.']


 59%|███████████████████████████████████████████████▍                                 | 182/311 [02:29<01:46,  1.21it/s]

1004 ['No.']


 59%|███████████████████████████████████████████████▋                                 | 183/311 [02:30<01:45,  1.21it/s]

19 ['No.']


 59%|███████████████████████████████████████████████▉                                 | 184/311 [02:31<01:44,  1.21it/s]

207 ['No.']


 59%|████████████████████████████████████████████████▏                                | 185/311 [02:32<01:43,  1.21it/s]

301 ['No.']


 60%|████████████████████████████████████████████████▍                                | 186/311 [02:33<01:43,  1.21it/s]

819 ['No.']


 60%|████████████████████████████████████████████████▋                                | 187/311 [02:34<01:42,  1.21it/s]

887 ['No.']


 60%|████████████████████████████████████████████████▉                                | 188/311 [02:34<01:41,  1.21it/s]

666 ['No.']


 61%|█████████████████████████████████████████████████▏                               | 189/311 [02:35<01:40,  1.21it/s]

789 ['No.']


 61%|█████████████████████████████████████████████████▍                               | 190/311 [02:36<01:39,  1.21it/s]

867 ['No.']


 61%|█████████████████████████████████████████████████▋                               | 191/311 [02:37<01:38,  1.21it/s]

967 ['No.']


 62%|██████████████████████████████████████████████████                               | 192/311 [02:38<01:38,  1.21it/s]

752 ['No.']


 62%|██████████████████████████████████████████████████▎                              | 193/311 [02:38<01:37,  1.21it/s]

691 ['No.']


 62%|██████████████████████████████████████████████████▌                              | 194/311 [02:39<01:36,  1.21it/s]

474 ['No.']


 63%|██████████████████████████████████████████████████▊                              | 195/311 [02:40<01:35,  1.21it/s]

854 ['No.']


 63%|███████████████████████████████████████████████████                              | 196/311 [02:41<01:34,  1.21it/s]

237 ['No.']


 63%|███████████████████████████████████████████████████▎                             | 197/311 [02:42<01:33,  1.21it/s]

28 ['No.']


 64%|███████████████████████████████████████████████████▌                             | 198/311 [02:43<01:33,  1.21it/s]

164 ['Yes.']


 64%|███████████████████████████████████████████████████▊                             | 199/311 [02:43<01:32,  1.21it/s]

1043 ['No.']


 64%|████████████████████████████████████████████████████                             | 200/311 [02:44<01:31,  1.21it/s]

1137 ['No.']


 65%|████████████████████████████████████████████████████▎                            | 201/311 [02:45<01:30,  1.21it/s]

597 ['No.']


 65%|████████████████████████████████████████████████████▌                            | 202/311 [02:46<01:29,  1.21it/s]

449 ['No.']


 65%|████████████████████████████████████████████████████▊                            | 203/311 [02:47<01:28,  1.21it/s]

643 ['No.']


 66%|█████████████████████████████████████████████████████▏                           | 204/311 [02:48<01:28,  1.21it/s]

542 ['No.']


 66%|█████████████████████████████████████████████████████▍                           | 205/311 [02:48<01:27,  1.21it/s]

397 ['No.']


 66%|█████████████████████████████████████████████████████▋                           | 206/311 [02:49<01:26,  1.21it/s]

834 ['No.']


 67%|█████████████████████████████████████████████████████▉                           | 207/311 [02:50<01:25,  1.21it/s]

1138 ['No.']


 67%|██████████████████████████████████████████████████████▏                          | 208/311 [02:51<01:24,  1.21it/s]

784 ['No.']


 67%|██████████████████████████████████████████████████████▍                          | 209/311 [02:52<01:24,  1.21it/s]

1062 ['No.']


 68%|██████████████████████████████████████████████████████▋                          | 210/311 [02:52<01:23,  1.21it/s]

918 ['No.']


 68%|██████████████████████████████████████████████████████▉                          | 211/311 [02:53<01:22,  1.21it/s]

788 ['No.']


 68%|███████████████████████████████████████████████████████▏                         | 212/311 [02:54<01:21,  1.21it/s]

1143 ['No.']


 68%|███████████████████████████████████████████████████████▍                         | 213/311 [02:55<01:20,  1.21it/s]

168 ['No.']


 69%|███████████████████████████████████████████████████████▋                         | 214/311 [02:56<01:19,  1.21it/s]

866 ['No.']


 69%|███████████████████████████████████████████████████████▉                         | 215/311 [02:57<01:19,  1.21it/s]

83 ['No.']


 69%|████████████████████████████████████████████████████████▎                        | 216/311 [02:57<01:18,  1.21it/s]

1040 ['No.']


 70%|████████████████████████████████████████████████████████▌                        | 217/311 [02:58<01:17,  1.21it/s]

357 ['Yes.']


 70%|████████████████████████████████████████████████████████▊                        | 218/311 [02:59<01:16,  1.21it/s]

670 ['No.']


 70%|█████████████████████████████████████████████████████████                        | 219/311 [03:00<01:15,  1.21it/s]

473 ['No.']


 71%|█████████████████████████████████████████████████████████▎                       | 220/311 [03:01<01:15,  1.21it/s]

100 ['No.']


 71%|█████████████████████████████████████████████████████████▌                       | 221/311 [03:02<01:14,  1.21it/s]

812 ['Yes.']


 71%|█████████████████████████████████████████████████████████▊                       | 222/311 [03:02<01:13,  1.21it/s]

515 ['Yes.']


 72%|██████████████████████████████████████████████████████████                       | 223/311 [03:03<01:12,  1.21it/s]

52 ['No.']


 72%|██████████████████████████████████████████████████████████▎                      | 224/311 [03:04<01:11,  1.21it/s]

1121 ['No.']


 72%|██████████████████████████████████████████████████████████▌                      | 225/311 [03:05<01:10,  1.21it/s]

416 ['No.']


 73%|██████████████████████████████████████████████████████████▊                      | 226/311 [03:06<01:10,  1.21it/s]

907 ['No.']


 73%|███████████████████████████████████████████████████████████                      | 227/311 [03:06<01:09,  1.21it/s]

107 ['No.']


 73%|███████████████████████████████████████████████████████████▍                     | 228/311 [03:07<01:08,  1.21it/s]

519 ['No.']


 74%|███████████████████████████████████████████████████████████▋                     | 229/311 [03:08<01:07,  1.21it/s]

748 ['No.']


 74%|███████████████████████████████████████████████████████████▉                     | 230/311 [03:09<01:06,  1.21it/s]

289 ['No.']


 74%|████████████████████████████████████████████████████████████▏                    | 231/311 [03:10<01:05,  1.21it/s]

471 ['No.']


 75%|████████████████████████████████████████████████████████████▍                    | 232/311 [03:11<01:05,  1.21it/s]

1141 ['No.']


 75%|████████████████████████████████████████████████████████████▋                    | 233/311 [03:11<01:04,  1.21it/s]

175 ['No.']


 75%|████████████████████████████████████████████████████████████▉                    | 234/311 [03:12<01:03,  1.21it/s]

1114 ['No.']


 76%|█████████████████████████████████████████████████████████████▏                   | 235/311 [03:13<01:02,  1.21it/s]

287 ['No.']


 76%|█████████████████████████████████████████████████████████████▍                   | 236/311 [03:14<01:01,  1.21it/s]

608 ['No.']


 76%|█████████████████████████████████████████████████████████████▋                   | 237/311 [03:15<01:01,  1.21it/s]

681 ['No.']


 77%|█████████████████████████████████████████████████████████████▉                   | 238/311 [03:16<01:00,  1.21it/s]

320 ['Yes.']


 77%|██████████████████████████████████████████████████████████████▏                  | 239/311 [03:16<00:59,  1.21it/s]

266 ['No.']


 77%|██████████████████████████████████████████████████████████████▌                  | 240/311 [03:17<00:58,  1.21it/s]

36 ['No.']


 77%|██████████████████████████████████████████████████████████████▊                  | 241/311 [03:18<00:57,  1.21it/s]

593 ['No.']


 78%|███████████████████████████████████████████████████████████████                  | 242/311 [03:19<00:56,  1.21it/s]

310 ['Yes.']


 78%|███████████████████████████████████████████████████████████████▎                 | 243/311 [03:20<00:56,  1.21it/s]

421 ['No.']


 78%|███████████████████████████████████████████████████████████████▌                 | 244/311 [03:20<00:55,  1.21it/s]

244 ['No.']


 79%|███████████████████████████████████████████████████████████████▊                 | 245/311 [03:21<00:54,  1.21it/s]

605 ['No.']


 79%|████████████████████████████████████████████████████████████████                 | 246/311 [03:22<00:53,  1.21it/s]

1017 ['No.']


 79%|████████████████████████████████████████████████████████████████▎                | 247/311 [03:23<00:52,  1.21it/s]

485 ['No.']


 80%|████████████████████████████████████████████████████████████████▌                | 248/311 [03:24<00:51,  1.21it/s]

179 ['No.']


 80%|████████████████████████████████████████████████████████████████▊                | 249/311 [03:25<00:51,  1.21it/s]

209 ['No.']


 80%|█████████████████████████████████████████████████████████████████                | 250/311 [03:25<00:50,  1.21it/s]

358 ['No.']


 81%|█████████████████████████████████████████████████████████████████▎               | 251/311 [03:26<00:49,  1.21it/s]

59 ['No.']


 81%|█████████████████████████████████████████████████████████████████▋               | 252/311 [03:27<00:48,  1.21it/s]

711 ['No.']


 81%|█████████████████████████████████████████████████████████████████▉               | 253/311 [03:28<00:47,  1.21it/s]

355 ['No.']


 82%|██████████████████████████████████████████████████████████████████▏              | 254/311 [03:29<00:46,  1.21it/s]

851 ['No.']


 82%|██████████████████████████████████████████████████████████████████▍              | 255/311 [03:30<00:46,  1.21it/s]

158 ['No.']


 82%|██████████████████████████████████████████████████████████████████▋              | 256/311 [03:30<00:45,  1.21it/s]

1095 ['No.']


 83%|██████████████████████████████████████████████████████████████████▉              | 257/311 [03:31<00:44,  1.21it/s]

797 ['No.']


 83%|███████████████████████████████████████████████████████████████████▏             | 258/311 [03:32<00:43,  1.21it/s]

331 ['No.']


 83%|███████████████████████████████████████████████████████████████████▍             | 259/311 [03:33<00:42,  1.21it/s]

831 ['No.']


 84%|███████████████████████████████████████████████████████████████████▋             | 260/311 [03:34<00:42,  1.21it/s]

723 ['No.']


 84%|███████████████████████████████████████████████████████████████████▉             | 261/311 [03:34<00:41,  1.21it/s]

123 ['No.']


 84%|████████████████████████████████████████████████████████████████████▏            | 262/311 [03:35<00:40,  1.21it/s]

1051 ['No.']


 85%|████████████████████████████████████████████████████████████████████▍            | 263/311 [03:36<00:39,  1.21it/s]

955 ['No.']


 85%|████████████████████████████████████████████████████████████████████▊            | 264/311 [03:37<00:38,  1.21it/s]

966 ['No.']


 85%|█████████████████████████████████████████████████████████████████████            | 265/311 [03:38<00:37,  1.21it/s]

852 ['No.']


 86%|█████████████████████████████████████████████████████████████████████▎           | 266/311 [03:39<00:37,  1.21it/s]

160 ['No.']


 86%|█████████████████████████████████████████████████████████████████████▌           | 267/311 [03:39<00:36,  1.21it/s]

522 ['No.']


 86%|█████████████████████████████████████████████████████████████████████▊           | 268/311 [03:40<00:35,  1.21it/s]

319 ['No.']


 86%|██████████████████████████████████████████████████████████████████████           | 269/311 [03:41<00:34,  1.21it/s]

911 ['No.']


 87%|██████████████████████████████████████████████████████████████████████▎          | 270/311 [03:42<00:33,  1.21it/s]

430 ['Yes.']


 87%|██████████████████████████████████████████████████████████████████████▌          | 271/311 [03:43<00:32,  1.21it/s]

208 ['No.']


 87%|██████████████████████████████████████████████████████████████████████▊          | 272/311 [03:44<00:32,  1.21it/s]

1081 ['No.']


 88%|███████████████████████████████████████████████████████████████████████          | 273/311 [03:44<00:31,  1.21it/s]

135 ['No.']


 88%|███████████████████████████████████████████████████████████████████████▎         | 274/311 [03:45<00:30,  1.21it/s]

881 ['No.']


 88%|███████████████████████████████████████████████████████████████████████▌         | 275/311 [03:46<00:29,  1.21it/s]

511 ['No.']


 89%|███████████████████████████████████████████████████████████████████████▉         | 276/311 [03:47<00:28,  1.21it/s]

991 ['No.']


 89%|████████████████████████████████████████████████████████████████████████▏        | 277/311 [03:48<00:28,  1.21it/s]

719 ['No.']


 89%|████████████████████████████████████████████████████████████████████████▍        | 278/311 [03:49<00:27,  1.21it/s]

90 ['No.']


 90%|████████████████████████████████████████████████████████████████████████▋        | 279/311 [03:49<00:26,  1.21it/s]

350 ['No.']


 90%|████████████████████████████████████████████████████████████████████████▉        | 280/311 [03:50<00:25,  1.21it/s]

616 ['No.']


 90%|█████████████████████████████████████████████████████████████████████████▏       | 281/311 [03:51<00:24,  1.21it/s]

631 ['Yes.']


 91%|█████████████████████████████████████████████████████████████████████████▍       | 282/311 [03:52<00:23,  1.21it/s]

999 ['No.']


 91%|█████████████████████████████████████████████████████████████████████████▋       | 283/311 [03:53<00:23,  1.21it/s]

945 ['No.']


 91%|█████████████████████████████████████████████████████████████████████████▉       | 284/311 [03:53<00:22,  1.21it/s]

766 ['No.']


 92%|██████████████████████████████████████████████████████████████████████████▏      | 285/311 [03:54<00:21,  1.21it/s]

842 ['No.']


 92%|██████████████████████████████████████████████████████████████████████████▍      | 286/311 [03:55<00:20,  1.21it/s]

359 ['No.']


 92%|██████████████████████████████████████████████████████████████████████████▋      | 287/311 [03:56<00:19,  1.21it/s]

629 ['Yes.']


 93%|███████████████████████████████████████████████████████████████████████████      | 288/311 [03:57<00:18,  1.21it/s]

1049 ['No.']


 93%|███████████████████████████████████████████████████████████████████████████▎     | 289/311 [03:58<00:18,  1.21it/s]

117 ['No.']


 93%|███████████████████████████████████████████████████████████████████████████▌     | 290/311 [03:58<00:17,  1.21it/s]

859 ['No.']


 94%|███████████████████████████████████████████████████████████████████████████▊     | 291/311 [03:59<00:16,  1.21it/s]

549 ['No.']


 94%|████████████████████████████████████████████████████████████████████████████     | 292/311 [04:00<00:15,  1.21it/s]

1015 ['No.']


 94%|████████████████████████████████████████████████████████████████████████████▎    | 293/311 [04:01<00:14,  1.21it/s]

98 ['No.']


 95%|████████████████████████████████████████████████████████████████████████████▌    | 294/311 [04:02<00:14,  1.21it/s]

557 ['No.']


 95%|████████████████████████████████████████████████████████████████████████████▊    | 295/311 [04:03<00:13,  1.21it/s]

104 ['No.']


 95%|█████████████████████████████████████████████████████████████████████████████    | 296/311 [04:03<00:12,  1.21it/s]

898 ['No.']


 95%|█████████████████████████████████████████████████████████████████████████████▎   | 297/311 [04:04<00:11,  1.21it/s]

322 ['Yes.']


 96%|█████████████████████████████████████████████████████████████████████████████▌   | 298/311 [04:05<00:10,  1.21it/s]

288 ['Yes.']


 96%|█████████████████████████████████████████████████████████████████████████████▊   | 299/311 [04:06<00:09,  1.21it/s]

1128 ['No.']


 96%|██████████████████████████████████████████████████████████████████████████████▏  | 300/311 [04:07<00:09,  1.21it/s]

163 ['Yes.']


 97%|██████████████████████████████████████████████████████████████████████████████▍  | 301/311 [04:07<00:08,  1.21it/s]

903 ['No.']


 97%|██████████████████████████████████████████████████████████████████████████████▋  | 302/311 [04:08<00:07,  1.21it/s]

137 ['Yes.']


 97%|██████████████████████████████████████████████████████████████████████████████▉  | 303/311 [04:09<00:06,  1.21it/s]

251 ['No.']


 98%|███████████████████████████████████████████████████████████████████████████████▏ | 304/311 [04:10<00:05,  1.21it/s]

865 ['No.']


 98%|███████████████████████████████████████████████████████████████████████████████▍ | 305/311 [04:11<00:04,  1.21it/s]

391 ['No.']


 98%|███████████████████████████████████████████████████████████████████████████████▋ | 306/311 [04:12<00:04,  1.21it/s]

267 ['No.']


 99%|███████████████████████████████████████████████████████████████████████████████▉ | 307/311 [04:12<00:03,  1.21it/s]

1018 ['No.']


 99%|████████████████████████████████████████████████████████████████████████████████▏| 308/311 [04:13<00:02,  1.21it/s]

973 ['No.']


 99%|████████████████████████████████████████████████████████████████████████████████▍| 309/311 [04:14<00:01,  1.21it/s]

212 ['No.']


100%|████████████████████████████████████████████████████████████████████████████████▋| 310/311 [04:15<00:00,  1.21it/s]

131 ['No.']


100%|█████████████████████████████████████████████████████████████████████████████████| 311/311 [04:16<00:00,  1.21it/s]

1133 ['No.']





In [52]:
saving_response

{'415': ["Q: Given these six images of the exact same area and collected over a period of 10 years, do you see a low point in the terrain? Answer with yes or no only!\nA: ['Yes.']\nQ: Given these six images of the exact same area and collected over a period of 10 years, do narrow, winding paths or channels appear? Answer with yes or no only!\nA: ['Yes.']\nQ: Given these six images of the exact same area and collected over a period of 10 years, are there winding paths that become intermittent recurrent? Answer with yes or no only!\nA: ['Yes.']\nQ: Given these six images of the exact same area and collected over a period of 10 years, are there any linear depressions or ruts which appear more pronounced along natural drainage lines or slopes? Answer with yes or no only!\nA: ['Yes.']\nQ: Given these six images of the exact same area and collected over a period of 10 years, are there narrow and shallow channels which appear intermittently deeper or more indented into the soil? Answer with y

In [28]:
def extract_first_yes_no(text):
    # Use regular expressions to find "Yes" or "No" (case-insensitive)
    match = re.search(r'\b(Yes|No)\b', text, re.IGNORECASE)
    if match:
        # Return the first match in its original case
        return match.group(0)
    return None

In [65]:
saving_response_reformat = {}

for key, item in saving_response.items():
    #print(key)
    #print(item[-1])
    text = extract_first_yes_no(item[-1])

    print(f"Image: {key} - Answer: {text}")
    
    if text == 'Yes':
        saving_response_reformat[key] = ["4"]

    else:
        saving_response_reformat[key] = ["0"]

Image: 415 - Answer: No
Image: 1020 - Answer: No
Image: 105 - Answer: No
Image: 439 - Answer: No
Image: 914 - Answer: Yes
Image: 1099 - Answer: No
Image: 1065 - Answer: No
Image: 373 - Answer: No
Image: 166 - Answer: No
Image: 396 - Answer: No
Image: 837 - Answer: No
Image: 685 - Answer: Yes
Image: 226 - Answer: Yes
Image: 956 - Answer: No
Image: 70 - Answer: No
Image: 604 - Answer: No
Image: 1067 - Answer: No
Image: 118 - Answer: No
Image: 774 - Answer: No
Image: 521 - Answer: No
Image: 910 - Answer: No
Image: 975 - Answer: Yes
Image: 352 - Answer: No
Image: 761 - Answer: No
Image: 1007 - Answer: No
Image: 428 - Answer: No
Image: 1038 - Answer: No
Image: 50 - Answer: No
Image: 838 - Answer: No
Image: 126 - Answer: No
Image: 1078 - Answer: Yes
Image: 944 - Answer: No
Image: 532 - Answer: No
Image: 1041 - Answer: No
Image: 540 - Answer: No
Image: 128 - Answer: No
Image: 722 - Answer: No
Image: 478 - Answer: No
Image: 639 - Answer: No
Image: 668 - Answer: Yes
Image: 343 - Answer: No
Imag

In [40]:
valid_file=os.path.join(args.data_path_files,'Validation_Set.json')
test_file=os.path.join(args.data_path_files,'Testing_Set.json')

with open(valid_file, 'r') as file:
    valid = json.load(file) 

with open(test_file, 'r') as file:
    test = json.load(file) 

In [66]:
ground_truth=[]
model_response=[]

for key,info in test.items():
    if int(info['label']) ==4:
        ground_truth.append(1)
    else:
        ground_truth.append(0)
    
    if int(saving_response_reformat[key][0])==4:
        model_response.append(1)
    else:
        model_response.append(0)

In [67]:
#################### This results for Llama VQA + Qwen Aggregating #################33
y_true=ground_truth
y_pred=model_response

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred, average='macro')
accuracy = accuracy_score(y_true, y_pred)
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()


print("Precision:", precision)
print("Recall:", recall)
print("F1 Score (Macro):", f1)
print("Accuracy:", accuracy)

print("True Negatives (TN):", tn)
print("False Positives (FP):", fp)
print("False Negatives (FN):", fn)
print("True Positives (TP):", tp)

Precision: 0.78125
Recall: 0.14124293785310735
F1 Score (Macro): 0.4271232781491479
Accuracy: 0.4887459807073955
True Negatives (TN): 127
False Positives (FP): 7
False Negatives (FN): 152
True Positives (TP): 25


In [70]:
f1_per_class = f1_score(y_true, y_pred, average=None)
print(f1_per_class)

[0.61501211 0.23923445]
