**Visual Question Answering (VQA)**  
ใช้ในการทำความเข้าใจภาพและเข้าใจภาษาไปพร้อมๆกันทำให้ สามารถตอบคำถามได้
สามารถไป Applied ได้กับหลายสถานการณ์เช่น


1.   ระบบผู้ช่วยอัจฉริยะ
2.   ระบบตรวจสอบความถูกต้องของเอกสาร
3.   หุ่นยนต์อัจฉริยะ

Model ที่มักใช้เช่น BLIP เช่นเดียวกับ Image-Captioning เพราะสามารถเข้าใจได้ทั้งภาพและภาษามนุษย์


In [None]:
# !pip install transformers torch pillow

In [None]:
from PIL import Image
import matplotlib.pyplot as plt

In [None]:
!wget https://www.vets4pets.com/siteassets/species/cat/two-cats-on-wall-in-sun.jpg -O cats.jpg
!wget https://www.worldanimalprotection.ca/cdn-cgi/image/width=1280,format=auto/siteassets/shutterstock_481623085.jpg -O cows.jpg
!wget https://supertails.com/cdn/shop/articles/1c3a0644-1ffb-4641-b2ea-5483b4ada874_520x500_a001116b-8f20-4bef-8b4c-2a57a1882223.webp?v=1734423067 -O dogs.jpg

In [None]:
# Load model directly
from transformers import AutoProcessor, AutoModelForVisualQuestionAnswering

processor = AutoProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
model = AutoModelForVisualQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large")

**ถ้าต้องการใช้งาน Model แบบที่สามารถ Edit, เตรียม Input ภาพเองดังนั้นการ โหลด Model โดยตรงจะเหมาะสมกว่า**

In [None]:
image = Image.open('cows.jpg')
plt.imshow(image)
plt.show()

In [None]:
question = "What is in the image ?" # model ไม่ได้รองรับภาษาไทย

In [None]:
inputs = processor(images=image, text=question, return_tensors='pt')

In [None]:
outputs = model.generate(**inputs)

In [None]:
print(outputs)

In [None]:
# Decode outputs before using
def get_decode_result(outputs):
  return processor.decode(outputs[0], skip_special_tokens=True)
result = get_decode_result(outputs)

In [None]:
print(result)

In [None]:
question = "How many cows in the image?"
inputs = processor(images=image, text=question, return_tensors='pt')
outputs = model.generate(**inputs)

In [None]:
result = get_decode_result(outputs)
print(result)

In [None]:
# try to ask Academic question
question = "What is the purpose of a pen in a farm setting"
inputs = processor(images=image, text=question, return_tensors='pt')
outputs = model.generate(**inputs)
result = get_decode_result(outputs)
print(result)

In [None]:
# try to ask creative question
question = "If you are a writer to draw a story from this image, what would you name the title"
inputs = processor(images=image, text=question, return_tensors='pt')
outputs = model.generate(**inputs)
result = get_decode_result(outputs)
print(result)

In [None]:
# try to ask thai question
question = "มีวัวมั้ย ?"
inputs = processor(images=image, text=question, return_tensors='pt')
outputs = model.generate(**inputs)
result = get_decode_result(outputs)
print(result)

In [None]:
# if you want to ask that question have to change model to
# Load model directly
from transformers import AutoProcessor, AutoModelForVision2Seq

processor = AutoProcessor.from_pretrained("kkatiz/THAI-BLIP-2")
model = AutoModelForVision2Seq.from_pretrained("kkatiz/THAI-BLIP-2")

In [None]:
# try to ask thai question again
question = "มีวัวมั้ย ?"
inputs = processor(images=image, text=question, return_tensors='pt')
outputs = model.generate(**inputs)
result = get_decode_result(outputs)
print(result)