In [None]:
import gradio as gr
import numpy as np
from transformers import AutoProcessor, AutoModelForVisualQuestionAnswering
from PIL import Image

# 1. 모델과 프로세서 설정
processor = AutoProcessor.from_pretrained("Salesforce/blip2-flan-t5-xl")
model = AutoModelForVisualQuestionAnswering.from_pretrained("Salesforce/blip2-flan-t5-xl")

# 2. 이미지 캡션 생성 함수
def caption_image(input_image: np.ndarray):
    # 2.1. 입력 이미지를 PIL 형식으로 변환
    raw_image = Image.fromarray(input_image).convert('RGB')
    
    # 2.2. 모델 입력 처리
    text = "Describe this image in detail."  # 더 적합한 프롬프트로 수정
    inputs = processor(images=raw_image, text=text, return_tensors="pt")
    
    # 2.3. 모델로 예측 수행
    outputs = model.generate(**inputs, max_length=50)

    # 2.4. 생성된 텍스트 디코딩
    caption = processor.decode(outputs[0], skip_special_tokens=True)
    return caption

# 3. Gradio 인터페이스 설정
iface = gr.Interface(
    fn=caption_image, 
    inputs=gr.Image(type="numpy"),  # numpy 형식의 이미지 입력
    outputs="text",
    title="Image Captioning",
    description="Generate captions for images using BLIP2 model."
)

# 4. 애플리케이션 실행
if __name__ == "__main__":
    iface.launch()
