# LLaVA 이미지 분석 및 질문-답변 실습 (공식 저장소 기반)

이 노트북은 [LLaVA 공식 저장소](https://github.com/haotian-liu/LLaVA)를 사용하여 이미지를 분석하고 질문에 답하는 과정을 단계별로 실습합니다.

**중요:** LLaVA는 텍스트→이미지 생성 모델이 아닙니다. LLaVA는 이미지를 분석하고 질문에 대답하는 비전-언어 모델입니다.

## 목차
1. LLaVA 라이브러리 설치 및 임포트
2. 모델 로드
3. 이미지와 질문 준비
4. LLaVA 모델 실행 (이미지 분석)
5. 결과 시각화

---

## 1. 필요 라이브러리 설치 및 임포트

In [1]:
# LLaVA 및 의존 라이브러리 임포트
import torch
from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path
from llava.eval.run_llava import eval_model
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm
The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.
The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.


In [None]:
# Install required dependencies
!pip install protobuf

## 2. 모델 및 프로세서 로드

LLaVA 공식 API를 사용하여 사전학습된 모델과 프로세서를 로드합니다.

In [10]:
from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path
from llava.eval.run_llava import eval_model
import torch

model_path = "liuhaotian/llava-v1.5-7b"
model_name = get_model_name_from_path(model_path)

tokenizer, model, image_processor, context_len = load_pretrained_model(
    model_path=model_path,
    model_base=None,
    model_name=model_name,
    device="cuda" if torch.cuda.is_available() else "cpu",
    device_map="auto",  # 혹은 수동 설정
    offload_folder="./offload"  # 디스크에 weight 저장할 경로
)



You are using a model of type llava to instantiate a model of type llava_llama. This is not supported for all configurations of models and can yield errors.
Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  6.86it/s]


## 3. 이미지와 질문 준비

LLaVA에 입력할 이미지와 질문을 준비합니다.

In [None]:
# 이미지에 대한 질문 준비
query = "이 이미지에 있는 동물에 대해 자세히 설명해주세요."
print(f"준비된 질문: {query}")

# 사용할 이미지 경로 설정
image_path = "img/cute_kitten.jpg"  # 업로드된 귀여운 새끼고양이 이미지
print(f"분석할 이미지: {image_path}")

# 텍스트 프롬프트 입력
prompt = input("cute cat on the beach, sunny day, high quality, 4k resolution, realistic style, vibrant colors, detailed fur, playful expression")

# 토크나이저를 사용한 전처리
tokens = tokenizer(prompt, return_tensors="pt")

# 이미지에 대한 다양한 질문들 준비
questions = [
    "이 이미지에 있는 동물에 대해 자세히 설명해주세요.",
    "이 고양이의 나이는 대략 몇 살로 보이나요?",
    "이 고양이의 털 색깔과 무늬를 설명해주세요.",
    "이 고양이의 표정이나 감정 상태는 어떠한가요?",
    "이 사진은 어떤 환경에서 촬영된 것 같나요?"
]

# 기본 질문 선택
selected_question = questions[0]
print(f"선택된 질문: {selected_question}")
print(f"분석할 이미지: {image_path}")

# 이미지 파일 존재 확인
import os
if os.path.exists(image_path):
    print("✓ 이미지 파일이 존재합니다.")
else:
    print("✗ 이미지 파일을 찾을 수 없습니다.")

준비된 질문: 이 이미지에 있는 동물에 대해 자세히 설명해주세요.
분석할 이미지: img/cat-1192026_1280.jpg


## 4. LLaVA 모델 실행 (이미지 분석)

**중요:** LLaVA는 텍스트→이미지 생성 모델이 아닙니다. LLaVA는 이미지를 분석하고 질문에 대답하는 비전-언어 모델입니다.

In [None]:
# LLaVA 모델을 사용한 이미지 분석 및 질문-답변 (예시)
# LLaVA는 텍스트-이미지 변환 기능이 내장되어 있지 않으며,
# 주로 이미지를 분석하고 이에 대한 질문에 답하는 비전-언어 모델입니다.
# 텍스트-이미지 생성을 원할 경우 Stable Diffusion, DALL-E 등의 모델을 사용해야 합니다.

# 이미지 분석 및 질문-답변 실행
# (결과는 result 변수에 저장됨)
# 예시: eval_model 함수 사용
# 참고: eval_model 함수의 인자와 반환값은 LLaVA 버전에 따라 다를 수 있습니다.

# 예시 입력 이미지
image_path = "img/cat-1192026_1280.jpg"  # 분석할 이미지 경로

# 이미지에 대한 질문
query = "이 이미지에 있는 동물에 대해 자세히 설명해주세요."

# LLaVA 모델을 사용한 이미지 분석 및 질문-답변
print(f"이미지 분석 중: {image_path}")
print(f"질문: {selected_question}")
print("-" * 50)

try:
    # eval_model 함수 사용하여 이미지 분석
    result = eval_model(
        model_path=model_path,
        model_base=None,
        model_name=model_name,
        query=selected_question,
        image_file=image_path,
        tokenizer=tokenizer,
        model=model,
        image_processor=image_processor,
        device="cuda" if torch.cuda.is_available() else "cpu"
    )
    
    print("LLaVA 분석 결과:")
    print(result)
    
except Exception as e:
    print(f"오류 발생: {e}")
    print("모델 로딩이나 이미지 분석 중 문제가 발생했습니다.")

TypeError: eval_model() got an unexpected keyword argument 'model_path'

## 5. 결과 시각화

입력 이미지와 LLaVA의 텍스트 응답을 함께 표시합니다.

In [None]:
# 생성 이미지 시각화 및 저장
if generated_image is not None:
    if isinstance(generated_image, np.ndarray):
        img = Image.fromarray((generated_image * 255).astype(np.uint8))
    elif isinstance(generated_image, Image.Image):
        img = generated_image
    else:
        raise ValueError("지원하지 않는 이미지 타입입니다.")
    plt.imshow(img)
    plt.axis('off')
    plt.title('LLaVA 생성 이미지')
    plt.show()
    img.save('generated_image_llava.png')
    print('이미지가 generated_image_llava.png 파일로 저장되었습니다.')
else:
    print('생성된 이미지가 없습니다.')

# 입력 이미지 및 LLaVA 응답 시각화
import os
import matplotlib.pyplot as plt
from PIL import Image

if os.path.exists(image_path):
    # 입력 이미지 표시
    img = Image.open(image_path)
    plt.figure(figsize=(12, 8))
    
    # 이미지 표시
    plt.subplot(2, 1, 1)
    plt.imshow(img)
    plt.axis('off')
    plt.title('분석 대상 이미지: 귀여운 새끼고양이', fontsize=14, fontweight='bold')
    
    # LLaVA 응답 표시
    plt.subplot(2, 1, 2)
    plt.text(0.05, 0.95, f"질문: {selected_question}", 
             fontsize=12, fontweight='bold', ha='left', va='top', 
             transform=plt.gca().transAxes, wrap=True)
    
    plt.text(0.05, 0.8, f"LLaVA 응답:\n{result}", 
             fontsize=11, ha='left', va='top', 
             transform=plt.gca().transAxes, wrap=True)
    
    plt.axis('off')
    plt.title('LLaVA 분석 결과', fontsize=14, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    # 결과 요약 출력
    print("=" * 60)
    print("🐱 LLaVA 이미지 분석 완료")
    print("=" * 60)
    print(f"📷 이미지: {image_path}")
    print(f"❓ 질문: {selected_question}")
    print(f"💬 응답: {result}")
    print("=" * 60)
    
else:
    print(f"❌ 이미지 파일을 찾을 수 없습니다: {image_path}")
    print("이미지를 img/ 폴더에 저장했는지 확인해주세요.")

In [None]:
# 추가 분석: 여러 질문으로 이미지 분석하기
print("🔍 여러 질문으로 이미지를 더 자세히 분석해보겠습니다...")
print("=" * 70)

for i, question in enumerate(questions[1:], 1):  # 첫 번째 질문은 이미 분석했으므로 제외
    print(f"\n질문 {i+1}: {question}")
    print("-" * 50)
    
    try:
        result = eval_model(
            model_path=model_path,
            model_base=None,
            model_name=model_name,
            query=question,
            image_file=image_path,
            tokenizer=tokenizer,
            model=model,
            image_processor=image_processor,
            device="cuda" if torch.cuda.is_available() else "cpu"
        )
        
        print(f"답변: {result}")
        
    except Exception as e:
        print(f"오류 발생: {e}")
    
    print("-" * 50)

print("\n🎉 모든 질문에 대한 분석이 완료되었습니다!")