### 실습문제 5: 텍스트 쿼리 이미지 서치 프로그램 작성

#### 목표:
사용자가 입력한 텍스트 쿼리와 가장 잘 맞는 이미지를 찾아주는 python 프로그램을 작성하세요. 이미지들을 준비하고 vision API를 활용하여 텍스트 설명을 생성하고 저장합니다. 이후 OpenAI의 임베딩 API를 사용하여 이미지 설명과 텍스트 쿼리를 벡터 임베딩으로 변환한 후, 유사도 분석을 통해 가장 관련성 높은 이미지를 반환해야 합니다.

#### 세부 요구사항:
1. 입력:
- 사전 제공된 여러 이미지가 있습니다. 각 이미지에 대한  텍스트 설명을 vision API를 활용하여 생성해놓습니다. 
- 사용자가 텍스트 쿼리를 입력할 수 있어야 합니다.
2. 프로그램 기능:
- 각 이미지 설명을 OpenAI API를 통해 벡터 임베딩으로 변환하세요.
- 사용자가 입력한 텍스트 쿼리도 벡터 임베딩으로 변환하세요.
- 벡터 임베딩 간의 유사도를 계산하여 텍스트 쿼리와 가장 가까운 이미지를 찾아 반환하세요.
3. 출력:
- 입력된 텍스트 쿼리와 가장 관련성 높은 이미지를 출력합니다.
- 선택 사항으로, 상위 3개의 이미지를 유사도 순으로 출력할 수도 있습니다



In [6]:
import os
import base64
import json
import numpy as np
import sys
from pathlib import Path
from openai import OpenAI
from dotenv import load_dotenv
import matplotlib.pyplot as plt
from IPython.display import Image, display
from sklearn.metrics.pairwise import cosine_similarity


ROOT_DIR = Path.cwd()
sys.path.append(str(ROOT_DIR))

IMAGES_PATH = ROOT_DIR / "images"
ENV_PATH = ROOT_DIR / ".env"

if ENV_PATH.exists():
    load_dotenv(ENV_PATH)
    print(f".env 파일을 로드했습니다: {ENV_PATH}")
else:
    # .env 파일이 없으면 기본값 사용
    print(".env 파일이 없습니다. 기본 설정값을 사용합니다.")

api_key = os.getenv("OPENAI_API_KEY")
print(f"api_key: {api_key}")

# OpenAI 클라이언트 초기화
client = OpenAI(api_key=api_key)

.env 파일을 로드했습니다: /Users/tykim/Desktop/work/SNU_bigdata_fintech_2025/ai-application-assignment/.env
api_key: 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


In [7]:
class ImageSearchEngine:
    def __init__(self, api_key):
        self.client = OpenAI(api_key=api_key)
        self.image_descriptions = {}
        self.image_embeddings = {}
        self.image_paths = []
        
    def encode_image(self, image_path):
        """이미지를 base64로 인코딩"""
        with open(image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")
    
    def analyze_image(self, image_path):
        """Vision API를 사용하여 이미지 분석"""
        try:
            base64_image = self.encode_image(image_path)
            
            response = self.client.chat.completions.create(
                model="gpt-4o-mini",
                messages=[
                    {
                        "role": "system",
                        "content": """당신은 이미지 분석 전문가입니다. 주어진 이미지를 자세히 분석하고, 
                        검색에 유용한 상세한 텍스트 설명을 생성해주세요. 
                        다음 요소들을 포함해주세요:
                        - 주요 객체와 인물
                        - 색상과 분위기
                        - 장소나 배경
                        - 활동이나 상황
                        - 감정이나 분위기
                        - 스타일이나 특징"""
                    },
                    {
                        "role": "user",
                        "content": [
                            {"type": "text", "text": "이 이미지를 검색에 유용하도록 상세히 분석해주세요."},
                            {
                                "type": "image_url",
                                "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}
                            }
                        ]
                    }
                ],
                max_tokens=500
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"❌ 이미지 분석 실패 ({image_path}): {str(e)}")
            return None
    
    def get_text_embedding(self, text):
        """텍스트를 벡터 임베딩으로 변환"""
        try:
            response = self.client.embeddings.create(
                model="text-embedding-3-small",
                input=text
            )
            return response.data[0].embedding
        except Exception as e:
            print(f"❌ 임베딩 생성 실패: {str(e)}")
            return None
    
    def load_images_from_directory(self, directory_path):
        """디렉토리에서 이미지 파일들을 로드하고 분석"""
        directory = Path(directory_path)
        if not directory.exists():
            print(f"❌ 디렉토리가 존재하지 않습니다: {directory_path}")
            return
        
        # 지원하는 이미지 확장자
        image_extensions = {'.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff', '.webp'}
        
        # 이미지 파일 찾기
        image_files = []
        for ext in image_extensions:
            image_files.extend(directory.glob(f"*{ext}"))
            image_files.extend(directory.glob(f"*{ext.upper()}"))
        
        if not image_files:
            print(f"❌ 디렉토리에 이미지 파일이 없습니다: {directory_path}")
            return
        
        print(f"📁 {len(image_files)}개의 이미지 파일을 발견했습니다.")
        print("🔍 이미지 분석을 시작합니다...")
        
        for i, image_path in enumerate(image_files, 1):
            print(f"📷 [{i}/{len(image_files)}] {image_path.name} 분석 중...")
            
            # 이미지 분석
            description = self.analyze_image(image_path)
            if description:
                self.image_descriptions[str(image_path)] = description
                self.image_paths.append(str(image_path))
                print(f"✅ {image_path.name} 분석 완료")
            else:
                print(f"❌ {image_path.name} 분석 실패")
        
        print(f"✅ 총 {len(self.image_descriptions)}개 이미지 분석 완료")
    
    def generate_embeddings(self):
        """모든 이미지 설명을 벡터 임베딩으로 변환"""
        print("🔄 이미지 설명을 벡터 임베딩으로 변환 중...")
        
        for i, (image_path, description) in enumerate(self.image_descriptions.items(), 1):
            print(f"📊 [{i}/{len(self.image_descriptions)}] {Path(image_path).name} 임베딩 생성 중...")
            
            embedding = self.get_text_embedding(description)
            if embedding:
                self.image_embeddings[image_path] = embedding
                print(f"✅ {Path(image_path).name} 임베딩 완료")
            else:
                print(f"❌ {Path(image_path).name} 임베딩 실패")
        
        print(f"✅ 총 {len(self.image_embeddings)}개 임베딩 생성 완료")
    
    def search_images(self, query, top_k=3):
        """텍스트 쿼리로 가장 유사한 이미지 검색"""
        if not self.image_embeddings:
            print("❌ 이미지 임베딩이 없습니다. 먼저 이미지를 로드하고 임베딩을 생성하세요.")
            return []
        
        print(f"🔍 쿼리: '{query}'")
        print("🔄 쿼리 임베딩 생성 중...")
        
        # 쿼리 임베딩 생성
        query_embedding = self.get_text_embedding(query)
        if not query_embedding:
            print("❌ 쿼리 임베딩 생성 실패")
            return []
        
        print("📊 유사도 계산 중...")
        
        # 유사도 계산
        similarities = []
        for image_path, image_embedding in self.image_embeddings.items():
            similarity = cosine_similarity([query_embedding], [image_embedding])[0][0]
            similarities.append((image_path, similarity))
        
        # 유사도 순으로 정렬
        similarities.sort(key=lambda x: x[1], reverse=True)
        
        # 상위 k개 결과 반환
        top_results = similarities[:top_k]
        
        print(f"✅ 검색 완료! 상위 {len(top_results)}개 결과:")
        for i, (image_path, similarity) in enumerate(top_results, 1):
            print(f"{i}. {Path(image_path).name} (유사도: {similarity:.4f})")
        
        return top_results
    
    def display_search_results(self, results, query):
        """검색 결과를 시각적으로 표시"""
        if not results:
            print("❌ 표시할 결과가 없습니다.")
            return
        
        print(f"\n🎯 '{query}' 검색 결과")
        print("=" * 60)
        
        for i, (image_path, similarity) in enumerate(results, 1):
            print(f"\n📷 결과 {i}: {Path(image_path).name}")
            print(f"🔢 유사도: {similarity:.4f}")
            print(f"📝 설명: {self.image_descriptions[image_path][:100]}...")
            
            # 이미지 표시
            try:
                display(Image(image_path))
            except Exception as e:
                print(f"❌ 이미지 표시 실패: {e}")
            
            print("-" * 40)
    
# 이미지 검색 엔진 초기화
search_engine = ImageSearchEngine(api_key)


In [8]:
def interactive_search():
    """대화형 이미지 검색"""
    print("🔍 대화형 이미지 검색")
    print("=" * 40)
    
    while True:
        query = input("\n검색할 내용을 입력하세요 (종료: 'quit'): ").strip()
        
        if query.lower() in ['quit', '종료', 'exit', 'q']:
            print("👋 검색을 종료합니다.")
            break
        
        if not query:
            print("❌ 검색어를 입력해주세요.")
            continue
        
        # 검색 실행
        results = search_engine.search_images(query, top_k=1)
        
        if results:
            search_engine.display_search_results(results, query)
        else:
            print("❌ 검색 결과가 없습니다.")

def setup_images():
    """이미지 설정 및 분석"""
    print("🖼️ 이미지 설정 및 분석")
    print("=" * 40)
    
    # 현재 디렉토리의 이미지 파일들 확인
    image_extensions = {'.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff', '.webp'}
    
    image_files = []
    for ext in image_extensions:
        image_files.extend(IMAGES_PATH.glob(f"*{ext}"))
        image_files.extend(IMAGES_PATH.glob(f"*{ext.upper()}"))
    
    if image_files:
        print(f"📁 현재 디렉토리에서 {len(image_files)}개의 이미지 파일을 발견했습니다:")
        for i, img in enumerate(image_files, 1):
            print(f"  {i}. {img.name}")
        
        print("\n🔍 이미지 분석을 시작합니다...")
        search_engine.load_images_from_directory(IMAGES_PATH)
        
        print("\n🔄 임베딩 생성을 시작합니다...")
        search_engine.generate_embeddings()
        
        print("\n✅ 설정 완료! 이제 검색을 시작할 수 있습니다.")
        return True
    else:
        print("❌ 현재 디렉토리에 이미지 파일이 없습니다.")
        print("💡 이미지 파일을 현재 디렉토리에 추가한 후 다시 시도하세요.")
        return False


In [9]:
# 이미지 설정 및 분석 실행
setup_images()


🖼️ 이미지 설정 및 분석
📁 현재 디렉토리에서 7개의 이미지 파일을 발견했습니다:
  1. marong-1.jpeg
  2. marong-5.jpeg
  3. marong-4.jpeg
  4. marong-3.jpeg
  5. marong-2.jpeg
  6. image-1.jpg
  7. image-2.jpg

🔍 이미지 분석을 시작합니다...
📁 7개의 이미지 파일을 발견했습니다.
🔍 이미지 분석을 시작합니다...
📷 [1/7] marong-1.jpeg 분석 중...
✅ marong-1.jpeg 분석 완료
📷 [2/7] marong-5.jpeg 분석 중...
✅ marong-5.jpeg 분석 완료
📷 [3/7] marong-4.jpeg 분석 중...
✅ marong-4.jpeg 분석 완료
📷 [4/7] marong-3.jpeg 분석 중...
✅ marong-3.jpeg 분석 완료
📷 [5/7] marong-2.jpeg 분석 중...
✅ marong-2.jpeg 분석 완료
📷 [6/7] image-1.jpg 분석 중...
✅ image-1.jpg 분석 완료
📷 [7/7] image-2.jpg 분석 중...
✅ image-2.jpg 분석 완료
✅ 총 7개 이미지 분석 완료

🔄 임베딩 생성을 시작합니다...
🔄 이미지 설명을 벡터 임베딩으로 변환 중...
📊 [1/7] marong-1.jpeg 임베딩 생성 중...
✅ marong-1.jpeg 임베딩 완료
📊 [2/7] marong-5.jpeg 임베딩 생성 중...
✅ marong-5.jpeg 임베딩 완료
📊 [3/7] marong-4.jpeg 임베딩 생성 중...
✅ marong-4.jpeg 임베딩 완료
📊 [4/7] marong-3.jpeg 임베딩 생성 중...
✅ marong-3.jpeg 임베딩 완료
📊 [5/7] marong-2.jpeg 임베딩 생성 중...
✅ marong-2.jpeg 임베딩 완료
📊 [6/7] image-1.jpg 임베딩 생성 중...
✅ image-1.jpg 임베딩 완료
📊 [7/

True

In [10]:
# 대화형 검색 실행
interactive_search()


🔍 대화형 이미지 검색
🔍 쿼리: '도시'
🔄 쿼리 임베딩 생성 중...
📊 유사도 계산 중...
✅ 검색 완료! 상위 1개 결과:
1. image-2.jpg (유사도: 0.3818)

🎯 '도시' 검색 결과

📷 결과 1: image-2.jpg
🔢 유사도: 0.3818
📝 설명: 이 이미지는 도시의 거리 풍경을 담고 있습니다. 다음은 이미지에 대한 상세한 분석입니다.

- **주요 객체와 인물**: 이미지에는 여러 대의 트램과 함께 도로에 줄지어 있는 가로...


<IPython.core.display.Image object>

----------------------------------------
🔍 쿼리: '산책하는 강아지'
🔄 쿼리 임베딩 생성 중...
📊 유사도 계산 중...
✅ 검색 완료! 상위 1개 결과:
1. marong-3.jpeg (유사도: 0.4206)

🎯 '산책하는 강아지' 검색 결과

📷 결과 1: marong-3.jpeg
🔢 유사도: 0.4206
📝 설명: 이 이미지는 세 마리의 강아지가 함께 있는 장면을 담고 있습니다.

- **주요 객체와 인물**: 세 마리의 강아지가 있으며, 한 마리는 복슬복슬한 갈색 털을 가진 강아지이고, 나...


<IPython.core.display.Image object>

----------------------------------------
🔍 쿼리: '자연풍경'
🔄 쿼리 임베딩 생성 중...
📊 유사도 계산 중...
✅ 검색 완료! 상위 1개 결과:
1. image-1.jpg (유사도: 0.3711)

🎯 '자연풍경' 검색 결과

📷 결과 1: image-1.jpg
🔢 유사도: 0.3711
📝 설명: 이 이미지는 아름다운 산악 풍경을 담고 있습니다. 주요 특징은 다음과 같습니다:

- **주요 객체와 인물**: 이미지 중앙에는 두 사람이 산길을 따라 걷고 있는 모습이 보입니다....


<IPython.core.display.Image object>

----------------------------------------
👋 검색을 종료합니다.
