# NL2NoSQL + Vector Search: 하이브리드 검색 시스템

이 노트북은 자연어 질문을 MongoDB 쿼리로 변환하고, 벡터 검색을 결합한 하이브리드 검색 시스템을 보여줍니다.

## 개요
- Docker로 MongoDB 실행
- 삼성전자 제품 데이터 (스펙 배열 포함) 저장
- Azure OpenAI를 사용하여:
  1. 자연어를 MongoDB 쿼리로 변환 (NL2NoSQL)
  2. 텍스트 임베딩을 사용한 시맨틱 벡터 검색
  3. 하이브리드 검색 (구조화된 쿼리 + 시맨틱 검색)

## 요구사항
- Docker (MongoDB 컨테이너 실행용)
- Azure OpenAI API 키
- pymongo 라이브러리
- Azure OpenAI Text Embedding 모델

## 1. 필요한 라이브러리 설치 및 임포트

In [31]:
# 필요한 패키지 설치 (pymongo 추가)
import subprocess
import sys

# pymongo 설치
try:
    import pymongo
except ImportError:
    print("Installing pymongo...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "pymongo"])
    import pymongo

print(f"pymongo version: {pymongo.__version__}")

pymongo version: 4.15.3


In [32]:
import os
import json
from pymongo import MongoClient
from openai import AzureOpenAI
from dotenv import load_dotenv
from azure.identity import DefaultAzureCredential, get_bearer_token_provider
import time

# 환경 변수 로드
load_dotenv(override=True)

# Azure Credential 설정
credential = DefaultAzureCredential()
token_provider = get_bearer_token_provider(credential, "https://cognitiveservices.azure.com/.default")

# Azure OpenAI 클라이언트 초기화
client = AzureOpenAI(
    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),
    azure_ad_token_provider=token_provider,
    api_version="2024-02-15-preview"
)

deployment_name = os.getenv("AZURE_OPENAI_DEPLOYMENT_NAME", "gpt-4o-mini")
embedding_model = os.getenv("EMBEDDING_MODEL_NAME", "text-embedding-3-large")
embedding_dimensions = int(os.getenv("AZURE_OPENAI_EMBEDDING_DIMENSIONS", "3072"))

print(f"Azure OpenAI 클라이언트 초기화 완료")
print(f"  - GPT 배포: {deployment_name}")
print(f"  - 임베딩 모델: {embedding_model}")
print(f"  - 임베딩 차원: {embedding_dimensions}")

Azure OpenAI 클라이언트 초기화 완료
  - GPT 배포: gpt-4.1-mini
  - 임베딩 모델: text-embedding-3-large
  - 임베딩 차원: 3072


## 2. Docker로 MongoDB 실행

MongoDB를 Docker 컨테이너로 실행합니다.

In [33]:
# MongoDB 컨테이너 시작
import subprocess

# 기존 컨테이너가 있다면 제거
subprocess.run(["docker", "rm", "-f", "mongodb-nl2nosql"], capture_output=True)

# MongoDB 컨테이너 실행
result = subprocess.run([
    "docker", "run", "-d",
    "--name", "mongodb-nl2nosql",
    "-p", "27017:27017",
    "-e", "MONGO_INITDB_ROOT_USERNAME=admin",
    "-e", "MONGO_INITDB_ROOT_PASSWORD=admin123",
    "mongo:latest"
], capture_output=True, text=True)

if result.returncode == 0:
    print("✅ MongoDB 컨테이너 시작 완료")
    print(f"컨테이너 ID: {result.stdout.strip()}")
    # MongoDB가 완전히 시작될 때까지 대기
    print("MongoDB 시작 대기 중...")
    time.sleep(5)
else:
    print(f"❌ 컨테이너 시작 실패: {result.stderr}")

✅ MongoDB 컨테이너 시작 완료
컨테이너 ID: 00c8cc84d405d56ce760610995e2b96d336ed64c30fbd1a5f79f0f518260000a
MongoDB 시작 대기 중...


## 3. MongoDB 연결 및 데이터베이스 설정

In [34]:
# MongoDB 연결
MONGO_URI = "mongodb://admin:admin123@localhost:27017/"
mongo_client = MongoClient(MONGO_URI)

# 데이터베이스 및 컬렉션 생성
db = mongo_client["samsung_products"]
collection = db["products"]

# 기존 데이터 삭제 (새로 시작)
collection.delete_many({})

print("✅ MongoDB 연결 완료")
print(f"데이터베이스: {db.name}")
print(f"컬렉션: {collection.name}")

✅ MongoDB 연결 완료
데이터베이스: samsung_products
컬렉션: products


## 4. 삼성전자 제품 샘플 데이터 생성

다양한 스펙을 가진 삼성전자 제품 데이터를 생성합니다. 각 제품은 specifications 배열에 여러 스펙 정보를 포함합니다.

In [35]:
# 삼성전자 제품 샘플 데이터
samsung_products = [
    {
        "product_id": "GNT900X5L",
        "name": "갤럭시북4 프로",
        "category": "노트북",
        "brand": "Samsung",
        "price": 2490000,
        "release_date": "2024-01-15",
        "specifications": [
            {"name": "화면크기", "value": 16, "unit": "인치"},
            {"name": "해상도", "value": "3200x2000", "unit": "픽셀"},
            {"name": "프로세서", "value": "Intel Core Ultra 7", "unit": ""},
            {"name": "메모리", "value": 16, "unit": "GB"},
            {"name": "저장공간", "value": 512, "unit": "GB"},
            {"name": "무게", "value": 1.55, "unit": "kg"}
        ]
    },
    {
        "product_id": "GNT750X3N",
        "name": "갤럭시북4 울트라",
        "category": "노트북",
        "brand": "Samsung",
        "price": 3290000,
        "release_date": "2024-02-20",
        "specifications": [
            {"name": "화면크기", "value": 14, "unit": "인치"},
            {"name": "해상도", "value": "2880x1800", "unit": "픽셀"},
            {"name": "프로세서", "value": "Intel Core Ultra 9", "unit": ""},
            {"name": "메모리", "value": 32, "unit": "GB"},
            {"name": "저장공간", "value": 1024, "unit": "GB"},
            {"name": "무게", "value": 1.21, "unit": "kg"}
        ]
    },
    {
        "product_id": "GNT350X2A",
        "name": "갤럭시북3",
        "category": "노트북",
        "brand": "Samsung",
        "price": 1590000,
        "release_date": "2023-08-10",
        "specifications": [
            {"name": "화면크기", "value": 15.6, "unit": "인치"},
            {"name": "해상도", "value": "1920x1080", "unit": "픽셀"},
            {"name": "프로세서", "value": "Intel Core i5-1335U", "unit": ""},
            {"name": "메모리", "value": 8, "unit": "GB"},
            {"name": "저장공간", "value": 256, "unit": "GB"},
            {"name": "무게", "value": 1.78, "unit": "kg"}
        ]
    },
    {
        "product_id": "GNT940X5M",
        "name": "갤럭시북3 프로 360",
        "category": "노트북",
        "brand": "Samsung",
        "price": 2190000,
        "release_date": "2023-09-25",
        "specifications": [
            {"name": "화면크기", "value": 13.3, "unit": "인치"},
            {"name": "해상도", "value": "1920x1080", "unit": "픽셀"},
            {"name": "프로세서", "value": "Intel Core i7-1360P", "unit": ""},
            {"name": "메모리", "value": 16, "unit": "GB"},
            {"name": "저장공간", "value": 512, "unit": "GB"},
            {"name": "무게", "value": 1.16, "unit": "kg"}
        ]
    },
    {
        "product_id": "MON32LU711",
        "name": "뷰피니티 S9 5K",
        "category": "모니터",
        "brand": "Samsung",
        "price": 2290000,
        "release_date": "2024-03-01",
        "specifications": [
            {"name": "화면크기", "value": 27, "unit": "인치"},
            {"name": "해상도", "value": "5120x2880", "unit": "픽셀"},
            {"name": "주사율", "value": 60, "unit": "Hz"},
            {"name": "패널타입", "value": "IPS", "unit": ""},
            {"name": "밝기", "value": 600, "unit": "nits"}
        ]
    },
    {
        "product_id": "MON49G95T",
        "name": "오딧세이 OLED G9",
        "category": "모니터",
        "brand": "Samsung",
        "price": 2690000,
        "release_date": "2023-11-15",
        "specifications": [
            {"name": "화면크기", "value": 49, "unit": "인치"},
            {"name": "해상도", "value": "5120x1440", "unit": "픽셀"},
            {"name": "주사율", "value": 240, "unit": "Hz"},
            {"name": "패널타입", "value": "OLED", "unit": ""},
            {"name": "응답속도", "value": 0.03, "unit": "ms"}
        ]
    },
    {
        "product_id": "TAB-S9-ULTRA",
        "name": "갤럭시 탭 S9 울트라",
        "category": "태블릿",
        "brand": "Samsung",
        "price": 1650000,
        "release_date": "2024-01-05",
        "specifications": [
            {"name": "화면크기", "value": 14.6, "unit": "인치"},
            {"name": "해상도", "value": "2960x1848", "unit": "픽셀"},
            {"name": "프로세서", "value": "Snapdragon 8 Gen 2", "unit": ""},
            {"name": "메모리", "value": 12, "unit": "GB"},
            {"name": "저장공간", "value": 256, "unit": "GB"},
            {"name": "무게", "value": 0.732, "unit": "kg"}
        ]
    },
    {
        "product_id": "PHONE-S24-ULTRA",
        "name": "갤럭시 S24 울트라",
        "category": "스마트폰",
        "brand": "Samsung",
        "price": 1698400,
        "release_date": "2024-01-17",
        "specifications": [
            {"name": "화면크기", "value": 6.8, "unit": "인치"},
            {"name": "해상도", "value": "3120x1440", "unit": "픽셀"},
            {"name": "프로세서", "value": "Snapdragon 8 Gen 3", "unit": ""},
            {"name": "메모리", "value": 12, "unit": "GB"},
            {"name": "저장공간", "value": 256, "unit": "GB"},
            {"name": "무게", "value": 0.232, "unit": "kg"},
            {"name": "배터리", "value": 5000, "unit": "mAh"}
        ]
    }
]

# 데이터 삽입 (임베딩은 나중에 추가)
result = collection.insert_many(samsung_products)
print(f"✅ {len(result.inserted_ids)}개의 제품 데이터 삽입 완료")
print(f"삽입된 문서 ID: {result.inserted_ids}")

✅ 8개의 제품 데이터 삽입 완료
삽입된 문서 ID: [ObjectId('698d2d37cdfdd15a4ff2866b'), ObjectId('698d2d37cdfdd15a4ff2866c'), ObjectId('698d2d37cdfdd15a4ff2866d'), ObjectId('698d2d37cdfdd15a4ff2866e'), ObjectId('698d2d37cdfdd15a4ff2866f'), ObjectId('698d2d37cdfdd15a4ff28670'), ObjectId('698d2d37cdfdd15a4ff28671'), ObjectId('698d2d37cdfdd15a4ff28672')]


### 4-1. 제품 설명 텍스트 생성 함수

각 제품에 대한 자연어 설명을 생성하여 벡터 임베딩에 사용합니다.

In [36]:
def generate_product_description(product: dict) -> str:
    """
    제품 정보를 자연어 설명으로 변환합니다.
    
    Args:
        product: 제품 딕셔너리
        
    Returns:
        제품 설명 텍스트
    """
    specs_text = []
    for spec in product.get("specifications", []):
        value = spec["value"]
        unit = spec["unit"]
        name = spec["name"]
        specs_text.append(f"{name} {value}{unit}")
    
    description = f"{product['name']}은(는) {product['brand']}의 {product['category']} 제품입니다. "
    description += f"가격은 {product['price']:,}원이며, "
    description += f"주요 스펙은 {', '.join(specs_text)}입니다."
    
    return description

# 테스트
test_product = samsung_products[0]
test_description = generate_product_description(test_product)
print("제품 설명 생성 예시:")
print(test_description)

제품 설명 생성 예시:
갤럭시북4 프로은(는) Samsung의 노트북 제품입니다. 가격은 2,490,000원이며, 주요 스펙은 화면크기 16인치, 해상도 3200x2000픽셀, 프로세서 Intel Core Ultra 7, 메모리 16GB, 저장공간 512GB, 무게 1.55kg입니다.


### 4-2. 임베딩 생성 함수

Azure OpenAI를 사용하여 텍스트 임베딩을 생성합니다.

In [37]:
def get_embedding(text: str) -> list:
    """
    Azure OpenAI를 사용하여 텍스트 임베딩을 생성합니다.
    
    Args:
        text: 임베딩할 텍스트
        
    Returns:
        임베딩 벡터 (리스트)
    """
    try:
        response = client.embeddings.create(
            model=embedding_model,
            input=text,
            dimensions=embedding_dimensions
        )
        return response.data[0].embedding
    except Exception as e:
        print(f"❌ 임베딩 생성 오류: {e}")
        return []

# 테스트
test_text = "고성능 노트북"
test_embedding = get_embedding(test_text)
print(f"✅ 임베딩 생성 완료")
print(f"   - 입력 텍스트: {test_text}")
print(f"   - 임베딩 차원: {len(test_embedding)}")
print(f"   - 임베딩 샘플 (처음 5개): {test_embedding[:5]}")

✅ 임베딩 생성 완료
   - 입력 텍스트: 고성능 노트북
   - 임베딩 차원: 3072
   - 임베딩 샘플 (처음 5개): [0.011507023125886917, 0.013528714887797832, -0.01164549496024847, -0.004334173630923033, 0.006605114322155714]


### 4-3. 제품 데이터에 임베딩 추가

모든 제품에 대한 설명을 생성하고 임베딩을 추가합니다.

In [38]:
# 각 제품에 description과 embedding 추가
print("제품 임베딩 생성 중...")
for idx, product in enumerate(samsung_products, 1):
    description = generate_product_description(product)
    embedding = get_embedding(description)
    
    product["description"] = description
    product["embedding"] = embedding
    
    print(f"  [{idx}/{len(samsung_products)}] {product['name']} - 임베딩 생성 완료")

print(f"\n✅ 모든 제품 임베딩 생성 완료")
print(f"   - 총 {len(samsung_products)}개 제품")
print(f"   - 임베딩 차원: {len(samsung_products[0]['embedding'])}")

제품 임베딩 생성 중...
  [1/8] 갤럭시북4 프로 - 임베딩 생성 완료
  [2/8] 갤럭시북4 울트라 - 임베딩 생성 완료
  [3/8] 갤럭시북3 - 임베딩 생성 완료
  [4/8] 갤럭시북3 프로 360 - 임베딩 생성 완료
  [5/8] 뷰피니티 S9 5K - 임베딩 생성 완료
  [6/8] 오딧세이 OLED G9 - 임베딩 생성 완료
  [7/8] 갤럭시 탭 S9 울트라 - 임베딩 생성 완료
  [8/8] 갤럭시 S24 울트라 - 임베딩 생성 완료

✅ 모든 제품 임베딩 생성 완료
   - 총 8개 제품
   - 임베딩 차원: 3072


### 4-4. MongoDB에 임베딩 데이터 업데이트

생성한 임베딩을 MongoDB에 저장합니다.

In [39]:
# MongoDB에 임베딩 데이터 업데이트
print("MongoDB에 임베딩 데이터 업데이트 중...")
for product in samsung_products:
    collection.update_one(
        {"product_id": product["product_id"]},
        {
            "$set": {
                "description": product["description"],
                "embedding": product["embedding"]
            }
        }
    )

print(f"✅ {len(samsung_products)}개 제품의 임베딩 데이터 업데이트 완료")

# 벡터 검색 인덱스 생성 (MongoDB Atlas Vector Search용)
# 참고: 로컬 MongoDB에서는 벡터 인덱스를 지원하지 않으므로 
# 코사인 유사도 계산을 직접 수행합니다.
print("\n⚠️ 로컬 MongoDB는 벡터 인덱스를 지원하지 않습니다.")
print("   대신 코사인 유사도 계산을 직접 수행합니다.")

MongoDB에 임베딩 데이터 업데이트 중...
✅ 8개 제품의 임베딩 데이터 업데이트 완료

⚠️ 로컬 MongoDB는 벡터 인덱스를 지원하지 않습니다.
   대신 코사인 유사도 계산을 직접 수행합니다.


## 5. 데이터 확인

In [40]:
# 전체 제품 수 확인
total_count = collection.count_documents({})
print(f"전체 제품 수: {total_count}\n")

# 샘플 제품 1개 조회
sample_product = collection.find_one({"category": "노트북"})
print("샘플 제품 정보:")
print(json.dumps(sample_product, indent=2, ensure_ascii=False, default=str))

전체 제품 수: 8

샘플 제품 정보:
{
  "_id": "698d2d37cdfdd15a4ff2866b",
  "product_id": "GNT900X5L",
  "name": "갤럭시북4 프로",
  "category": "노트북",
  "brand": "Samsung",
  "price": 2490000,
  "release_date": "2024-01-15",
  "specifications": [
    {
      "name": "화면크기",
      "value": 16,
      "unit": "인치"
    },
    {
      "name": "해상도",
      "value": "3200x2000",
      "unit": "픽셀"
    },
    {
      "name": "프로세서",
      "value": "Intel Core Ultra 7",
      "unit": ""
    },
    {
      "name": "메모리",
      "value": 16,
      "unit": "GB"
    },
    {
      "name": "저장공간",
      "value": 512,
      "unit": "GB"
    },
    {
      "name": "무게",
      "value": 1.55,
      "unit": "kg"
    }
  ],
  "description": "갤럭시북4 프로은(는) Samsung의 노트북 제품입니다. 가격은 2,490,000원이며, 주요 스펙은 화면크기 16인치, 해상도 3200x2000픽셀, 프로세서 Intel Core Ultra 7, 메모리 16GB, 저장공간 512GB, 무게 1.55kg입니다.",
  "embedding": [
    -0.009270702488720417,
    -0.012971273623406887,
    -0.01891724392771721,
    0.031242845579981804,
    0.001902084

## 6. 자연어를 MongoDB 쿼리로 변환하는 함수

Azure OpenAI를 사용하여 자연어 질문을 MongoDB 쿼리로 변환합니다.

In [41]:
def nl_to_mongodb_query(natural_language_query: str) -> dict:
    """
    자연어 질문을 MongoDB 쿼리로 변환합니다.
    
    Args:
        natural_language_query: 자연어 질문
        
    Returns:
        MongoDB 쿼리 딕셔너리
    """
    
    system_prompt = """당신은 MongoDB 쿼리 전문가입니다. 사용자의 자연어 질문을 MongoDB 쿼리로 변환해주세요.

데이터베이스 스키마:
- 컬렉션명: products
- 필드:
  - product_id: 제품 ID (문자열)
  - name: 제품명 (문자열)
  - category: 카테고리 (문자열: 노트북, 모니터, 태블릿, 스마트폰)
  - brand: 브랜드 (문자열)
  - price: 가격 (숫자)
  - release_date: 출시일 (문자열, ISO 8601 형식)
  - specifications: 스펙 정보 배열
    - name: 스펙 이름 (예: 화면크기, 해상도, 프로세서, 메모리, 저장공간, 무게)
    - value: 스펙 값 (숫자 또는 문자열)
    - unit: 단위 (예: 인치, GB, kg, 픽셀)

중요 지침:
1. specifications는 배열이므로 $elemMatch를 사용해야 합니다.
2. 화면크기는 specifications 배열 내의 {name: "화면크기", value: 숫자, unit: "인치"} 형태입니다.
3. 비교 연산자: $lt (작다), $lte (작거나 같다), $gt (크다), $gte (크거나 같다), $eq (같다)
4. 응답은 반드시 유효한 JSON 형태의 MongoDB 쿼리만 반환하세요.
5. 추가 설명 없이 쿼리만 반환하세요.

예시:
질문: "15인치보다 작은 화면의 노트북"
쿼리: {"category": "노트북", "specifications": {"$elemMatch": {"name": "화면크기", "value": {"$lt": 15}}}}

질문: "메모리가 16GB 이상인 제품"
쿼리: {"specifications": {"$elemMatch": {"name": "메모리", "value": {"$gte": 16}}}}
"""
    
    user_prompt = f"다음 자연어 질문을 MongoDB 쿼리로 변환해주세요: {natural_language_query}"
    
    try:
        response = client.chat.completions.create(
            model=deployment_name,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt}
            ],
            temperature=0,
            max_tokens=500
        )
        
        query_string = response.choices[0].message.content.strip()
        
        # JSON 코드 블록 제거 (```json ... ``` 형태)
        if query_string.startswith("```"):
            query_string = query_string.split("```")[1]
            if query_string.startswith("json"):
                query_string = query_string[4:]
            query_string = query_string.strip()
        
        # JSON 파싱
        mongodb_query = json.loads(query_string)
        return mongodb_query
        
    except Exception as e:
        print(f"❌ 쿼리 변환 오류: {e}")
        return {}

print("✅ nl_to_mongodb_query 함수 정의 완료")

✅ nl_to_mongodb_query 함수 정의 완료


## 7. 자연어 쿼리 실행 함수

In [42]:
def search_products_with_nl(natural_language_query: str):
    """
    자연어 질문으로 제품을 검색합니다.
    
    Args:
        natural_language_query: 자연어 질문
    """
    print(f"\n{'='*80}")
    print(f"🔍 질문: {natural_language_query}")
    print(f"{'='*80}")
    
    # 1. 자연어를 MongoDB 쿼리로 변환
    mongodb_query = nl_to_mongodb_query(natural_language_query)
    print(f"\n📝 생성된 MongoDB 쿼리:")
    print(json.dumps(mongodb_query, indent=2, ensure_ascii=False))
    
    # 2. 쿼리 실행
    results = list(collection.find(mongodb_query))
    print(f"\n✅ 검색 결과: {len(results)}개 제품 발견")
    
    # 3. 결과 출력
    if results:
        print("\n" + "="*80)
        for idx, product in enumerate(results, 1):
            print(f"\n[{idx}] {product['name']}")
            print(f"   - 카테고리: {product['category']}")
            print(f"   - 가격: {product['price']:,}원")
            print(f"   - 스펙:")
            for spec in product['specifications']:
                print(f"     • {spec['name']}: {spec['value']} {spec['unit']}")
    else:
        print("\n⚠️ 검색 조건에 맞는 제품이 없습니다.")
    
    print("\n" + "="*80)
    return results

print("✅ search_products_with_nl 함수 정의 완료")

✅ search_products_with_nl 함수 정의 완료


## 8. 자연어 쿼리 예제 실행

다양한 자연어 질문으로 제품을 검색해봅니다.

### 예제 1: 15인치 화면보다 작은 랩탑 찾기

In [43]:
results = search_products_with_nl("15인치 화면보다 작은 랩탑을 찾아줘")


🔍 질문: 15인치 화면보다 작은 랩탑을 찾아줘

📝 생성된 MongoDB 쿼리:
{
  "category": "노트북",
  "specifications": {
    "$elemMatch": {
      "name": "화면크기",
      "value": {
        "$lt": 15
      }
    }
  }
}

✅ 검색 결과: 2개 제품 발견


[1] 갤럭시북4 울트라
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 
     • 메모리: 32 GB
     • 저장공간: 1024 GB
     • 무게: 1.21 kg

[2] 갤럭시북3 프로 360
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.16 kg



### 예제 2: 메모리가 16GB 이상인 제품 찾기

In [44]:
results = search_products_with_nl("메모리가 16GB 이상인 제품을 보여줘")


🔍 질문: 메모리가 16GB 이상인 제품을 보여줘

📝 생성된 MongoDB 쿼리:
{
  "specifications": {
    "$elemMatch": {
      "name": "메모리",
      "value": {
        "$gte": 16
      }
    }
  }
}

✅ 검색 결과: 3개 제품 발견


[1] 갤럭시북4 프로
   - 카테고리: 노트북
   - 가격: 2,490,000원
   - 스펙:
     • 화면크기: 16 인치
     • 해상도: 3200x2000 픽셀
     • 프로세서: Intel Core Ultra 7 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.55 kg

[2] 갤럭시북4 울트라
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 
     • 메모리: 32 GB
     • 저장공간: 1024 GB
     • 무게: 1.21 kg

[3] 갤럭시북3 프로 360
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.16 kg



### 예제 3: 가벼운 노트북 찾기 (1.5kg 이하)

In [45]:
results = search_products_with_nl("1.5kg보다 가벼운 노트북을 찾아줘")


🔍 질문: 1.5kg보다 가벼운 노트북을 찾아줘

📝 생성된 MongoDB 쿼리:
{
  "category": "노트북",
  "specifications": {
    "$elemMatch": {
      "name": "무게",
      "value": {
        "$lt": 1.5
      },
      "unit": "kg"
    }
  }
}

✅ 검색 결과: 2개 제품 발견


[1] 갤럭시북4 울트라
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 
     • 메모리: 32 GB
     • 저장공간: 1024 GB
     • 무게: 1.21 kg

[2] 갤럭시북3 프로 360
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.16 kg



### 예제 4: 200만원 이하 제품 찾기

In [46]:
results = search_products_with_nl("200만원 이하의 제품을 찾아줘")


🔍 질문: 200만원 이하의 제품을 찾아줘

📝 생성된 MongoDB 쿼리:
{
  "price": {
    "$lte": 2000000
  }
}

✅ 검색 결과: 3개 제품 발견


[1] 갤럭시북3
   - 카테고리: 노트북
   - 가격: 1,590,000원
   - 스펙:
     • 화면크기: 15.6 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i5-1335U 
     • 메모리: 8 GB
     • 저장공간: 256 GB
     • 무게: 1.78 kg

[2] 갤럭시 탭 S9 울트라
   - 카테고리: 태블릿
   - 가격: 1,650,000원
   - 스펙:
     • 화면크기: 14.6 인치
     • 해상도: 2960x1848 픽셀
     • 프로세서: Snapdragon 8 Gen 2 
     • 메모리: 12 GB
     • 저장공간: 256 GB
     • 무게: 0.732 kg

[3] 갤럭시 S24 울트라
   - 카테고리: 스마트폰
   - 가격: 1,698,400원
   - 스펙:
     • 화면크기: 6.8 인치
     • 해상도: 3120x1440 픽셀
     • 프로세서: Snapdragon 8 Gen 3 
     • 메모리: 12 GB
     • 저장공간: 256 GB
     • 무게: 0.232 kg
     • 배터리: 5000 mAh



### 예제 5: 저장공간이 512GB 이상인 노트북

In [47]:
results = search_products_with_nl("저장공간이 512GB 이상인 노트북을 보여줘")


🔍 질문: 저장공간이 512GB 이상인 노트북을 보여줘

📝 생성된 MongoDB 쿼리:
{
  "category": "노트북",
  "specifications": {
    "$elemMatch": {
      "name": "저장공간",
      "value": {
        "$gte": 512
      }
    }
  }
}

✅ 검색 결과: 3개 제품 발견


[1] 갤럭시북4 프로
   - 카테고리: 노트북
   - 가격: 2,490,000원
   - 스펙:
     • 화면크기: 16 인치
     • 해상도: 3200x2000 픽셀
     • 프로세서: Intel Core Ultra 7 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.55 kg

[2] 갤럭시북4 울트라
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 
     • 메모리: 32 GB
     • 저장공간: 1024 GB
     • 무게: 1.21 kg

[3] 갤럭시북3 프로 360
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 
     • 메모리: 16 GB
     • 저장공간: 512 GB
     • 무게: 1.16 kg



### 예제 6: 모니터 중에서 주사율이 높은 제품

In [48]:
results = search_products_with_nl("주사율이 100Hz 이상인 모니터를 찾아줘")


🔍 질문: 주사율이 100Hz 이상인 모니터를 찾아줘

📝 생성된 MongoDB 쿼리:
{
  "category": "모니터",
  "specifications": {
    "$elemMatch": {
      "name": "주사율",
      "value": {
        "$gte": 100
      }
    }
  }
}

✅ 검색 결과: 1개 제품 발견


[1] 오딧세이 OLED G9
   - 카테고리: 모니터
   - 가격: 2,690,000원
   - 스펙:
     • 화면크기: 49 인치
     • 해상도: 5120x1440 픽셀
     • 주사율: 240 Hz
     • 패널타입: OLED 
     • 응답속도: 0.03 ms



---

## 벡터 검색 (Vector Search)

이제 시맨틱 검색 기능을 구현합니다.

### 10. 코사인 유사도 계산 함수

In [49]:
import numpy as np

def cosine_similarity(vec1: list, vec2: list) -> float:
    """
    두 벡터 간의 코사인 유사도를 계산합니다.
    
    Args:
        vec1: 첫 번째 벡터
        vec2: 두 번째 벡터
        
    Returns:
        코사인 유사도 (0~1 사이의 값, 1에 가까울수록 유사)
    """
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    
    if norm1 == 0 or norm2 == 0:
        return 0.0
    
    return dot_product / (norm1 * norm2)

print("✅ cosine_similarity 함수 정의 완료")

✅ cosine_similarity 함수 정의 완료


### 11. 벡터 검색 함수

In [50]:
def vector_search(query_text: str, top_k: int = 5):
    """
    시맨틱 벡터 검색을 수행합니다.
    
    Args:
        query_text: 검색 질의 텍스트
        top_k: 반환할 상위 결과 개수
        
    Returns:
        검색 결과 리스트 (유사도 순으로 정렬)
    """
    print(f"\n{'='*80}")
    print(f"🔍 벡터 검색: {query_text}")
    print(f"{'='*80}")
    
    # 1. 질의 텍스트 임베딩
    query_embedding = get_embedding(query_text)
    print(f"\n📝 질의 임베딩 생성 완료 (차원: {len(query_embedding)})")
    
    # 2. 모든 제품 가져오기
    all_products = list(collection.find({"embedding": {"$exists": True}}))
    
    # 3. 코사인 유사도 계산
    results_with_scores = []
    for product in all_products:
        if "embedding" in product and product["embedding"]:
            similarity = cosine_similarity(query_embedding, product["embedding"])
            results_with_scores.append((product, similarity))
    
    # 4. 유사도 순으로 정렬
    results_with_scores.sort(key=lambda x: x[1], reverse=True)
    
    # 5. 상위 k개 결과
    top_results = results_with_scores[:top_k]
    
    print(f"\n✅ 검색 결과: 상위 {len(top_results)}개 제품")
    print("\n" + "="*80)
    
    for idx, (product, score) in enumerate(top_results, 1):
        print(f"\n[{idx}] {product['name']} (유사도: {score:.4f})")
        print(f"   - 카테고리: {product['category']}")
        print(f"   - 가격: {product['price']:,}원")
        print(f"   - 설명: {product.get('description', 'N/A')[:100]}...")
    
    print("\n" + "="*80)
    return top_results

print("✅ vector_search 함수 정의 완료")

✅ vector_search 함수 정의 완료


### 12. 벡터 검색 예제 실행

#### 예제 1: "고성능 게이밍용 제품" 검색

In [51]:
results = vector_search("고성능 게이밍용 제품", top_k=3)


🔍 벡터 검색: 고성능 게이밍용 제품

📝 질의 임베딩 생성 완료 (차원: 3072)

✅ 검색 결과: 상위 3개 제품


[1] 오딧세이 OLED G9 (유사도: 0.3581)
   - 카테고리: 모니터
   - 가격: 2,690,000원
   - 설명: 오딧세이 OLED G9은(는) Samsung의 모니터 제품입니다. 가격은 2,690,000원이며, 주요 스펙은 화면크기 49인치, 해상도 5120x1440픽셀, 주사율 240Hz,...

[2] 갤럭시북3 프로 360 (유사도: 0.2820)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 설명: 갤럭시북3 프로 360은(는) Samsung의 노트북 제품입니다. 가격은 2,190,000원이며, 주요 스펙은 화면크기 13.3인치, 해상도 1920x1080픽셀, 프로세서 Int...

[3] 뷰피니티 S9 5K (유사도: 0.2805)
   - 카테고리: 모니터
   - 가격: 2,290,000원
   - 설명: 뷰피니티 S9 5K은(는) Samsung의 모니터 제품입니다. 가격은 2,290,000원이며, 주요 스펙은 화면크기 27인치, 해상도 5120x2880픽셀, 주사율 60Hz, 패널...



#### 예제 2: "휴대성이 좋은 업무용 기기" 검색

In [52]:
results = vector_search("휴대성이 좋은 업무용 기기", top_k=3)


🔍 벡터 검색: 휴대성이 좋은 업무용 기기

📝 질의 임베딩 생성 완료 (차원: 3072)

✅ 검색 결과: 상위 3개 제품


[1] 갤럭시북4 울트라 (유사도: 0.3268)
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 설명: 갤럭시북4 울트라은(는) Samsung의 노트북 제품입니다. 가격은 3,290,000원이며, 주요 스펙은 화면크기 14인치, 해상도 2880x1800픽셀, 프로세서 Intel Co...

[2] 갤럭시북3 프로 360 (유사도: 0.3258)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 설명: 갤럭시북3 프로 360은(는) Samsung의 노트북 제품입니다. 가격은 2,190,000원이며, 주요 스펙은 화면크기 13.3인치, 해상도 1920x1080픽셀, 프로세서 Int...

[3] 갤럭시 S24 울트라 (유사도: 0.3231)
   - 카테고리: 스마트폰
   - 가격: 1,698,400원
   - 설명: 갤럭시 S24 울트라은(는) Samsung의 스마트폰 제품입니다. 가격은 1,698,400원이며, 주요 스펙은 화면크기 6.8인치, 해상도 3120x1440픽셀, 프로세서 Snap...



#### 예제 3: "고해상도 디스플레이 제품" 검색

In [53]:
results = vector_search("고해상도 디스플레이 제품", top_k=3)


🔍 벡터 검색: 고해상도 디스플레이 제품

📝 질의 임베딩 생성 완료 (차원: 3072)

✅ 검색 결과: 상위 3개 제품


[1] 오딧세이 OLED G9 (유사도: 0.4731)
   - 카테고리: 모니터
   - 가격: 2,690,000원
   - 설명: 오딧세이 OLED G9은(는) Samsung의 모니터 제품입니다. 가격은 2,690,000원이며, 주요 스펙은 화면크기 49인치, 해상도 5120x1440픽셀, 주사율 240Hz,...

[2] 뷰피니티 S9 5K (유사도: 0.3340)
   - 카테고리: 모니터
   - 가격: 2,290,000원
   - 설명: 뷰피니티 S9 5K은(는) Samsung의 모니터 제품입니다. 가격은 2,290,000원이며, 주요 스펙은 화면크기 27인치, 해상도 5120x2880픽셀, 주사율 60Hz, 패널...

[3] 갤럭시북3 프로 360 (유사도: 0.2941)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 설명: 갤럭시북3 프로 360은(는) Samsung의 노트북 제품입니다. 가격은 2,190,000원이며, 주요 스펙은 화면크기 13.3인치, 해상도 1920x1080픽셀, 프로세서 Int...



---

## 하이브리드 검색 (NL2NoSQL + Vector Search)

구조화된 쿼리와 시맨틱 검색을 결합한 하이브리드 검색을 구현합니다.

### 13. 하이브리드 검색 함수

NL2NoSQL로 구조화된 필터링을 먼저 수행하고, 그 결과에 대해 벡터 검색으로 재정렬합니다.

In [54]:
def hybrid_search(natural_language_query: str, top_k: int = 5):
    """
    하이브리드 검색: NL2NoSQL 필터링 + 벡터 검색 재정렬
    
    Args:
        natural_language_query: 자연어 질문
        top_k: 반환할 상위 결과 개수
        
    Returns:
        검색 결과 리스트
    """
    print(f"\n{'='*80}")
    print(f"🔍 하이브리드 검색: {natural_language_query}")
    print(f"{'='*80}")
    
    # 1. NL2NoSQL: 구조화된 필터링
    print(f"\n[1단계] NL2NoSQL 쿼리 생성...")
    mongodb_query = nl_to_mongodb_query(natural_language_query)
    print(f"생성된 MongoDB 쿼리:")
    print(json.dumps(mongodb_query, indent=2, ensure_ascii=False))
    
    # 2. MongoDB 쿼리 실행
    filtered_products = list(collection.find(mongodb_query))
    print(f"\n✅ 필터링 결과: {len(filtered_products)}개 제품")
    
    if not filtered_products:
        print("\n⚠️ 필터링 조건에 맞는 제품이 없습니다.")
        print("   순수 벡터 검색으로 전환합니다...")
        return vector_search(natural_language_query, top_k)
    
    # 3. 벡터 검색: 필터링된 결과에 대해 시맨틱 재정렬
    print(f"\n[2단계] 벡터 검색으로 재정렬...")
    query_embedding = get_embedding(natural_language_query)
    
    results_with_scores = []
    for product in filtered_products:
        if "embedding" in product and product["embedding"]:
            similarity = cosine_similarity(query_embedding, product["embedding"])
            results_with_scores.append((product, similarity))
    
    # 4. 유사도 순으로 정렬
    results_with_scores.sort(key=lambda x: x[1], reverse=True)
    
    # 5. 상위 k개 결과
    top_results = results_with_scores[:top_k]
    
    print(f"\n✅ 최종 결과: 상위 {len(top_results)}개 제품")
    print("\n" + "="*80)
    
    for idx, (product, score) in enumerate(top_results, 1):
        print(f"\n[{idx}] {product['name']} (유사도: {score:.4f})")
        print(f"   - 카테고리: {product['category']}")
        print(f"   - 가격: {product['price']:,}원")
        print(f"   - 주요 스펙:")
        for spec in product['specifications'][:3]:  # 처음 3개만 표시
            print(f"     • {spec['name']}: {spec['value']} {spec['unit']}")
    
    print("\n" + "="*80)
    return top_results

print("✅ hybrid_search 함수 정의 완료")

✅ hybrid_search 함수 정의 완료


### 14. 하이브리드 검색 예제 실행

구조화된 조건과 시맨틱 의미를 모두 고려한 검색 예제입니다.

#### 예제 1: "가벼운 고성능 노트북" (무게 < 1.5kg + 시맨틱)

In [55]:
results = hybrid_search("1.5kg보다 가벼운 고성능 노트북", top_k=3)


🔍 하이브리드 검색: 1.5kg보다 가벼운 고성능 노트북

[1단계] NL2NoSQL 쿼리 생성...
생성된 MongoDB 쿼리:
{
  "category": "노트북",
  "specifications": {
    "$elemMatch": {
      "name": "무게",
      "value": {
        "$lt": 1.5
      },
      "unit": "kg"
    }
  }
}

✅ 필터링 결과: 2개 제품

[2단계] 벡터 검색으로 재정렬...

✅ 최종 결과: 상위 2개 제품


[1] 갤럭시북4 울트라 (유사도: 0.4497)
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 주요 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 

[2] 갤럭시북3 프로 360 (유사도: 0.4189)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 주요 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 



#### 예제 2: "저장공간이 큰 업무용 노트북" (저장공간 >= 512GB + 시맨틱)

In [60]:
results = hybrid_search("저장공간이 512GB 이상인 업무용 노트북", top_k=3)


🔍 하이브리드 검색: 저장공간이 512GB 이상인 업무용 노트북

[1단계] NL2NoSQL 쿼리 생성...
생성된 MongoDB 쿼리:
{
  "category": "노트북",
  "specifications": {
    "$elemMatch": {
      "name": "저장공간",
      "value": {
        "$gte": 512
      },
      "unit": "GB"
    }
  }
}

✅ 필터링 결과: 3개 제품

[2단계] 벡터 검색으로 재정렬...

✅ 최종 결과: 상위 3개 제품


[1] 갤럭시북4 울트라 (유사도: 0.5067)
   - 카테고리: 노트북
   - 가격: 3,290,000원
   - 주요 스펙:
     • 화면크기: 14 인치
     • 해상도: 2880x1800 픽셀
     • 프로세서: Intel Core Ultra 9 

[2] 갤럭시북4 프로 (유사도: 0.4882)
   - 카테고리: 노트북
   - 가격: 2,490,000원
   - 주요 스펙:
     • 화면크기: 16 인치
     • 해상도: 3200x2000 픽셀
     • 프로세서: Intel Core Ultra 7 

[3] 갤럭시북3 프로 360 (유사도: 0.4775)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 주요 스펙:
     • 화면크기: 13.3 인치
     • 해상도: 1920x1080 픽셀
     • 프로세서: Intel Core i7-1360P 



#### 예제 3: "고성능 게이밍 모니터" (카테고리=모니터 + 시맨틱)

In [57]:
results = hybrid_search("고성능 게이밍 모니터", top_k=3)


🔍 하이브리드 검색: 고성능 게이밍 모니터

[1단계] NL2NoSQL 쿼리 생성...
생성된 MongoDB 쿼리:
{
  "category": "모니터",
  "name": {
    "$regex": "고성능 게이밍",
    "$options": "i"
  }
}

✅ 필터링 결과: 0개 제품

⚠️ 필터링 조건에 맞는 제품이 없습니다.
   순수 벡터 검색으로 전환합니다...

🔍 벡터 검색: 고성능 게이밍 모니터

📝 질의 임베딩 생성 완료 (차원: 3072)

✅ 검색 결과: 상위 3개 제품


[1] 오딧세이 OLED G9 (유사도: 0.4865)
   - 카테고리: 모니터
   - 가격: 2,690,000원
   - 설명: 오딧세이 OLED G9은(는) Samsung의 모니터 제품입니다. 가격은 2,690,000원이며, 주요 스펙은 화면크기 49인치, 해상도 5120x1440픽셀, 주사율 240Hz,...

[2] 뷰피니티 S9 5K (유사도: 0.4146)
   - 카테고리: 모니터
   - 가격: 2,290,000원
   - 설명: 뷰피니티 S9 5K은(는) Samsung의 모니터 제품입니다. 가격은 2,290,000원이며, 주요 스펙은 화면크기 27인치, 해상도 5120x2880픽셀, 주사율 60Hz, 패널...

[3] 갤럭시북3 프로 360 (유사도: 0.2800)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 설명: 갤럭시북3 프로 360은(는) Samsung의 노트북 제품입니다. 가격은 2,190,000원이며, 주요 스펙은 화면크기 13.3인치, 해상도 1920x1080픽셀, 프로세서 Int...



#### 예제 4: "200만원 이하의 프리미엄 제품" (가격 + 시맨틱)

In [58]:
results = hybrid_search("200만원 이하의 프리미엄 제품", top_k=3)


🔍 하이브리드 검색: 200만원 이하의 프리미엄 제품

[1단계] NL2NoSQL 쿼리 생성...
생성된 MongoDB 쿼리:
{
  "price": {
    "$lte": 2000000
  },
  "category": "프리미엄"
}

✅ 필터링 결과: 0개 제품

⚠️ 필터링 조건에 맞는 제품이 없습니다.
   순수 벡터 검색으로 전환합니다...

🔍 벡터 검색: 200만원 이하의 프리미엄 제품

📝 질의 임베딩 생성 완료 (차원: 3072)

✅ 검색 결과: 상위 3개 제품


[1] 갤럭시북4 프로 (유사도: 0.3441)
   - 카테고리: 노트북
   - 가격: 2,490,000원
   - 설명: 갤럭시북4 프로은(는) Samsung의 노트북 제품입니다. 가격은 2,490,000원이며, 주요 스펙은 화면크기 16인치, 해상도 3200x2000픽셀, 프로세서 Intel Cor...

[2] 뷰피니티 S9 5K (유사도: 0.3258)
   - 카테고리: 모니터
   - 가격: 2,290,000원
   - 설명: 뷰피니티 S9 5K은(는) Samsung의 모니터 제품입니다. 가격은 2,290,000원이며, 주요 스펙은 화면크기 27인치, 해상도 5120x2880픽셀, 주사율 60Hz, 패널...

[3] 갤럭시북3 프로 360 (유사도: 0.3253)
   - 카테고리: 노트북
   - 가격: 2,190,000원
   - 설명: 갤럭시북3 프로 360은(는) Samsung의 노트북 제품입니다. 가격은 2,190,000원이며, 주요 스펙은 화면크기 13.3인치, 해상도 1920x1080픽셀, 프로세서 Int...



## 15. 정리 (Clean up)

사용이 끝나면 MongoDB 컨테이너를 정리합니다.

In [61]:
# MongoDB 연결 종료
mongo_client.close()
print("✅ MongoDB 연결 종료")

# Docker 컨테이너 중지 및 제거
result = subprocess.run(["docker", "stop", "mongodb-nl2nosql"], capture_output=True, text=True)
if result.returncode == 0:
    print("✅ MongoDB 컨테이너 중지 완료")

result = subprocess.run(["docker", "rm", "mongodb-nl2nosql"], capture_output=True, text=True)
if result.returncode == 0:
    print("✅ MongoDB 컨테이너 제거 완료")

✅ MongoDB 연결 종료
✅ MongoDB 컨테이너 중지 완료
✅ MongoDB 컨테이너 제거 완료


## 요약

이 노트북에서는 다음을 구현했습니다:

### 1. 기본 설정
- **MongoDB 설정**: Docker를 사용하여 MongoDB 컨테이너 실행
- **데이터 모델링**: 삼성전자 제품 데이터를 specifications 배열과 함께 구조화
- **임베딩 생성**: Azure OpenAI Text Embedding을 사용하여 제품 설명의 벡터 임베딩 생성

### 2. 세 가지 검색 방식
1. **NL2NoSQL**: 자연어를 MongoDB 쿼리로 변환하여 구조화된 필터링
   - 정확한 숫자 비교 (예: "15인치보다 작은")
   - 카테고리 필터링
   - 가격 범위 검색

2. **벡터 검색**: 시맨틱 유사도 기반 검색
   - 의미적으로 유사한 제품 찾기
   - 자연어 설명과의 유사도 계산
   - 정확한 조건 없이도 관련 제품 추천

3. **하이브리드 검색**: NL2NoSQL + 벡터 검색 결합
   - 1단계: 구조화된 쿼리로 필터링
   - 2단계: 벡터 검색으로 시맨틱 재정렬
   - 정확성과 유연성의 균형

### 주요 기술 스택
- **데이터베이스**: MongoDB (NoSQL)
- **AI 모델**: 
  - Azure OpenAI GPT-4 (NL2NoSQL 변환)
  - Azure OpenAI Text Embedding (시맨틱 검색)
- **컨테이너**: Docker
- **Python 라이브러리**: pymongo, openai, numpy

### 검색 방식 비교

| 방식 | 장점 | 단점 | 사용 시나리오 |
|------|------|------|--------------|
| NL2NoSQL | 정확한 조건 필터링, 빠른 속도 | 의미적 유사성 고려 안 함 | 명확한 조건 검색 |
| 벡터 검색 | 의미적 유사성, 유연한 검색 | 정확한 조건 적용 어려움 | 개념적 검색 |
| 하이브리드 | 정확성 + 유연성 | 처리 시간 증가 | 복합 조건 검색 |

### 확장 아이디어
- MongoDB Atlas Vector Search 통합 (프로덕션 환경)
- 더 복잡한 쿼리 지원 (AND, OR, 중첩 조건)
- 검색 결과에 대한 자연어 응답 생성
- 사용자 피드백 기반 검색 결과 개선
- 다국어 검색 지원
- 검색 로그 분석 및 개인화