<a href="https://colab.research.google.com/github/fedor44/OpenSearch_RAG_Test/blob/main/Untitled79.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install openai opensearch-py transformers torch torchvision

Collecting opensearch-py
  Downloading opensearch_py-2.7.1-py3-none-any.whl.metadata (6.9 kB)
Collecting Events (from opensearch-py)
  Downloading Events-0.5-py3-none-any.whl.metadata (3.9 kB)
Downloading opensearch_py-2.7.1-py3-none-any.whl (325 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m325.4/325.4 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading Events-0.5-py3-none-any.whl (6.8 kB)
Installing collected packages: Events, opensearch-py
Successfully installed Events-0.5 opensearch-py-2.7.1


In [None]:
import openai
from opensearchpy import OpenSearch
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch

In [None]:
import os
import json

with open("/content/rag-info.json", "r") as f:
    data = json.load(f)

openai_key = data["openai-key"]
host = data["host"]
user_id = data["id"]
password = data["pass"]

openai.api_key = openai_key
auth = (user_id, password)

In [None]:
client = OpenSearch(
    hosts=[{'host': host, 'port': 443}],
    http_auth=auth,
    use_ssl=True,
    verify_certs=True,
    ssl_assert_hostname=False,
    ssl_show_warn=False
)

In [None]:
# OpenAI를 사용해 텍스트를 임베딩 벡터로 변환하는 함수
# OpenAIEmbeddings() 사용할 경우 기본 모델로 text-embedding-ada-002 사용
def get_text_embedding(text):
  if text:
    response = openai.embeddings.create(
        input=text,
        model="text-embedding-3-small"
    )
    return response.data[0].embedding
  return None

In [None]:
# CLIP 모델을 사용해 이미지 임베딩 벡터로 변환하는 함수
clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

def get_image_embedding(image_path):
  if image_path:
    image = Image.open(image_path).convert("RGB")
    inputs = clip_processor(images=image, return_tensors="pt")
    with torch.no_grad():
        image_embedding = clip_model.get_image_features(**inputs)
    return image_embedding.squeeze().tolist()
  return None

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/4.19k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/605M [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/316 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/592 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/862k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/525k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.22M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/389 [00:00<?, ?B/s]



In [None]:
# OpenSearch 인덱스 설정 및 생성
index_name = "user_multimodal_embedding_index"
index_settings = {
    "settings": {
        "index": {
            "number_of_shards": 2,
            "number_of_replicas": 1,
            "knn": True  # k-NN 검색 활성화
        }
    },
    "mappings": {
        "properties": {
            "user_id": {"type": "keyword"},
            "text_id": {"type": "keyword"},
            "text": {"type": "text"},
            "text_embedding": {"type": "knn_vector", "dimension": 1536},  # OpenAI 텍스트 임베딩 차원 (dimensions 파라미터를 사용해 차원을 줄일 수 있음)
            "image_id": {"type": "keyword"},
            "image_embedding": {"type": "knn_vector", "dimension": 512}   # CLIP 이미지 임베딩 차원
        }
    }
}

In [None]:
# 인덱스 생성
client.indices.create(index=index_name, body=index_settings)

{'acknowledged': True,
 'shards_acknowledged': True,
 'index': 'user_multimodal_embedding_index'}

In [None]:
# 인덱스 삭제 (필요 시 사용, 삭제 후 다시 인덱스와 데이터를 추가해줘야 함)
client.indices.delete(index="user_multimodal_embedding_index", ignore=[400, 404])

{'acknowledged': True}

In [None]:
# 모든 인덱스에서 존재하는 데이터가 있는지 검색
response = client.search(
    index="_all",  # 모든 인덱스에서 검색
    body={
        "query": {
            "match_all": {}
        }
    }
)

# 검색 결과 출력
for hit in response["hits"]["hits"]:
    print(hit["_index"], hit["_source"])  # 인덱스 이름과 문서 내용 출력

.kibana_1 {'config': {'buildNum': 701202401}, 'type': 'config', 'references': [], 'migrationVersion': {'config': '7.9.0'}, 'updated_at': '2024-11-07T01:43:02.383Z'}


In [None]:
# 사용자 데이터 예제 생성
# image1 = 나이키 에어포스1 (전문가가 찍은 운동화만 있는 사진)
# image2 = 아이폰 12 pro (사람이 손으로 들고있는 일반 사진)
# image3 = 구찌 미니홀스빗 (전문가가 찍은 가방만 있는 사진)
user_data = [
    {"user_id": "user1", "text_id": "1", "text": "나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판매되고 있다. 흰색 에어 포스 원은 단일 모델, 단일 컬러로는 역사상 가장 많이 팔린 스니커이기도 하다. 발목 부분의 높이에 따라 로우, 미드, 하이 버전으로 나뉘며 로우가 가장 인기가 많다. 에어 포스 로우 화이트 컬러는 컨버스와 반스, 아디다스 슈퍼스타와 더불어 국민 신발이라고 봐도 될 만큼 많은 사람들이 신는다.", "image_id": None, "image_path": None},  # 텍스트만 저장
    {"user_id": "user1", "text_id": None, "text": None, "image_id": "img1", "image_path": "/content/image1.jpg"},            # 이미지만 저장
    {"user_id": "user1", "text_id": "1", "text": "나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판매되고 있다. 흰색 에어 포스 원은 단일 모델, 단일 컬러로는 역사상 가장 많이 팔린 스니커이기도 하다. 발목 부분의 높이에 따라 로우, 미드, 하이 버전으로 나뉘며 로우가 가장 인기가 많다. 에어 포스 로우 화이트 컬러는 컨버스와 반스, 아디다스 슈퍼스타와 더불어 국민 신발이라고 봐도 될 만큼 많은 사람들이 신는다.", "image_id": "img1", "image_path": "/content/image1.jpg"},  # 텍스트와 이미지 저장

    {"user_id": "user2", "text_id": "2", "text": "Apple이 2020년 10월 13일(한국 시각 2020년 10월 14일)에 공개한 iOS 스마트폰이다. 한국 시각으로 2020년 10월 14일 오전 2시에, 미국 시간으로는 2020년 10월 13일 오전 10시에 공개되었다. 전반적인 디자인은 전작인 iPhone 11 Pro와 유사하나, iPhone 4에서 적용되었던 것과 유사한 각진 디자인의 스테인리스 스틸 프레임이 적용되었다. 전면 디스플레이도 전작인 iPhone 11 Pro와 패밀리룩을 이루고 있지만, 더욱 얇아진 베젤로 6.06형 Super Retina XDR 디스플레이를 적용했다. 기존 iPhone과 같이 디스플레이 상단에 Face ID를 위한 각종 센서와 TrueDepth 카메라가 있는 노치 디자인이 적용되었다. 마감은 총 4가지가 적용되는데, iPhone 11 Pro에서도 볼 수 있었던 실버, 골드 색상과 함께 기존의 스페이스 그레이를 대체하는 '그래파이트'와, 미드나이트 그린을 대체하는 '퍼시픽 블루'가 추가되었다.", "image_id": None, "image_path": None},  # 텍스트만 저장
    {"user_id": "user2", "text_id": None, "text": None, "image_id": "img2", "image_path": "/content/image2.jpg"},            # 이미지만 저장
    {"user_id": "user2", "text_id": "2", "text": "Apple이 2020년 10월 13일(한국 시각 2020년 10월 14일)에 공개한 iOS 스마트폰이다. 한국 시각으로 2020년 10월 14일 오전 2시에, 미국 시간으로는 2020년 10월 13일 오전 10시에 공개되었다. 전반적인 디자인은 전작인 iPhone 11 Pro와 유사하나, iPhone 4에서 적용되었던 것과 유사한 각진 디자인의 스테인리스 스틸 프레임이 적용되었다. 전면 디스플레이도 전작인 iPhone 11 Pro와 패밀리룩을 이루고 있지만, 더욱 얇아진 베젤로 6.06형 Super Retina XDR 디스플레이를 적용했다. 기존 iPhone과 같이 디스플레이 상단에 Face ID를 위한 각종 센서와 TrueDepth 카메라가 있는 노치 디자인이 적용되었다. 마감은 총 4가지가 적용되는데, iPhone 11 Pro에서도 볼 수 있었던 실버, 골드 색상과 함께 기존의 스페이스 그레이를 대체하는 '그래파이트'와, 미드나이트 그린을 대체하는 '퍼시픽 블루'가 추가되었다.", "image_id": "img2", "image_path": "/content/image2.jpg"},  # 텍스트와 이미지 저장

    {"user_id": "user3", "text_id": "3", "text": "미니 버전 구찌 홀스빗 1955. 빈티지에서 영감을 얻은 라인에 하이브리드 감성을 더함. 두 가지 숄더 스트랩을 이용해 다양한 스타일링이 가능한 미니백. 토널 레더 스트랩으로 절제된 우아함을 연출하거나 레드/그린 웹(Web)으로 강렬한 로고 감성을 부여할 수 있는 아이템. 모노그램 캔버스에 브라운 레더 트리밍. 구찌는 제품 제작 시 소재 선택에 신중을 기울입니다. 제품의 수명을 연장하기 위해 취급에 주의하여 주시기 바랍니다.", "image_id": None, "image_path": None},  # 텍스트만 저장
    {"user_id": "user3", "text_id": None, "text": None, "image_id": "img3", "image_path": "/content/image3.jpg"},            # 이미지만 저장
    {"user_id": "user3", "text_id": "3", "text": "미니 버전 구찌 홀스빗 1955. 빈티지에서 영감을 얻은 라인에 하이브리드 감성을 더함. 두 가지 숄더 스트랩을 이용해 다양한 스타일링이 가능한 미니백. 토널 레더 스트랩으로 절제된 우아함을 연출하거나 레드/그린 웹(Web)으로 강렬한 로고 감성을 부여할 수 있는 아이템. 모노그램 캔버스에 브라운 레더 트리밍. 구찌는 제품 제작 시 소재 선택에 신중을 기울입니다. 제품의 수명을 연장하기 위해 취급에 주의하여 주시기 바랍니다.", "image_id": "img3", "image_path": "/content/image3.jpg"}   # 텍스트와 이미지 저장
]

In [None]:
def chunk_text(text, chunk_size=10):
    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

# 사용자 데이터 저장 및 확인
for data in user_data:
    # 텍스트 청크 분할 및 각 청크에 대해 임베딩 생성
    if data["text"]:
        text_chunks = chunk_text(data["text"], chunk_size=100)  # 청크 크기 설정
        for idx, chunk in enumerate(text_chunks):
            text_embedding_vector = get_text_embedding(chunk)
            text_chunk_id = f"{data['text_id']}_{idx}"
            document = {
                "user_id": data["user_id"],
                "text_id": text_chunk_id,       # 청크별 고유 ID 생성
                "text": chunk,                  # 청크된 텍스트를 text 필드에 저장
                "text_embedding": text_embedding_vector,
                "image_id": data["image_id"],   # 이미지는 전체 문서와 동일하게 설정
                "image_embedding": None         # 텍스트 청크이므로 이미지 임베딩은 None으로 설정
            }

            # OpenSearch에 청크별로 데이터 저장
            response = client.index(
                index=index_name,
                body=document
            )
            print(f"Insert response for user {data['user_id']} with text chunk ID {text_chunk_id}: {response}")

            # 삽입된 데이터 확인 (텍스트 청크)
            confirm_response = client.get(index=index_name, id=response["_id"])
            print(f"Retrieved document for text chunk ID {text_chunk_id}: {confirm_response['_source']}")

    # 이미지가 있는 경우 이미지 임베딩 생성 및 저장
    if data["image_path"]:
        image_embedding_vector = get_image_embedding(data["image_path"])
        document = {
            "user_id": data["user_id"],
            "text_id": data["text_id"],
            "text": None,                        # 이미지 문서에는 text 필드를 None으로 설정
            "text_embedding": None,              # 텍스트가 없으므로 텍스트 임베딩은 None으로 설정
            "image_id": data["image_id"],
            "image_embedding": image_embedding_vector
        }

        # OpenSearch에 이미지 데이터 저장
        response = client.index(
            index=index_name,
            body=document
        )
        print(f"Insert response for user {data['user_id']} with image ID {data['image_id']}: {response}")

        # 삽입된 데이터 확인 (이미지)
        confirm_response = client.get(index=index_name, id=response["_id"])
        print(f"Retrieved document for image ID {data['image_id']}: {confirm_response['_source']}")

Insert response for user user1 with text chunk ID 1_0: {'_index': 'user_multimodal_embedding_index', '_id': 'Ti7PCpMB1uZggQ6zlEIz', '_version': 1, 'result': 'created', '_shards': {'total': 2, 'successful': 1, 'failed': 0}, '_seq_no': 0, '_primary_term': 1}
Retrieved document for text chunk ID 1_0: {'user_id': 'user1', 'text_id': '1_0', 'text': '나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판', 'text_embedding': [-0.007456041872501373, 0.012544920668005943, 0.010381104424595833, -0.012451068498194218, 0.02044936828315258, -0.05439260974526405, -0.05768786743283272, 0.016872553154826164, 0.023379644379019737, -0.041003018617630005, -0.012252936139702797, 0.05439260974526405, -0.0628601685166359, -0.03539273515343666, -0.007925303652882576, 0.011324841529130936, -0.05531027540564537, -0.044006288051605225, -0.04110729694366455, -0.05710389465093613, 0.057354170829057693, 0.03051241859793663, -0.03222261369228363, -0.018906019628047943, 

In [None]:
# 모든 데이터 조회
response = client.search(
    index='user_multimodal_embedding_index',
    body={
        "query": {
            "match_all": {}
        }
    }
)
print(response)

{'took': 3, 'timed_out': False, '_shards': {'total': 2, 'successful': 2, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 28, 'relation': 'eq'}, 'max_score': 1.0, 'hits': [{'_index': 'user_multimodal_embedding_index', '_id': 'Ui7PCpMB1uZggQ6zm0Ln', '_score': 1.0, '_source': {'user_id': 'user1', 'text_id': '1_0', 'text': '나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판', 'text_embedding': [-0.007456041872501373, 0.012544920668005943, 0.010381104424595833, -0.012451068498194218, 0.02044936828315258, -0.05439260974526405, -0.05768786743283272, 0.016872553154826164, 0.023379644379019737, -0.041003018617630005, -0.012252936139702797, 0.05439260974526405, -0.0628601685166359, -0.03539273515343666, -0.007925303652882576, 0.011324841529130936, -0.05531027540564537, -0.044006288051605225, -0.04110729694366455, -0.05710389465093613, 0.057354170829057693, 0.03051241859793663, -0.03222261369228363, -0.018906019628047943, 0.035789001733064

In [None]:
# 특정 유저 데이터 조회
response = client.search(
    index='user_multimodal_embedding_index',
    body={
        "query": {
            "term": {
                "user_id": "user1"
            }
        }
    }
)
print(response)

{'took': 6, 'timed_out': False, '_shards': {'total': 2, 'successful': 2, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 8, 'relation': 'eq'}, 'max_score': 1.2039728, 'hits': [{'_index': 'user_multimodal_embedding_index', '_id': 'Ui7PCpMB1uZggQ6zm0Ln', '_score': 1.2039728, '_source': {'user_id': 'user1', 'text_id': '1_0', 'text': '나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판', 'text_embedding': [-0.007456041872501373, 0.012544920668005943, 0.010381104424595833, -0.012451068498194218, 0.02044936828315258, -0.05439260974526405, -0.05768786743283272, 0.016872553154826164, 0.023379644379019737, -0.041003018617630005, -0.012252936139702797, 0.05439260974526405, -0.0628601685166359, -0.03539273515343666, -0.007925303652882576, 0.011324841529130936, -0.05531027540564537, -0.044006288051605225, -0.04110729694366455, -0.05710389465093613, 0.057354170829057693, 0.03051241859793663, -0.03222261369228363, -0.018906019628047943, 0.0357

In [None]:
# 텍스트만 있는 데이터 조회
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "query": {
            "bool": {
                "must": [
                    {"exists": {"field": "text"}}
                ],
                "must_not": [
                    {"exists": {"field": "image_id"}}
                ]
            }
        }
    }
)
print(response)

{'took': 4, 'timed_out': False, '_shards': {'total': 2, 'successful': 2, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 11, 'relation': 'eq'}, 'max_score': 1.0, 'hits': [{'_index': 'user_multimodal_embedding_index', '_id': 'Ti7PCpMB1uZggQ6zlEIz', '_score': 1.0, '_source': {'user_id': 'user1', 'text_id': '1_0', 'text': '나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판', 'text_embedding': [-0.007456041872501373, 0.012544920668005943, 0.010381104424595833, -0.012451068498194218, 0.02044936828315258, -0.05439260974526405, -0.05768786743283272, 0.016872553154826164, 0.023379644379019737, -0.041003018617630005, -0.012252936139702797, 0.05439260974526405, -0.0628601685166359, -0.03539273515343666, -0.007925303652882576, 0.011324841529130936, -0.05531027540564537, -0.044006288051605225, -0.04110729694366455, -0.05710389465093613, 0.057354170829057693, 0.03051241859793663, -0.03222261369228363, -0.018906019628047943, 0.035789001733064

In [None]:
# 이미지만 있는 데이터 조회
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "query": {
            "bool": {
                "must": [
                    {"exists": {"field": "image_id"}}
                ],
                "must_not": [
                    {"exists": {"field": "text"}}
                ]
            }
        }
    }
)
print(response)

{'took': 1, 'timed_out': False, '_shards': {'total': 2, 'successful': 2, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 6, 'relation': 'eq'}, 'max_score': 1.0, 'hits': [{'_index': 'user_multimodal_embedding_index', '_id': 'ZS7PCpMB1uZggQ6zw0IW', '_score': 1.0, '_source': {'user_id': 'user3', 'text_id': None, 'text': None, 'text_embedding': None, 'image_id': 'img3', 'image_embedding': [-0.013093684799969196, -0.3012962341308594, -0.04739079624414444, 0.20454348623752594, 0.4347180426120758, 0.04244402423501015, -0.24553647637367249, 0.20227816700935364, 0.28565680980682373, 0.3967556059360504, 0.11057069152593613, -0.07946735620498657, 0.17560578882694244, -0.39896711707115173, 0.29682818055152893, -0.009953244589269161, 0.22665879130363464, 0.017616115510463715, -0.269615113735199, 0.11562158912420273, 0.07682396471500397, 0.017284849658608437, 0.6325914859771729, -0.2581346035003662, 0.07582448422908783, -0.2249065339565277, -0.6691603660583496, 0.017926568165421486, -0.16588

In [None]:
# 텍스트와 이미지 모두 있는 데이터 조회
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "query": {
            "bool": {
                "must": [
                    {"exists": {"field": "text"}},
                    {"exists": {"field": "image_id"}}
                ]
            }
        }
    }
)
print(response)

{'took': 5, 'timed_out': False, '_shards': {'total': 2, 'successful': 2, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 11, 'relation': 'eq'}, 'max_score': 2.0, 'hits': [{'_index': 'user_multimodal_embedding_index', '_id': 'Ui7PCpMB1uZggQ6zm0Ln', '_score': 2.0, '_source': {'user_id': 'user1', 'text_id': '1_0', 'text': '나이키의 운동화이다. 약칭으로 AF1이라고도 불리며 정가는 139,000원. 이름의 유래는 동명의 비행기이며 원래 농구화로 출시되었지만 2000년대 이후로는 라이프스타일 신발로 판', 'text_embedding': [-0.007456041872501373, 0.012544920668005943, 0.010381104424595833, -0.012451068498194218, 0.02044936828315258, -0.05439260974526405, -0.05768786743283272, 0.016872553154826164, 0.023379644379019737, -0.041003018617630005, -0.012252936139702797, 0.05439260974526405, -0.0628601685166359, -0.03539273515343666, -0.007925303652882576, 0.011324841529130936, -0.05531027540564537, -0.044006288051605225, -0.04110729694366455, -0.05710389465093613, 0.057354170829057693, 0.03051241859793663, -0.03222261369228363, -0.018906019628047943, 0.035789001733064

In [None]:
# 전 필드에서 user2 라는 것을 사용한 부분이 있으면 찾아옴
# 검색 시 사용할 텍스트 데이터 임베딩
query_embedding = get_text_embedding("핸드폰")

# knn 쿼리 사용, 유사 결과 확인
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 10,  # 충분히 많은 결과 반환
        "query": {
            "knn": {
                "text_embedding": {
                    "vector": query_embedding,
                    "k": 10  # 중복을 고려하여 충분히 많은 결과 요청
                }
            }
        }
    }
)

# 중복 제거된 결과를 저장할 리스트
unique_results = []
seen_text_ids = set()

# 결과 중복 제거 처리
for hit in response["hits"]["hits"]:
    if hit["_source"]["text_id"] not in seen_text_ids:
        unique_results.append(hit["_source"])
        seen_text_ids.add(hit["_source"]["text_id"])

# 중복 제거 후 상위 5개의 결과만 출력
for result in unique_results[:5]:
    print(result)

{'user_id': 'user2', 'text_id': '2_3', 'text': '적용했다. 기존 iPhone과 같이 디스플레이 상단에 Face ID를 위한 각종 센서와 TrueDepth 카메라가 있는 노치 디자인이 적용되었다. 마감은 총 4가지가 적용되는데, ', 'text_embedding': [0.013883808627724648, 0.02218831516802311, -0.018330678343772888, 0.023256300017237663, 0.025355443358421326, -0.01474003866314888, -0.021065089851617813, 0.013929842971265316, -0.011094157584011555, -0.04135680943727493, 0.016028987243771553, -0.01229103747755289, -0.00028598529752343893, -0.013543158769607544, 0.005952176637947559, -0.01434414740651846, -0.047101832926273346, -0.0102195143699646, 0.0018770302413031459, -0.030308686196804047, -0.047912031412124634, 0.003137206891551614, 0.058776017278432846, -0.056161295622587204, 0.03296023607254028, -0.04117267578840256, 0.015448959544301033, -0.013239335268735886, -0.022648653015494347, -0.014252079650759697, 0.011996421031653881, -0.02962738461792469, 0.021433360874652863, -0.03660611808300018, 0.0030428373720496893, 0.00719048734754324, 0.019205322489142418, 0.02

In [None]:
# 텍스트 필드에서 임베딩 텍스트와 유사한 내용이 있는 데이터 찾아옴
# 검색 시 사용할 텍스트 데이터 임베딩
query_embedding = get_text_embedding("스포츠")

response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 5,  # 상위 5개의 유사한 결과 반환
        "query": {
            "bool": {
                "must": [
                    {
                        "knn": {
                            "text_embedding": {
                                "vector": query_embedding,
                                "k": 5  # 검색할 유사한 결과 수
                            }
                        }
                    },
                    {
                        "exists": {"field": "text"}  # text 필드가 존재하는 문서만 검색
                    }
                ]
            }
        }
    }
)

# 중복 제거된 결과를 저장할 리스트
unique_results = []
seen_text_ids = set()

# 결과 중복 제거 처리
for hit in response["hits"]["hits"]:
    if hit["_source"]["text_id"] not in seen_text_ids:
        unique_results.append(hit["_source"])
        seen_text_ids.add(hit["_source"]["text_id"])

# 중복 제거 후 상위 5개의 결과만 출력
for result in unique_results[:5]:
    print(result)

{'user_id': 'user1', 'text_id': '1_2', 'text': '인기가 많다. 에어 포스 로우 화이트 컬러는 컨버스와 반스, 아디다스 슈퍼스타와 더불어 국민 신발이라고 봐도 될 만큼 많은 사람들이 신는다.', 'text_embedding': [0.0297189150005579, -0.04070970043540001, 0.00258215656504035, 0.015568540431559086, 0.014327645301818848, -0.057769399136304855, -0.043212343007326126, 0.009614329785108566, 0.012742635793983936, 0.028279893100261688, -0.046215519309043884, 0.010130500420928001, -0.041189372539520264, 0.007685206830501556, 0.012836485169827938, 0.0007292865193448961, -0.044755641371011734, 0.022502953186631203, -0.03864501789212227, -0.03929153457283974, -0.02196071296930313, -0.010406834073364735, -0.016392327845096588, -0.0008635430131107569, 0.009108586236834526, 0.022502953186631203, -0.01812332309782505, 0.00292757386341691, 0.044755641371011734, 0.04342089965939522, 0.024254804477095604, -0.025005599483847618, 0.015933509916067123, -0.031908728182315826, -0.007799911312758923, -0.029927467927336693, 0.02262808568775654, -0.003482848173007369, 0.01104

In [None]:
# user_id가 "user3"이고 텍스트 필드에서 임베딩 텍스트와 동일한 내용이 있는 데이터 찾아옴
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "query": {
            "bool": {
                "must": [
                    {"term": {"user_id": "user3"}},       # user_id가 "user3"인 문서 필터링
                    {"match": {"text": "홀스빗"}}          # text 필드에 임베딩 텍스트와 동일한 문서 필터링
                ]
            }
        }
    }
)

# 중복 제거된 결과를 저장할 리스트
unique_results = []
seen_text_ids = set()

# 결과 중복 제거 처리
for hit in response["hits"]["hits"]:
    if hit["_source"]["text_id"] not in seen_text_ids:
        unique_results.append(hit["_source"])
        seen_text_ids.add(hit["_source"]["text_id"])

# 중복 제거 후 상위 5개의 결과만 출력
for result in unique_results[:5]:
    print(result)

{'user_id': 'user3', 'text_id': '3_0', 'text': '미니 버전 구찌 홀스빗 1955. 빈티지에서 영감을 얻은 라인에 하이브리드 감성을 더함. 두 가지 숄더 스트랩을 이용해 다양한 스타일링이 가능한 미니백. 토널 레더 스트랩으로 절제', 'text_embedding': [0.05181536450982094, -0.024200234562158585, -0.02588491700589657, -0.012020436115562916, -0.03435385972261429, -0.03749556466937065, 0.016106929630041122, 0.04031854495406151, -0.018315229564905167, -0.03348875418305397, -0.00010253582877339795, 0.01605001464486122, -0.0044393655844032764, 0.025042574852705002, -0.028024917468428612, 0.0449855700135231, -0.01640288718044758, 0.00046421249862760305, 0.0010109517024829984, 0.021787039935588837, -0.02704598195850849, -0.00017990457126870751, -0.021047145128250122, -0.007285112515091896, 0.047626424580812454, 0.05787111446261406, -0.0029766515363007784, -0.03959003463387489, 0.008218517526984215, 0.014843417331576347, -0.04154790937900543, -0.02593044750392437, 0.050631534308195114, -0.04680684953927994, -0.04890131950378418, 0.0149686299264431, -0.013466075994074345, -0.0

In [None]:
# 위 내용 knn 사용
# 검색 시 사용할 텍스트 데이터 임베딩
query_embedding = get_text_embedding("여자")

response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 5,  # 상위 5개의 유사한 결과 반환
        "query": {
            "bool": {
                "must": [
                    {"term": {"user_id": "user3"}},  # user_id가 "user3"인 문서 필터링
                    {
                        "knn": {
                            "text_embedding": {
                                "vector": query_embedding,
                                "k": 5  # 유사한 결과 수
                            }
                        }
                    }
                ]
            }
        }
    }
)

# 중복 제거된 결과를 저장할 리스트
unique_results = []
seen_text_ids = set()

# 결과 중복 제거 처리
for hit in response["hits"]["hits"]:
    if hit["_source"]["text_id"] not in seen_text_ids:
        unique_results.append(hit["_source"])
        seen_text_ids.add(hit["_source"]["text_id"])

# 중복 제거 후 상위 5개의 결과만 출력
for result in unique_results[:5]:
    print(result)

{'user_id': 'user3', 'text_id': '3_1', 'text': '된 우아함을 연출하거나 레드/그린 웹(Web)으로 강렬한 로고 감성을 부여할 수 있는 아이템. 모노그램 캔버스에 브라운 레더 트리밍. 구찌는 제품 제작 시 소재 선택에 신중을 기울', 'text_embedding': [0.03487555682659149, 0.024830808863043785, -0.025588441640138626, 0.0057647316716611385, 0.024024296551942825, -0.05210559442639351, -0.044724784791469574, 0.052203353494405746, 0.035975344479084015, -0.031087391078472137, -0.019747337326407433, -0.030671915039420128, -0.012054918333888054, -0.02822793833911419, 0.022252412512898445, -0.002974014962092042, 0.002944992622360587, -0.046215612441301346, -0.02044386975467205, -0.03226049989461899, -0.006824806798249483, 0.006500979419797659, -0.006293241400271654, -0.012403184548020363, 0.008859417401254177, 0.04103437811136246, 0.023547722026705742, -0.01929520070552826, -0.005132352467626333, -0.07463906705379486, -0.01982065662741661, -0.02323000505566597, 0.051030244678258896, -0.0354132317006588, -0.0015824752626940608, -0.037930529564619064, -0.022362392395734787, 0.

In [None]:
query_embedding = get_image_embedding("/content/image4.jpg")

# OpenSearch에서 knn 쿼리를 사용해 user_id가 'user2'인 문서에서 유사한 이미지 검색
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 5,  # 상위 5개의 유사한 결과 반환
        "query": {
            "bool": {
                "must": [
                    {"term": {"user_id": "user2"}},  # user_id가 "user2"인 문서 필터링
                    {
                        "knn": {
                            "image_embedding": {
                                "vector": query_embedding,
                                "k": 5  # 유사한 결과 수
                            }
                        }
                    }
                ]
            }
        }
    }
)

# 검색 결과 출력
for hit in response["hits"]["hits"]:
    print(hit["_source"])

{'user_id': 'user2', 'text_id': None, 'text': None, 'text_embedding': None, 'image_id': 'img2', 'image_embedding': [0.03708428144454956, 0.47318077087402344, 0.02837488427758217, 0.2521366477012634, 0.47584104537963867, 0.2472686469554901, -0.03717883303761482, 0.3008320927619934, 0.4040527641773224, -0.2655492126941681, 0.35128268599510193, -0.2183370143175125, 0.07109098136425018, -0.009451711550354958, 0.31438639760017395, -0.45942574739456177, -0.5090489983558655, -0.15879441797733307, -0.11106768250465393, -0.552168607711792, 0.5523791313171387, -0.2715533971786499, 0.3013639748096466, -0.3556995689868927, -0.22356458008289337, 0.42601311206817627, -0.3954319357872009, 0.17388960719108582, -0.4456526041030884, -0.21134650707244873, -0.0805290937423706, -0.09714342653751373, -0.04078420624136925, 0.006010130047798157, 0.15314508974552155, -0.29755499958992004, 0.12965616583824158, -0.39974522590637207, -0.6581374406814575, 0.22403042018413544, -0.7045167088508606, 0.477532476186752

In [None]:
query_embedding = get_image_embedding("/content/image4.jpg")

# OpenSearch에서 knn 쿼리를 사용해 핸드폰(갤럭시) 이미지와 비슷한 이미지 검색
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 5,  # 상위 5개의 유사한 결과 반환
        "query": {
            "bool": {
                "must": [
                    {
                        "knn": {
                            "image_embedding": {
                                "vector": query_embedding,
                                "k": 5  # 유사한 결과 수
                            }
                        }
                    }
                ]
            }
        }
    }
)

# 검색 결과 출력
for hit in response["hits"]["hits"]:
    print(hit["_source"])

{'user_id': 'user2', 'text_id': None, 'text': None, 'text_embedding': None, 'image_id': 'img2', 'image_embedding': [0.03708428144454956, 0.47318077087402344, 0.02837488427758217, 0.2521366477012634, 0.47584104537963867, 0.2472686469554901, -0.03717883303761482, 0.3008320927619934, 0.4040527641773224, -0.2655492126941681, 0.35128268599510193, -0.2183370143175125, 0.07109098136425018, -0.009451711550354958, 0.31438639760017395, -0.45942574739456177, -0.5090489983558655, -0.15879441797733307, -0.11106768250465393, -0.552168607711792, 0.5523791313171387, -0.2715533971786499, 0.3013639748096466, -0.3556995689868927, -0.22356458008289337, 0.42601311206817627, -0.3954319357872009, 0.17388960719108582, -0.4456526041030884, -0.21134650707244873, -0.0805290937423706, -0.09714342653751373, -0.04078420624136925, 0.006010130047798157, 0.15314508974552155, -0.29755499958992004, 0.12965616583824158, -0.39974522590637207, -0.6581374406814575, 0.22403042018413544, -0.7045167088508606, 0.477532476186752

In [None]:
query_embedding = get_image_embedding("/content/image5.jpg")

# OpenSearch에서 knn 쿼리를 사용해 가방(셀린느 트리오페) 이미지와 비슷한 이미지 검색
response = client.search(
    index="user_multimodal_embedding_index",
    body={
        "size": 5,  # 상위 5개의 유사한 결과 반환
        "query": {
            "bool": {
                "must": [
                    {
                        "knn": {
                            "image_embedding": {
                                "vector": query_embedding,
                                "k": 5  # 유사한 결과 수
                            }
                        }
                    }
                ]
            }
        }
    }
)

# 검색 결과 출력
for hit in response["hits"]["hits"]:
    print(hit["_source"])

{'user_id': 'user3', 'text_id': None, 'text': None, 'text_embedding': None, 'image_id': 'img3', 'image_embedding': [-0.013093684799969196, -0.3012962341308594, -0.04739079624414444, 0.20454348623752594, 0.4347180426120758, 0.04244402423501015, -0.24553647637367249, 0.20227816700935364, 0.28565680980682373, 0.3967556059360504, 0.11057069152593613, -0.07946735620498657, 0.17560578882694244, -0.39896711707115173, 0.29682818055152893, -0.009953244589269161, 0.22665879130363464, 0.017616115510463715, -0.269615113735199, 0.11562158912420273, 0.07682396471500397, 0.017284849658608437, 0.6325914859771729, -0.2581346035003662, 0.07582448422908783, -0.2249065339565277, -0.6691603660583496, 0.017926568165421486, -0.16588544845581055, 0.318008691072464, 0.06807191669940948, -0.03843533247709274, -0.12914025783538818, -0.5538941621780396, -0.18700921535491943, -0.14284631609916687, -0.31096911430358887, 0.20412001013755798, 0.25515446066856384, 1.5681151151657104, -0.25347381830215454, 0.0722197145