# 第3回開発者コミュニティミートアップ
## ワークショップ #1 - ベクトル検索であそぼう

### IRIS関連のライブラリをインストールします。

In [None]:
!pip install intersystems-irispython
!pip install sqlalchemy-iris[intersystems]

### 利用するライブラリをインポートします。

In [None]:
import os
import requests
import torch
from sentence_transformers import SentenceTransformer, util
from PIL import Image, ImageFile
from datasets import load_dataset
from sqlalchemy import create_engine, text
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from urllib.parse import urlparse
import os.path

### 画像ファイルが置いてあるGoogle Driveをマウントします。アクセス許可を確認するウィンドウが表示されます。

In [None]:
from google.colab import drive
drive.mount('/content/drive')
img_dir='/content/drive/My Drive/MeetUp2025/Images/'

### 画像用,テキスト用それぞれのモデルをロードします。これらのモデルでデータをベクトル化します。

In [None]:
# 画像エンコード用モデル
img_model = SentenceTransformer('clip-ViT-B-32')

# テキストエンコード用モデル
text_model = SentenceTransformer('sentence-transformers/clip-ViT-B-32-multilingual-v1')

### AzureにインストールされたIRISに接続し、データの内容を確認します。

In [None]:
# SQLAlchemyを使って、IRISに接続
CONNECTION_STRING = f"iris://meetup2025:meetup2025@20.78.1.189:1972/USER"
engine = create_engine(CONNECTION_STRING)

In [None]:
# IRISに保存されているデータの確認
with engine.connect() as conn:
    with conn.begin():
        df = pd.read_sql_query(sql = 'SELECT * FROM MeetUp2025.SampleImage', con = conn)

print(df)

### では、テキストから画像を検索してみましょう。

In [None]:
# テキストから画像を検索し、表示する

# SEARCH_TEXTに検索したいテキストを設定してください。
SEARCH_TEXT = '黄色い花'
text_embeddings = text_model.encode(SEARCH_TEXT).tolist()

with engine.connect() as conn:
    with conn.begin():
        sql = text("""
            SELECT TOP 5 imgid, VECTOR_COSINE(imgembedding , TO_VECTOR(:txtemb, FLOAT)) as sim FROM MeetUp2025.SampleImage
            ORDER BY sim DESC
        """)

        results = conn.execute(sql, {'txtemb': str(text_embeddings)}).fetchall()

for imgfile in results:
    print('類似度 = ' + str(imgfile[1]))
    img = Image.open(img_dir + '/' + imgfile[0])
    plt.figure(figsize=(5,5))
    plt.imshow(img)
    plt.axis('off')
    plt.show()

## 以下のデータセットの画像を利用しています。
## recruit-jp/japanese-image-classification-evaluation-dataset
##  Developed by Recruit Co., Ltd.

### 指定した画像に似ている画像を検索することもできます。

In [None]:
# 検索に使う画像の表示
img = Image.open(img_dir + '/query.jpg')
plt.figure(figsize=(5,5))
plt.imshow(img)
plt.axis('off')
plt.show()

In [None]:
# 画像から類似の画像を検索し、表示する

img_embeddings = img_model.encode(img).tolist()
with engine.connect() as conn:
    with conn.begin():
        sql = text("""
            SELECT TOP 5 imgid FROM MeetUp2025.SampleImage
            ORDER BY VECTOR_COSINE(imgembedding , TO_VECTOR(:txtemb, FLOAT)) DESC
        """)

        results = conn.execute(sql, {'txtemb': str(img_embeddings)}).fetchall()

for imgfile in results:
    img = Image.open(img_dir + '/' + imgfile[0])
    plt.figure(figsize=(5,5))
    plt.imshow(img)
    plt.axis('off')
    plt.show()

## 以下、事前準備として、Google Driveにある画像ファイルをベクトル化してIRISに保存するコードです。ワークショップ中に実行する必要はありません。

In [None]:
def load_image(url_or_path):
    if url_or_path.startswith("http://") or url_or_path.startswith("https://"):
        return Image.open(requests.get(url_or_path, stream=True).raw)
    else:
        return Image.open(url_or_path)

In [None]:
img_paths = os.listdir(img_dir)
print(len(img_paths))

with engine.connect() as con:
  n = 5776
  NBATCH = 5
  while n < len(img_paths):

      images = [load_image(img_dir + '/' + img) for img in img_paths[n:n+NBATCH] if '.jpg' in img]
      imgids = [img for img in img_paths[n:n+NBATCH] if '.jpg' in img]
      #print(imgids)
      # Map images to the vector space
      img_embeddings = img_model.encode(images).tolist()
      #print(img_embeddings)
      print(len(img_embeddings))
      #print(len(imgids))
      n = n + NBATCH

      with con.begin():
        for imgid in imgids:
          img = img_embeddings[imgids.index(imgid)]
          sql = text("""INSERT INTO MeetUp2025.SampleImage (imgid, imgembedding) values (:imid, TO_VECTOR(:emb, FLOAT))""")
          con.execute(sql, {'imid': imgid, 'emb': str(img)})
          print('inserted ' + imgid)
