# あなたの文章に合った「いらすとや」画像をレコメンド♪（Sentence-BERT編）

解説記事: https://qiita.com/sonoisa/items/1df94d0a98cd4f209051

## アルゴリズムの概要

本アプリの基本的なアイディアは次のとおりです。

1. 与えられた文や画像の説明文を、それぞれSentence-BERTを用いて文の分散表現（つまりはベクトル）に変換する。
1. 与えられた文と画像の説明文の意味の近さを、それぞれの文の分散表現を使って計算する（意味の近さ = 2つのベクトルのなす角の小ささ = コサイン類似度の大きさとする）。
1. コサイン類似度が大きい説明文を持つ画像トップN個を選ぶことで、与えられた文と意味が近い画像を発見できる。

模式図にすると、次のようになります。

<img src="https://camo.qiitausercontent.com/fb62a6b8a0fd447e1ff1370e83ff0b636a3f9a36/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f32363036322f33393935316266392d663630322d383565332d646239662d6235353764663164376266642e706e67" width="800">

## 準備

In [19]:
# 利用できるGPUの確認
!nvidia-smi

Sun Mar 12 07:22:45 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   59C    P0    30W /  70W |   1289MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

### パスワード設定

**※勉強会に用いるデータセットの解凍にはパスワードが必要です（一般には公開しません）。**  
**※次の変数 RESOURCES_PASSWORD に解凍用の秘密のパスワードを設定してから、以降の処理を実行してください。**

In [1]:
# データセットの解凍用パスワード
RESOURCES_PASSWORD = ""

### 依存ライブラリのインストール

インストールに5分程度かかります。気長にお待ちください。

In [2]:
!pip install -q transformers==4.26.1 fugashi ipadic gdown

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m44.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m613.3/613.3 KB[0m [31m30.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.4/13.4 MB[0m [31m63.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.2/199.2 KB[0m [31m1.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m67.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for ipadic (setup.py) ... [?25l[?25hdone


### 「いらすとや」さんの画像メタデータのダウンロード

In [3]:
!gdown "https://drive.google.com/uc?export=view&id=1NQ66ZynRY63SIlk2i4OhMj837YDucLR9"

Downloading...
From: https://drive.google.com/uc?export=view&id=1NQ66ZynRY63SIlk2i4OhMj837YDucLR9
To: /content/ii20210224.zip
  0% 0.00/3.63M [00:00<?, ?B/s]100% 3.63M/3.63M [00:00<00:00, 204MB/s]


### データの解凍

In [4]:
!unzip -P {RESOURCES_PASSWORD} ii20210224.zip

Archive:  ii20210224.zip
  inflating: irasuto_items.json      


### 画像メタデータを読み込む

LINEスタンプはイラストではないため除外します。

In [5]:
import json

with open('irasuto_items.json', 'r', encoding="utf-8") as items_file:
    items = json.load(items_file)

items = [item for item in items \
             if "LINEスタンプ" not in item["title"] and \
             "LINEのスタンプ" not in item["title"]]

### 正規化処理の定義

neologdの正規化処理を少し変えたものを利用します。

- neologdの正規化処理: https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja

In [6]:
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja から引用・一部改変
from __future__ import unicode_literals
import re
import unicodedata

def unicode_normalize(cls, s):
    pt = re.compile('([{}]+)'.format(cls))

    def norm(c):
        return unicodedata.normalize('NFKC', c) if pt.match(c) else c

    s = ''.join(norm(x) for x in re.split(pt, s))
    s = re.sub('－', '-', s)
    return s

def remove_extra_spaces(s):
    s = re.sub('[ 　]+', ' ', s)
    blocks = ''.join(('\u4E00-\u9FFF',  # CJK UNIFIED IDEOGRAPHS
                      '\u3040-\u309F',  # HIRAGANA
                      '\u30A0-\u30FF',  # KATAKANA
                      '\u3000-\u303F',  # CJK SYMBOLS AND PUNCTUATION
                      '\uFF00-\uFFEF'   # HALFWIDTH AND FULLWIDTH FORMS
                      ))
    basic_latin = '\u0000-\u007F'

    def remove_space_between(cls1, cls2, s):
        p = re.compile('([{}]) ([{}])'.format(cls1, cls2))
        while p.search(s):
            s = p.sub(r'\1\2', s)
        return s

    s = remove_space_between(blocks, blocks, s)
    s = remove_space_between(blocks, basic_latin, s)
    s = remove_space_between(basic_latin, blocks, s)
    return s

def normalize_neologd(s):
    s = s.strip()
    s = unicode_normalize('０-９Ａ-Ｚａ-ｚ｡-ﾟ', s)

    def maketrans(f, t):
        return {ord(x): ord(y) for x, y in zip(f, t)}

    s = re.sub('[˗֊‐‑‒–⁃⁻₋−]+', '-', s)  # normalize hyphens
    s = re.sub('[﹣－ｰ—―─━ー]+', 'ー', s)  # normalize choonpus
    s = re.sub('[~∼∾〜〰～]+', '〜', s)  # normalize tildes (modified by Isao Sonobe)
    s = s.translate(
        maketrans('!"#$%&\'()*+,-./:;<=>?@[¥]^_`{|}~｡､･｢｣',
              '！”＃＄％＆’（）＊＋，－．／：；＜＝＞？＠［￥］＾＿｀｛｜｝〜。、・「」'))

    s = remove_extra_spaces(s)
    s = unicode_normalize('！”＃＄％＆’（）＊＋，－．／：；＜＞？＠［￥］＾＿｀｛｜｝〜', s)  # keep ＝,・,「,」
    s = re.sub('[’]', '\'', s)
    s = re.sub('[”]', '"', s)
    s = s.upper()
    return s

def normalize_text(text):
    return normalize_neologd(text)

### タイトルや説明文の「〜のイラスト」などの冗長な表現を削除する前処理

In [7]:
def normalize_title(title):
    title = title.strip()
    
    match = re.match(r"^「([^」]+)」$", title)
    if match:
        title = match.group(1)

    match = re.match(r"^POP素材「([^」]+)」$", title)
    if match:
        title = match.group(1)
    
    title = re.sub(r"(の?(?:イラスト|イラストの|イラストト|イ子のラスト|イラス|イラスト文字|「イラスト文字」|イラストPOP文字|ペンキ文字|タイトル文字|イラスト・メッセージ|イラスト文字・バナー|キャラクター(たち)?|マーク|アイコン|シルエット|シルエット素材|フレーム（枠）|フレーム|フレーム素材|テンプレート|パターン|パターン素材|ライン素材|コーナー素材|リボン型バナー|評価スタンプ|背景素材))+(\s*([0-9０-９]*|その[0-9０-９]+))(です。)?", "", title)
    
    title = normalize_text(title)
    
    if title.strip() == "":
        raise ValueError(title)
    
    return title

### タイトルと説明文の正規化を実行

説明文がなければタイトルを説明文の代わりにします。

In [8]:
for item in items:
    try:
        title = item["title"]
        normalized_title = normalize_title(title)
        item["normalized_title"] = normalized_title

        desc = item["desc"]
        if desc.strip() == "":
            # 説明文がない場合は、タイトルを説明文にする
            item["normalized_desc"] = normalized_title
            item["desc"] = title
        else:
            normalized_desc = normalize_title(desc)
            item["normalized_desc"] = normalized_desc
            # print(desc, normalized_desc)
    except:
        continue


### Sentence-BERTクラスの定義

In [9]:
from transformers import BertJapaneseTokenizer, BertModel
import torch


class SentenceBertJapanese:
    def __init__(self, model_name_or_path, device=None):
        self.tokenizer = BertJapaneseTokenizer.from_pretrained(model_name_or_path)
        self.model = BertModel.from_pretrained(model_name_or_path)
        self.model.eval()

        if device is None:
            device = "cuda" if torch.cuda.is_available() else "cpu"
        self.device = torch.device(device)
        self.model.to(device)

    def _mean_pooling(self, model_output, attention_mask):
        token_embeddings = model_output[0] #First element of model_output contains all token embeddings
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
        return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

    @torch.no_grad()
    def encode(self, sentences, batch_size=8):
        all_embeddings = []
        iterator = range(0, len(sentences), batch_size)
        for batch_idx in iterator:
            batch = sentences[batch_idx:batch_idx + batch_size]

            encoded_input = self.tokenizer.batch_encode_plus(batch, padding="longest", 
                                           truncation=True, return_tensors="pt").to(self.device)
            model_output = self.model(**encoded_input)
            sentence_embeddings = self._mean_pooling(model_output, encoded_input["attention_mask"]).to('cpu')

            all_embeddings.extend(sentence_embeddings)

        # return torch.stack(all_embeddings).numpy()
        return torch.stack(all_embeddings)

Sentence-BERTモデルを読み込む

In [10]:
model = SentenceBertJapanese("sonoisa/sentence-bert-base-ja-mean-tokens")

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/258k [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/241 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'BertJapaneseTokenizer'.


Downloading pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

### 文の分散表現の計算方法の定義

与えられた文を、文の分散表現に変換する関数 get_sentence_vector を定義します。  
今回採用した文の分散表現の計算方法は次の通りです。

1. 正規化を行う。
2. 1の文をSentence-BERTを用いて文の分散表現を計算する。

In [11]:
def get_sentence_vector(sentence):
    sentence = normalize_text(sentence)
    return model.encode([sentence])[0].numpy()

試しに文ベクトルを計算してみます。

In [12]:
get_sentence_vector("与えられた文から文の分散表現を計算します。")

array([-9.07196224e-01,  5.25513351e-01, -1.59523058e+00, -1.04668450e+00,
       -7.37658381e-01,  4.52362716e-01, -3.74935150e-01,  2.58568466e-01,
        2.98398174e-03,  6.77360892e-01,  9.50184345e-01,  1.24125116e-01,
       -6.43323541e-01,  5.91423884e-02, -1.96929872e-01, -1.85807660e-01,
        8.88432004e-03,  4.27623928e-01,  5.24863675e-02,  9.10040796e-01,
        1.22919559e+00,  2.63807505e-01,  1.04527020e+00,  3.72871943e-02,
        4.92841989e-01, -1.20458588e-01, -1.69820607e-01, -1.04896462e+00,
       -1.72845647e-02, -2.08393663e-01, -5.23855209e-01, -2.50867140e-02,
       -9.69365299e-01, -5.82301259e-01,  2.11963654e-01,  6.73911691e-01,
        6.10183060e-01, -6.55089140e-01, -2.06699744e-01,  4.44268286e-01,
       -1.11041689e+00, -6.15053117e-01, -4.94100749e-01, -4.03978564e-02,
        6.49145022e-02,  2.19064808e+00, -4.47672307e-02,  4.31178153e-01,
       -2.18916655e-01,  4.08493042e-01,  8.20284784e-01, -1.19899780e-01,
       -6.76332176e-01,  

## 説明文の分散表現の計算実行

画像メタデータに説明文の分散表現を追加します。

In [13]:
from tqdm import tqdm
for item in tqdm(items):
    desc = item["desc"]
    desc_vec = get_sentence_vector(desc)
    item["vec"] = desc_vec

100%|██████████| 24995/24995 [05:10<00:00, 80.62it/s]


## コサイン類似度の定義

今回は、文の意味の近さを、文の分散表現のコサイン類似度によって測ります。  
文の意味が近ければ、文の分散表現（ベクトル）v1とv2が近くなるという定性的性質を、ベクトルの成す角のcosによって測るということです。

In [14]:
import numpy as np

def cos_sim(v1, v2):
    v1 = v1 / np.linalg.norm(v1, axis=0, ord=2)
    v2 = v2 / np.linalg.norm(v2, axis=0, ord=2)
    return np.sum(v1 * v2)

## 画像検索結果GUIの定義

最後のステップです。画像を検索する関数を定義します。  
いままで作った関数を使えば、次の処理からなる検索アルゴリズム（最初の図も参照）を簡単に実装できますね。  

1. 与えられた文から文の分散表現を計算する。
2. その分散表現と、説明文の分散表現の間のコサイン類似度を計算する。
3. コサイン類似度の高い順に画像の関連情報を表示する。

**※なお「いらすとや」さんの広告収入モデルに悪影響を与えないよう、必ず「いらすとや」さんのページへのリンクを張り、画像のダウンロードは「いらすとや」さんのページから行うようにしましょう。その他、[「いらすとや」さんの利用規約](https://www.irasutoya.com/p/terms.html)に違反しないよう十分ご注意ください。**


In [15]:
from IPython.display import display, HTML, clear_output
from html import escape
import numpy as np

def search_irasuto(sentence, top_n=3):
    sentence_vector = get_sentence_vector(sentence)
    sims = []
    if sentence_vector is None:
        print("検索できない文章です。もう少し文章を長くしてみてください。")
    else:
        for item in items:
            v = item["vec"]
            if v is None:
                sims.append(-1.0)
            else:
                sim = cos_sim(sentence_vector, v)
                sims.append(sim)
    
    count = 0
    for index in np.argsort(sims)[::-1]:
        if count >= top_n:
            break
        item = items[index]
        desc = escape(item["desc"])
        imgs = item["imgs"]
        if len(imgs) == 0:
            continue
        img = imgs[0]
        page = item["page"]
        sim = sims[index]
        display(HTML("<div><a href='" + page + "' target='_blank' rel='noopener noreferrer'><img src='" + img + "' width='100'>" + str(sim) + ": " + desc + "</a><div>"))
        count += 1

## アプリの動作確認

さあ、これでアルゴリズムは完成しました。早速、試してみましょう。  

In [16]:
search_irasuto(sentence="暴走したAI", top_n=5)

In [17]:
search_irasuto(sentence="リモートワークで勉強会", top_n=5)

In [18]:
search_irasuto(sentence="いらすとやさんに惜しみない拍手を", top_n=5)