# 目的
AkaNeでは配信していたクリエイティブが、ReeMoでは却下になっているケースがある。

AkaNeとReeMoで同じクリエイティブがあるかを判断したい。

テキストは空白を削除して一致するかどうかで判断できるが、画像は判断ができないので、

簡単な類似度の計算で一致率を算出し、それをもとに対応表を作りたい。

# 想定している設計
1. AkaNeで配信していたクリエイティブのURLを、BigQueryから取得する。
2. 大画像(横長の画像)と小画像(正方形の画像)で分けで、取得したURLから画像をダウンロードする。
3. ReeMoでも1. と2. を行う
4. ReeMoの画像サイズがAkaNeと異なる可能性があるため、ReeMoの画像をAkaNeの画像サイズにそろえる(縦横比は変えない)
5. AkaNeの小画像とReeMoの小画像で、類似度を計算する。類似度の計算方法は下記のリンクを参考にする。画素値が良さそう。
6. もっとも類似度が高い組み合わせを残し、次のデータフレームを作る
|AkaNeのcreative_id|AkaNeの画像URL|ReeMoのcreative_id|ReeMoの画像URL|類似度|
7. 5と6の処理を大画像でも行う。
8. できたデータフレームをBigQueryにアップロードする。

https://qiita.com/jun_higuche/items/752ef756a182261fcc55

#AkaNeの原稿の画像のダウンロードする
「N連/TAXEL枠で同じようなクリエイティブを被らせない」に対応するため、機械学習モデルに使用する教師データに利用する目的でダウンロードする。

https://trello.com/c/6x7HZJpU

BigQueryに画像URLが入っているので、そこからURLリストを取得するためにBQと接続する。

In [None]:
from google.colab import auth
auth.authenticate_user()

必要なライブラリをインポート

In [None]:
!pip install imagehash



In [None]:
import pandas as pd
import os
import pprint
import time
import urllib.error
import urllib.request
import shutil
import hashlib
from glob import glob

Colab上でSQLを実行し、画像URLをDataFrameで取得する。

ラベル付けできない「その他」の画像が多くなってしまうため、取得する画像の業種を美容アフィ系の業種に絞った。

In [None]:
%%bigquery --project gmo-am-pmp image_url_df
#StandardSQL
#StandardSQL
CREATE TEMPORARY FUNCTION START_DATE() AS ("20230929");
CREATE TEMPORARY FUNCTION END_DATE() AS ("20230929");
WITH
  AKANE_REPORT AS
  (
  SELECT
    ad_id,
    sponsor_id,
    campaign_id,
    SUM(gross_sum) AS gross
  FROM
    `gmo-am-pmp.adcloud_analysis.report_master_*`
  WHERE
    _TABLE_SUFFIX BETWEEN START_DATE() AND END_DATE()
    AND ad_id != 0
    AND network_id = 211
  GROUP BY
    ad_id,
    sponsor_id,
    campaign_id
    ),
  CREATIVE AS
  (
  SELECT
    id,
    title,
    text,
    destination,
    alter_destination,
    sponsor_id
  FROM
    `gmo-am-pmp.adcloud_analysis.creatives_master_*`
  WHERE
    _TABLE_SUFFIX BETWEEN START_DATE() AND END_DATE()
  GROUP BY
    id,
    title,
    text,
    destination,
    alter_destination,
    sponsor_id
    ),
  SPONSOR AS
  (
  SELECT
    id,
    company_name
  FROM
    `gmo-am-pmp.adcloud_analysis.sponsor_master_*`
  WHERE
    _TABLE_SUFFIX = END_DATE()
  GROUP BY
    id,
    company_name
   ),
  CAMPAGIN AS
  (
  SELECT
    id,
    name,
    sector_id
  FROM
    `gmo-am-pmp.adcloud_analysis.campaign_master_*`
  WHERE
    _TABLE_SUFFIX = END_DATE()
  GROUP BY
    id,
    name,
    sector_id
    ),
  ADS_MASTER AS
  (
  SELECT
    id,
    creative_id
  FROM
    `gmo-am-pmp.adcloud_analysis.ads_master_*`
  WHERE
    _TABLE_SUFFIX = END_DATE()
   GROUP BY
    id,
    creative_id
    )
SELECT
  AKANE_REPORT.ad_id,
  AKANE_REPORT.sponsor_id,
  SPONSOR.company_name,
  AKANE_REPORT.campaign_id,
  CAMPAGIN.name,
  CREATIVE.title,
  CREATIVE.text,
  CONCAT("https://adn-i.sp.gmossp-sp.jp", CREATIVE.destination) AS large_image,
  CONCAT("https://adn-i.sp.gmossp-sp.jp", CREATIVE.alter_destination) AS small_image
FROM
  AKANE_REPORT
  INNER JOIN
    ADS_MASTER
    ON
      AKANE_REPORT.ad_id = ADS_MASTER.id
      INNER JOIN
        CREATIVE
          ON
            ADS_MASTER.creative_id = CREATIVE.id
            INNER JOIN
              SPONSOR
                ON
                  AKANE_REPORT.sponsor_id = SPONSOR.id
                  INNER JOIN
                    CAMPAGIN
                      ON
                        AKANE_REPORT.campaign_id = CAMPAGIN.id
GROUP BY
  AKANE_REPORT.ad_id,
  AKANE_REPORT.sponsor_id,
  SPONSOR.company_name,
  AKANE_REPORT.campaign_id,
  CAMPAGIN.name,
  CREATIVE.title,
  CREATIVE.text,
  large_image,
  small_image
ORDER BY
  AKANE_REPORT.sponsor_id ASC
;

取得したデータを確認

In [None]:
image_url_df.head()

Unnamed: 0,ad_id,sponsor_id,company_name,campaign_id,name,title,text,large_image,small_image
0,4155539,6892,株式会社ナチュラルプランツ,77226,[カテゴリB]【リーチ】インフィード配信_libido,気になる人以外してはいけない,100人中92人の男性が「Hしたい」とスイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/2e5/ae...
1,4338500,6892,株式会社ナチュラルプランツ,42306,[カテゴリB]★【運用】インフィード配信_リターゲティング,もっと私に夢中になって欲しい！,涙が出るほど気持ちいいHって？男性が溺愛する夜のテクニック傑作3選,,https://adn-i.sp.gmossp-sp.jp/creatives/2c7/67...
2,5123945,6892,株式会社ナチュラルプランツ,45552,[カテゴリB]【リーチ】インフィード配信_ブロード_CPM配信,もっと早く知りたかった…,男性100人中92人が「Hしたくなる」興奮スイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/fe9/fd...
3,5183288,6892,株式会社ナチュラルプランツ,103592,[カテゴリB]【リーチ】インフィード配信_libido_クリエイティブテスト,もっと早く知りたかった…,男性100人中92人が「Hしたくなる」興奮スイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/0d0/46...
4,5183300,6892,株式会社ナチュラルプランツ,103595,[カテゴリB]【リーチ】インフィード配信_kiji02_クリエイティブテスト,もっと私に夢中になって欲しい！,涙が出るほど気持ちいいHって？男性が溺愛する夜のテクニック傑作4選,,https://adn-i.sp.gmossp-sp.jp/creatives/f4b/30...


In [None]:
len(image_url_df.index)

2764

画像名のカラムを作成

In [None]:
image_url_df['image_name'] = image_url_df['small_image'].replace('.*/','',regex=True)

データを確認

In [None]:
image_url_df.head()

Unnamed: 0,ad_id,sponsor_id,company_name,campaign_id,name,title,text,large_image,small_image,image_name
0,4155539,6892,株式会社ナチュラルプランツ,77226,[カテゴリB]【リーチ】インフィード配信_libido,気になる人以外してはいけない,100人中92人の男性が「Hしたい」とスイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/2e5/ae...,09b95715c68979a71627984395599672_original.jpg
1,4338500,6892,株式会社ナチュラルプランツ,42306,[カテゴリB]★【運用】インフィード配信_リターゲティング,もっと私に夢中になって欲しい！,涙が出るほど気持ちいいHって？男性が溺愛する夜のテクニック傑作3選,,https://adn-i.sp.gmossp-sp.jp/creatives/2c7/67...,b17243fe30c132d61631260917701746_original.jpg
2,5123945,6892,株式会社ナチュラルプランツ,45552,[カテゴリB]【リーチ】インフィード配信_ブロード_CPM配信,もっと早く知りたかった…,男性100人中92人が「Hしたくなる」興奮スイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/fe9/fd...,d7fbd150ef97dcdb16466205538062036_original.jpg
3,5183288,6892,株式会社ナチュラルプランツ,103592,[カテゴリB]【リーチ】インフィード配信_libido_クリエイティブテスト,もっと早く知りたかった…,男性100人中92人が「Hしたくなる」興奮スイッチが入るのは女性の…,,https://adn-i.sp.gmossp-sp.jp/creatives/0d0/46...,9147b8f29fd2c78a16480934986748006_original.jpg
4,5183300,6892,株式会社ナチュラルプランツ,103595,[カテゴリB]【リーチ】インフィード配信_kiji02_クリエイティブテスト,もっと私に夢中になって欲しい！,涙が出るほど気持ちいいHって？男性が溺愛する夜のテクニック傑作4選,,https://adn-i.sp.gmossp-sp.jp/creatives/f4b/30...,28cd2ceace7b59ef16480939326289372_original.jpg


URLをlistで取得

In [None]:
small_df = image_url_df.dropna(subset=['small_image'])
url_list = small_df['small_image'].values.tolist()
print(url_list)
print(len(url_list))

['https://adn-i.sp.gmossp-sp.jp/creatives/2e5/ae0/e8a/09b95715c68979a71627984395599672_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/2c7/67f/b71/b17243fe30c132d61631260917701746_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/fe9/fdb/ee1/d7fbd150ef97dcdb16466205538062036_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/0d0/46a/c6c/9147b8f29fd2c78a16480934986748006_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/f4b/306/728/28cd2ceace7b59ef16480939326289372_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/7c2/c25/e84/38ca3b49fc68cfaf16312569531712809_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/3d2/7c1/1e8/406215500c0338a416312569553030784_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/71c/2a1/156/6f8d5a4febdaedd21646620874684182_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/214/619/397/a8444a7c511d7c8f16480939209482224_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/1a3/059/126/85e446608c15f160164809392908490

打増をダウンロードする関数を定義

In [None]:
def download_file(url, dst_path):
    try:
        with urllib.request.urlopen(url) as web_file, open(dst_path, 'wb') as local_file:
            local_file.write(web_file.read())
    except urllib.error.URLError as e:
        print(e)

def download_file_to_dir(url, dst_dir):
    download_file(url, os.path.join(dst_dir, os.path.basename(url)))

ダウンロード先のディレクトリを指定

In [None]:
download_dir = '/content/train_images'

指定したディレクトリにフォルダを作成

In [None]:
try:
    shutil.rmtree(download_dir)
except FileNotFoundError:
    pass

#同名のフォルダを作成する
os.mkdir(download_dir)

URLのリストから画像をダウンロード

In [None]:
sleep_time_sec = 0.5

for i,url in enumerate(url_list):
    print(url,end=', ')
    print(i+1,end='/')
    print(len(url_list))
    download_file_to_dir(url, download_dir)
    time.sleep(sleep_time_sec)

https://adn-i.sp.gmossp-sp.jp/creatives/2e5/ae0/e8a/09b95715c68979a71627984395599672_original.jpg, 1/1712
https://adn-i.sp.gmossp-sp.jp/creatives/2c7/67f/b71/b17243fe30c132d61631260917701746_original.jpg, 2/1712
https://adn-i.sp.gmossp-sp.jp/creatives/fe9/fdb/ee1/d7fbd150ef97dcdb16466205538062036_original.jpg, 3/1712
https://adn-i.sp.gmossp-sp.jp/creatives/0d0/46a/c6c/9147b8f29fd2c78a16480934986748006_original.jpg, 4/1712
https://adn-i.sp.gmossp-sp.jp/creatives/f4b/306/728/28cd2ceace7b59ef16480939326289372_original.jpg, 5/1712
https://adn-i.sp.gmossp-sp.jp/creatives/7c2/c25/e84/38ca3b49fc68cfaf16312569531712809_original.jpg, 6/1712
https://adn-i.sp.gmossp-sp.jp/creatives/3d2/7c1/1e8/406215500c0338a416312569553030784_original.jpg, 7/1712
https://adn-i.sp.gmossp-sp.jp/creatives/71c/2a1/156/6f8d5a4febdaedd21646620874684182_original.jpg, 8/1712
https://adn-i.sp.gmossp-sp.jp/creatives/214/619/397/a8444a7c511d7c8f16480939209482224_original.jpg, 9/1712
https://adn-i.sp.gmossp-sp.jp/creatives/

ダウンロードした中で、まったく同じ画像を削除(同じ画像にラベルを付ける手間の削減&学習データに偏りを生まないため)

In [None]:
flist = []
fmd5 = []
dl = []

dirname = '/content/train_images/*'

flist.extend(glob('/content/train_images/*'))

for fn in flist:
  with open(fn, 'rb') as fin:
    data = fin.read()
    m = hashlib.md5(data)
    fmd5.append(m.hexdigest())

for i in range(len(flist)):
  if flist[i] in dl: continue
  for j in range(i+1, len(flist)):
    if flist[j] in dl: continue
    if fmd5[i] == fmd5[j] and not flist[j] in dl:
      dl.append(flist[j])

for a in dl: os.remove(a)
print(dl)

['/content/train_images/6895b332c1568d341650429353284436_original.jpg', '/content/train_images/a0c184908efd90fd16504294098724542_original.jpg', '/content/train_images/c0ea031d9a9cf83f16504293761872091_original.jpg', '/content/train_images/ef1c2095686be36916504293838092988_original.jpg', '/content/train_images/4eb43171d3be75c51650429323184824_original.jpg', '/content/train_images/10ee97a698b8499d16504500749816797_original.jpg', '/content/train_images/3a640c4f44132d7a16508822227836437_original.jpg', '/content/train_images/1389729702d1038316504500634241493_original.jpg', '/content/train_images/20c8a8729ff6ca8316508821932536216_original.jpg', '/content/train_images/abd6ada6e3d61d9f16508822105636656_original.jpg', '/content/train_images/504d9fd89e55dfc116508822046801372_original.jpg', '/content/train_images/de314417406e0c4116508822171059039_original.jpg', '/content/train_images/b4369fddedb2817e1650882198707902_original.jpg', '/content/train_images/423525dd87dd655516504500577431254_original.

ダウンロードした画像をzipに圧縮してローカルに保存(モデルの再学習に使用する)

In [None]:
# ダウンロードしたいフォルダを zip 圧縮する
!zip -r /content/download.zip /content/train_images

# 圧縮した zip ファイルをダウンロードする
from google.colab import files
files.download("/content/download.zip")

  adding: content/train_images/ (stored 0%)
  adding: content/train_images/4fa98b44b733e46c1650429344497194_original.jpg (deflated 2%)
  adding: content/train_images/e8458a3aa4074f8f16504500721527667_original.jpg (deflated 1%)
  adding: content/train_images/d15e5262ce8e902d16449162236835635_original.jpg (deflated 1%)
  adding: content/train_images/5a6b1ca34ca08d8616369414727677505_original.jpeg (deflated 1%)
  adding: content/train_images/1ce819af4cffec6016298618230719728_original.jpg (deflated 0%)
  adding: content/train_images/d0ff2eca447a371816469711652504556_original.jpg (deflated 1%)
  adding: content/train_images/762f8339359fa98816475857864283366_original.jpg (deflated 1%)
  adding: content/train_images/34ee363feeb9f42b16469725682419007_original.jpg (deflated 1%)
  adding: content/train_images/1d3c426769bc28d216479405102311106_original.jpg (deflated 1%)
  adding: content/train_images/63fff5333cfc75af1649992496344807_original.jpg (deflated 1%)
  adding: content/train_images/a96a94

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

画像URLとad_idの対応表をCSVで保存(画像に対応するラベルを与えるのに使用する)

In [None]:
small_df[['ad_id','sponsor_id','campaign_id','small_image','image_name']].to_csv('/content/small_url.csv',encoding='utf_8_sig')

学習データには使用しないが、テスト用に大画像でも同じことした。

In [None]:
image_url_df['large_image_name'] = image_url_df['large_image'].replace('.*/','',regex=True)

In [None]:
large_df = image_url_df.dropna(subset=['large_image'])
url_list = large_df['large_image'].values.tolist()
print(url_list)
print(len(url_list))

['https://adn-i.sp.gmossp-sp.jp/creatives/6bf/f03/664/c1d776b99b5598e216312609218849578_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/592/c23/476/736e49626783715e1624518992219339_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/de5/f62/561/571b94cf176f3b161631260923879258_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/524/3ca/7c9/d49967736a8dabca16451542274209013_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/e3a/e84/b80/66c31f7eb8cfa74d16158798319431522_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/113/695/2ae/ad26e5b54f70e87516245190239394546_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/87f/c36/eb0/845fe1bc1ff155fe16451542497488358_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/efb/9e0/f51/948423583410db2a16172658063838065_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/28d/111/fa9/54aab583e67a468316312569572937546_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/b52/4d4/d61/e31a98e2a448dd9816451542047144

In [None]:
def download_file(url, dst_path):
    try:
        with urllib.request.urlopen(url) as web_file, open(dst_path, 'wb') as local_file:
            local_file.write(web_file.read())
    except urllib.error.URLError as e:
        print(e)

def download_file_to_dir(url, dst_dir):
    download_file(url, os.path.join(dst_dir, os.path.basename(url)))

In [None]:
sleep_time_sec = 0.5

for i,url in enumerate(url_list):
    print(url,end=', ')
    print(i+1,end='/')
    print(len(url_list))
    download_file_to_dir(url, download_dir)
    time.sleep(sleep_time_sec)

https://adn-i.sp.gmossp-sp.jp/creatives/efb/9e0/f51/948423583410db2a16172658063838065_original.jpg, 1/1643
https://adn-i.sp.gmossp-sp.jp/creatives/28d/111/fa9/54aab583e67a468316312569572937546_original.jpg, 2/1643
https://adn-i.sp.gmossp-sp.jp/creatives/b52/4d4/d61/e31a98e2a448dd9816451542047144487_original.jpg, 3/1643
https://adn-i.sp.gmossp-sp.jp/creatives/7f6/bd5/5ea/cb56949ffd5f5ce716357630183286493_original.jpg, 4/1643
https://adn-i.sp.gmossp-sp.jp/creatives/ef6/80d/f73/2510f8e9d9f743cd16154565077495656_original.jpg, 5/1643
https://adn-i.sp.gmossp-sp.jp/creatives/717/6dc/db4/0f5eca7939f92dbd160385481660628_original.jpg, 6/1643
https://adn-i.sp.gmossp-sp.jp/creatives/d77/b70/e65/42e861c8e7fc052a16312569589516797_original.jpg, 7/1643
https://adn-i.sp.gmossp-sp.jp/creatives/6bf/f03/664/c1d776b99b5598e216312609218849578_original.jpg, 8/1643
https://adn-i.sp.gmossp-sp.jp/creatives/592/c23/476/736e49626783715e1624518992219339_original.jpg, 9/1643
https://adn-i.sp.gmossp-sp.jp/creatives/

In [None]:
flist = []
fmd5 = []
dl = []

dirname = '/content/train_images/*'

flist.extend(glob('/content/train_images/*'))

for fn in flist:
  with open(fn, 'rb') as fin:
    data = fin.read()
    m = hashlib.md5(data)
    fmd5.append(m.hexdigest())

for i in range(len(flist)):
  if flist[i] in dl: continue
  for j in range(i+1, len(flist)):
    if flist[j] in dl: continue
    if fmd5[i] == fmd5[j] and not flist[j] in dl:
      dl.append(flist[j])

for a in dl: os.remove(a)
print(dl)

['/content/train_images/afbdcfa594587cd716480066301329925_original.jpg', '/content/train_images/164b4541b056938516479405679844048_original.jpg', '/content/train_images/b52b06124736f50b16480040323287985_original.jpg', '/content/train_images/7702e95a6781e2ce16480066341006804_original.jpg', '/content/train_images/1418a19d231af1191648006627538242_original.jpg', '/content/train_images/bb07e4817807f74d16472486481218214_original.jpg', '/content/train_images/0986d47485f2d4a21647940580001679_original.jpg', '/content/train_images/b64d62d489bf949e16478270772803195_original.jpg', '/content/train_images/af2e15ce004ed35116480066339296062_original.jpg', '/content/train_images/f89871ae6cca848e16472486446611166_original.jpg', '/content/train_images/96fe6f24c303eda316479405710059414_original.jpg', '/content/train_images/1c021f6d71e6669616479405769904213_original.jpg', '/content/train_images/d5aa89c689b9d89716479405737946873_original.jpg', '/content/train_images/c5d0a1ded7afb7051646799066951064_original.

In [None]:
large_df[['ad_id','sponsor_id','campaign_id','large_image','image_name']].to_csv('/content/large_url.csv',encoding='utf_8_sig')

In [None]:
# ダウンロードしたいフォルダを zip 圧縮する
!zip -r /content/download.zip /content/train_images

# 圧縮した zip ファイルをダウンロードする
from google.colab import files
files.download("/content/download.zip")

  adding: content/train_images/ (stored 0%)
  adding: content/train_images/c15f7fc4de3659d216480066240091183_original.jpg (deflated 1%)
  adding: content/train_images/bd5a3bb58193a6151647942543472504_original.jpg (deflated 0%)
  adding: content/train_images/3e619302a6a3c1dd16487025415584114_original.jpg (deflated 1%)
  adding: content/train_images/177fcf543c62175b16479248251014206_original.jpg (deflated 0%)
  adding: content/train_images/b98a56a65014e05d1631589534671655_original.jpg (deflated 0%)
  adding: content/train_images/ea990da3ea858d7b16461896362481_original.jpg (deflated 1%)
  adding: content/train_images/4ae6f0339e7925c916484288600642624_original.jpg (deflated 1%)
  adding: content/train_images/149aacad77c85c7e16484562528995793_original.jpg (deflated 11%)
  adding: content/train_images/67295ab4c7b9f67c16462753637951944_original.jpg (deflated 1%)
  adding: content/train_images/58e5f20f06ea782516480066850308826_original.jpg (deflated 2%)
  adding: content/train_images/97596107e

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# ReeMoの画像をダウンロードする

In [None]:
%%bigquery --project gmo-am-pmp image_url_df
with
report AS (
SELECT
  creative_id,
  SUM(amount) AS gross
FROM
  `reemo-173606.reemo_report.report_creative_dailies_*`
where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))
GROUP BY
  creative_id
),
creatives as(
select
  --advertiser_id,
  id,
  creative_group_id,
  creative_id,
  image_id,
  image,
  flg,
  --small_image_id,
  --small_image,
  --large_image_id,
  --large_image,
  title_id,
  title,
  text_id,
  text
from
  `reemo-173606.reemo_dump.natives_2*`
  left join (select native_id id,large_image_id image_id,1 flg from `reemo-173606.reemo_dump.natives_large_images_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day)) union all select native_id id,small_image_id image_id, 0 flg from `reemo-173606.reemo_dump.natives_small_images_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(id)
  --left join (select native_id id,small_image_id from `reemo-173606.reemo_dump.natives_small_images_20230413`) using(id)
  left join (select native_id id,text_id from `reemo-173606.reemo_dump.natives_texts_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(id)
  left join (select native_id id,title_id from `reemo-173606.reemo_dump.natives_titles_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(id)
  left join (select id text_id,text,advertiser_id from `reemo-173606.reemo_dump.texts_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(text_id)
  left join (select id title_id,title from `reemo-173606.reemo_dump.titles_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(title_id)
  left join (select id image_id,concat("https://image.dsp.reemo-ad.jp/",image_store_path) image from `reemo-173606.reemo_dump.small_images_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day)) union all select id image_id,concat("https://image.dsp.reemo-ad.jp/",image_store_path) image from `reemo-173606.reemo_dump.large_images_*` where _table_suffix = format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day))) using(image_id)
  --left join (select id large_image_id,concat("https://image.dsp.reemo-ad.jp/",image_store_path) large_image from `reemo-173606.reemo_dump.large_images_20230413`) using(large_image_id)
where
  _table_suffix = right(format_date("%Y%m%d", date_sub(current_date('Asia/Tokyo'),interval 0 day)) ,7)
),
cr as(
select
  id creative_id,
  advertiser_id,
  ad_group_id,
  creative_group_id,
  creative_group_name,
  creatable_type,
  state reemo_state
from
  `reemo-173606.reemo_dump.creatives_2023*`
  left join (
    select
      ad_group_id,
      creative_group_id
    from
      `reemo-173606.reemo_dump.ad_groups_creative_groups_*`
    where
      _table_suffix = format_date("%Y%m%d",current_date('Asia/Tokyo'))
  ) using(creative_group_id)
  left join(
    select
      id creative_group_id,
      name creative_group_name
    from
      `reemo-173606.reemo_dump.creative_groups_*`
    where
      _table_suffix = format_date("%Y%m%d",current_date('Asia/Tokyo'))
  ) using(creative_group_id)
where
  _table_suffix = right(format_date("%Y%m%d",current_date('Asia/Tokyo')),4)
),
exam as(
select
  creative_id,
  slot_id,
  case
    when result = 1 then "◯"
    when result = 2 then "×"else null end ssp_result,
  hour,
  rk
from(
select
  creative_id,
  slot_id,
  result,
  hour,
  rank() over(partition by slot_id,creative_id,result order by hour desc) rk
from
  `reemo-173606.reemo_report.creative_gmossp_judged_*`
where
  _table_suffix = format_date("%Y%m%d",current_date('Asia/Tokyo'))
)
where
  rk = 1
)
select
  concat(advertiser_id,":",advertiser_name) advertiser_id_name,
  concat(ad_group_id,":", ad_group_name)ad_group_id_name,
  concat(creative_group_id,":", creative_group_name) creative_group_id_name,
  creative_id,
  creatable_type,
  flg,
  image,
  title,
  text,
  reemo_state,
  gross
from
  report
left join
  cr
using(creative_id)
  left join `reemo-173606.reemo_log.reemo_advertiser_master` using(advertiser_id,ad_group_id)
  left join creatives using(creative_group_id,creative_id)
order by
  gross DESC
;

# ローカルからダウンロード


In [None]:
import pandas as pd

df = pd.read_csv("/content/ReeMo画像URLv1.1.csv")

In [None]:
sample_reemo_df = df.query('ad_group_id == 19406 and flg == 0.0')
sample_reemo_df.head()

Unnamed: 0,advertiser_id,advertiser_name,ad_group_id,ad_group_name,creative_group_id_name,creative_id,creatable_type,flg,image,title,text,reemo_state,gross
30,5972,グロリアス製薬株式会社(クレブラックリムーバー),19406,◎ブロード配信_【02】新イラスト漫画記事,44720:19406_◎ブロード配信_新基準_【02】新イラスト漫画記事,2626853,Native,0.0,https://image.dsp.reemo-ad.jp/uploads/small_im...,VIOもツルツルにできる裏ワザ,「ムダ毛剃るよりコレ塗って」VIOもツルツルにできるおうち脱毛の裏技,1,7982.462834
58,5972,グロリアス製薬株式会社(クレブラックリムーバー),19406,◎ブロード配信_【02】新イラスト漫画記事,44720:19406_◎ブロード配信_新基準_【02】新イラスト漫画記事,2696309,Native,0.0,https://image.dsp.reemo-ad.jp/uploads/large_im...,VIOもツルツルにできる裏ワザ,『ムダ毛剃るのやめる人続出』9割が知らない！VIOもツルツルにできる裏技,1,5674.930873
59,5972,グロリアス製薬株式会社(クレブラックリムーバー),19406,◎ブロード配信_【02】新イラスト漫画記事,44720:19406_◎ブロード配信_新基準_【02】新イラスト漫画記事,2696309,Native,0.0,https://image.dsp.reemo-ad.jp/uploads/small_im...,VIOもツルツルにできる裏ワザ,『ムダ毛剃るのやめる人続出』9割が知らない！VIOもツルツルにできる裏技,1,5674.930873
114,5972,グロリアス製薬株式会社(クレブラックリムーバー),19406,◎ブロード配信_【02】新イラスト漫画記事,44720:19406_◎ブロード配信_新基準_【02】新イラスト漫画記事,2628104,Native,0.0,https://image.dsp.reemo-ad.jp/uploads/large_im...,VIOもツルツルにできる裏ワザ,『脱毛行くのやめる人続出』9割が知らない！アソコもツルツルにできる裏技,1,3686.398838
115,5972,グロリアス製薬株式会社(クレブラックリムーバー),19406,◎ブロード配信_【02】新イラスト漫画記事,44720:19406_◎ブロード配信_新基準_【02】新イラスト漫画記事,2628104,Native,0.0,https://image.dsp.reemo-ad.jp/uploads/small_im...,VIOもツルツルにできる裏ワザ,『脱毛行くのやめる人続出』9割が知らない！アソコもツルツルにできる裏技,1,3686.398838


In [None]:
url_list = sample_reemo_df['image'].values.tolist()
print(url_list)
print(len(url_list))

['https://image.dsp.reemo-ad.jp/uploads/small_image/000/094/518/c2cdf7a78.jpg', 'https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/881/c945e8899.jpg', 'https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/881/c3a5ae8e7.jpg', 'https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/884/c39320132.jpg', 'https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/884/c2a2b3b62.jpg', 'https://image.dsp.reemo-ad.jp/uploads/small_image/000/084/152/ca6c36df8.jpg', 'https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/878/ca0f0946d.jpg', 'https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/878/cb1a40a3a.jpg', 'https://image.dsp.reemo-ad.jp/uploads/small_image/000/097/352/c9509f6dc.jpg']
9


In [None]:
def download_file(url, dst_path):
    try:
        with urllib.request.urlopen(url) as web_file, open(dst_path, 'wb') as local_file:
            local_file.write(web_file.read())
    except urllib.error.URLError as e:
        print(e)

def download_file_to_dir(url, dst_dir):
    download_file(url, os.path.join(dst_dir, os.path.basename(url)))

In [None]:
download_dir = '/content/reemo_sample_images'

In [None]:
sleep_time_sec = 0.5

for i,url in enumerate(url_list):
    print(url,end=', ')
    print(i+1,end='/')
    print(len(url_list))
    download_file_to_dir(url, download_dir)
    time.sleep(sleep_time_sec)

https://image.dsp.reemo-ad.jp/uploads/small_image/000/094/518/c2cdf7a78.jpg, 1/9
https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/881/c945e8899.jpg, 2/9
https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/881/c3a5ae8e7.jpg, 3/9
https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/884/c39320132.jpg, 4/9
https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/884/c2a2b3b62.jpg, 5/9
https://image.dsp.reemo-ad.jp/uploads/small_image/000/084/152/ca6c36df8.jpg, 6/9
https://image.dsp.reemo-ad.jp/uploads/large_image/000/075/878/ca0f0946d.jpg, 7/9
https://image.dsp.reemo-ad.jp/uploads/small_image/000/075/878/cb1a40a3a.jpg, 8/9
https://image.dsp.reemo-ad.jp/uploads/small_image/000/097/352/c9509f6dc.jpg, 9/9


In [None]:
akane_df = pd.read_csv("/content/AkaNe画像URL.csv")
akane_small_df = akane_df.dropna(subset=['small_image'])
akane_small_df.head()


Unnamed: 0,ad_id,sponsor_id,company_name,campaign_id,name,title,text,large_image,small_image
1,6411953,5636,株式会社ミアキス(神言鑑定),144725,コピー 【枠指定・再開不可】ブロード_インフィード配信(幸せのレシピ)_5月好調枠,運命の人、知りたい？無料占い,運命の人知りたい？名前も顔もズバリ当てるわよ／無料占い,,https://adn-i.sp.gmossp-sp.jp/creatives/f8c/1b...
2,6338798,5636,株式会社ミアキス(神言鑑定),144725,コピー 【枠指定・再開不可】ブロード_インフィード配信(幸せのレシピ)_5月好調枠,誕生日で運命は決まっている！？,「運命の人」に出会いたいなら試すべき占い！ゾッとするほど当たります…,,https://adn-i.sp.gmossp-sp.jp/creatives/d71/e7...
3,6338795,5636,株式会社ミアキス(神言鑑定),144725,コピー 【枠指定・再開不可】ブロード_インフィード配信(幸せのレシピ)_5月好調枠,誕生日で運命は決まっている！？,的中率97％！あなたの将来の結婚相手は生年月日でわかります／無料占い,,https://adn-i.sp.gmossp-sp.jp/creatives/15b/a1...
10,5668142,10427,株式会社FORDELソリューションズ（meemo）,134918,※新【代理店運用】イラスト×漫画記事用[カテゴリD]ブロード_インフィード配信（PC、SP）...,胸だけムチムチにする裏ワザ大公開,貧乳女性の9割知らない：おっぱいだけムチムチにできる裏ワザ大公開,,https://adn-i.sp.gmossp-sp.jp/creatives/c4a/2e...
12,6377234,10427,株式会社FORDELソリューションズ（meemo）,136772,※新【代理店運用】【iOS】[カテゴリD]ブロード_インフィード配信（PC、SP）_新基準,胸だけムチムチにする裏ワザ大公開,豆乳超え「胸パツパツ習慣」閉経貧乳ドン底女がFカップで激モテ,,https://adn-i.sp.gmossp-sp.jp/creatives/e63/bf...


In [None]:
sample_akane_df = akane_small_df.query('campaign_id == 132128')
sample_akane_df.head()

Unnamed: 0,ad_id,sponsor_id,company_name,campaign_id,name,title,text,large_image,small_image
524,6049157,19187,グロリアス製薬株式会社(クレブラックリムーバー),132128,【代理店運用】[カテゴリD]ブロード_インフィード配信（PC、SP）_新基準,VIOもツルツルにできる裏ワザ,「ムダ毛剃るよりコレ塗って」VIOもツルツルにできる簡単5分脱毛の裏技,,https://adn-i.sp.gmossp-sp.jp/creatives/637/d7...
532,6084923,19187,グロリアス製薬株式会社(クレブラックリムーバー),132128,【代理店運用】[カテゴリD]ブロード_インフィード配信（PC、SP）_新基準,VIOもツルツルにできる裏ワザ,「ムダ毛剃るよりコレ塗って」VIOもツルツルにできるおうち脱毛の裏技,,https://adn-i.sp.gmossp-sp.jp/creatives/07a/d2...
546,6448289,19187,グロリアス製薬株式会社(クレブラックリムーバー),132128,【代理店運用】[カテゴリD]ブロード_インフィード配信（PC、SP）_新基準,『ムダ毛剃るのやめる人続出』,『ムダ毛剃るのやめる人続出』毛深いVIOも○〇塗るだけ！自宅で5分のツルツル裏技,,https://adn-i.sp.gmossp-sp.jp/creatives/012/72...
549,6258425,19187,グロリアス製薬株式会社(クレブラックリムーバー),132128,【代理店運用】[カテゴリD]ブロード_インフィード配信（PC、SP）_新基準,VIOもツルツルにできる裏ワザ,「ムダ毛剃るよりコレ塗って」VIOもツルツルにできるおうち脱毛の裏技,,https://adn-i.sp.gmossp-sp.jp/creatives/fcc/5c...


In [None]:
url_list = sample_akane_df['small_image'].values.tolist()
print(url_list)
print(len(url_list))

['https://adn-i.sp.gmossp-sp.jp/creatives/637/d78/67d/ccd36c3e96aad1021675416046892181_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/07a/d27/0f3/60054103c670db9b1677561555761117_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/012/727/2b4/17b1ea55ec3ff6e816908812243319352_original.jpg', 'https://adn-i.sp.gmossp-sp.jp/creatives/fcc/5c4/137/2b51e87d08e2896e16841412525377045_original.jpg']
4


In [None]:
download_dir = "/content/Akane_sample_images_small"

In [None]:
sleep_time_sec = 0.5

for i,url in enumerate(url_list):
    print(url,end=', ')
    print(i+1,end='/')
    print(len(url_list))
    download_file_to_dir(url, download_dir)
    time.sleep(sleep_time_sec)

https://adn-i.sp.gmossp-sp.jp/creatives/637/d78/67d/ccd36c3e96aad1021675416046892181_original.jpg, 1/4
https://adn-i.sp.gmossp-sp.jp/creatives/07a/d27/0f3/60054103c670db9b1677561555761117_original.jpg, 2/4
https://adn-i.sp.gmossp-sp.jp/creatives/012/727/2b4/17b1ea55ec3ff6e816908812243319352_original.jpg, 3/4
https://adn-i.sp.gmossp-sp.jp/creatives/fcc/5c4/137/2b51e87d08e2896e16841412525377045_original.jpg, 4/4


# ReeMo 小画像とAkane 小画像の比較

In [None]:
"""
２画像のヒストグラム比較による類似度の算出
"""
import cv2, os

akane_dirname =  '/content/Akane_sample_images_small'
reemo_dirname = '/content/reemo_sample_images'

#akane_cv_dirname = os.path.dirname(akane_dirname)
reemo_cv_dirname = os.path.dirname(reemo_dirname)

akane_files_file = [
    f for f in os.listdir(akane_dirname) if os.path.isfile(os.path.join(akane_dirname, f))
]

reemo_files_file = [
    f for f in os.listdir(reemo_dirname) if os.path.isfile(os.path.join(reemo_dirname, f))
]
similarity_df = []

for i in akane_files_file:
  akane_image = cv2.imread(akane_dirname +'/' + i)

#image1 = imread(akane_dirname + '\\1_1.png')
#image2 = imread(dirname + '\\1_2.png')
#image3 = imread(dirname + '\\2.png')
#image4 = imread(dirname + '\\3.png')

  height = akane_image.shape[0]
  width = akane_image.shape[1]

  img_size = (int(width), int(height))

  for r in reemo_files_file:
    reemo_image = cv2.imread(reemo_dirname + '/' + r)

# 比較するために、同じサイズにリサイズしておく
    image = cv2.resize(reemo_image, img_size)
    print(i + "と"  + r + "の類似度：" + str(np.count_nonzero(akane_image == image) / image.size))
    if np.count_nonzero(akane_image == image) / image.size >= 0.99:
      similarity_df.append((i, r, np.count_nonzero(akane_image == image) / image.size))


similarity_df = pd.DataFrame(similarity_df)

ccd36c3e96aad1021675416046892181_original.jpgとc39320132.jpgの類似度：0.00431640625
ccd36c3e96aad1021675416046892181_original.jpgとca0f0946d.jpgの類似度：0.004485677083333334
ccd36c3e96aad1021675416046892181_original.jpgとc3a5ae8e7.jpgの類似度：0.005384114583333334
ccd36c3e96aad1021675416046892181_original.jpgとc9509f6dc.jpgの類似度：0.0059244791666666664
ccd36c3e96aad1021675416046892181_original.jpgとc2cdf7a78.jpgの類似度：0.004925130208333333
ccd36c3e96aad1021675416046892181_original.jpgとc945e8899.jpgの類似度：0.0033138020833333335
ccd36c3e96aad1021675416046892181_original.jpgとca6c36df8.jpgの類似度：1.0
ccd36c3e96aad1021675416046892181_original.jpgとcb1a40a3a.jpgの類似度：0.00529296875
ccd36c3e96aad1021675416046892181_original.jpgとc2a2b3b62.jpgの類似度：0.005696614583333333
17b1ea55ec3ff6e816908812243319352_original.jpgとc39320132.jpgの類似度：0.0027604166666666667
17b1ea55ec3ff6e816908812243319352_original.jpgとca0f0946d.jpgの類似度：0.00419921875
17b1ea55ec3ff6e816908812243319352_original.jpgとc3a5ae8e7.jpgの類似度：1.0
17b1ea55ec3ff6e81690881224331

In [None]:
similarity_df= similarity_df.set_axis(['Akane_image', 'ReeMo_image', 'Similarity'], axis=1)
similarity_df.head()

Unnamed: 0,Akane_image,ReeMo_image,Similarity
0,ccd36c3e96aad1021675416046892181_original.jpg,ca6c36df8.jpg,1.0
1,17b1ea55ec3ff6e816908812243319352_original.jpg,c3a5ae8e7.jpg,1.0
2,2b51e87d08e2896e16841412525377045_original.jpg,c2cdf7a78.jpg,1.0
3,60054103c670db9b1677561555761117_original.jpg,cb1a40a3a.jpg,1.0
