実験用にLIMEで画像を生成、保存する

In [1]:

import timm
from PIL import Image
import torch
from torchvision import transforms
from torch.nn import functional as F
import timm.models.mlp_mixer
import numpy as np
import exchange_tensor_array as exchange
import matplotlib.pyplot as plt

from pathlib import Path
from torchvision.datasets.utils import download_url
import json
import xml.etree.ElementTree as ET

import glob

import time

from lime import lime_image
from skimage.segmentation import mark_boundaries
import slackweb
slack = slackweb.Slack("https://hooks.slack.com/services/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")

jpgファイルとxmlファイルを取得する（experience_1.ipynbと同じ処理）

In [None]:
xml_files = glob.glob("xmls/*")
file_names = []
for file in xml_files:
    file_names.append(file)

file_date = []
for file_name in file_names:
    xml_file = open(file_name)
    xmll_tree = ET.parse(xml_file)
    root = xmll_tree.getroot()
    for obj in root.iter("size"):
        h = int(obj.find("height").text)
        w = int(obj.find("width").text)
    jpg_name = root[1].text
    if min(h, w) < 256 or max(h, w) / min(h, w) >= 1.025:
        continue
    if jpg_name[-3:] != "jpg":
        continue
    img = Image.open("pet_dataset/" + jpg_name)
    if img.mode != "RGB":
        continue
    file_date.append([max(h, w) / min(h, w), jpg_name, file_name])
ok_files_name = [i[1:] for i in sorted(file_date)]

In [None]:
len(file_names)

LIMEの準備

In [2]:
#モデル作成
model = timm.create_model("gmlp_s16_224", pretrained=True)
model.eval()

#lime用の関数
def get_pil_transform(): 
    transf = transforms.Compose([
        transforms.Resize((256, 256)),
        transforms.CenterCrop(224)
    ])    

    return transf

def get_preprocess_transform():
    normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                    std=[0.229, 0.224, 0.225])     
    transf = transforms.Compose([
        transforms.ToTensor(),
        normalize
    ])    

    return transf    

pill_transf = get_pil_transform()
preprocess_transform = get_preprocess_transform()

def batch_predict(images):
    model.eval()
    batch = torch.stack(tuple(preprocess_transform(i) for i in images), dim=0)

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
    batch = batch.to(device)
    
    logits = model(batch)
    probs = F.softmax(logits, dim=1)
    return probs.detach().cpu().numpy()
explainer = lime_image.LimeImageExplainer()

評価実験1の準備

In [3]:
from torchvision import transforms
from PIL import Image
import xml.etree.ElementTree as ET
import numpy as np


class Experience_bounding_box():
    
    def __init__(self) -> None:
        """
        初期化
        """
        self.transform = transforms.Compose(
            [
                transforms.Resize(256),  # (256, 256) で切り抜く。
                transforms.CenterCrop(224),  # 画像の中心に合わせて、(224, 224) で切り抜く
            ]
        )

 
    def open_and_resize_original_image(self, img_path : str) -> Image.Image:
        """
        img_pathの元画像を読み込んでサイズを(244, 244)にして返す
        """
        original_image = Image.open(img_path)
        original_image = self.transform(original_image)
        
        return original_image
    
    
    def open_result_image(self, img_path : str) -> Image.Image:
        """
        img_pathのマッピングされた画像を読み込んで返す（サイズの変更はしない）
        """
        result_image = Image.open(img_path)
        
        return result_image
    
    
    def get_image_size_and_bounding_box_cornerpoints(self, file_path : str) -> list[tuple]:
        """
        file_pathのxmlファイルから画像サイズとバウンディングボックスの座標を読み込んで返す
        [(height, width), (ymin, ymax, xmax, xmin)]
        """
        xml_file = open(file_path)
        xmll_tree = ET.parse(xml_file)
        root = xmll_tree.getroot()
        for obj in root.iter("size"):
            h = int(obj.find("height").text)
            w = int(obj.find("width").text)
        
        for obj in root.iter('object'):
            xmlbox = obj.find("bndbox")
            ymin = int(xmlbox.find('ymin').text)
            ymax = int(xmlbox.find('ymax').text)
            xmin = int(xmlbox.find('xmin').text)
            xmax = int(xmlbox.find('xmax').text)
        
        
        return [(h, w), (ymin, ymax, xmin, xmax)]
            
    
       
    def get_resized_box_corner(self, original_size : tuple, original_corner_points : tuple) -> list:
        """
        original_cornerで表されるバウンディングボックスを持つ、サイズがoriginal_size(y, x)の画像が(224, 224)にresizeした後の、
        バウンディングボックスのの座標を返す
        [ymin, ymax, xmax, xmin]
        """
        h, w = original_size
        ymin, ymax, xmin, xmax = original_corner_points
        
        # xmlファイルの座標は右下原点(?)なので上下左右に反転させて左上原点に直す
        # ymin = h - ymin - 1
        # ymax = h - ymax - 1
        # xmin = w - xmin - 1
        # xmax = w - xmax - 1
        
        # transforms.Resize(256)に相当する座標変換を行う
        tmp = min(h, w)
        ymin = ymin * 256 // tmp
        ymax = ymax * 256 // tmp
        xmin = xmin * 256 // tmp
        xmax = xmax * 256 // tmp
        
        # transforms.CenterCrop(224)に相当する座標変換を行う
        tmp = (256 - 224) // 2
        ymin -= tmp
        ymax -= tmp
        xmin -= tmp
        xmax -= tmp
        
        return [ymin, ymax, xmin, xmax]
    
    
    def cal_val(self, original_img_path : str, result_img_path : str, xml_path : str) -> list[tuple]:
        """元画像とマッピングされた画像を読み込んで画素値を比較してマッピングされてるかを判定する方式。上手く働かない（他の箇所も画素値が変わってしまっているため）"""
        # 元画像の読み込みと処理
        original_img = self.open_and_resize_original_image(original_img_path)
        # マッピングされた画像の読み込み
        result_img = self.open_result_image(result_img_path)
        # xmlファイルから元画像のサイズと4つの座標の読み込み
        original_img_size, bndbox_coordinates = self.get_image_size_and_bounding_box_cornerpoints(xml_path)
        # 返還後のバウンディングボックスの4つの頂点の座標の算出
        ymin, ymax, xmin, xmax = self.get_resized_box_corner(original_img_size, bndbox_coordinates)
        print(ymin, ymax, xmin, xmax)
        
        count_in_bndbox = [0, 0] # バウンディングボックスの中のマッピングされた割合を記録するためのリスト. 0でマッピングされている, 1でマッピングされていない
        count_mapped = [0, 0] # マッピングされた領域のうち、バウンディングボックスの内外にある割合を記録するためのリスト. 0でバウンディングボックスの内側（境界含む）, 1でバウンディングボックスの外側
        
        mapped_count = 0
        bndcount = 0
        for i in range(224):
            for j in range(224):
                #print(original_img.getpixel((i, j)) , result_img.getpixel((i, j)), original_img.getpixel((i, j)) != result_img.getpixel((i, j)))
                if ymin <=   i <= ymax and xmin <= j <= xmax:
                    bndcount += 1
                if original_img.getpixel((i, j)) != result_img.getpixel((i, j)): # マッピングされている
                    mapped_count += 1
                    if ymin <= i <= ymax and xmin <= j <= xmax: # バウンディングボックスの内側
                        count_in_bndbox[0] += 1
                        #print(i, j)
                        count_mapped[0] += 1
                    else:# バウンディングボックスの外側
                        count_mapped[1] += 1
                elif ymin <= i <= ymax and xmin <= j <= xmax: # マッピングされていないかつバウンディングボックスの内側
                    count_in_bndbox[1] += 1
        
        a, b = count_in_bndbox
        count_in_bndbox.append(a * 100 / (a + b))
        a, b = count_mapped
        count_mapped.append(a * 100 / (a + b))
        print(mapped_count)
        print(bndcount)
        
        return[tuple(count_in_bndbox), tuple(count_mapped)]
    
    def cal_val_from_mappingdate(self, masks : dict, shap : list, max_rate : float, xml_path : str) -> list[tuple]:
        """
        マッピングした座標のデータ(caのmasks)から算出する
        """
        # xmlファイルから元画像のサイズと4つの座標の読み込み
        original_img_size, bndbox_coordinates = self.get_image_size_and_bounding_box_cornerpoints(xml_path)
        # 返還後のバウンディングボックスの4つの頂点の座標の算出
        ymin, ymax, xmin, xmax = self.get_resized_box_corner(original_img_size, bndbox_coordinates)
        
        count_in_bndbox = [0, (ymax - ymin + 1) * (xmax - xmin + 1)] # バウンディングボックスの中のマッピングされた割合を記録するためのリスト. 0でマッピングされている, 1でマッピングされていない
        count_mapped = [0, 0] # マッピングされた領域のうち、バウンディングボックスの内外にある割合を記録するためのリスト. 0でバウンディングボックスの内側（境界含む）, 1でバウンディングボックスの外側

        border = max(shap) * max_rate
        for i in range(len(shap)):
            if shap[i] < border:
                continue
            for y, x in masks[i]: #マッピングされている
                if ymin <= y <= ymax and xmin <= x <= xmax: #バウンティボックスの内側
                    count_in_bndbox[0] += 1
                    count_in_bndbox[1] -= 1
                    count_mapped[0] += 1
                else:
                    count_mapped[1] += 1
        a, b = count_in_bndbox
        count_in_bndbox.append(a * 100 / (a + b))
        a, b = count_mapped
        count_mapped.append(a * 100 / (a + b))
        
        return[tuple(count_in_bndbox), tuple(count_mapped)]
    
    def cal_val_from_mappedarray(self, mapped_array : list, xml_path : str) -> list[list]:
        """マッピングされているかをbool値で表す2次元リストから算出する"""
        # xmlファイルから元画像のサイズと4つの座標の読み込み
        original_img_size, bndbox_coordinates = self.get_image_size_and_bounding_box_cornerpoints(xml_path)
        # 変換後のバウンディングボックスの4つの頂点の座標の算出
        ymin, ymax, xmin, xmax = self.get_resized_box_corner(original_img_size, bndbox_coordinates)
        count_in_bndbox = [0, (ymax - ymin + 1) * (xmax - xmin + 1)] # バウンディングボックスの中のマッピングされた割合を記録するためのリスト. [0]がマッピングされている, [1]がマッピングされていない
        count_mapped = [0, 0] # マッピングされた領域のうち、バウンディングボックスの内外にある割合を記録するためのリスト. [0]がバウンディングボックスの内側（境界含む）, [1]がバウンディングボックスの外側
        for i in range(224):
            for j in range(224):
                if mapped_array[i][j]: #マッピングされている
                    if ymin <= i <= ymax and xmin <= j <= xmax: #バウンディングボックスの内側
                        count_in_bndbox[0] += 1
                        count_in_bndbox[1] -= 1
                        count_mapped[0] += 1
                    else:
                        count_mapped[1] += 1
        a, b = count_in_bndbox
        count_in_bndbox.append(a * 100 / (a + b))
        c, d = count_mapped
        count_mapped.append(c * 100 / (c + d))
        
        return [count_in_bndbox, count_mapped]
    
    def cal_val_from_lime_result(self, lime_res : np.ndarray, xml_path : str) -> list[list]:
        """LIMEの結果(np.array)から算出する"""
        # xmlファイルから元画像のサイズと4つの座標の読み込み
        original_img_size, bndbox_coordinates = self.get_image_size_and_bounding_box_cornerpoints(xml_path)
        
        # 変換後のバウンディングボックスの4つの頂点の座標の算出
        ymin, ymax, xmin, xmax = self.get_resized_box_corner(original_img_size, bndbox_coordinates)
        
        count_in_bndbox = [0, (ymax - ymin + 1) * (xmax - xmin + 1)] # バウンディングボックスの中のマッピングされた割合を記録するためのリスト. [0]がマッピングされている, [1]がマッピングされていない
        count_mapped = [0, 0] # マッピングされた領域のうち、バウンディングボックスの内外にある割合を記録するためのリスト. [0]がバウンディングボックスの内側（境界含む）, [1]がバウンディングボックスの外側
        
        a = np.array([0, 0, 0]) #比較対象用配列
        
        for i in range(224):
            for j in range(224):
                if np.array_equal(lime_res[i, j], a) == False: #マッピングされている
                    if ymin <= i <= ymax and xmin <= j <= xmax: #バウンディングボックスの内側
                        count_in_bndbox[0] += 1
                        count_in_bndbox[1] -= 1
                        count_mapped[0] += 1
                    else:
                        count_mapped[1] += 1
        a, b = count_in_bndbox
        count_in_bndbox.append(a* 100 / (a + b))
        c, d = count_mapped
        count_mapped.append(c * 100 / (c + d))
        
        return [count_in_bndbox, count_mapped]

LIMEを実行して結果の画像を保存

In [None]:
# hide_rest == True ver
for jpg_name, xml_name in ok_files_name:
    try:
        input_path = "pet_dataset/" + jpg_name
        img = Image.open(input_path)
        explanation = explainer.explain_instance(np.array(pill_transf(img)), 
                                                batch_predict, # classification function
                                                top_labels=1, 
                                                hide_color=0, 
                                                num_samples=1000) # number of images that will be sent to classification function
        temp1, mask1 = explanation.get_image_and_mask(explanation.top_labels[0], positive_only=True, num_features=11, hide_rest=True)
        img_boundry1 = mark_boundaries(temp1/255.0, mask1)
        plt.imsave("reslut_pet_dataset/exp1/lime/not_hide_rest/" + jpg_name, img_boundry1)
    except Exception as e:
        slack.notify(text="えらー")
slack.notify(text="しゅーりょー")

LIMEを実行して評価実験1(バウンディングボックス)を実行して配列に保存

In [6]:
# hide_rest == True ver
import time
exp1 = Experience_bounding_box()
exp1_res = []
count = 0

with open("ok_files_list.txt", mode="r") as f:
    ok_files_name = [ s.strip().split() for s in f.readlines()]

t1 = time.time()
for jpg_path, xml_path, class_name, prob in ok_files_name:
    try:
        img = Image.open(jpg_path)
        explanation = explainer.explain_instance(np.array(pill_transf(img)), 
                                                batch_predict, # classification function
                                                top_labels=1, 
                                                hide_color=0, 
                                                num_samples=1000) # number of images that will be sent to classification function
        temp1, mask1 = explanation.get_image_and_mask(explanation.top_labels[0], positive_only=True, num_features=11, hide_rest=True)
        img_boundry1 = mark_boundaries(temp1/255.0, mask1)
        tmp_exp1_res = exp1.cal_val_from_lime_result(img_boundry1, xml_path=xml_path)
        tmp_exp1_res.append(jpg_path[12:])
        exp1_res.append(tmp_exp1_res)
        #count += 1
        #print(count)
        #plt.imsave("reslut_pet_dataset/exp1/lime/not_hide_rest/" + jpg_name, img_boundry1)
    except Exception as e:
        slack.notify(text="えらー")
        print(jpg_path[12:])
        print(e)
t2 = time.time()
td = t2 - t1
slack.notify(text="しゅーりょー")

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

  0%|          | 0/1000 [00:00<?, ?it/s]

'ok'

: 

In [None]:
td

In [None]:
exp1_res

In [28]:
path="reslut_pet_dataset/exp1/lime/lime_result.txt"
with open(path, mode="r") as f:
    tmp = f.readlines()
tmp = tmp[2:]

In [29]:
tmp = "".join(tmp)

In [30]:
s = tmp.replace("\n", " ")
s = s.replace("[", " ")
s = s.replace("]", " ")
s = s.replace(",", " ")
s = s.split()


In [31]:
ok_path = "reslut_pet_dataset/exp1/dbscan_and_kmeans/300/result3/ok_files_name.txt"
ok_files = set()
with open(ok_path, mode="r") as f:
    for ss in f:
        tmp = ss.split()[0][12:]
        ok_files.add(tmp)

In [32]:
len(s)

525

In [36]:
res = [0, 0, 0, 0]
for i in range(len(s)):
    if i % 7 == 0:
        if s[i + 6][1:-1] in ok_files:
            res[0] += float(s[i])
            res[1] += float(s[i + 1])
            res[2] += float(s[i + 3])
            res[3] += float(s[i + 4])
print(res)

[326544.0, 216313.0, 326544.0, 333926.0]
