# Визуализация сети (TensorFlow)

В этом блокноте мы рассмотрим использование "градиентов изображений" для создания новых изображений.

При обучении модели обычно определяют функцию потерь, которая оценивает эффективность модели; затем  используют обратное распространение для вычисления градиента функции потерь по отношению к параметрам модели и выполняют градиентный спуск по параметрам модели, чтобы минимизировать потери.

Здесь будем выполнять немного другое. Мы начнем с модели сверточной нейронной сети, которая была предварительно обучена для классификации изображений на наборе данных ImageNet. Будем использовать эту модель для определения функции потерь, которая оценивает текущие потери на изображении, а затем используем обратное распространение для вычисления градиента этих потерь по отношению к пикселям изображения. Сохраним модель и выполним градиентное спуск, чтобы синтезировать новое изображение, которое минимизирует потери.

В этом блокноте рассматриваются три метода генерации изображений:

1. **Карты значимости**: Карты значимости - это быстрый способ определить, какая часть изображения повлияла на решение о классификации, принятое сетью.
2. **Обманные изображения**: мы можем изменить входное изображение так, чтобы оно выглядело для человека тем же, но  классифицировалось предварительно обученной сетью как изображение заданного класса.
3. **Визуализация класса**: мы можем синтезировать изображение, чтобы максимизировать оценку классификации конкретного класса; это может дать нам некоторое представление о том, что ищет сеть, когда классифицирует изображения этого класса.

В этом  блокноте воспользуемся возможностями **TensorFlow**

In [None]:
# Необходимые установки
import sys
sys.path.append('../')
import time, os, json
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf

from cv.classifiers.squeezenet import SqueezeNet
from cv.data_utils import load_tiny_imagenet
from cv.image_utils import preprocess_image, deprocess_image
from cv.image_utils import SQUEEZENET_MEAN, SQUEEZENET_STD

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# for auto-reloading external modules
# see http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

# Предобученная модель

Для всех наших экспериментов по генерации изображений будем использовать сверточную нейронную сеть, которая была предварительно обучена классификации изображений на данных из ImageNet. Здесь можно использовать любую модель нейросети, но для целей этого задания  используется сеть SqueezeNet [1], которая обеспечивает точность, сравнимую с AlexNet, но со значительно меньшим числом параметров и меньшей вычислительной сложностью.

Использование SqueezeNet вместо AlexNet, VGG или ResNet означает, что мы можем легко выполнять все эксперименты по генерации изображений на CPU.

Модель SqueezeNet была портирована из PyTorch  в TensorFlow; см . архитектуру модели в : `cv/ classifiers / squeezenet.py` 

Чтобы использовать SqueezeNet, нужно сначала **загрузить веса** в каталог `cv / datasets`, запустив `get_squeezenet_tf.sh`. Обратите внимание, что если вы ранее выполняли `get_assignment3_data.sh`, 
то модель SqueezeNet уже будет загружена.

После загрузки модели Squeezenet мы можем загрузить ее в новый сеанс TensorFlow.

[1] Iandola и др., "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5MB model size", arXiv 2016

In [None]:
SAVE_PATH = 'cv/datasets/squeezenet.ckpt'

if not os.path.exists(SAVE_PATH + ".index"):
    raise ValueError("You need to download SqueezeNet!")

model = SqueezeNet()
status = model.load_weights(SAVE_PATH)

model.trainable = False

## Загрузка изображений ImageNet

Вам предоставляется несколько примеров изображений из валидационного подмножества  набора данных ImageNet ILSVRC 2012 Classification. Чтобы загрузить эти изображения, перейдите в `cv / datasets /` и запустите `get_imagenet_val.sh`.

Так как эти изображения извлечены из валидационного  набора, то  предварительно обученная модель "не видела" эти изображения во время обучения.

Выполните ячейку ниже, чтобы визуализировать некоторые из этих изображений вместе с их метками.

In [None]:
from cv.data_utils import load_imagenet_val
X_raw, y, class_names = load_imagenet_val(num=5)

plt.figure(figsize=(12, 6))
for i in range(5):
    plt.subplot(1, 5, i + 1)
    plt.imshow(X_raw[i])
    plt.title(class_names[y[i]])
    plt.axis('off')
plt.gcf().tight_layout()

## Предварительная обработка изображений

Предполагается, что входы  предварительно обученной модели нормализованы. Поэтому сначала  предварительно обработаем изображения, вычтя среднее значение по пикселям и разделив на стандартное отклонение.

In [None]:
X = np.array([preprocess_image(img) for img in X_raw])

# Карты значимости

Используя предварительно обученную модель, вычислим карты значимости классов, как описано в разделе 3.1 в [2].

**Карта значимости** показывает нам степень влияния каждого пикселя изображения на оценку рейтинга, используемую для классификации этого изображения. Чтобы вычислить карту значимости, вычисляется градиент оценки рейтинга, соответствующей правильному классу (который является скаляром) относительно пикселей изображения. Если изображение имеет форму `(H, W, 3)`, то градиент также будет иметь форму `(H, W, 3)`; для каждого пикселя в изображении градиент сообщает нам величину, на которую изменится оценка классификации, если значение пикселя не значительно изменится. Чтобы вычислить карту значимости, берется абсолютное значение  градиента, а затем выбирается максимальное значение из 3 входных каналов; итоговая карта значимости, таким образом, имеет форму (H, W), и все значения неотрицательны.

Откройте файл `cv/classifiers/squeezenet.py` и прочитайте код, чтобы убедиться в том, что Вы понимаете как использовать модель.  Вы должны будете использовать  [`tf.GradientTape()`](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/GradientTape) для вычисления градиентов по отношению к пикселям изображения В частности, весьма полезно познакомиться с   [разделом](https://www.tensorflow.org/alpha/tutorials/eager/automatic_differentiation#gradient_tapes) для лучшего понимания .

[2] Karen Simonyan, Andrea Vedaldi, и Andrew Zisserman. "Deep Inside Convolutional Networks: Visualising
Image Classification Models and Saliency Maps", ICLR Workshop 2014.

### Подсказка: Метод Tensorflow `gather_nd` 

Вспомните , что ранее Вам приходилось выбирать один элемент из каждой строки матрицы рейтингов; если `s` - это  массив формы` (N, C) ` и ` y` -  массив формы `(N,`), содержащий целые числа `0 <= y [i] <C`, то` s[np.arange (N), y] `- это  массив формы` (N,) `, который выбирает один элемент из каждой строки `s`, используя индексы  `y`.

В Tensorflow Вы можете выполнить эту операцию, используя метод `gather_nd()`. Если `s` является тензором формы`(N, C)` и `y` является тензором формы `(N,)`, содержащим значения в диапазоне `0 <= y [i] <C`, то

`tf.gather_nd(s, tf.stack((tf.range(N), y), axis=1))`

будет тензором формы `(N,)`, содержащим одну запись из каждой строки `s`, выбранную в соответствии с индексами ` y`.

Вы также можете обратиться к документации с описанием метода [gather_nd ](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/gather_nd).

In [None]:
def compute_saliency_maps(X, y, model):
    """
     Вычислите карту значимости для изображений X и меток y, используя модель model

     Входные данные:
     - X: входные изображения, массив формы (N, H, W, 3)
     - y: метки для X,  форма (N,)
     - model: модель SqueezeNet, которая будет использоваться для вычисления карты значимости.

     Возвращает:
     - saliency: массив значений (N, H, W), представляющий карты значимости для
     входных изображений.
    
    """
    saliency = None
    
    ######################################################################################
    # Задание: вычислить карты значимости для пакета изображений.                          #
    #                                                                                    #
    # 1) Определить объект GradientTape и входную переменную X сделать наблюдаемой       #
    # 2) Вычислить «потери» для всех примеров входных изображений:                       #
    # - получить оценки рейтингов с помощью model.call для  входных изображений          #
    # - используйте tf.gather_nd или tf.gather для получения рейтингов корректных классов#
    # 3) Используйте метод gradient() объекта GradientTape для вычисления                #       
    # градиента функции потерь по отношению к изображению                                #     
    # 4) Наконец, обработайте возвращенный градиент, чтобы вычислить карту значимости.   #
    ######################################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    
    pass

    #*****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ##############################################################################
    #                               Конец Вашего кода                            #
    ##############################################################################
    return saliency

Выполните ячейку ниже, чтобы визуализировать некоторые карты значимости классов на примерах изображений из валидационного подмножества ImageNet:

In [None]:
def show_saliency_maps(X, y, mask):
    mask = np.asarray(mask)
    Xm = X[mask]
    ym = y[mask]

    saliency = compute_saliency_maps(Xm, ym, model)

    for i in range(mask.size):
        plt.subplot(2, mask.size, i + 1)
        plt.imshow(deprocess_image(Xm[i]))
        plt.axis('off')
        plt.title(class_names[ym[i]])
        plt.subplot(2, mask.size, mask.size + i + 1)
        plt.title(mask[i])
        plt.imshow(saliency[i], cmap=plt.cm.hot)
        plt.axis('off')
        plt.gcf().set_size_inches(10, 4)
    plt.show()

mask = np.arange(5)
show_saliency_maps(X, y, mask)

# ВОПРОС

Ваш друг говорит, что для того, чтобы найти изображение, которое максимизирует корректную оценку, следует выполнить градиентное восхождение на входном изображении, но вместо градиента можно фактически использовать карту значимости на каждом шаге для обновления изображения. Это утверждение верно? Почему да или почему нет?

**Ваш ответ:** 



# Обманные изображения

Можно также использовать градиенты изображения для генерации «обманывающих изображений», как предлагается в [3]. Взяв изображение и целевой класс, мы можем выполнить градиентный **подъем** по изображению, чтобы максимизировать рейтинг целевого класса, останавившись, когда сеть классифицирует изображение как целевой класс. Реализуйте функцию для генерации обманных изображений.

[3] Szegedy et al, "Intriguing properties of neural networks", ICLR 2014

In [None]:
def make_fooling_image(X, target_y, model):
    """
    Создает обманное изображение, близкое к X, но которое модель классифицирует
    как целевое target_y.

     Входы:
     - X: входное изображение, массив формы (1, 224, 224, 3)
     - target_y: индекс класса, целое число в диапазоне [0, 1000)
     - model: предварительно обученная модель SqueezeNet

     Возвращает:
     - X_fooling: изображение, близкое к X, но классифицируемое моделью как target_y
        
    """
      
    #Сделаем копию входа, который будем изменять
    X_fooling = X.copy()
    
    # Скорость изменения
    learning_rate = 1
    
    ##############################################################################
    # Задание: сформировать обманное изображение X_fooling, которое модель       # 
    # будет классифицировать как класс target_y. Используйте градиентное         # 
    # восхождение по рейтинговой функции целевого класса, используя model.scores,#
    # чтобы получить оценки рейтингов классов для model.image.                   #
    # При вычислении шага обновления сначала нормализуете градиент:              #
    #              dX = learning_rate * g / || g || _2                           #
    #                                                                            #
    # Вы должны написать обучающий цикл, на каждой итерации которого             #
    # обновляется входное изображение X_fooling (не изменяйте X). Цикл должен    #
    # завершиться, когда входное изображение будет классифицировано как target_y #
    #                                                                            #
    # СОВЕТ 1: Используйте tf.GradientTape для отслеживания градиентов и           #
    # используйту tape.gradient для получения фактического градиента             #
    # относительно X_fooling.                                                    #
    #                                                                            #
    # СОВЕТ 2: Для большинства входных примеров вы должны  генерировать          #
    # обманывающее изображение менее чем за 100 итераций градиентного восхождения#
    # Вы можете распечатать прогресс обучения, чтобы проверить алгоритм.         #
    ##############################################################################
    # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    
    pass

    #*****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    ##############################################################################
    #                               Конец Вашего кода                            #
    ##############################################################################
    return X_fooling

Выполните ячейку ниже, чтобы создать обманное изображение. Вы не должны видеть никаких существенных различий между исходным и обманывающим изображениями, но сеть будет делать  предсказание на обманывающем изображении как на корректном. Тем не менее, можно обнаружить небольшой случайный шум, если увеличить в 10 раз разницу между исходным и обманывающим изображениями. Изменяйте переменную `idx` ниже, чтобы исследовать разные изображения.

In [None]:
idx = 0
Xi = X[idx][None]
target_y = 6
X_fooling = make_fooling_image(Xi, target_y, model)

# Проверяем, что  X_fooling классифицируется как  y_target
scores = model(X_fooling)
assert tf.math.argmax(scores[0]).numpy() == target_y, 'The network is not fooled!'

# Отображаем исходное, обманное изображения и разность
orig_img = deprocess_image(Xi[0])
fool_img = deprocess_image(X_fooling[0])
plt.figure(figsize=(12, 6))

#Масшабирование разности
plt.subplot(1, 4, 1)
plt.imshow(orig_img)
plt.axis('off')
plt.title(class_names[y[idx]])
plt.subplot(1, 4, 2)
plt.imshow(fool_img)
plt.title(class_names[target_y])
plt.axis('off')
plt.subplot(1, 4, 3)
plt.title('Difference')
plt.imshow(deprocess_image((Xi-X_fooling)[0]))
plt.axis('off')
plt.subplot(1, 4, 4)
plt.title('Magnified difference (10x)')
plt.imshow(deprocess_image(10 * (Xi-X_fooling)[0]))
plt.axis('off')
plt.gcf().tight_layout()

# Визуализация класса

Начиная со случайного изображения  и выполняя градиентное восхождение на целевом классе, можно создать изображение, которое сеть распознает как целевой класс. Эта идея была впервые представлена в [2];в [3]  она была расширена  с использованием  нескольких методов регуляризации, которые могут улучшить качество генерируемого изображения.

Конкретно, пусть $I$ будет изображением, а $y$ будет целевым классом. Пусть $s_y(I)$ будет оценкой, которую сверточная сеть присваивает изображению $I$ для класса $y$; обратите внимание, что это необработанные оценки, а не вероятности классови. Мы хотим сгенерировать изображение $I^*$, которое получает высокий рейтинг для класса $y$, решая задачу

$$
I^* = {\arg\max}_I (s_y(I) - R(I))
$$

где $R$ является (возможно, неявным) регуляризатором (обратите внимание на знак $R(I)$ в argmax: мы хотим минимизировать этот член регуляризации). Решить эту задачу оптимизации можно, используя градиентное восхождение, вычисляя градиенты относительно сгенерированного изображения. Будем использовать (явную) L2 регуляризацию вида

$$
R(I) = \lambda \|I\|_2^2
$$

и неявную регуляризацию, как предложено в [3], периодически размывая сгенерированное изображение. Эту задачу можно решить, используя градиентное восхождение относительно генерируемого изображения.

В приведенной ниже ячейке завершите реализацию функции `create_class_visualization`.

[2] Karen Simonyan, Andrea Vedaldi, и Andrew Zisserman. "Deep Inside Convolutional Networks: Visualising
Image Classification Models and Saliency Maps", ICLR Workshop 2014.

[3] Yosinski и др. "Understanding Neural Networks Through Deep Visualization", ICML 2015 Deep Learning Workshop

In [None]:
from scipy.ndimage.filters import gaussian_filter1d
#Фильтр размытия
def blur_image(X, sigma=1):
    X = gaussian_filter1d(X, sigma, axis=1)
    X = gaussian_filter1d(X, sigma, axis=2)
    return X

In [None]:
def jitter(X, ox, oy):
    """
    Вспомогательная функция, создающая случайный джиттер изображения
    
    Входы
    - X: Тензор формы (N, H, W, C)
    - ox, oy: Целые, задающие номера пикселей для джиттера вдоль осей W и H
    
    Возвращает: Новый тензор формы (N, H, W, C)
    """
    if ox != 0:
        left = X[:, :, :-ox]
        right = X[:, :, -ox:]
        X = tf.concat([right, left], axis=2)
    if oy != 0:
        top = X[:, :-oy]
        bottom = X[:, -oy:]
        X = tf.concat([bottom, top], axis=1)
    return X

In [None]:
def create_class_visualization(target_y, model, **kwargs):
    """
    Генерирует изображение, максимизирующее рейтинг target_y предобученной модели
    Входы:
    - target_y: Целое в диапазоне [0, 1000), задающее номер класса
    - model: Предобученная  CNN
    
    Ключевые аргументы:
    - l2_reg: Коэффициент регуляризации L2 по изображению
    - learning_rate: Шаг изменения 
    - num_iterations: Число итераций
    - blur_every: Как часто размывать изображение, как неявный регуляризатор
    - max_jitter: Максимальный джиттер, как неявный регуляризатор
    - show_every: Как часто отображать результаты
    """
    l2_reg = kwargs.pop('l2_reg', 1e-3)
    learning_rate = kwargs.pop('learning_rate', 25)
    num_iterations = kwargs.pop('num_iterations', 100)
    blur_every = kwargs.pop('blur_every', 10)
    max_jitter = kwargs.pop('max_jitter', 16)
    show_every = kwargs.pop('show_every', 25)
    
    
    # Используем одно изображение случайного шума в качестве отправной точки
    X = 255 * np.random.rand(224, 224, 3)
    X = preprocess_image(X)[None]

    
    grad = None # градиент потерь по отношению к model.image, размер как у  model.image
    
    X = tf.Variable(X)
    for t in range(num_iterations):
        # Случайный джиттер изображения; это дает немного лучшие результаты
        ox, oy = np.random.randint(0, max_jitter, 2)
        X = jitter(X, ox, oy)
        
        ########################################################################
        # Задание: вычислить градиент рейтинга для класса  target_y            #
        # относительно пикселей изображения и  шаг изменения изображения с     #
        # использованием скорости обучения. Вы должны использовать             #
        # tf.GradientTape () и tape.gradient для вычисления градиентов.        #
        #                                                                      #
        # Будьте очень осторожны с знаками элементов в вашем коде.             #
        ########################################################################
        # *****НАЧАЛО ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
    
        pass

        #*****КОНЕЦ ВАШЕГО КОДА (НЕ УДАЛЯЙТЕ/НЕ МОДИФИЦИРУЙТЕ ЭТУ СТРОКУ)*****
        ##############################################################################
        #                               Конец Вашего кода                            #
        ##############################################################################
        
        # Отменить джиттер
        X = jitter(X, -ox, -oy)
        
        # Регуляризация за счет клиппирования и периодического размытия
        X = tf.clip_by_value(X, -SQUEEZENET_MEAN/SQUEEZENET_STD, (1.0 - SQUEEZENET_MEAN)/SQUEEZENET_STD)
        if t % blur_every == 0:
            X = blur_image(X, sigma=0.5)

        # Отображение изображения
        if t == 0 or (t + 1) % show_every == 0 or t == num_iterations - 1:
            plt.imshow(deprocess_image(X[0]))
            class_name = class_names[target_y]
            plt.title('%s\nIteration %d / %d' % (class_name, t + 1, num_iterations))
            plt.gcf().set_size_inches(4, 4)
            plt.axis('off')
            plt.show()
    return X

После того, как Вы завершите реализацию функции выше, запустите  следующую ячейку, чтобы сгенерировать образ Тарантула:

In [None]:
target_y = 76 # Tarantula
out = create_class_visualization(target_y, model)

Проверьте  Вашу реализацию визуализации  на других классах! Вы также можете свободно манипулировать с различными гиперпараметрами, чтобы улучшить качество генерируемого изображения.

In [None]:
target_y = np.random.randint(1000)
# target_y = 78 # Tick
# target_y = 187 # Yorkshire Terrier
# target_y = 683 # Oboe
# target_y = 366 # Gorilla
# target_y = 604 # Hourglass
print(class_names[target_y])
X = create_class_visualization(target_y, model)