 <font size="6">Explainability</font>

# Причины использования Explainability

Модели машинного обучения представляют собой черный ящик.

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/input_blackbox_output.png" alt="alttext" width="400"/>

Иногда это  становится препятствием для внедрения моделей.

Есть как минимум три причины, по которым нас может интересовать объяснение предсказаний модели.

<font size="5"> Обнаружение некорректных зависимостей </font>

Модель может использовать совсем не те признаки, которые соответствуют реальным объектам.

Например, ориентироваться на фон или водяной знак, а не на реальные свойства объекта.

Пример из статьи ["Why Should I Trust You?"](https://arxiv.org/abs/1602.04938)
Авторы обучили классификатор волков и эскимосских собак (хаски). Исследователи на изображениях, отобранных так, чтобы на всех фотографиях волков на фоне был снег, а на фотографиях хаски — нет.

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/2_bad_models_prediction.png" alt="alttext" width="400"/></center>

<center><em>Source: <a href="https://arxiv.org/pdf/1602.04938.pdf">Explaining the Predictions of Any Classifier</a></em></center>

<font size="5"> Доверие к предсказаниям </font>

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/nuclear.jpg" alt="alttext" width="650"/>

Нельзя остановить ядерную электростанцию или назначить пациенту опасное лечение на основании предсказания «черного ящика».
Даже маловероятная ошибка в таких случаях будет иметь тяжелые последствия. Поэтому человек, принимающий решение, должен понимать, на основе каких признаков или симптомов сделано предсказание.

<font size="5"> Публикации в научных журналах </font>

Вероятность публикации статьи значительно повышается, если автор смог объяснить происхождение результатов своего исследования.

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/scientific_publication.png" alt="alttext" width="650"/>

<font size="5"> Explainability & Interpretability </font>

В англоязычной литературе можно встретить два термина, связанные с темой доверия: Explainability и Interpretability

**Explainability** — методики, позволяющие объяснить механизм функционирования модели.

Например, для линейной регрессии это анализ коэффициентов при параметрах.


**Interpretability** — анализ того, как изменение входов модели влияло на ее выходы.

Например, закрашивая часть пикселей изображения, можно выяснить, какие из них повлияют на предсказания (пример с хаски и волками).


В данном блокноте будем рассматривать оба типа методов.

[Machine Learning Explainability vs Interpretability: Two concepts that could help restore trust in AI](https://www.kdnuggets.com/2018/12/machine-learning-explainability-interpretability-ai.html)



<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/data_pipeline.png" alt="alttext" width="850"/>


# Оценка важности признаков для простых моделей

## Оценка важности признака для линейных моделей


В случае с **линейными моделями** нам было сравнительно легко определить, какие признаки модель считает важными. Если модель присваивает какому-то признаку **большой вес**, то этот признак сильнее влияет на **предсказание**.


**ПРИЗНАКИ ДОЛЖНЫ БЫТЬ СРАВНИМЫ**


###Пример для табличных данных (Boston Dataset)

Для примера скачаем **датасет жилья Бостона** (boston_dataset), в котором проанализируем зависимость цены на жилье от параметров жилья и района, в котором оно находится.

In [None]:
import pandas as pd

# load dataset
boston_dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/boston_dataset.csv",
    index_col=0,
)
x_data = boston_dataset.iloc[:, :-1]
y_data = boston_dataset["target"].values

boston_dataset.head()

Обучим модель:

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_data, y_data)

Выведем **коэффициенты** признаков:

In [None]:
df = pd.DataFrame({"name": x_data.columns, "coef": model.coef_})
df

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns


plt.figure(figsize=(5, 5))
sns.barplot(data=df, y="name", x="coef", color=sns.xkcd_rgb["azure"])
plt.show()

In [None]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_data, model.predict(x_data))

Посмотрим на статистику признаков:

In [None]:
boston_dataset.describe()

Видно, что самый “важный” признак `NOX` имеет стандартное отклонение 0.115878, а, например, `LSTAT` имеет стандартное отклонение на порядок больше. Это значит, что веса перед признаком будут не только показывать важность, но и масштабировать признаки. Чтобы избежать этого, нужно сделать нормализацию.


Посмотрим на **коэффициенты** после **нормализации** данных.

In [None]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
x_data = ss.fit_transform(x_data)

In [None]:
model = LinearRegression()
model.fit(x_data, y_data)

In [None]:
linear_importance = pd.DataFrame(
    {"name": boston_dataset.columns[:-1], "coef": model.coef_}
)
linear_importance

In [None]:
plt.figure(figsize=(5, 5))
sns.barplot(
    data=linear_importance,
    y="name",
    x="coef",
    color=sns.xkcd_rgb["azure"])

plt.show()

In [None]:
mean_squared_error(y_data, model.predict(x_data))

Добавим абсолютные значения для сравнения с другими оценками важности.

In [None]:
linear_importance["abs(coef)"] = linear_importance.coef.abs()

Как мы видим, **качество модели** не изменилось, зато новая оценка позволяет сравнивать признаки по **важности**, а не по диапазону значений.

## Оценка важности признака для дерева

В случае с **деревьями** всё далеко не так очевидно: дерево не знает такой концепции, как **"вес признака"**.

Универсального критерия значимости для деревьев у нас нет, и, в зависимости от задачи и от того, как эти признаки устроены, ответы могут быть разными.

С одним из способов оценки качества признаков для дерева решений мы познакомились, когда строили дерево решений на третьей лекции. Мы использовали метрику $\text{Gini}$:

$$\large \text{Gini} = 1 - \sum_ip_i^2$$

где $p_i$ — вероятность того, что объект, попавший в данный  лист, относится к $i$-ому классу. Чем меньше $\text{Gini}$ в листьях, тем качественнее узел, от которого “растут” листья, разделяет классы.


Для того, чтобы охарактеризовать “хорошесть” узла, мы строили метрику $\text{impurity}$, в которой суммировали $\text{Gini}$ листьев данного узла с весами, равными доле объектов, попавших в данный лист. После чего смотрели, на сколько $\text{impurity}$ уменьшилось ($\text{decrease}$) на данном узле (стало ближе к “идеальному” нулю).


$$\displaystyle \large \text{Impurity decrease} = \text{Gini}_0 - (\frac{n_1}{n_1+n_2}\text{Gini}_1 + \frac{n_2}{n_1+n_2}\text{Gini}_2),$$

где $n_1, n_2$ — число объектов в листьях,

$ \quad\  \text{Gini}_0$ — чистота исходного узла.

Именно $\text{impurity decrease}$ используется для расчета атрибута `feature_importances_` в [sklearn](https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html). Такая метрика встроена в любое дерево решений. Для случайного леса (и других ансамблей) просто выдается среднее по деревьям.


У данного метода есть **недостаток**: он завышает качество признаков с большим количеством возможных значений.

Даже если признак не информативен, но у него много значений, на нем можно выбрать большое количество порогов, по которым можно разбить данные, что приведет к переобучению.

Бинарные и маломерные категориальные признаки в любом случае будут получать заниженное качество по сравнению с вещественными, даже если те дают худшее разбиение.

### Пример для табличных данных (Boston Dataset)

Посмотрим на важность признаков, основанную на **impurity decrease**.

In [None]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor

rng = np.random.RandomState(42)
model = RandomForestRegressor(random_state=rng)
model.fit(x_data, y_data)

In [None]:
gini_importance = pd.DataFrame(
    {"name": boston_dataset.columns[:-1], "feature importances": model.feature_importances_}
)
gini_importance

In [None]:
plt.figure(figsize=(13, 4))
plt.subplot(1, 2, 1)
plt.title("Linear model")
sns.barplot(
    data=linear_importance,
    y="name",
    x="abs(coef)",
    color=sns.xkcd_rgb["azure"],
    orient="h",
)

plt.subplot(1, 2, 2)
plt.title("Random forest")
sns.barplot(
    data=gini_importance, y="name", x="feature importances", color=sns.xkcd_rgb["azure"], orient="h"
)
plt.show()

Можно видеть, что важность признаков для одних и тех же данных зависит от модели. При этом признаки RM — количество комнат в доме, и LSTAT — процент людей с низким социальным статусом (без среднего образования, безработных), важны для обеих моделей. Что достаточно логично.

In [None]:
x_data = boston_dataset.iloc[:, :-1]
for item in x_data.columns:
    print(f"{item:<10}: {x_data[item].nunique():<4} unique values ")

Интересно отметить, что оба признака (RM и LSTAT), оказавшихся наиболее важными для Random Forest, имеют большое количество уникальных значений.

# Методы, изучающие отклик модели на изменение входных данных

В этом разделе мы рассмотрим методы, изучающие отклик модели на изменение входных данных. Они также называются **Model-Agnostic Methods**. Эти методы находятся ближе всего к концепции “черного ящика”. Они изучают взаимосвязь входов и выходов модели и пытаются объяснить связь между ними.

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/input_blackbox_output.png" alt="alttext" width="400"/>

## ICE (Individual Conditional Expectation)

Покажем, что это может работать на простой модели с использованием простого и интуитивно понятного метода:
1. Обучаем и **фиксируем модель**.
2. Выбираем **один объект**.
3. Выбираем **один признак** этого объекта, который мы будем **менять в некотором диапазоне**, все остальные признаки фиксируем.
4. Меняем этот признак и смотрим, как меняется **предсказание модели**.
5. Строим кривую зависимости **целевого значения** от **изменяемого признака** для модели.
6. Повторяем для другого объекта.

Называется этот метод Individual Conditional Expectation (индивидуальное условное ожидание).

Посмотрим, как это работает для Random Forest.

### Пример для табличных данных (Boston Dataset)

Загрузим и предобработаем  данные

In [None]:
import pandas as pd

# load dataset
boston_dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/boston_dataset.csv",
    index_col=0,
)
x_data = boston_dataset.iloc[:, :-1]
y_data = boston_dataset["target"].values

boston_dataset.head()

Обучим модель

In [None]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor

rng = np.random.RandomState(42)
model = RandomForestRegressor(random_state=rng)
model.fit(x_data, y_data)

Нам интересно посмотреть на два признака, которые были наиболее важны для предсказания: **RM** — количество комнат, **LSTAT** — процент людей с низким социальным статусом, и на один признак, который для  **Random Forest** не важен: **B** — характеризует этнический состав района.

In [None]:
import matplotlib.pyplot as plt
from sklearn.inspection import PartialDependenceDisplay

_, ax = plt.subplots(ncols=3, figsize=(15, 5), sharey=True, constrained_layout=True)

features_info = {
    "features": ["RM", "LSTAT", "B"],
    "kind": "both",
    "centered": False,
}

common_params = {
    "subsample": 50,
    "n_jobs": 2,
    "grid_resolution": 20,
    "random_state": 0,
}

x_data = pd.DataFrame(x_data, columns=boston_dataset.iloc[:, :-1].columns)

display = PartialDependenceDisplay.from_estimator(
    model,
    x_data,
    **features_info,
    ax=ax,
    **common_params,
)

Синие линии — это отдельные объекты. По оси x — изменяемые признаки для этих объектов, по оси y — изменение целевого значения. Оранжевым цветом нарисовано среднее по объектам.

Видно, что увеличение количества комнат в большинстве случаев положительно влияет на цену жилья, увеличение процента людей с низким социальным статусом — отрицательно, а этнический состав не важен.


## LIME (Local Interpretable Model-agnostic Explanations)

### Принцип работы

Нам бы хотелось оценивать все признаки одновременно для любой модели. Для этого можно попробовать **заменить "черный ящик"** (black-box) **"стеклянным"** (glass-box).

Ключевая идея [__LIME__](https://arxiv.org/abs/1602.04938) — **локальная аппроксимация сложно-интерпретируемой** (black-box) модели при помощи **легко-интерпретируемой** (glass-box).

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/lime_idea.png" width="600"></center>

Давайте разбирать идею по кусочкам:
1. **Локальная аппроксимация** — значит, что мы берем **один объект** и **модифицируем** его (изменяем признаки), чтобы получить небольшой датасет, локализованный вокруг исходного объекта.
2. **Сложно интерпретируемая модель** — модель, для которой мы проводим оценку (наш "черный ящик"). Ее мы используем для того, чтобы получить **предсказания** для датасета, построенного на основе одного объекта.
3. Таким образом, мы получаем **датасет**, включающий **признаки** и **предсказания** “черного ящика”. На этом датасете **учим** “стеклянный ящик” — **легко-интерпретируемую модель**. Например, линейную модель или дерево. Определять важность признаков для нее мы умеем.

**LIME** можно проиллюстрировать следующим изображением:

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/lime_example.png" width="600"></center>



По **осям** отложены значения **двух непрерывных признаков**.

**Жирный фиолетовый крест** — объясняемый объект. **Точки** и **кресты** — модификации исходного объекта, принадлежащие разным классам. **Метки классов** получены с помощью "черного ящика". **Граница между цветными зонами** — разделяющая поверхность, которую задает “черный ящик”. В качестве “стеклянного ящика” используется линейная модель, которую обучают на крестах и точках, она задает разделяющую **линию, выделенную серым**.

### Описание алгоритма

Итак, мы хотим найти **glass-box** модель $g(x)$, которая будет локально аппроксимировать **black-box** модель $f(x)$ в окрестности объекта интереса $x^*$. $G$ — семейство интерпретируемых моделей (линейные модели, деревья, ..). Искомая аппроксимация будет выглядеть следующим образом:

$$\hat{g}=\underset{g\in G}{\mathrm{argmin}}L(f,g,\pi_x)+\Omega (g),$$

где $\pi_x$ — **расстояние**, определяющееся по некоторой метрике от **сгенерированных объектов до объекта интереса**,

**функция ошибки** $L()$ измеряет несоответствие между предсказаниями моделей $f()$ и $g()$,

а $\Omega (g)$ — **штраф за сложность модели**  $g()$. На практике зачастую, чтобы не заниматься оптимизацией этого штрафа, просто вводят некоторое ограничение на сложность моделей $g()$. Для деревьев это может быть **глубина дерева**, для линейных моделей — **число ненулевых коэффициентов**.

Часто нам придется интерпретировать модели с **огромным числом признаков**. Чтобы упростить задачу, LIME может создавать **интерпретируемые представления признаков**.

Модели $f()$ и $g()$  могут **оперировать разными пространствами признаков**, $f()$ — пространством размерности $p$ ($R^p$), соответствующей количеству признаков в исходных данных, $g()$ — пространством размерности $q$ ($R^q$), при этом $q<<p$. Пространство $R^q$ называется *интерпретируемым представлением* признаков. Пусть некая функция $h(x)$ переводит пространство признаков $R^p$ в $R^q$.

Саму функцию, оценивающую расхождение между предсказаниями моделей $f()$ и $g()$, можно представить следующим образом:

$$\large L(f,g,\pi_x)=\sum_{z,z'}\pi_x(z)(f(z)-g(z'))^2,$$

где $z$ и $z'$ — наборы искусственно сгенерированных объектов в окрестности $x^*$ в пространствах $R^p$ и $R^q$ соответственно.

Теперь мы можем собрать целиком алгоритм получения объяснения вклада переменных. Представим его в виде псевдокода:

1. Дано: $x^*$ — **объект для интерпретации** вкладов признаков в модель, $N$ — размер искусственного датасета в окрестности целевого объекта, $similarity$ — **метрика расстояния**.
2. $x' = h(x^*)$ переведем целевой объект в **пространство меньшей размерности**

```
z' = []
for i in rnage(N):
    z'[i] = sample_around(x')
    y'[i] = f(z[i])
    pi_x'[i] = similarity(x', z'[i])

return K-Lasso(y', x', pi_x')
```

Выдачей алгоритма служит линейная модель, отобравшая К признаков на основе $y'$, $x'$, $\pi_x'$.

### Как получить набор объектов вблизи искомого?


*  В **текстах** можно **удалить слово**;
*  Для **изображений** можно **делить картинку на области** (суперпиксели) и поочередно закрашивать их одним и тем же цветом (средним).
* Для **табличных данных**: для **бинарных** переменных в низкоразмерном пространстве достаточно просто менять значение переменной на противоположное (**0 на 1** и **1 на 0**). Для **вещественных переменных** были предложены разные варианты. Например, к ним можно прибавлять **Гауссов шум** или **дискретизировать** (например, по квантилям).

### Ограничения

Описанный подход позволяет интерпретировать поведение модели **только в некоторой области** вблизи интересующего нас экземпляра.

На практике этого может быть достаточно. **Работает быстро**, так как не требует перебора всех комбинаций признаков.

### Пример NLP (объяснения классификации статей по религиозному принципу)

В данном примере мы будем использовать две модели из классического NLP, с которыми раньше не работали. Скажем несколько слов о том, как они работают.

#### TF-IDF

**TF-IDF** — способ численного представления документа, оценивает  **важность слова в контексте документа**. Состоит из двух множителей $TF$ и $IDF$.

Первая идея, которая стоит за **TF-IDF** — это **если слово часто встречается в документе, оно важное**. За это отвечает $TF$.

$TF$ (term frequency) — частота вхождения слова в документ, для которого рассчитывается значение:

$$\large TF(t, d) = \frac{n_t}{\sum_{k}n_k}$$

$n_t$ — количество повторов слова $t$ в документе $d$,

$\sum_{k}n_k$ — общее количество слов  $t$ в документе $d$ с повторами.

Вторая идея **TF-IDF** — **если слово встречается во многих документах, его ценность снижается**.

Пример: местоимения встречаются в большинстве текстов, но не несут смысловой нагрузки.

За это отвечает $IDF$.

$IDF$ (inverse document frequency) — логарифм обратной частоты вхождения слова в документы.
$$\large IDF(t, D) = \log{\frac{|D|}{|\{d_i \in D| t_i \in d_i \}|}}$$

где $|D|$ — число документов в коллекции,
$|\{d_i \in D| t_i \in d_i \}|$ — число документов в коллекции со словом $t$.


Итоговая формула:
$$\large TF-IDF(t, d, D) = TF(t,d)⋅IDF(t, D)$$


Пример работы `TfidfVectorizer` из [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html).
Каждому документу сопоставляется вектор, равный длине словаря. Ненулевые значения вектора хранятся в виде разреженных матриц [‘scipy.sparse.csr_matrix’](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]

vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(corpus)

print("Tf-idf dictionary:", vectorizer.get_feature_names_out())
print("Tf-idf dictionary len:", len(vectorizer.get_feature_names_out()))
print("Tf-idf shape:", x.shape)
print("Tf-idf type:", type(x))
print("Tf-idf values:", x)

TF-IDF (TF — term frequency, IDF — inverse document frequency):

[[wiki] TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF)

[[code] sklearn.feature_extraction.text.TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

[[doc] TF-IDF Vectorizer scikit-learn](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting)

#### Задача

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/christian_or_atheist.png" alt="alttext" width="900"/>

<center><em>Source: <a href="https://arxiv.org/pdf/1602.04938.pdf">Explaining the Predictions of Any Classifier</a><</em></center>

Используем датасет [fetch_20newsgroups](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_20newsgroups.html):

Данные [«The 20 Newsgroups»](http://qwone.com/~jason/20Newsgroups/) — это коллекция примерно из **20000 новостных документов**, разделенная (приблизительно) равномерно между **20 различными категориями**. Изначально она собиралась Кеном Ленгом (Ken Lang), возможно, для его работы [«Newsweeder: Learning to filter netnews»](https://www.sciencedirect.com/science/article/abs/pii/B9781558603776500487) («Новостной обозреватель: учимся фильтровать новости из сети»).

Коллекция «The 20 newsgroups» стала популярным набором данных для экспериментов с техниками машинного обучения для текстовых приложений, таких как классификация текста или его кластеризация.

[[code] Fetching data, training a classifier](https://marcotcr.github.io/lime/tutorials/Lime%20-%20multiclass.html)

В данном примере мы будем использовать [Multinomial Naive Bayes](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html?highlight=multinomial%20naive%20bayes#sklearn.naive_bayes.MultinomialNB) для классификации.

In [None]:
import sklearn
from sklearn.datasets import fetch_20newsgroups

newsgroups_train = fetch_20newsgroups(subset="train")
newsgroups_test = fetch_20newsgroups(subset="test")
# making class names shorter
class_names = [
    x.split(".")[-1] if "misc" not in x else ".".join(x.split(".")[-2:])
    for x in newsgroups_train.target_names
]
class_names[3] = "pc.hardware"
class_names[4] = "mac.hardware"

print(class_names)

Знаменитый набор данных из 20 групп новостей является эталоном, он использовался для сравнения различных моделей в нескольких статьях.

Мы берем **два класса**, которые трудно различить, потому что в них много схожих слов: **христианство и атеизм**.

Обучая модель, мы получаем **точность тестового набора 83,5%**, что является удивительно высоким показателем. Если бы точность была нашим единственным мерилом доверия, мы бы точно доверились этому классификатору.

Однако давайте посмотрим на объяснение на рисунке для произвольного экземпляра в тестовом наборе:

In [None]:
import sklearn.metrics
from sklearn.naive_bayes import MultinomialNB

# Again, let's use the tfidf vectorizer, commonly used for text.
vectorizer = sklearn.feature_extraction.text.TfidfVectorizer(lowercase=False)
train_vectors = vectorizer.fit_transform(newsgroups_train.data)
test_vectors = vectorizer.transform(newsgroups_test.data)

# Train the model
model_nb = MultinomialNB(alpha=0.01)
model_nb.fit(train_vectors, newsgroups_train.target)

# Calculate F1_score
pred = model_nb.predict(test_vectors)
sklearn.metrics.f1_score(newsgroups_test.target, pred, average="weighted")

In [None]:
print(train_vectors.shape)
print(type(train_vectors[0]), train_vectors[0].shape)
print(vectorizer.get_feature_names_out())

Как видно из кода, текст подается на вход модели не в сыром виде, а после предобработки объектом vectorizer.

[LimeTextExplainer](https://lime-ml.readthedocs.io/en/latest/lime.html#lime.lime_text.LimeTextExplainer)  ждет на вход данные и класс модели:


```
explain_instance(
    text_instance,
    classifier_fn,
    labels=(1, ),
    top_labels=None,
    num_features=10,
    num_samples=5000,
    distance_metric='cosine',
    model_regressor=None)
```

**classifier_fn** *— classifier prediction probability function, which takes a list of d strings and outputs a (d, k) numpy array with prediction probabilities, where k is the number of classes. For ScikitClassifiers , this is classifier.predict_proba.*



 Поэтому в примере используется обертка над классом, преобразовывающим данные, и моделью:

 [sklearn.pipeline.make_pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html)

In [None]:
from sklearn.pipeline import make_pipeline

# https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html
model_with_preprocessing = make_pipeline(vectorizer, model_nb)

Мы видим, что этот классификатор имеет очень высокий F1_score. [Руководство sklearn для 20 newsgroups](https://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes) указывает, что **Multinomial Naive Bayes переучивается** на этом наборе данных, изучая нерелевантные взаимосвязи, такие как заголовки.

Теперь мы используем **LIME** для объяснения индивидуальных прогнозов.


В случае мультикласса мы должны определить, для каких меток хотим получить объяснения, с помощью параметра «labels». **Сгенерируем пояснения** для меток 0 и 17:


In [None]:
!pip -q install lime

In [None]:
import lime
from lime.lime_text import LimeTextExplainer
import numpy as np

rng = np.random.RandomState(42)
explainer = LimeTextExplainer(class_names=class_names, random_state=rng)
idx = 1340
exp = explainer.explain_instance(
    newsgroups_test.data[idx],
    model_with_preprocessing.predict_proba,
    num_features=6,
    labels=[0, 15],
)
print("Document id: %d" % idx)
print(
    "Predicted class =",
    class_names[model_nb.predict(test_vectors[idx]).reshape(1, -1)[0, 0]],
)
print("True class: %s" % class_names[newsgroups_test.target[idx]])

Возвращается специальный объект класса [Explanation](https://lime-ml.readthedocs.io/en/latest/lime.html?highlight=Explanation#lime.explanation.Explanation)


Попросим **LIME** сгенерировать метки для K=2 классов. Чтобы увидеть, какие ярлыки имеют объяснения, используйте функцию `available_labels`

In [None]:
idx = 1340
exp = explainer.explain_instance(
    newsgroups_test.data[idx],
    model_with_preprocessing.predict_proba,
    num_features=6,
    top_labels=2,
)
print(exp.available_labels())

In [None]:
print(exp.as_list(label=0))
print(exp.as_list(label=15))

Обратите внимание, что положительный и отрицательный знаки относятся к конкретной метке, так что слова, отрицательные по отношению к классу 0, могут быть положительными по отношению к классу 15, и наоборот.

In [None]:
exp.show_in_notebook(text=newsgroups_test.data[idx], labels=(0,))

Теперь давайте посмотрим на **визуализацию объяснений**.
Обратите внимание на то, что для каждого класса слова в правой части строки являются «положительными», а слова в левой части — «отрицательными» для объясняемого класса.

Также видно, что в классификаторе используются как **разумные слова** (такие как «геноцид», «Лютер», «семитский» и т. д.), так и **неразумные** («рис», «сова»).

Давайте увеличим масштаб и просто посмотрим на **объяснения класса «атеизм»**.

In [None]:
exp.show_in_notebook(text=newsgroups_test.data[idx], labels=(15,))

Глядя на этот пример, можно увидеть, что в заголовке или кавычках может быть и полезный сигнал, который будет помогать обобщению (например,  в строке «Тема»).

А есть и **слова, которые нельзя обобщать** (например, адреса электронной почты и названия учреждений).

###Пример изображения (ResNet18)

[Local Interpretable Model-Agnostic Explanations (LIME): An Introduction](https://www.oreilly.com/content/introduction-to-local-interpretable-model-agnostic-explanations-lime/)

[[git] Using Lime with Pytorch](https://github.com/marcotcr/lime/blob/master/doc/notebooks/Tutorial%20-%20images%20-%20Pytorch.ipynb)

#### Идея


Давайте разберемся, как работают **интерпретируемые представления признаков для картинок**.

На рисунке ниже показан пример того, как **LIME** работает для **классификации изображений**.

Представьте, что мы хотим объяснить классификатор, который предсказывает, насколько вероятно, что изображение содержит древесную лягушку.

Мы берем изображение слева и делим его на **интерпретируемые компоненты** (смежные [суперпиксели](https://www.iro.umontreal.ca/~mignotte/IFT6150/Articles/SLIC_Superpixels.pdf)).

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/lime_interpretable_components.jpg" alt="alttext" width="550"/></center>

<center><em>Source: <a href="https://www.oreilly.com/content/introduction-to-local-interpretable-model-agnostic-explanations-lime/">Local Interpretable Model-Agnostic Explanations (LIME): An Introduction</a></em></center>

Далее мы **отключаем** некоторые из **суперпикселей** (закрашиваем серым).

Для каждой такой картинки мы получаем **вероятность** того, что **на изображении есть древесная лягушка**, и формируем датасет из частично закрашенных картинок и предсказаний.

Затем мы **обучаем линейную модель** на этом наборе данных. Веса, соответствующие суперпикселю, будут объяснять его вклад в предсказание.

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/lime_explanation_pipeline.jpg" alt="alttext" width="750"/></center>

<center><em>Source: <a href="https://www.oreilly.com/content/introduction-to-local-interpretable-model-agnostic-explanations-lime/">Local Interpretable Model-Agnostic Explanations (LIME): An Introduction</a></em></center>

Проанализируем предсказание сверточной сети **Google Inception**. Посмотрим, почему ее классификатор предсказывает «древесную лягушку» как наиболее вероятный класс, за которым следуют «бильярдный стол» и «воздушный шар» с более низкими вероятностями.

Мы видим, что **классификатор** в первую очередь **фокусируется на морде лягушки** как на объяснении предсказанного класса.

Это также проливает свет на то, почему «бильярдный стол» имеет ненулевую вероятность: руки и глаза лягушки напоминают бильярдные шары, особенно на зеленом фоне. Точно так же сердце похоже на красный воздушный шар.


<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/lime_explaination_google_inception.jpg" alt="alttext" width="750"/></center>

<center><em>Source: <a href="https://www.oreilly.com/content/introduction-to-local-interpretable-model-agnostic-explanations-lime/">Local Interpretable Model-Agnostic Explanations (LIME): An Introduction</a></em></center>

#### Анализ ResNet18

In [None]:
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/cat_and_dog1.jpg' -O cat_and_dog1.jpg
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/cat_and_dog2.png' -O cat_and_dog2.png
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/imagenet_class_index.json' -O imagenet_class_index.json

In [None]:
import os
from PIL import Image


def get_image(path):
    with open(os.path.abspath(path), "rb") as f:
        with Image.open(f) as img:
            return img.convert("RGB")


img = get_image("cat_and_dog1.jpg")
plt.imshow(img)
plt.axis("off")
plt.show()

Теперь нам нужно преобразовать это изображение в тензор PyTorch и нормализовать его для использования в нашей предварительно обученной модели.

In [None]:
from torchvision import transforms

# resize & normalize


def get_input_transform():
    transform = transforms.Compose(
        [
            transforms.Resize(224),
            transforms.CenterCrop((224, 224)),
            transforms.ToTensor(),
            transforms.Normalize(
                mean=(0.485, 0.456, 0.406),
                std=(0.229, 0.224, 0.225),
            ),
        ]
    )
    return transform


# for get croped img from input tensor


def get_reverse_transform():
    transform = transforms.Compose(
        [
            transforms.Normalize(
                mean=(0.0, 0.0, 0.0), std=(1 / 0.229, 1 / 0.224, 1 / 0.225)
            ),
            transforms.Normalize(
                mean=(-0.485, -0.456, -0.406),
                std=(1.0, 1.0, 1.0),
            ),
            transforms.Lambda(lambda x: torch.permute(x, (0, 2, 3, 1))),
            transforms.Lambda(lambda x: x.detach().numpy()),
        ]
    )
    return transform


def get_input_tensors(img):
    transform = get_input_transform()
    # unsqeeze converts single image to batch of 1
    return transform(img).unsqueeze(0)


def get_crop_img(img_tensor):
    transform = get_reverse_transform()
    return transform(img_tensor)[0]


Загрузим предобученную модель ResNet18, доступную в PyTorch, и классы изображений из ImageNet.

In [None]:
import torch
from torchvision import models
import json

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = models.resnet18(weights="ResNet18_Weights.DEFAULT")

idx2label, cls2label, cls2idx = [], {}, {}
with open(os.path.abspath("/content/imagenet_class_index.json"), "r") as read_file:
    class_idx = json.load(read_file)
    idx2label = [class_idx[str(k)][1] for k in range(len(class_idx))]
    lable2idx = {class_idx[str(k)][1]: k for k in range(len(class_idx))}

Получим предсказание. А после этого полученные нами прогнозы (логиты) пропустим через softmax, чтобы получить вероятности и метки классов для 5 лучших прогнозов.

In [None]:
import torch.nn.functional as F

img_t = get_input_tensors(img)
model = model.to(device)
model.eval()
logits = model(img_t.to(device))

probs = F.softmax(logits, dim=1)
probs5 = probs.topk(5)
plt.imshow(get_crop_img(img_t))
plt.axis("off")
plt.show()
tuple(
    (p, c, idx2label[c])
    for p, c in zip(
        probs5[0][0].detach().cpu().numpy(), probs5[1][0].detach().cpu().numpy()
    )
)

(tabby — это тоже кошка)

Применим LIME

In [None]:
!pip -q install lime

Lime генерирует массив изображений из исходного входного изображения

Таким образом, нам нужно предоставить конструктору:
1. Исходное изображение в виде массива numpy
2. Функцию классификации, которая будет принимать массив искаженных изображений в качестве входных данных и генерировать вероятности для каждого класса для каждого изображения в качестве выходных.



Поэтому потребуется вспомогательная функция для обработки пакета изображений, в соответствии с API LIME.

In [None]:
import torch


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


def batch_predict(images):  # images are numpy arrays
    model.eval()
    transform = get_input_transform()
    batch = torch.stack(tuple(transform(Image.fromarray(i)) for i in images), dim=0)

    model.to(device)
    batch = batch.to(device)

    logits = model(batch)
    probs = F.softmax(logits, dim=1)
    return probs.detach().cpu().numpy()

Создадим экзепляр ImageExplainer и сгенерируем объект explanation. У `LimeImageExplainer` есть особенность: он работает только с numpy.array и 3-х канальными изображениями.

In [None]:
import lime
from lime import lime_image

img_t = get_input_tensors(img)

explainer = lime_image.LimeImageExplainer(random_state=42)
explanation = explainer.explain_instance(
    np.array(255 * get_crop_img(img_t)).astype(
        np.uint8
    ),  # Lime assume that input is a numpy array :(
    batch_predict,  # classification function
    top_labels=5,
    hide_color=0,
    num_samples=1000,  # number of images that will be sent to classification function
    random_seed=42,
)

Выведем top5 предсказаний, сделанных через LIME.

P.S. Они не обязаны совпадать с предсказаниями для картинки без изменений.

In [None]:
for i, id in enumerate(explanation.top_labels):
    print(i, idx2label[id])

Воспользуемся маской на изображении и посмотрим области, которые дают лучший прогноз.

In [None]:
from skimage.segmentation import mark_boundaries

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(10, 10))

for i, id in enumerate(explanation.top_labels[:2]):
    temp, mask = explanation.get_image_and_mask(
        id, positive_only=False, num_features=5, hide_rest=False
    )
    img_boundry = mark_boundaries(temp, mask)
    ax[i].imshow(img_boundry)
    ax[i].set_title(idx2label[id])
    ax[i].axis("off")
    # number of clusters to be shown in the image: num_features=5
    # show or not negatively impacting clusters: positive_only=False
    # first 5 may be only positive

Зеленым цветом обозначена область наивысшего прогноза, оранжевым — области, которые меньше всего соответствуют нашему прогнозу. При `positive_only=False` будут показаны только границы.

И другое изображение:

In [None]:
img_2 = get_image("cat_and_dog2.png")
plt.imshow(img_2)
plt.axis("off")
plt.show()

Запуск Lime

In [None]:
img_t = get_input_tensors(img_2)

explainer = lime_image.LimeImageExplainer()
explanation = explainer.explain_instance(
    np.array(255 * get_crop_img(img_t)).astype(np.uint8),
    batch_predict,  # classification function
    top_labels=5,
    hide_color=0,
    num_samples=1000,
)  # number of images that will be sent to classification function
# Display top labels
for i, id in enumerate(explanation.top_labels):
    print(i, idx2label[id])

Выведем сегменты, наиболее повлиявшие на каждое предсказание:

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=5, figsize=(50, 10))

for i, id in enumerate(explanation.top_labels):
    temp, mask = explanation.get_image_and_mask(
        id, positive_only=False, num_features=5, hide_rest=False
    )
    img_boundry = mark_boundaries(temp, mask)
    ax[i].imshow(img_boundry)
    ax[i].set_title(idx2label[id], fontsize=40)
    ax[i].axis("off")

Структура LIME является гибкой в ​​том смысле, что любую интерпретируемую модель можно использовать для объяснения прогнозов.

Кроме того, концепция интерпретируемых компонентов позволяет применять LIME для объяснения данных большой размерности, таких как классификация изображений или текста.

## SHAP (SHapley Additive exPlanations)

###Принцип работы

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/shap_scheme.png" alt="alttext" width="600"/>


Цель [**SHAP**](https://christophm.github.io/interpretable-ml-book/shap.html) — объяснить предсказание объекта $x$ путем **вычисления вклада каждого признака** в предсказание. Для этого вычисляются SHAP-значения, основанные на **значениях Шепли** из **теории игр**.

**SHAP** рассматривает объясняемую **модель как игру**, а **признаки**, используемые в обучении, как **коалицию игроков**. **SHAP-значения** говорят нам, как **справедливо распределить "выигрыш" между игроками** — это вклад, который каждый игрок вносит в предсказание модели. SHAP основывается на анализе локальной важности признаков, соответственно, "выигрыш" — это предсказание, сделанное моделью для одного образца.

При этом игрок не обязательно должен быть индивидуальным признаком, он может состоять из **группы признаков**. Например, для моделей, работающих с изображениями, пиксели могут быть сгруппированы в суперпиксели, а "выигрыш" распределяется между ними.




Итак, каким образом можно определить вклад признака в предсказание, сделанное моделью? Предположим, у нас есть **модель**, которая **предсказывает доход человека на основании его возраста, пола и профессии**. Для определения вклада каждого признака рассмотрим все возможные комбинации $f$ признаков в модели ($f$ от $0$ до $3$) и представим их в виде графа:

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/shap_features_graph.png" alt="alttext" width="600"/>

[Элементы теории кооперативных игр](http://old.math.nsc.ru/~mathecon/Marakulin/CooGAMES.pdf)

Здесь каждая вершина изображает набор признаков, а каждое **ребро** — **добавление нового признака** в набор.

Далее **SHAP обучает модель на каждом наборе признаков** в графе (сохраняя гиперпараметры модели и набор тренировочных объектов).

Предположим, что мы **обучили модель на всех имеющихся наборах** признаков и сделали предсказание зарплаты для объекта $x_0$.

**Нулевая модель** делает самое простое "предсказание" — **усредняет зарплату**, не учитывая никакие признаки (точность соответствующая).
Дальше мы можем использовать по одному признаку, более сложные модели базируются на нескольких признаках.

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/shap_predictions_graph.png" alt="alttext" width="550"/>

Теперь в вершинах графа находятся предсказания, сделанные соответствующей моделью для объекта $x_0$.

Зная предсказания всех возможных моделей для одного объекта, мы можем посчитать вклад каждого признака в предсказание. Вклад признака в предсказание высчитывается на основании его **маржинальных вкладов** *(marginal contribution)*. **Маржинальный вклад признака** — это **разница** между **предсказанием модели**, обученной на наборе, **включающей** данный **признак**, и модели, обученной на том же наборе **без** данного **признака**. В данном случае можно рассчитать  маржинальный вклад для признака как разницу предсказаний моделей, соединенных ребром в графе, а вес ребра и будет являться маржинальным вкладом.

Например, маржинальный вклад для признака Age в предсказание нулевой модели для объекта $x_0$ рассчитывается следующим образом:

$$ \large MC_{Age,\{Age\}}(x_0)=Predict_{\{Age\}}(x_0)-Predict_{\emptyset}(x_0)=40k\,\$-50k\,\$=-10k\,\$$$

Для того, чтобы **оценить вклад признака** в предсказание модели, нужно учесть его **маржинальные вклады** во все модели, где этот **признак присутствует** (в графе выделены соответствующие ребра):

<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/shap_estimation_important_features.png" alt="alttext" width="600"/>

SHAP-значение является общим вкладом признака в предсказание и вычисляется как **взвешенная сумма маржинальных вкладов**:
$ \large
\begin{multline*}
SHAP_{Age}(x_0)=w_1\cdot MC_{Age,\{Age\}}(x_0)+w_2\cdot MC_{Age,\{Age, Gender\}}(x_0)\\+w_3\cdot MC_{Age,\{Age, Job\}}(x_0)+w_4\cdot MC_{Age,\{Age, Gender, Job\}}(x_0)
\end{multline*}
$

Веса определяются согласно правилу: сумма весов маржинальных вкладов для каждого уровня графа (числа признаков в наборе $f$) должна быть равной 1.

Таким образом, нетрудно рассчитать веса маржинальных вкладов признака Age:
* Первый уровень содержит $3$ ребра, каждое из которых будет иметь вес $\displaystyle \frac{1}{3}$
* Второй уровень содержит $6$ ребер, каждое из которых будет иметь вес $\displaystyle \frac{1}{6}$
* Третий уровень содержит $3$ ребра, каждое из которых будет иметь вес $\displaystyle \frac{1}{3}$

Таким образом: $\displaystyle w_1=w_4=\frac{1}{3}, \; w_2=w_3=\frac{1}{6}$.

В общем случае вес маржинального вклада в модель, обученную на наборе из $f$ признаков, обратно пропорционален числу маржинальных вкладов во все модели, обученные на наборе из $f$ признаков.

Число маржинальных вкладов во все модели, обученные на наборе из $f$ признаков, может быть рассчитано как: $f\cdot C_{F}^{f}$, где $F$ — количество признаков. Например, рассчитаем вес $w_2$ маржинального вклада $MC_{Age,\{Age, Gender\}}(x_0)$, согласно правилу:

$$\displaystyle w_2=\left[f\cdot C_{F}^{f}\right]^{-1}=\left[2\cdot C_{3}^{2}\right]^{-1}=\frac{1}{6}$$

где $\large C_{F}^{f}$ — биномиальный коэффициент.

$$\large
\begin{pmatrix}
F\\
f
\end{pmatrix}=C_{F}^{f} = \frac{F!}{f!(F-f)!}$$


<img src="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/shap_compute_marginal_weights.png" alt="alttext" width="700"/>

Такие SHAP-значения можно легко посчитать для каждого признака для каждого объекта и, например, усреднить по объектам какой-то группы.

Например, можно взять все объекты, которые модель оценивает высоко, и посмотреть значимые дли них признаки. Либо, если у нас есть какая-то особенная группа объектов, можем контролировать, что для них модель выучивает именно важные признаки, а не какой-то мусор.

### Kernel SHAP

У описанного выше метода есть недостаток: нам нужно обучить огромное количество моделей. Для всего 10-ти признаков это $10\cdot2^9 = 5120$ моделей.

На помощь нам приходит статья [A Unified Approach to Interpreting Model Predictions](https://arxiv.org/pdf/1705.07874.pdf). В ней введено понятие **аддитивного метода атрибуции признаков** в котором в качестве “стеклянного ящика” используется функция бинарных (есть признак/нет признака) переменных:

$$g(z') = \phi_0 +\sum_{i=1}^M\phi_i z_i'$$

где $z'\in\{0,1\}^M$ — вектор из $0$ и $1$ длины $M$: $0$ — отсутсвие признака, $1$ — наличие признака, $M$ — количество упрощенных признаков (например, суперпикселей для изображения). $ϕ_i$ — вклад (важность) $i$-того упрощенного признака.

Для адекватного описания работы модели данный метод должен удовлетворять трем свойствам:
1. **Локальная точность:** результат модели объяснения $g(x’)$ должен совпадать с результатом оригинальной модели $f(x)$

$$f(x)=g(x')$$

> $x' = \{x_1, x_2, ...,x_M\}$ — упрощенные признаки объекта (например: суперпиксели для изображения), вектор $z’$ выше характеризует присутствие/отсутствие этих признаков.



> $x$ — оригинальный набор признаков объекта (например: значения rgb пикселей изображения).

> Упрощенный набор признаков соответствует оригинальному набору:

$$x=h_x(x')$$


2. **Отсутствие:** если признак отсутствует — он вносит нулевой вклад

$$x_i = \text{None} \to \phi_i = 0$$

3. **Консистентность:** если модель $f$ изменяется таким образом $f'$, что вклад некоторых упрощенных признаков $\phi_i$ увеличивается или остается прежним, независимо от вклада других признаков, то выход модели не может уменьшиться

$$\phi_i(f', x) \geq \phi_i(f, x) \to f'_x(z') - f'_x(z'\verb!\!i) \geq f_x(z') - f_x(z'\verb!\!i)$$


> где $z'\verb!\!i$ — это $z'$ при $z_i=0$.


В [статье](https://arxiv.org/pdf/1705.07874.pdf) показано, что единственным методом адитивной атрибуции, удовлетворяющим всем свойствам являются значения Шепли, которые можно записать, как
$$\phi_i(f, x) = \sum_{z'⊆x'} \frac{|z|!(M-|z'|-1)!}{M!}[f_x(z')-f_x(z'\verb!\!i)]$$

Значения Шепли можно [получить](https://arxiv.org/pdf/1705.07874.pdf) (вывод есть в статье) используя **линейный LIME** 🍋

$$\hat{g}=\underset{g\in G}{\mathrm{argmin}}L(f,g,\pi_{x'})+\Omega (g)$$

со следующими параметрами

$$\Omega(g) = 0$$

$$\pi_{x'}(z')=\frac{M-1}{C^{|z'|}_M|z'|(M-|z'|)}$$

$$L(f, g, \pi_{x'}) = \sum_{z' \in Z}[f(h^{-1}(z'))-g(z')]^2\pi_{x'}(z')$$

где $|z'|$ — количество ненулевых элементов $z'$, $C^k_n$ — биномиальный коэффициент.

Такой метод расчета называется Kernel SHAP. Он позволяет не обучать огромное количество моделей и реализовать вычисление значений Шепли за конечное время. Именно так считаются значения Шепли в библиотеке SHAP.

### Пример для табличных данных (Boston Dataset)

Установим пакет SHAP

In [None]:
from IPython.display import clear_output

!pip install -q shap
clear_output()

Для примера скачаем датасет жилья Бостона (boston_dataset), в котором проанализируем зависимость цены на жилье от параметров жилья и района, в котором оно находится.

Разобьем данные на train и test и обучим Random Forest модель.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
import pandas as pd
import numpy as np


# load dataset
boston_dataset = pd.read_csv(
    "https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/boston_dataset.csv",
    index_col=0,
)
x_data = boston_dataset.iloc[:, :-1]
y_data = boston_dataset["target"]

# Split the data into train and test data
x_train, x_test, y_train, y_test = train_test_split(
    x_data, y_data, test_size=0.2, random_state=42
)

# Build the model with the random forest regression algorithm
rng = np.random.RandomState(42)
model = RandomForestRegressor(n_jobs=-1, max_depth=4, random_state=rng)
model.fit(x_train, y_train)

Применим Shap.

In [None]:
import shap

# explain the model's predictions using SHAP
# (same syntax works for LightGBM, CatBoost, scikit-learn and spark models)
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(x_test)

In [None]:
print(type(shap_values))  # numpy.ndarray

**Force plots**

Хороший способ визуализировать вклад каждого признака в конкретный прогноз — использовать график сил.

В приведенном ниже примере показан график силы для первого объекта в тестовом наборе данных.

In [None]:
# load JS visualization code to notebook
shap.initjs()
# visualize the first prediction’s explanation
shap.force_plot(explainer.expected_value, shap_values[0, :], x_test.iloc[0, :], matplotlib=True)
# https://github.com/shap/shap/issues/279 very last answer

* $f(x)$ — это прогноз модели по анализируемому объекту недвижимости. А base_value — это средний прогноз по всему набору тестовых данных. Или, другими словами, это значение, которое можно было бы спрогнозировать, если бы мы не знали никаких характеристик текущего примера.

* Элементы, которые способствуют увеличению цены, показаны красным, а те, которые уменьшают — синим.

* Длина вектора — “сила” влияния. Численное значение (оно не совпадает с длиной) — важность признака. Из нашего анализа мы помним, что увеличение RM положительно влияет на предсказание, но для данного объекта RM маленькое, поэтому влияет на цену отрицательно.

**Waterfall_plot**

Другой способ понимания влияния факторов для конкретного примера:

In [None]:
# visualize the first prediction's explanation using waterfall

explainer_for_wf = shap.Explainer(model, x_train)
exlanation = explainer_for_wf(x_test)

shap.plots.waterfall(exlanation[0])

Этот график объясняет движущие силы конкретного прогноза:

Влияние каждого отдельного признака (наименее значимые признаки объединяются в одну группу) представлено стрелками, которые перемещают логарифмическое отношение шансов влево и вправо, начиная с базового значения (внизу картинки).


Указанный выше пример приведен только для одного объекта.

Если мы возьмем много пояснений Force plots, повернем их на 90 градусов, а затем сложим их по горизонтали, мы сможем увидеть объяснения для всего набора данных (в notebook этот график является интерактивным):

In [None]:
# load JS visualization code to notebook
shap.initjs()
# visualize the training set predictions
shap.force_plot(explainer.expected_value, shap_values, x_test)

* По оси x — объекты, по оси y — вклад признаков в предсказание для каждого объекта. Важно заметить, что объекты упорядочены по similarity, которая считается по расстоянию между признаками.
* Можно использовать выпадающее меню, чтобы посмотреть, как будет выглядеть график без упорядочивания или при упорядочивании по конкретному признаку.


**Summary plot**

Сводный график с `plot_type = 'bar'` даст нам график важности признаков.

Признаки с высокой предсказательной способностью показаны вверху, а с низкой предсказательной силой — внизу.

In [None]:
shap.summary_plot(shap_values, x_test, plot_type="bar")

Обратите внимание, что, согласно Shap, наименьшей предсказательной способностью обладают признаки **CHAS, ZN, RAD** и **INDUS**.

Здесь мы только что рассмотрели алгоритм TreeExplainer для интерпретации модели.

Вы можете изучить остальные алгоритмы: DeepExplainer, KernelExplainer, LinearExplainer и GradientExplainer.

### Пример NLP (перевод с английского на русский)

Рассмотрим пример интерпретации модели для предварительно обученной модели машинного перевода
[Machine Translation Example](https://github.com/slundberg/shap/blob/master/notebooks/text_examples/translation/Machine%20Translation%20Explanations.ipynb). Для перевода будем использовать предобученную [модель-трансформер](https://arxiv.org/abs/1810.04805).

Используем одну из моделей [huggingface ](https://github.com/huggingface/transformers)


Модель: [Language Technology in Helsinki](https://blogs.helsinki.fi/language-technology/)


[Language Technology Research Group at the University of Helsinki](https://huggingface.co/Helsinki-NLP)


[Helsinki-NLP/opus-mt-en-ru](https://huggingface.co/Helsinki-NLP/opus-mt-en-ru)

In [None]:
!pip install -q transformers[sentencepiece]

Загружаем модель.

Для этого используется класс-фабрика, на вход которому передается имя модели, а возвращает он объект соответствующего класса.

In [None]:
import torch
import transformers
from transformers import AutoModelForSeq2SeqLM

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

lang = "en"
target_lang = "ru"
model_name = f"Helsinki-NLP/opus-mt-{lang}-{target_lang}"

# Download the model and the tokenizer
# can also try translation with different pre-trained models

# It's a Factory pattern
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
model.to(device)
clear_output()
print(type(model))

В данном случае нам вернулся объект типа [MarianMT](https://huggingface.co/transformers/model_doc/marian.html)



Теперь создадим [токенайзер](https://huggingface.co/transformers/main_classes/tokenizer.html).

Как мы уже обсуждали, токенайзер преобразует слова и знаки препинания из исходного текста в токены, которые можно подать на вход модели. В данном случае возвращаются id. При этом не всегда одно слово преобразуется в один токен, иногда слово разбивается по слогам на несколько токенов.


Создается токенайзер так же фабрикой по имени модели.


In [None]:
!pip install -q sacremoses

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name)

clear_output()

print(type(tokenizer))

input = tokenizer("Hello world!", return_tensors="pt")
print(input)

translated = model.generate(
    **tokenizer("Hello world!", return_tensors="pt").to(device), max_new_tokens=512
)
# ** -  is dictionary unpack operator
# https://pavel-karateev.gitbook.io/intermediate-python/sintaksis/args_and_kwargs

Теперь переведем целую фразу и проанализируем, как выход модели связан со входом.

Для этого создадим объект [shap.Explainer](https://shap.readthedocs.io/en/latest/generated/shap.Explainer.html), который в данном случае инициализируется экземпляром модели и экземпляром токенайзера*.


Вместо того, чтобы запускать саму модель, мы запускаем `Explainer` (неявно вызывая его метод `__call__`).


\* В действительности вторым параметром конструктора `shap.Explainer` не обязательно должен быть токенайзер. `shap.Explainer` принимает объект, поддерживающий интерфейс `masker`:

```masked_args = masker(*model_args, mask=mask)```

Он используется для исключения части аргументов, и токенайзеры поддерживают этот интерфейс (`shap.TokenMasker`). Благодаря такому подходу shap может работать с различными моделями как с "черным ящиком",


In [None]:
import shap

# define the input sentences we want to translate
data = [
    "Transformers are a type of neural network architecture that have been gaining popularity. Transformers were developed to solve the problem of sequence transduction, or neural machine translation."
    "That means any task that transforms an input sequence to an output sequence. This includes speech recognition, text-to-speech transformation, etc.."
]

# we build an explainer by passing the model we want to explain and
# the tokenizer we want to use to break up the input strings
explainer = shap.Explainer(model, tokenizer, max_new_tokens=512)

# explainers are callable, just like models
explanation = explainer(data)
clear_output()

На выходе получаем объект класса [shap.Explanation](https://shap.readthedocs.io/en/latest/generated/shap.Explanation.html#shap-explanation), который содержит значения Шепли для каждого токена.

In [None]:
print("Data", explanation.data)
print("Shap values", explanation.values)
print("Shape", explanation.shape)  # 1, in, out

Теперь, используя магию shap, можно визуализировать результат.

In [None]:
shap.initjs()
shap.plots.text(explanation)

Данная языковая модель предсказывает эмбеддинги — вектора, которые преобразуются в токены. При этом SHAP для оценки важности использует сжатые представления эмбеддингов. В данном случае наибольший интерес представляет не раскраска outputs (абсолютное значение сжатого представления эмбеддинга на выходе), а подветка inputs, которая появляется, когда мы нажимаем на выходной токен. Она показывает, какие входные токены влияют на выходной.

### Пример NLP (абстрактное обобщение текста)

[[text] plot](https://shap.readthedocs.io/en/latest/example_notebooks/api_examples/plots/text.html)

В этом примере интерпретируется модель генерации объяснений для предварительно обученной модели для составления краткого резюме статьи.

Используется датасет Extreme Summarization [XSum](https://huggingface.co/sshleifer/distilbart-xsum-12-6).

In [None]:
!pip install -q datasets

In [None]:
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained("sshleifer/distilbart-xsum-12-6")
model = AutoModelForSeq2SeqLM.from_pretrained("sshleifer/distilbart-xsum-12-6").to(
    device
)


dataset = load_dataset("xsum", split="train", trust_remote_code=True)  # load dataset
s = dataset["document"][0:1]  # slice inputs from dataset to run model inference on
explainer = shap.Explainer(model, tokenizer)  # create an explainer object
explanation = explainer(s)  # Compute shap values
clear_output()

In [None]:
shap.initjs()
shap.plots.text(explanation)  # Visualize shap explanations

# Градиентные методы

## Vanilla Gradient

### Идея метода

Имея информацию о структуре модели, можно использовать градиент, чтобы понять, как входы связаны с выходом.

Градиент указывает направление возрастания функции. Если мы выберем  **logit, соответствующий метке наиболее вероятного класса**, и посчитаем для него **градиент по исходному изображению**, мы можем узнать, какие пиксели нужно “усилить”, чтобы модель была более уверена в ответе.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/saliency_via_backprop.png" width="800">

<em>Source: <a href="https://arxiv.org/pdf/1312.6034.pdf">Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps
</a></em></center>

Тут важно заметить, что пример из статьи на картинке выше — это **cherry picked** (специально отобранный пример, для которого данный метод дает хороший результат). Давайте посмотрим на нашей картинке.

###Пример изображения (ResNet18)

Загрузим изображение

In [None]:
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/cat_and_dog1.jpg' -O cat_and_dog1.jpg
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/imagenet_class_index.json' -O imagenet_class_index.json

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image


def get_image(path):
    with open(os.path.abspath(path), "rb") as f:
        with Image.open(f) as img:
            return img.convert("RGB")


img = get_image("cat_and_dog1.jpg")
plt.rcParams["figure.figsize"] = (5, 5)
plt.imshow(img)
plt.axis("off")
plt.show()

Теперь нам нужно преобразовать это изображение в тензор PyTorch, а также его нормализовать для использования в нашей предварительно обученной модели.

In [None]:
from torchvision import transforms

# resize & normalize


def get_input_transform():
    transform = transforms.Compose(
        [
            transforms.Resize(224),
            transforms.CenterCrop((224, 224)),
            transforms.ToTensor(),
            transforms.Normalize(
                mean=(0.485, 0.456, 0.406),
                std=(0.229, 0.224, 0.225),
            ),
        ]
    )
    return transform


# for get croped img from input tensor


def get_reverse_transform():
    transform = transforms.Compose(
        [
            transforms.Normalize(
                mean=(0.0, 0.0, 0.0), std=(1 / 0.229, 1 / 0.224, 1 / 0.225)
            ),
            transforms.Normalize(
                mean=(-0.485, -0.456, -0.406),
                std=(1.0, 1.0, 1.0),
            ),
            transforms.Lambda(lambda x: torch.permute(x, (0, 2, 3, 1))),
            transforms.Lambda(lambda x: x.detach().numpy()),
        ]
    )
    return transform


def get_input_tensors(img):
    transform = get_input_transform()
    # unsqeeze converts single image to batch of 1
    return transform(img).unsqueeze(0)


def get_crop_img(img_tensor):
    transform = get_reverse_transform()
    return transform(img_tensor)[0]


Загрузим предобученную модель ResNet18, доступную в PyTorch, и классы изображений из ImageNet.

In [None]:
import torch
from torchvision import models
import json

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = models.resnet18(weights="ResNet18_Weights.DEFAULT")

idx2label, cls2label, cls2idx = [], {}, {}
with open(os.path.abspath("/content/imagenet_class_index.json"), "r") as read_file:
    class_idx = json.load(read_file)
    idx2label = [class_idx[str(k)][1] for k in range(len(class_idx))]
    lable2idx = {class_idx[str(k)][1]: k for k in range(len(class_idx))}

Получим предсказание. А после этого полученные нами прогнозы (logits) пропустим через softmax, чтобы получить вероятности и метки классов для 6 лучших прогнозов.

In [None]:
print(type(img))
img_t = get_input_tensors(img)

model.to(device)
model.eval()
logits = model(img_t.to(device))

In [None]:
import torch.nn.functional as F


def top_k_class(logits, k=6):
    prediction = F.softmax(logits, dim=1)
    top_props, top_inds = prediction.topk(k)

    for i in range(k):
        category_name = idx2label[top_inds[0][i].item()]
        score = top_props[0][i].item()
        print(f"{category_name} {top_inds[0][i].item()}: {100 * score:.1f}%")


top_k_class(logits)

Включаем расчет градиента для изображения. Делаем предсказание. Выбираем наиболее вероятный logit.

In [None]:
img_t.requires_grad = True  # Tell pytorch to compute grads w.r.t. inputs too

logits = model(img_t.to(device))  # [1,1000] batch of one element, 1000 class scores
top_score, top_idx = logits[0].topk(1)  # Get id of class with best score
id = top_idx[0].item()

print(id, idx2label[id])  # Print the label this class

score = logits[:, id]  # Model output for particular class

Для выхода модели, соответствующего нашему классу, рассчитываем градиент.

In [None]:
# Compute gradients
score.backward(retain_graph=True)

# retain_grad = True is not nessesary
# But if we run this code second time, we got a torch error without it
# because pytorch want to accumulate gradients explicitly

print(img_t.grad.shape)

У входного тензора (изображения) появился градиент, который указывает на то, как каждый элемент повлиял на выход модели. Отобразим этот градиент.

In [None]:
import numpy as np
from matplotlib import pylab as P


# Helper method to display grad
def grad_to_image(raw_grads, percentile=99):
    gradients = raw_grads.detach().cpu().numpy()
    gradients = np.transpose(gradients, (0, 2, 3, 1))[0]

    image_2d = np.sum(np.abs(gradients), axis=2)

    vmax = np.percentile(image_2d, percentile)
    vmin = np.min(image_2d)

    return np.clip((image_2d - vmin) / (vmax - vmin), 0, 1)


def plot_saliency_map(img_tensor, saliency_map):
    plt.rcParams["figure.figsize"] = (10, 5)
    plt.subplot(1, 2, 1)
    img = get_crop_img(img_t)
    plt.imshow(img)
    plt.axis("off")
    plt.subplot(1, 2, 2)
    plt.imshow(saliency_map, cmap=P.cm.gray, vmin=0, vmax=1)
    plt.axis("off")
    plt.show()

In [None]:
saliency_map = grad_to_image(img_t.grad)
plot_saliency_map(img_t, saliency_map)

**Карта важности (saliency map)**, полученная таким образом, получается очень зашумленной.

### Проблема насыщения (saturation)

Одним из недостатков **карты важности** (saliency map), полученной методом **Vanilla Gradient**, является **проблема насыщения** (saturation). Простыми словами эту проблему можно сформулировать так: если какой-то **признак “идеально” характеризует объект**, как принадлежащий к определенному классу, то **градиент** этого признака по логиту этого класса **будет нулевым**. То есть **Vanilla Gradient** будет **занижать важность очень хороших признаков**.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/saturation_problem.png" width="800">

<em>Source: <a href="https://arxiv.org/pdf/1704.02685.pdf">Learning Important Features Through Propagating Activation Differences</a></em>


Более математично проблему можно описать так. Пусть $h$ — аналог активации некоторого нейрона, вычисляющийся как $h=max(0,1-i_1-i_2)$. Если мы возьмем значения признаков $i_1=1$ и $i_2=1$, то на выходе получим значение $h=0$. Далее по очереди будем занулять значения каждого из признаков, внося таким образом пертурбации: $i_1=0$ и $i_2=1$,  $i_1=1$ и $i_2=0$. В обоих случаях выход по-прежнему будет $h=0$. Может сложиться обманчивое впечатление, что ни один из признаков не влияет на результат вычисления. Таким образом, мы столкнулись с проблемой, что подход, основанный на изменении признаков, будет занижать значимость признаков, чей вклад в результат достиг насыщения. Аналогично градиентные методы также будут недооценивать важность признаков при насыщении, поскольку градиент в данном случае будет равным 0.

Проблема насыщения не является редкой, в частности, с ней можно столкнуться в биологии при построении [моделей](https://www.nature.com/articles/nmeth.3547), объясняющих вклад единичных мутаций на то или иное свойство организма, что связано с вырожденностью генетического кода.

### Adversarial attacks

Принцип взятия градиента по входу используется при **состязательных атаках (adversarial attacks)**.

Если не просто визуализировать градиент, а с его помощью менять изображение, усиливая определенную метку класса, то можно обмануть сеть и заставить ее неверно классифицировать картинку, незначительно поменяв ее.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/adversarial_attack.jpg" width="700">



Подробнее:

[[wiki] Adversarial machine learning](https://en.wikipedia.org/wiki/Adversarial_machine_learning)

[Interpretable Machine Learning](https://christophm.github.io/interpretable-ml-book/adversarial.html)

## SmoothGrad


### Идея метода

Проблемой Vanilla Gradient Ascent является большая зашумленность карты важности. Было придумано несколько способов борьбы с этим, один из них был предложен в статье [SmoothGrad: removing noise by adding noise](https://arxiv.org/pdf/1706.03825.pdf).

Как вы можете догадаться из названия статьи, идея **SmoothGrad** заключается в **добавлении** к исходному изображению $x$ **гауссовского шума**:

$$\large x+\mathcal{N}(0, \sigma^2).$$

Для набора зашумленных изображений с помощью **Vanilla Gradient** рассчитываются **карты важности (saliency map)**:

$$\large M_c(x+\mathcal{N}(0, \sigma^2)).$$

**Карты важности**, полученные от зашумленных изображений, **усредняются**:

$$\large SmoothGrad = \frac{1}{n}\sum_{1}^{n}M_c(x+\mathcal{N}(0, \sigma^2)),$$

$SmoothGrad$ — результат SmoothGrad.






<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/smoth_grad.png" width="800">

<em>Source: <a href="https://arxiv.org/pdf/1706.03825.pdf">SmoothGrad: removing noise by adding noise
</a></em></center>


В статье рекомендуют выбирать $n = 50$ и 10–20% шума. Уровень шума определяют как отношение:

$$\large \frac{\sigma}{x_{max}-x_{min}}.$$

SmoothGrad частично решает проблему насыщения, “раскачивая” хорошие признаки.

###Пример изображения (ResNet18)

Для визуализации работы SmoothGrad используем [код](https://github.com/PAIR-code/saliency/blob/master/Examples_pytorch.ipynb) c [сайта](https://pair-code.github.io/saliency/), посвященного [статье](https://arxiv.org/pdf/1706.03825.pdf).

In [None]:
!pip install -q saliency

У кода есть особенность: нужно написать функцию `call_model_function`, вызывающую модель.

При этом любое изображение, поданное в метод `GetMask` класса `GradientSaliency`, будет преобразовано в `np.array`. К тому же, размер входного изображения и карты важности на выходе должен совпадать, что осложняет использование `torchvision.transforms`.

In [None]:
import saliency.core as saliency
import numpy as np
from PIL import Image


model = models.resnet18(weights="ResNet18_Weights.DEFAULT")


def call_model_function(img, call_model_args=None, expected_keys=None):
    img_t = torch.tensor(np.transpose(img, (0, 3, 1, 2)))
    transform = transforms.Normalize(
        mean=(0.485, 0.456, 0.406),
        std=(0.229, 0.224, 0.225),
    )
    img_t = transform(img_t)
    img_t.requires_grad_(True)

    model.to(device)
    model.eval()
    logits = model(img_t.float().to(device))

    top_score, top_idx = logits[0].topk(1)  # Get id of class with best score
    target_class_idx = top_idx[0].item()

    output = logits[:, target_class_idx]
    grads = torch.autograd.grad(
        output, img_t, grad_outputs=torch.ones_like(output)
    )  # output[:, target_class_idx]
    grads = torch.movedim(grads[0], 1, 3)
    gradients = grads.detach().numpy()
    return {saliency.base.INPUT_OUTPUT_GRADIENTS: gradients}

Получаем Vanilla Gradient, рассчитанный для исходного изображения с помощью установленной библиотеки, и результат  SmoothGrad.

In [None]:
img = get_image("cat_and_dog1.jpg")
img_t = get_input_tensors(img)
img_arr = get_crop_img(img_t)

gradient_saliency = saliency.GradientSaliency()

vanilla_mask_3d = gradient_saliency.GetMask(img_arr, call_model_function)
smoothgrad_mask_3d = gradient_saliency.GetSmoothedMask(img_arr, call_model_function)

# Call the visualization methods to convert the 3D tensors to 2D grayscale.
vanilla_mask_grayscale = saliency.VisualizeImageGrayscale(vanilla_mask_3d)
smoothgrad_mask_grayscale = saliency.VisualizeImageGrayscale(smoothgrad_mask_3d)

Визуализируем результат:

In [None]:
from matplotlib import pylab as P


def ShowGrayscaleImage(im, title="", ax=None):
    if ax is None:
        P.figure()
    P.axis("off")
    P.imshow(im, cmap=P.cm.gray, vmin=0, vmax=1)
    P.title(title)


# Set up matplot lib figures.
plt.rcParams["figure.figsize"] = (15, 5)

plt.subplot(1, 3, 1)
plt.imshow(img_arr)
plt.axis("off")

ShowGrayscaleImage(
    vanilla_mask_grayscale, title="Vanilla Gradient", ax=P.subplot(1, 3, 2)
)
ShowGrayscaleImage(smoothgrad_mask_grayscale, title="SmoothGrad", ax=P.subplot(1, 3, 3))

##Integrated Gradients

### Идея метода

Следующий метод, который мы посмотрим, называется **Integrated Gradients**. Он напоминает **SmoothGrad** тем, что мы намеренно "портим" изображения. Давайте разберемся, как он работает.

В методе **Integrated Gradients** мы выбираем **опорное изображение** $x'$. В качестве опорного изображения используется черный фон (все нули по RGB каналам). Оцениваемое изображение $x$ примешивают к опорному изображению $x’$ с пропорцией $\alpha$:

$$\large x'+\alpha(x-x')$$

Таким образом мы портим изображение и постепенно его восстанавливаем.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/IG_fireboat_1.png" width="900">

<em>Source: <a href="https://www.tensorflow.org/tutorials/interpretability/integrated_gradients">Tensorflow tutorials: Integrated gradients
</a></em></center>

Для смеси изображений считается **Vanilla Gradient**:

$$\large M_c(x'+\alpha(x-x'))$$

Формула, лежащая в основе **Integrated Gradients**, была предложена в [статье](https://arxiv.org/pdf/1703.01365.pdf). Это — интегральное значение градиента при восстановлении изображения.

$$\large IntegratedGrads(x) = (x-x')\cdot\int_{\alpha=0}^1 M_c(x'+\alpha(x-x'))dα$$

Множитель $(x-x)’$ появился, т.к. изначально градиент был по $dx = (x-x’)d\alpha$.

В расчетах интеграл аппроксимируется суммой:


$$\large IntegratedGrads(x) \approx (x-x')\cdot\sum_{k=1}^m M_c(x'+\frac{k}{m}(x-x'))\cdot\frac{1}{m}$$

Значение $m$ выбирают в диапазоне от 20 до 300.

Пример результата:

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/IG_fireboat.png" width="500">

<em>Source: <a href="https://www.tensorflow.org/tutorials/interpretability/integrated_gradients">Tensorflow tutorials: Integrated gradients
</a></em></center>

Integrated Gradients частично решает проблему насыщения за счет изменения изображения.

###Пример изображения (ResNet18)

In [None]:
! pip install -q captum

In [None]:
output = model(img_t.to(device))
output = F.softmax(output, dim=1)
prediction_score, pred_label_idx = torch.topk(output, 1)

pred_label_idx.squeeze_()
predicted_label = idx2label[pred_label_idx.item()]
print("Predicted:", predicted_label, "(", prediction_score.squeeze().item(), ")")

In [None]:
from captum.attr import IntegratedGradients


integrated_gradients = IntegratedGradients(model)
attributions_ig = integrated_gradients.attribute(
    img_t.to(device), target=pred_label_idx, n_steps=200
)

In [None]:
saliency_map = grad_to_image(attributions_ig)

# Set up matplot lib figures.
plt.rcParams["figure.figsize"] = (20, 5)

plt.subplot(1, 4, 1)
plt.imshow(img_arr)
plt.axis("off")

ShowGrayscaleImage(
    vanilla_mask_grayscale, title="Vanilla Gradient", ax=P.subplot(1, 4, 2)
)
ShowGrayscaleImage(smoothgrad_mask_grayscale, title="SmoothGrad", ax=P.subplot(1, 4, 3))
ShowGrayscaleImage(saliency_map, title="Integrated Gradients", ax=P.subplot(1, 4, 4))

Пакет [captum](https://captum.ai/docs/attribution_algorithms) можно использовать и для других модальностей данных, например, для [NLP BERT](https://captum.ai/tutorials/Bert_SQUAD_Interpret2). Там реализовано большое количество модификаций алгоритма Integrated Gradients и не только.

## SHAP Deep Explainer



### Идея метода

Алгоритм [DeepLIFT](https://arxiv.org/abs/1704.02685) — развитие идеи **Vanilla Gradient**, чем-то похожее на Integrated Gradients. Основная идея **DeepLIFT** заключается в том, что он оценивает важность признака с точки зрения **отличий от некоторого «референса»**, где референс выбирается в соответствии с решаемой проблемой. Референс для входных данных представляет собой некий нейтральный объект, у которого отсутствует специфическое свойство, например, таким свойством может быть присутствие/отсутствие того или иного объекта на изображении. Помимо референса для входных данных, определяется референс для каждого нейрона (активация соответствующего нейрона, рассчитанная для референсного объекта), аналогично референсом выхода сети будет вычисленный выход для референсного объекта.

DeepLIFT объясняет разницу между выходом сети для целевого объекта и выходом сети для референсного объекта на основании разницы между этими объектами. Пусть $t$ представляет собой выход некоторого нейрона/сети, а $x_1,x_2,...,x_n$ — нейроны одного из предшествующих слоев или множества слоев, необходимые для расчета $t$. Пусть $t_0$ — референсная активация для $t$. Тогда мы можем определить разницу выхода нейрона/сети для целевого объекта с выходом для референсного объекта как $\Delta t=t-t_0$. Тогда мы можем разложить ее на вклады $C_{\Delta x_i \Delta t}$  разниц между активациями нейронов в предыдущих слоях для целевого объекта и референса ($\Delta x_i$):

$$\large \sum_{i=1}^nC_{\Delta x_i \Delta t}=\Delta t$$

Как именно DeepLIFT вычисляет эти вклады останется за рамками рассмотрения этой лекции.

Использование такого подхода позволяет DeepLIFT решать проблему насыщения, приведенную выше, а также другую проблему, при которой градиент может совершать спонтанные скачки. Для иллюстрации этого примера рассмотрим функцию ReLU со сдвигом на $-10$: $y=max(0,x-10)$. Для этой функции градиент и вход, умноженный на градиент (этот подход также может быть использован для объяснения предсказаний нейронных сетей), имеют разрыв в точке $x=10$. В отличие от этого подход, основанный на разнице с референсом, дает непрерывную величину оценки вклада признака.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/deeplift_relu.png" width="800">

<center><p><em>Source: <a href="https://arxiv.org/pdf/1704.02685.pdf">Learning Important Features Through Propagating Activation Differences</a></p> </em></center>

###Пример изображения (ResNet18)

В качестве референса конкретно в SHAP DeepExlainer, построенном на основе DeepLIFT, используется не один объект, а усреднение набора произвольных изображений из датасета ImageNet (`shap.datasets.imagenet50`).

Попробуем воспользоваться этим на практике:

In [None]:
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/cat_and_dog1.jpg' -O cat_and_dog1.jpg
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/cat_and_dog2.png' -O cat_and_dog2.png
!wget -q 'https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/imagenet_class_index.json' -O imagenet_class_index.json

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image


def get_image(path):
    with open(os.path.abspath(path), "rb") as f:
        with Image.open(f) as img:
            return img.convert("RGB")


img = get_image("cat_and_dog1.jpg")
plt.imshow(img)
plt.axis("off")
plt.show()

In [None]:
from torchvision import transforms

# resize & normalize


def get_input_transform():
    transform = transforms.Compose(
        [
            transforms.Resize(224),
            transforms.CenterCrop((224, 224)),
            transforms.ToTensor(),
            transforms.Normalize(
                mean=(0.485, 0.456, 0.406),
                std=(0.229, 0.224, 0.225),
            ),
        ]
    )
    return transform


# for get croped img from input tensor


def get_reverse_transform():
    transform = transforms.Compose(
        [
            transforms.Normalize(
                mean=(0.0, 0.0, 0.0), std=(1 / 0.229, 1 / 0.224, 1 / 0.225)
            ),
            transforms.Normalize(
                mean=(-0.485, -0.456, -0.406),
                std=(1.0, 1.0, 1.0),
            ),
            transforms.Lambda(lambda x: torch.permute(x, (0, 2, 3, 1))),
            transforms.Lambda(lambda x: x.detach().numpy()),
        ]
    )
    return transform


def get_input_tensors(img):
    transform = get_input_transform()
    # unsqeeze converts single image to batch of 1
    return transform(img).unsqueeze(0)


def get_crop_img(img_tensor):
    transform = get_reverse_transform()
    return transform(img_tensor)[0]

In [None]:
import torch
import json
from torchvision import models

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = models.resnet18(weights="ResNet18_Weights.DEFAULT")


idx2label, cls2label, cls2idx = [], {}, {}
with open(os.path.abspath("/content/imagenet_class_index.json"), "r") as read_file:
    class_idx = json.load(read_file)
    idx2label = [class_idx[str(k)][1] for k in range(len(class_idx))]
    lable2idx = {class_idx[str(k)][1]: k for k in range(len(class_idx))}

In [None]:
import torch.nn.functional as F

img_t = get_input_tensors(img)
model.eval()
model.cpu()
logits = model(img_t)

probs = F.softmax(logits, dim=1)
probs5 = probs.topk(5)
fig = plt.figure(figsize=(5, 5))
plt.imshow(get_crop_img(img_t))
plt.show()
tuple(
    (p, c, idx2label[c])
    for p, c in zip(probs5[0][0].detach().numpy(), probs5[1][0].detach().numpy())
)

In [None]:
!pip install -q shap

Посмотрим на изображения, выбранные в качестве референса

In [None]:
import shap


imagenet_50, broken_targets = shap.datasets.imagenet50()

print("Data shape:", imagenet_50.shape, ", type: ", type(imagenet_50))
# Show first image
fig = plt.figure(figsize=(8, 8))
plt.imshow(imagenet_50[0].astype("int"))
plt.show()

Можно взглянуть и на остальные картинки:

In [None]:
fig, ax = plt.subplots(nrows=5, ncols=10, figsize=(25, 10))
for i, imgs in enumerate(imagenet_50):
    row = i // 5
    col = i % 5
    ax[col, row].imshow(imgs.astype("int"))

In [None]:
# for performance reason use as background only 10 images in PyTorch format
transform = transforms.Normalize(
    mean=(0.485, 0.456, 0.406),
    std=(0.229, 0.224, 0.225),
)
background = transform(
    torch.tensor(imagenet_50[0:10]).permute(0, 3, 1, 2).to(device) / 255
)

# https://shap-lrjball.readthedocs.io/en/latest/generated/shap.DeepExplainer.html
explainer = shap.DeepExplainer(model.to(device), background)
shap_values = explainer.shap_values(img_t)  # List
clear_output()

По умолчанию возвращаются shap индексы для каждого класса, для каждого пикселя

In [None]:
print("Classes", len(shap_values))
print("Values", shap_values[0].shape)

Для отображения результатов используем метод [shap.image_plot](https://shap-lrjball.readthedocs.io/en/latest/generated/shap.image_plot.html?highlight=image_plot).

Его API ждет данные в виде списков numpy-массивов, поэтому нам потребуется преобразовать данные.


In [None]:
img = get_image("cat_and_dog1.jpg")
# Get indexes of top5 classes predicted by model
top5_indexes = probs5.indices.squeeze(0).numpy().astype("int")

# Get shap values for this classes
shap_values_for_top_results = np.array(shap_values)[top5_indexes]

shap_list_numpy = []  # list of np.array

for v in shap_values_for_top_results:
    # because image_plot accept data in form(#samples x width x height x channels)
    # move cannel to last dimension [10, 1, 28, 28] -> (10,  28, 28, 1)
    shap_list_numpy.append(np.moveaxis(v, (1), (3)))

# Prepare test image
test_image = get_crop_img(img_t).reshape((1, 224, 224, 3))

# Get labels for top5 classes

shap_labels = np.array(idx2label)[top5_indexes]
shap_labels = [list(shap_labels)]  # One list for sample

print(
    "Len of shap_values list", len(shap_values_for_top_results)
)  # number of classes to explain
print("Shape of one value", shap_values_for_top_results[0].shape)  # n_samples, H,W,C
print(shap_labels)  # n_samples, number of classes

Теперь визуализируем результаты:

In [None]:
shap.image_plot(shap_list_numpy, test_image, labels=shap_labels)

На практике чаще всего интересны объяснения только для нескольких классов с максимальной уверенностью.

И в документации описан параметр, который позволяет возвращать объяснения только для этих классов.

[[doc] shap.DeepExplainer](https://shap-lrjball.readthedocs.io/en/latest/generated/shap.DeepExplainer.html)

`ranked_outputs = 5, output_rank_order ='max'`

При этом возвращается кортеж:
shap_values и индексы классов, для которых получено объяснение.



In [None]:
shape_values_for_best_pred, indexes = explainer.shap_values(
    img_t, ranked_outputs=5, output_rank_order="max"
)  # List

Результаты снова надо преобразовать из PyTorch формата:

In [None]:
shap_list_numpy = []  # list of np.array

for v in shape_values_for_best_pred:
    # because image_plot accept data in form(#samples x width x height x channels)
    # move cannel to last dimension [10, 1, 28, 28] -> (10,  28, 28, 1)
    shap_list_numpy.append(np.moveaxis(v, (1), (3)))

Визуализируем результат:

In [None]:
shap.image_plot(shap_list_numpy, test_image, labels=shap_labels)

## Grad-CAM

Развитием **Gradient Ascent** для сверточных нейронных сетей **CNN** является метод **Grad-CAM** (Class activation maps).

<img src="https://learnopencv.com/wp-content/uploads/2023/12/GradCAM-architecture.png" width="500">

### Идея метода

После каждого **сверточного слоя** нейронной сети мы получаем **карты признаков**, сохраняющие информацию о **расположении объектов** на исходном изображении. При этом все значения признаков для одного канала получаются одним и тем же преобразованием исходного изображения (получаются применением одинаковых сверток с одинаковыми весами), то есть **один канал** — это **карта одного признака**.

 Посмотрим на карты признаков для **ResNet18**. Для этого загрузим модель вместе с весами.

In [None]:
model = models.resnet18(weights="ResNet18_Weights.DEFAULT")
model

Нам интересны сложные признаки, которые выделяются на последних сверточных слоях. ResNet18 был обучен на ImageNet с размерами входного изображения $224\times224$. Посмотрим на размеры на выходе последнего сверточного слоя.

In [None]:
from torchsummary import summary

summary(model.to("cpu"), (3, 224, 224), device="cpu")

На последнем сверточном слое получаем $512$ каналов $7\times7$. Для их сохранения напишем hook, в котором будем сохранять значения активации на выходе модели.


In [None]:
from collections import defaultdict


def get_forward_hook(history_dict, key):
    def forward_hook(self, input_, output):
        history_dict[key] = output.detach().clone()

    return forward_hook


def register_model_hooks(model):
    hooks_data_history = defaultdict(list)
    forward_hook = get_forward_hook(hooks_data_history, "feature_map")
    model._modules["layer4"].register_forward_hook(forward_hook)
    return hooks_data_history

Предобработаем картинку: приведем к размеру $224\times224$ и нормализуем изображение в соответствии со статистикой ImageNet.

In [None]:
img_t = get_input_tensors(img)

Пропустим картинку через сеть и сохраним значения активаций.

In [None]:
model = model.eval()
history = register_model_hooks(model)
output = model(img_t)

print(history["feature_map"].shape)

Нарисуем первые 6 карт признаков. Чтобы растянуть карты по размеру изображения, используем `extent` и `interpolation='bilinear'`.

In [None]:
fig, axs = plt.subplots(2, 3, figsize=(15, 10))

axs = axs.ravel()
for i in range(6):
    axs[i].imshow(img_arr)
    axs[i].imshow(
        history["feature_map"][0][i],
        alpha=0.6,
        extent=(0, 224, 224, 0),
        interpolation="nearest",
        cmap="jet",
    )
    axs[i].axis("off");

Вспомним предсказание модели.

In [None]:
import torch.nn.functional as F

number_of_top_classes = 6

prediction = F.softmax(output, dim=1)
top_props, top_inds = prediction.topk(number_of_top_classes)


for i in range(number_of_top_classes):
    category_name = idx2label[top_inds[0][i].item()]
    score = top_props[0][i].item()
    print(f"{category_name} {top_inds[0][i].item()}: {100 * score:.1f}%")

Мы смогли понять, к какой части изображения относятся те или иные признаки. Теперь попробуем понять, как они соотносятся с классом. Мы помним, что градиент указывает направление возрастания функции. Если мы выберем логит, соответствующий метке класса, и посчитаем для него градиент, то мы сможем увидеть, какие признаки имеют положительные значения (при их увеличении модель будет больше уверена в оценке).

Напишем хук для сохранения значения градиента. Мы смотрим значения градиента на выходе слоя перед `AdaptiveAvgPool2d`, поэтому сохраним только средние значения (значение градиента для карт признаков одного канала будет одинаковым).

In [None]:
def get_backward_hook(history_dict, key):
    def backward_hook(self, grad_input_, grad_output):  # for tensors
        history_dict[key] = (
            grad_output[0].detach().clone().mean(dim=[2, 3], keepdim=True)
        )

    return backward_hook


def register_model_hooks(model):
    hooks_data_history = defaultdict(list)

    forward_hook = get_forward_hook(hooks_data_history, "feature_map")
    model._modules["layer4"].register_forward_hook(forward_hook)

    backward_hook = get_backward_hook(hooks_data_history, "weight")
    model._modules["layer4"].register_full_backward_hook(backward_hook)
    return hooks_data_history

Итоговая формула **Grad-CAM** (Class activation maps):

$$\large CAM = ReLU(\sum_{i=1}^{Nch}w_iA_i)$$

где $A_i$ — каналы карты признаков, $w_i$ — веса, полученные пропусканием градиента по логиту, соответствующему метке класса. $ReLU$ используется потому, что нам интересны только положительно влияющие на метку класса признаки.

Функция, рассчитывающая CAM

In [None]:
def get_cam_map(model, img, class_num):
    history = register_model_hooks(model)

    output = model.eval()(img)
    activation = history["feature_map"]

    output[0, class_num].backward()
    weight = history["weight"]

    cam_map = F.relu((weight[0] * activation[0]).sum(0)).detach().cpu()
    return cam_map

Визуализация важности признаков для top6 классов.

In [None]:
model = models.resnet18(weights="ResNet18_Weights.DEFAULT")
fif, axs = plt.subplots(2, 3, figsize=(15, 10))

axs = axs.ravel()
for i in range(6):
    cam_map = get_cam_map(model, img_t, top_inds[0][i])

    axs[i].imshow(img_arr)
    axs[i].imshow(
        cam_map,
        alpha=0.6,
        extent=(0, 224, 224, 0),
        interpolation="nearest",
        cmap="jet",
    )
    axs[i].set_title(idx2label[top_inds[0][i].item()])
    axs[i].axis("off");

In [None]:
model = models.resnet18(weights="ResNet18_Weights.DEFAULT")
fif, axs = plt.subplots(2, 3, figsize=(15, 10))

axs = axs.ravel()
for i in range(6):
    cam_map = get_cam_map(model, img_t, top_inds[0][i])

    axs[i].imshow(img_arr)
    axs[i].imshow(
        cam_map,
        alpha=0.6,
        extent=(0, 224, 224, 0),
        interpolation="bilinear",
        cmap="jet",
    )
    axs[i].set_title(idx2label[top_inds[0][i].item()])
    axs[i].axis("off");

###Пример изображения (ResNet18)

Можно сделать все то же самое с помощью библиотеки  Grad-CAM.

In [None]:
!pip install -q grad-cam

In [None]:
from pytorch_grad_cam import GradCAM

target_layers = [model._modules["layer4"]]

cam = GradCAM(model=model, target_layers=target_layers)

In [None]:
from pytorch_grad_cam.utils.model_targets import ClassifierOutputTarget

fig, axs = plt.subplots(2, 3, figsize=(15, 10))

axs = axs.ravel()
for i in range(6):
    target = [ClassifierOutputTarget(top_inds[0][i])]
    cam_map = cam(input_tensor=img_t, targets=target)

    axs[i].imshow(img_arr)
    axs[i].imshow(cam_map[0], alpha=0.6, interpolation="bilinear", cmap="jet")
    axs[i].set_title(idx2label[top_inds[0][i].item()])
    axs[i].axis("off");

В библиотеке также реализованы другие методы визуализации, например, Grad-CAM++, использующий градиенты второго порядка.

In [None]:
from pytorch_grad_cam import GradCAMPlusPlus

target_layers = [model._modules["layer4"]]
cam_plus = GradCAMPlusPlus(model=model, target_layers=target_layers)

In [None]:
fig, axs = plt.subplots(2, 3, figsize=(15, 10))

axs = axs.ravel()
for i in range(6):
    target = [ClassifierOutputTarget(top_inds[0][i])]
    cam_map = cam_plus(input_tensor=img_t, targets=target)

    axs[i].imshow(img_arr)
    axs[i].imshow(cam_map[0], alpha=0.6, interpolation="bilinear", cmap="jet")
    axs[i].set_title(idx2label[top_inds[0][i].item()])
    axs[i].axis("off");

Grad-CAM++ для ряда изображений работает лучше Grad-CAM.

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/Grad_CAM_plus_plus.png" alt="alttext" width="600"/></center>

<center><em>Source: <a href="https://arxiv.org/pdf/1710.11063.pdf">Grad-CAM++: Improved Visual Explanations for
Deep Convolutional Networks</a></em></center>

Подробнее о других методах читайте в [документации Grad-Cam](https://jacobgil.github.io/pytorch-gradcam-book/introduction.html).

## Критика градиентных методов

Градиентные методы имеют существенное преимущество перед SHAP и LIME: они вычисляются быстрее, чем методы, не зависящие от моделей. Но у них есть ряд недостатков. Недостаток в том, что в статьях, где предлагались такие методы, **качество работы оценивалось визуально** “на глаз”.

Хорошим примером проблемы визуальной оценки является метод **Guided Backpropagation**, описанный в [статье](https://arxiv.org/pdf/1412.6806.pdf). Объяснение метода и код можно найти по [ссылке](https://leslietj.github.io/2020/07/22/Deep-Learning-Guided-BackPropagation/).

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/Guided_Backpropagation.png" alt="alttext" width="600"/></center>

<center><em>Картинка получена применением модели ResNet18 и Guided Backpropagation</em></center>

Интуитивно нам кажется, что **Guided Backpropagation** дает хорошее объяснение работы модели, потому что она выделяет границы, по которым легко узнать объект. В статье [Sanity Checks for Saliency Maps](https://arxiv.org/pdf/1810.03292.pdf) показано, что данный метод инвариантен к рандомизации весов верхних слоев модели, что ставит под сомнения его способности объяснения работы модели.

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/guided_backprop_demo.png" alt="alttext" width="900"/></center>

<center><em>Показан результат Guided Backpropagation  при рандомизации слоев в модели Inception v3, начиная с последнего.

Source: <a href="https://arxiv.org/pdf/1810.03292.pdf">Sanity Checks for Saliency Maps.</a></em></center>



В статье [Interpretation of Neural Networks is Fragile](https://arxiv.org/abs/1710.10547) было показано, что небольшое случайное возмущение, добавленное к картинке, не влияющее на результат предсказания, может существенно поменять карты важности, что является спорной критикой, потому что на результат работы нейросети такое возмущение тоже может повлиять:

<center><img src="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/criticism_grad_1.png" alt="alttext" width="500"/></center>

<center><em>Source: <a href="https://arxiv.org/abs/1710.10547">Interpretation of Neural Networks is Fragile</a></em></center>

В целом [остается проблема](https://arxiv.org/pdf/1912.01451.pdf) оценки качества Saliency Maps. Это не значит, что градиентные методы нельзя использовать. Это значит, что нужно использовать их с осторожностью.

# Методы, специфичные для трансформеров

В трансформерах есть механизм **self-attention**, который кажется естественным способом определить, какие токены текста/кусочки изображения имеют большую важность для предсказания.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/self_attention.png"  width="900"></center>

Это бы отлично работало, будь у нас только один блок **self-attention**, но архитектура трансформера состоит из **нескольких блоков кодера/декодера**, составленных друг за другом. От слоя к слою за счет того же **self-attention** **информация в эмбеддингах перемешивается** сильнее и сильнее. Так, например, для классификации текста мы можем использовать эмбеддинг на выходе **BERT**, соответствующий `[CLS]` токену , в котором на входе **BERT** не было никакой информации о последующем тексте.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/transformer_text_translation_example.png" width="800">

<em>Source: [The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)](https://jalammar.github.io/illustrated-bert/)</em>

Кроме того, в стандартном блоке трансформера есть **residual соединения**. Из-за этого информация о токенах/патчах проходит не только через **attention**, но и через **residual соединения**.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/transformer_architecture.png" width="450">

<em>Архитектура трансформера</em>

<em>Source: <a href="https://arxiv.org/pdf/1706.03762.pdf"> Attention Is All You Need</a></em>

По этим причинам объяснение работы трансформера через attention — непростая задача.

**Предупреждение:** методы объяснения **attention** только частично объясняют работу трансформера, они  разнообразны и могут давать противоречивые результаты.

Давайте для начала немного поизучаем, как выглядят значения self-attention в трансформерах. Подгружаем библиотеку.

In [None]:
!pip install -q transformers[sentencepiece]

Возьмем базовый русскоязычный разговорный [BERT от Deep Pavlov](https://huggingface.co/DeepPavlov/rubert-base-cased-conversational), [обученный](https://huggingface.co/blanchefort/rubert-base-cased-sentiment) для определения настроения коротких русских текстов. Загружаем токенизатор и модель. Ставим флаг `output_attentions=True`, чтобы модель возвращала значения attention.

In [None]:
import transformers
from transformers import BertTokenizerFast, AutoModelForSequenceClassification

tokenizer = BertTokenizerFast.from_pretrained(
    "blanchefort/rubert-base-cased-sentiment",
)
model = AutoModelForSequenceClassification.from_pretrained(
    "blanchefort/rubert-base-cased-sentiment",
    output_attentions=True,  # for save attention
)

Готовим предложения.

In [None]:
sentences = [
    "Мама мыла раму",
    "Фильм сделан откровенно плохо",
    "Максимально скучный сериал, где сюжет высосан из пальца",
    "Я был в восторге",
    "В общем, кино хорошее и есть много что пообсуждать",
]

tokens = [
    ["[cls]"] + tokenizer.tokenize(sentence) + ["[sep]"] for sentence in sentences
]

Посмотрим, как разбивается на токены предложение. На выходе токенизатора номера токенов.

In [None]:
item = 0
print(f"Tokens: {tokens[item]}")
token_ids = [tokenizer.encode(sentence) for sentence in sentences]
print(f"Token ids: {token_ids[item]}")

Посмотрим на предсказания модели, чтобы проверить, насколько она адекватна.

In [None]:
import torch


ans = {0: "NEUTRAL", 1: "POSITIVE", 2: "NEGATIVE"}

for item in range(5):
    input_ids = torch.tensor([token_ids[item]])
    model_output = model(input_ids)
    predicted = torch.argmax(model_output.logits, dim=1).numpy()
    print(f"Text: {sentences[item]}")
    print(f"Predict lable = {predicted}, {ans[predicted.item()]}")

В данной моделе 12 слоев (блоков трансформеров), поэтому модель возвращает кортеж из 12 тензоров. Каждый слой имеет 12 голов self-attention.

In [None]:
item = 1
input_ids = torch.tensor([token_ids[item]])
model_output = model(input_ids)

attentions = model_output.attentions
print(f"Text: {sentences[item]}")
print(f"Tokens: {tokens[item]}")
print(f"Number of layers: {len(attentions)}")
print(
    f"Attention size: {attentions[0].shape} "
    "[batch x attention_heads x seq_size x seq_size]"
)

Преобразуем в однородный массив для удобства манипуляций.

Код этой части лекции основан на [репозитории](https://github.com/samiraabnar/attention_flow).
[Cтатья](https://arxiv.org/pdf/2005.00928.pdf).


In [None]:
import numpy as np


def to_array(attentions):
    attentions_arr = [attention.detach().numpy() for attention in attentions]
    return np.asarray(attentions_arr)[:, 0]


attentions_arr = to_array(attentions)
print(
    f"Shape: {attentions_arr.shape} " "[layers x attention_heads x seq_size x seq_size]"
)
print(f"Type: {type(attentions_arr)}, Dtype: {attentions_arr.dtype}")

Посмотрим на **нулевую голову нулевого слоя**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

x_ticks = tokens[item]
y_ticks = tokens[item]

sns.heatmap(
    attentions_arr[0][0],
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

Тут по **оси x** — токены, **на** которые смотрит внимание, по **оси y** — токены, **куда** записывается результат прохождения слоя.

Так для слова “плохо” первая голова внимания первого слоя больше всего смотрит на слова “фильм” и “ откровенно”.

Для визуализации внимания можно использовать библиотеку [bertviz](https://pypi.org/project/bertviz/) ([статья](https://arxiv.org/pdf/1904.02679.pdf),
[код](https://colab.research.google.com/drive/1hXIQ77A4TYS4y3UthWF-Ci7V7vVUoxmQ?usp=sharing))

In [None]:
try:
    import bertviz
except ModuleNotFoundError:
    !pip install -q bertviz
    clear_output()

Тут Layer — это выбор слоя, цвета — головы self-attention, слева — куда записывается, справа — на какие токены смотрит. Яркость соединяющих линий — величина attention (чем ярче, тем больше). Картину, аналогичную картине выше, можно получить, *дважды щелкнув на первый синий квадрат*.

In [None]:
import bertviz
from bertviz import head_view

head_view(model_output.attentions, tokens[item])

Усредним значения по головам:

In [None]:
def head_sum(attention_arr):
    return attentions_arr.sum(axis=1) / attentions_arr.shape[1]


attention_head_sum = head_sum(attentions_arr)
print(f"{attention_head_sum.shape} [layers x seq_size x seq_size]")

Посмотрим на усредненное по головам внимание **на первом слое**:

In [None]:
x_ticks = tokens[item]
y_ticks = tokens[item]

sns.heatmap(
    attention_head_sum[0],
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

И на **последнем слое**:

In [None]:
x_ticks = tokens[item]
y_ticks = tokens[item]

sns.heatmap(
    attention_head_sum[11],
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

По значениям справа от графика видно, что внимание на последнем слое изменяется в **узком диапазоне значений**.

Посмотрим на **значения внимания для записываемого в эмбеддинг [CLS] токена** (эмбеддинг с него используется для классификации).

In [None]:
x_ticks = tokens[item]
y_ticks = [i for i in range(12, 0, -1)]

sns.heatmap(
    np.flip(attention_head_sum[:, 0, :], axis=0),
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

Видно, что после 6-го слоя значения внимания выравниваются. Это связано с тем, что механизм **self-attention** смешивает информацию о токенах.

<font size="5">Residual connection</font>

Давайте сначала определимся, что делать с **residual соединениями**.

<img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.0/L14/out/transformer_architecture.png" width="450">

**Residual соединение** можно записать как

$$ \large V_{l+1} = V_l + W_{att}V_l,$$

где $W_{att}$ — матрица внимания, а $V_l$ — эмбеддинги.

После нормализации это можно переписать как

$$\large A=0.5W{att}+0.5I,$$

где $I$ — единичная матрица.

[Подробнее](https://arxiv.org/pdf/2005.00928.pdf)

In [None]:
def residual(attention_head_sum):
    attention_head_sum += np.eye(attention_head_sum.shape[1])[None, ...]
    return attention_head_sum / attention_head_sum.sum(axis=-1)[..., None]


attention_res = residual(attention_head_sum)

x_ticks = tokens[item][1:-1]
y_ticks = [i for i in range(12, 0, -1)]

sns.heatmap(
    np.flip(attention_res[:, 0, 1:-1], axis=0),
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

## Attention rollout
“Разворачивание внимания” (**Attention rollout**) — предложенный в [статье](https://arxiv.org/pdf/2005.00928.pdf) способ отслеживания информации, распространяемой от входного к выходному блоку, в котором значение внимания рассматривается как доля пропускаемой информации.  Доли информации перемножаются и суммируются. Итоговая формула — рекурсивное матричное перемножение.

\begin{align}
\widetilde{A}(l_i) = \left\{
\begin{array}{cl}
A(l_i)\widetilde{A}(l_{i-1}) & i>0 \\
A(l_i) & i = 0.
\end{array}
\right.
\end{align}



In [None]:
def rollout(attention_res):
    rollout_attention = np.zeros(attention_res.shape)
    rollout_attention[0] = attention_res[0]
    n_layers = attention_res.shape[0]
    for i in range(1, n_layers):
        rollout_attention[i] = attention_res[i].dot(rollout_attention[i - 1])
    return rollout_attention

In [None]:
rollout_attention = rollout(attention_res)

In [None]:
x_ticks = tokens[item][1:-1]
y_ticks = [i for i in range(12, 0, -1)]

sns.heatmap(
    np.flip(rollout_attention[:, 0, 1:-1], axis=0),
    xticklabels=x_ticks,
    yticklabels=y_ticks,
    cmap="YlOrRd",
)

plt.show()

Реализацию для ViT и картинок можно найти [тут](https://huggingface.co/spaces/probing-vits/attention-rollout/tree/main) (API упало, но код рабочий, проверено).

Реализация на PyTorch rollout для BERT и некоторых других методов: [API](https://huggingface.co/spaces/amsterdamNLP/attention-rollout), [код](https://huggingface.co/spaces/amsterdamNLP/attention-rollout/tree/main).

## Attention Flow

Другим вариантом рассмотрения распространения внимания является **attention flow**. В нем трансформер представляют в виде направленного графа, **узлы** которого представляют собой **эмбеддинги** между слоями, а **ребра** — связи в виде **attention** с ограниченной емкостью (передающей способностью).

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/L14/attention_flow.png" width="700">

<em>Source: <a href="https://github.com/samiraabnar/attention_flow/blob/master/bert_example.ipynb">Bert Example
</a></em></center>

В такой постановке задача нахождения роли токенов/частей изображения в результирующем эмбеддинге сводится к [задаче о максимальном потоке](https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BE_%D0%BC%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%BC_%D0%BF%D0%BE%D1%82%D0%BE%D0%BA%D0%B5) (задача нахождения такого потока по транспортной сети, что сумма потоков в пункт назначения была максимальна). Это известная алгоритмическая задача, которую мы не будем разбирать в рамках этого курса.

[Код](https://github.com/samiraabnar/attention_flow), [статья](https://arxiv.org/pdf/2005.00928.pdf).



## Gradient-weighted Attention Rollout

Метод, объединяющий GradCam и Attention Rollout, позволяет оценить положительный и отрицательный вклад токенов / частей изображения в итоговый результат. Предложен в [статье](https://openaccess.thecvf.com/content/CVPR2021/papers/Chefer_Transformer_Interpretability_Beyond_Attention_Visualization_CVPR_2021_paper.pdf), реализацию можно найти тут: [API](https://huggingface.co/spaces/amsterdamNLP/attention-rollout), [код](https://huggingface.co/spaces/amsterdamNLP/attention-rollout/tree/main).

Методы, основанные на механизме внимания, только частично объясняют работу трансформера и на сегодняшний день не являются надежным методом оценки важности признаков.

# Заключение

* В ходе урока мы убедились в важности интерпретации работы моделей Искусственного Интеллекта.
* Рассмотрели основные методы, которые используются для оценки важности признаков: мы начали с классических методов, посмотрели на  Model-Agnostic методы, градиентные методы, методы, специфичные для трансформеров.
* Рассмотрели применение библиотек на примерах:
    - Табличные данные
    - NLP (машинный перевод текста, создание резюме статьи и классификации текстов)
    - CV

Пренебрежение объяснением того, почему модель дала тот или иной результат, ведет к недоверию не только к самой модели, но и к конкретным прогнозам. А, следовательно, является существенным препятствием для дальнейшего введения Вашей идеи в production.



<font size ="6">Список литературы</font>

[[git] DEN](https://github.com/isaacrob/DEN): метод, основанный на новом режиме обучения сиамской нейронной сети без учителя и функции потерь, который называется Differentiating EmbeddingNetworks (DEN).

Сиамская нейронная сеть находит отличительные или похожие черты между конкретными парами образцов в наборе данных и использует эти функции, чтобы встроить набор данных в пространство более низкой размерности, где он может быть визуализирован.

В отличие от существующих алгоритмов визуализации, таких как UMAP или t-SNE, DEN является параметрическим, то есть его можно интерпретировать такими методами, как SHAP.

<font size="5">Книга:</font>

[A Guide for Making Black Box Models Explainable](https://christophm.github.io/interpretable-ml-book/)

<font size="5">Статьи:</font>

[How to Interpret Machine Learning Models with SHAP](https://www.youtube.com/watch?v=m60swo-th4E)

[Бесплатный курс от Kaggle: Machine Learning Explainability](https://www.kaggle.com/learn/machine-learning-explainability)

[EXPLAINABLE AI IN CREDIT RISK MANAGEMENT](https://arxiv.org/pdf/2103.00949v1.pdf)

[Predicting Driver Fatigue in Automated Driving with Explainability](https://arxiv.org/pdf/2103.02162v1.pdf)

[Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods](https://arxiv.org/pdf/1911.02508v2.pdf)

[Interpretable Machine Learning](https://christophm.github.io/interpretable-ml-book/intro.html)

<font size="5">SHAP</font>

[Welcome to the SHAP documentation](https://shap.readthedocs.io/en/stable/index.html)

[Git](https://github.com/slundberg/shap)

[A Unified Approach to Interpreting Model Predictions](https://arxiv.org/pdf/1705.07874v2.pdf)

[SHAP (SHapley Additive exPlanations)](https://christophm.github.io/interpretable-ml-book/shap.html)

<font size="5">LIME</font>

[“Why Should I Trust You?” Explaining the Predictions of Any Classifier](https://arxiv.org/pdf/1602.04938.pdf)

[What does LIME really see in images?](https://arxiv.org/pdf/2102.06307v1.pdf)

[Git](https://github.com/marcotcr/lime)

<font size="5">BORUTA</font>

[Feature Selection with the Boruta Package](https://www.researchgate.net/publication/280138095_Feature_Selection_with_Boruta_Package)