# Интерпретируемость модели / Explainable artificial intelligence (XAI)

# References

**Источники:**

[Интерпретируемые модели](http://neerc.ifmo.ru/wiki/index.php?title=%D0%98%D0%BD%D1%82%D0%B5%D1%80%D0%BF%D1%80%D0%B5%D1%82%D0%B8%D1%80%D1%83%D0%B5%D0%BC%D1%8B%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8)

[Interpretable Machine Learning](https://towardsdatascience.com/interpretable-machine-learning-45b467dbe1af)

[Explainable Reinforcement Learning: A Survey](https://arxiv.org/pdf/2005.06247.pdf)

[Analysis of Explainers of Black Box Deep Neural
Networks for Computer Vision: A Survey](http://neerc.ifmo.ru/wiki/index.php?title=%D0%98%D0%BD%D1%82%D0%B5%D1%80%D0%BF%D1%80%D0%B5%D1%82%D0%B8%D1%80%D1%83%D0%B5%D0%BC%D1%8B%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8)

[Approximate and Situated Causality in Deep Learning](https://www.researchgate.net/publication/339079867_Approximate_and_Situated_Causality_in_Deep_Learning)

[Counterfactuals and Causability in Explainable Artificial Intelligence: Theory, Algorithms, and Applications](https://www.researchgate.net/publication/349914003_Counterfactuals_and_Causability_in_Explainable_Artificial_Intelligence_Theory_Algorithms_and_Applications)

[SHAP (SHapley Additive exPlanations)](https://github.com/slundberg/shap)

[LIME (англ. Local Interpretable Model-agnostic Explanations)](https://github.com/marcotcr/lime)

[Explainable artificial intelligence](https://en.wikipedia.org/wiki/Explainable_artificial_intelligence)

[A taxonomy of explainable (XAI) AI models](https://www.datasciencecentral.com/profiles/blogs/a-taxonomy-of-explainable-xai-ai-models)

# References

## Интерпретируемость

**Интерпретируемость** — это свойство модели, которое показывает, что **структуру данной модели может объяснить человек**. 

При этом структура модели не противоречит данным, на которых данная модель построена, а также она **сохраняет некоторые свойства предоставленных данных**. 

При интерпретации модели могут быть **объяснены принципы и закономерности, которые использует сама модель для предсказания меток класса на конкретных данных**.

Если модель машинного обучения работает хорошо, почему просто не доверять модели и игнорировать факторы, из-за которых модель приняла решение? Проблема в том, что **используя только метрику для измерения точности предсказания, возможно такое, что задача будет решена не полностью или даже неправильно**. Часто важны причины, по которым модель сделала то или иное предсказание.

Пример: модель решает, когда нужно класть ковидного больного в палату, а когда отправлять лечиться дома. По статистике люди болеющие астмой выживают чаще, чем здоровые, и логично предположить, что их можно отправлять лечится дома, но дело в том, что этих людей врачи лечат тщательней, поэтому они и выживают чаще. Если бы мы верили модели в слепую, то люди с астмой просто бы умирали. Поэтому нам важно понять, почему модель пришла к тому или иному выводу.

## В каких случаях интерпретируемость нужна?

- Когда целью является **получение каких-либо знаний с помощью изучения построенной модели**.

- Когда алгоритм оптимизировал **неполную цель**. Например, когда автомобильный инженер получает предсказания о параметрах двигателя, но ему нужно построить в целом достаточно хороший и надёжный автомобиль.

- Для **безопасности сложных систем**. Такие системы, в большинстве случаев, нельзя протестировать от начала до конца. Вычислительно тяжело просмотреть все возможное входные данные и сценарии развития событий.

- **Интерпретация тренировочных данных**, поиск выбросов в них.

- **Поиск ошибок** в выводе модели.

- Пользователь может больше **доверять** модели.

## В каких случаях интерпретируемость НЕ нужна?

- **Влияние модели мало (= небольшие потери при ошибке)**, а сама интерпретация требует большого количества ресурсов (предложение новых покупок на основе предыдущих).

- **Проблема хорошо разработана**, и специалистов обучают ещё в университетах.

- Выбранный **тип модели легко интерпретируется** без дополнительных средств: линейные модели (стоимость квартиры: понятно, что это метраж, расстояние до метро, школы, детского сада и т.д., но когда параметров много, то уже сложно всё это держать в голове).

- Необходимость **скрыть систему** (кому давать кредит, качество работы сотрудника, поисковое ранжирование).

## Способы создания интерпретируемой модели

- Использовать только интерпретируемые модели. НО: не всё хорошо описывается этими моделями.
    - Линейные модели. 
    - Деревья решений.
    - Правила.
    - <img src="images/interpretable_models.jpg" width=500>
    

- Построить интерпретируемую **модель поверх** (эмбенддинга). НО: модель теперь интерпретируема, а сами признаки перестают быть таковым.
    - Эмбеддинг:
        - В NLP - это векторное (список действительных чисел) представление слова aka  Word Embeddings.
        - Сам по себе **embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки, или слова или ...) некоторому вектору с числами**.
    - Пример: Есть лук. Если "лук" находится рядом с "чесноком", то модель думает о "луке" как об овоще, если "лук" находится рядом с "пистолетом", "рогаткой", то модель думает о "луке" как об оружии.


- Важность признаков. Одна из возможностей проанализировать модель — **оценить, насколько её решение зависит от отдельных признаков**, какой признак внёс наибольший вес для нахождения решения модели.
    - Пример:   Модель определяет кто на картинке собака или волк. Допустим выборка для обучения оказалось не самой удачной, и все картинки с волками были на снегу, а с собаками на асфальте. Соответственно модель могла начать определять собаку или волка по асфальту или снегу. 
    - Благодаря данному виду интерпретации, модель нам можешь сказать, что главным признаком для принятия решения было не само животное, а её окружение.
    - Данную идею реализуют с помощью **значений Шепли**.
    - [Значения/Вектор Шепли (англ. Shapley values)](https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80_%D0%A8%D0%B5%D0%BF%D0%BB%D0%B8) — метод из коалиционной теории игр, который помогает определить, как наиболее честно распределить выигрыш между игроками в зависимости от их вклада в победу. Игроки объединяются в коалиции, чтобы получить некоторую выгоду от этого объединения. В машинном обучении в качестве игроков выступают признаки, а в качестве выигрыша — вклад в предсказание. **Подходит для задач классификации и регрессии.**
    - Из вклада коалиций рассчитывается вклад каждого признака в итоговый прогноз. Значение Шепли — среднее между маргинальными вкладами всех возможных коалиций.
    На основе значений Шепли Люндебергом и Ли предложен **метод [SHAP (SHapley Additive exPlanations)](https://github.com/slundberg/shap), объясняющий индивидуальные предсказания. Доступна его реализация на Python**.
    - <img src="images/shap_header.png" width=600>
    - <img src="images/shap_diagram.png" width=500>


- Суррогатные модели. Для интерпретации модели (далее именуемой как черный ящик) можно использовать интерпретируемую суррогатную **модель, обученную на выводе черного ящика при различных входных данных**. 
    - Так как суррогатная модель будет повторять поведение черного ящика, то на её основе можно интерпретировать данный черный ящик.
    - Есть два типа суррогатных моделей: **глобальная** и **локальная**.
    - **Глобальная** суррогатная модель обучена на **всем выводе** черного ящика. Такая модель **полностью повторяет поведение** черного ящика, соответственно интерпретирует его на всей выборке.
    - Локальная суррогатная модель **обучена на выводе в какой-то окрестности определенной точки**. Такая модель зачастую плохо интерпретирует всю выборку, но хорошо справляется с этой задачей в данной окрестности.
    - **Глобальную** суррогатную модель довольно **сложно** построить, поэтому **чаще всего прибегают к локальным** моделям и интерпретируют определенные объекты.
    - [LIME (англ. Local Interpretable Model-agnostic Explanations)](https://github.com/marcotcr/lime) — это библиотека, которая строит локальную суррогатную модель.
    - <img src="images/lime.png">

## *Классификация моделей

<img src="images/pseudo_ontology_XAI_methods_taxonomy.png" width=400>

- Post-Hoc (воспринимает модель как "черный ящик", например, нейросеть) vs Intrinsic (накладывают ограничения на сложность самой модели).

- Специфические (работают только для конкретной архитектуры модели) vs агностические (можно применить ко всем моделям для решения конкретной задачи).

- Локальные (позволяют понять предсказание для конкретного объекта) vs глобальные (понимание в целом, какие признаки влияют на предсказание).

<img src="images/explainability_ml_dl.png">

<img src="images/taxonomy_explainable_ai.jpg">