# Оценка моделей на шумных данных

### Noisy data: classification task

<p align="center">
  <img width="300" height="300" src="shakeup2.jpg"/>
</p>

### Noisy data: regression task

<p align="center">
  <img width="400" height="220" src="shakeup.jpg"/>
</p>

## Пройтись по ошибкам валидации: интерпретация и визуализация ML-моделей

<p align="center">
  <img width="400" height="220" src="output_10_0.png"/>
</p>

### Новые инструменты для интерпретации и визуализации ML-моделей

#### Yellowbrick — расширение scikit-learn
* [Документация](https://www.scikit-yb.org/en/latest/quickstart.html#using-yellowbrick)
* [Machine Learning Visualizations with Yellowbrick](https://medium.com/data-science-community-srm/machine-learning-visualizations-with-yellowbrick-3c533955b1b3)

#### ELI5
Еще одна визуальная библиотека для устранения ошибок в моделях и объяснения прогнозов (совместима со scikit-learn, XGBoost и Keras).
* [Документация](https://eli5.readthedocs.io/en/latest/tutorials/sklearn-text.html)

#### MLxtend - визуализация данных, сравнение решений и входящих в состав классификаторов
* [Документация](http://rasbt.github.io/mlxtend/)

#### LIME – пакет для интерпретации прогнозов
* [Документация](https://github.com/marcotcr/lime)

## Важность фичей и их распределение на тренировочной и тестовой выборке

<p align="center">
  <img width="600" height="600" src="aleron.jpg"/>
</p>

### Population Stability Index

<p align="center">
  <img width="600" height="600" src="psi.png"/>
</p>

## Переразметить часть данных

### ???

## Статистические критерии: точечные и интервальные оценки

Для точечных оценок: непараметрические критерии

Для интервальных оценок: бутстрап

Литература:
* [Statistical Significance Tests for Comparing Machine Learning Algorithms](https://machinelearningmastery.com/statistical-significance-tests-for-comparing-machine-learning-algorithms/)
* [Model evaluation, model selection, and algorithm selection in machine learning](https://sebastianraschka.com/blog/2018/model-evaluation-selection-part4.html)
* [Habr: Kaggle Mercedes и кросс-валидация](https://habr.com/ru/company/ods/blog/336168/)
* [YouTube: Kaggle Mercedes Benz: предсказание времени тестирования автомобилей](https://www.youtube.com/watch?v=HT3QpRp2ewA&ab_channel=ODSAIRu)

## Oversampling

### ???

Литература:
* [SMOTE for Imbalanced Classification with Python](https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/)
* [Radial-Based oversampling for noisy imbalanced data classification](https://www.sciencedirect.com/science/article/abs/pii/S0925231219301596)

## Shapley Additive Explanations

Рассматривается вклад признаков в итоговое предсказание модели как задача теории игр: игра – процесс, в котором участвуют две и более сторон, ведущих борьбу за свои интересы. Каждая сторона имеет свою цель и использует собственную стратегию, которая может привести к выигрышу или проигрышу, в зависимости от поведения других игроков. 

Определить оптимальное распределение выигрыша между игроками можно с помощью вектора Шепли. Он представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в общее благосостояние при определенном механизме формирования коалиции.

Применяя вышеизложенные положения теории игр к интерпретации ML-моделей, можно сделать следующие выводы:
* результат обучения с учителем (на основе заданного примера) – это игра;
* выигрыш – это разница между матожиданием результата на всех имеющихся примерах и результатом, полученном на заданном примере;
* вклады игроков в игру – влияние каждого значения признака на выигрыш, т.е. результат.

При расчёте вектора Шепли необходимо формировать коалиции из ограниченного набора признаков. Однако, не каждая ML-модель позволяет просто убрать признак без повторного обучения модели «с нуля». Потому для формирования коалиций обычно не убирают «лишние» признаки, а заменяют их на случайные значения из «фонового» набора данных. Усреднённый результат модели со случайными значениями признака эквивалентен результату модели, в которой этот признак вообще отсутствует.

Литература:
* [SHAP (SHapley Additive exPlanations)](https://christophm.github.io/interpretable-ml-book/shap.html)
* [Shapley Additive Explanations (SHAP) for Average Attributions](https://ema.drwhy.ai/shapley.html)
* [Интерпретируй это: метод SHAP в Data Science](https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html)

## Модели со случайными предсказаниями

#### Регрессия
Модели со случайными предсказаниями предсказывают распределение признаков. Они устойчивы к выбросам (за счет того, что на сложных примерах меньше штрафуют модель), могут работать с многомодальными данными (можно предсказывать смеси распределений), хорошо работают с нестандартными данными. Используют кросс-энтропийный китерий.

#### Классификация
Задача Metric Learning: мы хотим построить отображение входных данных в скрытое пространство таким образом, что полученные эмбединги элементов одного класса были близки друг к другу (например, по l2 ли cos), а эмбединги элементов разных классов были далеки друг от друга. Для этого есть специальные функции потерь, например, Contrastive Loss (by Yann Le Cunn), Triplet loss.
* Плохо обучается, когда много выбросов. Решение: перейти к предсказанию распределения векторов.

Литература:
* [Модели со случайными предсказаниями — Иван Карпухин, Тинькофф](https://www.youtube.com/watch?v=-IbiKlAJqSM&ab_channel=IT%27sTinkoff)
* [Metric Learning Tips & Tricks](https://towardsdatascience.com/metric-learning-tips-n-tricks-2e4cfee6b75b)