
# Лекция 05. Проектирование системы ML
## Метрики ошибок для искаженных классов
**Что такое искаженные классы?**
Искаженные классы в основном относятся к набору данных, в котором число обучающих примеров, принадлежащих одному классу, превышает число обучающих примеров, относящихся к другому классу.

Рассмотрим бинарную классификацию, где раковый пациент должен быть обнаружен на основе некоторых признаков. И говорят, что только у 1 из представленных в данных пациентов обнаружен рак. В условиях, когда наличие рака обозначено 1, а его отсутствие обозначено 0, если система наивно дает прогноз как у всех пациентов 0, все равно точность прогноза будет составлять 99%.

In [3]:
# naive prediction ignoring features
def predict_cancer(x):
    return 0

Поэтому можно с уверенностью сказать, что метрика точности или среднеквадратичная ошибка для перекошенных классов, не является надлежащим показателем эффективности модели. Следовательно, существует необходимость в другой метрике ошибок для искаженных классов.

### Точность/Recall (полнота).
Примечание: $y = 1$ это более редкий класс среди двух.

В бинарной классификации может возникнуть один из следующих четырех сценариев:

* True Positive (TP): модель предсказывает 1, и фактический класс равен 1
* True Negative (TN): модель предсказывает 0, и фактический класс равен 0
* False Positive (FP): модель предсказывает 1, но фактический класс равен 0
* False Negative (FN): модель предсказывает 0, но фактический класс равен 1

![](../../img/lec05_f1.png)

Тогда точность и полноту можно определить следующим образом:

* $точность = \frac{TP}{(TP + FP)}$
* $полнота = \frac{TP}{(TP + FN)}$

Напомним, что все действительные значения определены, как $y = 1$, !!Какие из них правильно предсказала модель.(which ones did the model predict correctly.!)

Теперь, если мы оценим сценарий, в котором классификатор предсказывает все 0, то полнота модели будет равена 0, что указывает на недееспособность системы.

**В случае искажения классов классификаторы не могут обмануть метрики оценки полноты и точности. Кроме того, важно отметить, что метрики точности и полноты работают лучше, если $y=1$, обозначает наличие более редкого класса.**

Изменяя пороговое значение для достоверности классификатора, можно регулировать точность и полноту для модели.

Например, в логистической регрессии порог обычно равен 0,5. Если его увеличить, то можно быть уверенным, что из всех сделанных предсказаний больше будет правильных, а значит, и высокоточных. Но есть также более высокие шансы пропустить положительные случаи, следовательно, более низкая полнота.

Точно так же, если уменьшить порог, то вероятность ложных срабатываний увеличивается, следовательно, низкая точность. Кроме того, существует меньшая вероятность пропуска фактических случаев, следовательно, возрастает метрика полноты.

Кривая компромисса между точностью и полнотой может выглядеть следующим образом,

![](../../img/lec05_threshold.gif)



### $F_1$ оценка
Учитывая две пары точность и полноту, как выбрать лучшую пару? Одним из вариантов было бы выбрать ту, которая выше среднего. Это не идеальное решение, поскольку пара ($precision=0.02$ и $recall = 1$) имеет лучшее среднее значение, чем пара ($precision=0.5$ и $recall=0.4$).

Введем $F оценку$ или $F_1 оценку$, которая является гармоническим средним значением точности и полноты, определяемая как

 $F_1 = \frac{2 P*R}{P+R}$
 
  Вышеприведенная формула имеет преимущество перед средним методом, потому что, если точность или полнота невелики, произведение числителя $P∗R$ будет оцениваться в $F_1 - оценке$ низко и, следовательно, приведет к выбору лучшей пары точности и отзыва. Так,
 * если $P=0$ или $R=0$, то $F_1 = 0$
 * если $P=1$ и $R=1$, то $F_1 = 1$
 
 **Один из разумных способов автоматического выбора порога для классификатора-попробовать их диапазон в наборе перекрестной проверки и выбрать тот, который дает самый высокий балл F.**



### Чувствительность/Специфичность
Помимо точности и полноты, чувствительность и специфичность являются одними из наиболее часто используемых показателей ошибок в классификации.

* Чувствительность или истинно положительная пропорция (TPR) - это другое название для отзывчивости, а также этот показатель называют попаданием 
$TPR=\frac{TP}{TP+FN}$
* Специфичность (SPC) или истинно отрицательная пропорция
$SPC=\frac{TN}{TN+FP}$

## Диагностика машинного обучения
Тест, который вы можете запустить, чтобы получить представление о том, что не работает в алгоритме обучения, и получить рекомендации о том, как можно улучшить его производительность.

Диагностика может занять время на реализацию, но это может быть очень хорошим использованием вашего времени.

### Диагностирование смещения vs разброса (дисперсии)
Предположим, что наш алгоритм обучения (например, линейная регрессия или случайный лес и т.д.) делает огромные ошибки при прогнозировании данных. Итак, что мы можем сделать, чтобы улучшить наш алгоритм обучения? Мы можем уменьшить эти ошибки, попробовав что-то из ниже приведенного:

* Использовать больше обучающих данных
* Попробовать уменьшить набор признаков
* Подобрать новые признаки
* Попробовать использовать полиномиальные признаки
* Увеличить или уменьшить параметры регуляризации 

Но чтобы попробовать все или некоторые из этих вариантов, может понадобиться много времени, чтобы понять, что заставляет наш алгоритм плохо работать.

Другими словами, если вы запускаете алгоритм обучения, и он не преуспел, то почти всегда это либо проблема с высоким смещением, либо проблема большого разброса. Это два термина в статистике. Таким образом, нам нужно различать, является ли смещение или разброс проблемой, способствующей плохим прогнозам, оценивая гипотезу, которая была отклонена нашим алгоритмом обучения, чтобы понять, подходит ли она или нет?

* Смещение измеряет, насколько далеки в целом прогнозы этих моделей от правильного значения.
* Разброс - это то, насколько предсказания для данной точки различаются между различными реализациями модели.
* Высокое смещение является недообучением, а высокий разброс - переобучением. В идеале, мы должны найти золотую середину между ними двумя.

Ошибка обучения будет иметь тенденцию уменьшаться по мере увеличения степени "d" полинома. В то же время ошибка перекрестной проверки(кросс-валидации) будет иметь тенденцию уменьшаться по мере увеличения "d" до некоторой точки, а затем она будет увеличиваться по мере увеличения "d", образуя выпуклую кривую.
Это показано на рисунке ниже:
![](../../img/lec05_bias_variance.png)


**Типичная кривая обучения для большого разброса**
![](../../img/lec05_high_variance.png)

**Типичная кривая обучения для большого смещения**
![](../../img/lec05_high_bias.png)

**Диагностика скажет вам, что следует попробовать дальше:**

Попробуйте, чтобы улучшить модель:
* Попробуйте получить больше обучающих примеров - исправляет высокую дисперсию
* Попробуйте использовать меньший набор параметров - исправляет высокую дисперсию
* Попробуйте больший набор параметров - исправляет большое смещение.
* Попробуйте добавить дополнительные параметры - исправляет большое смещение.
* Запуск градиентного спуска с большим количеством итераций - исправляет алгоритм оптимизации.
* Попробуйте метод Ньютона - исправляет алгоритм оптимизации.
* Используйте другое значение λ - иправляет объект оптимизации.
* Попробуйте использовать SVM - иправляет объект оптимизации.
