In [1]:
import numpy as np
import matplotlib.pyplot as plt

## Метрики машинного обучения
* [Метрики классификации](#classification)
* [Метрики регрессии](#regression)

### Метрики классификации<a id='classification'></a>
Бинарная классификация
* [Accuracy](#accuracy)
* [Precision](#precision)
* [Recall](#recall)
* [F1-Score](#f1)
* [ROC-AUC score](#roc_auc)

Мульти-классовая классификация
* [Accuracy](#m_accuracy)
* [Precision](#m_precision)
* [Recall](#m_recall)
* [F1-Score](#m_f1)
* [ROC-AUC score](#m_roc_auc)

используемые обозначения:
TP - True Positive количество правильно предсказанных положительных значений

TN - True Negative количество правильно предсказанных отрицательных значений

FP - False Positive количество неправильно предсказанных положительных значений

FN - False Negtive количество неправильно предсказанных отрицательных значений

TPR - True Positive Rate показывает, какой процент среди всех positive верно предсказан моделью.
$$ TPR = \frac{TP}{TP + FN} $$

FPR - False Positive Rate показывает какой процент среди всех negative неверно предсказан моделью.
$$ FPR = \frac{FP}{FP + TN} $$

#### Accuracy<a id='accuracy'></a> 
в русском языке точность

Наиболее простая и самая распространенная метрика, показывает отношение правильных предсказаний ко всем предсказаниям
$$ Accuracy = \frac {TP + TN}{TP + TN + FP + FN}$$

Её главный минус - она не учитывает ложные срабатывания

In [2]:
def accuracy(y_pred, y_true):
    return sum(y_pred == y_true)/len(y_true)

#### Precision<a id='precision'></a>
в русском языке точность

Метрика показывающая отношение правильно предсказанных положительных значений ко всем предсказанным положительным заначениям
$$ Precision = \frac{TP}{TP + FP}$$

Используется когда наибольшую важность играет правильное положительное предсказания, а отрицательное предсказания играет второстепенную роль, либо используется, как дополнительная метрика 

In [3]:
def precision(y_pred, y_true):# y_true и y_pred здесь и ниже - numpy.ndarray
    return sum(y_pred + t_true == 2)/sum(y_pred)

#### Recall или же  (true positive rate)<a id='recall'></a>
в русском языке «полнота» или «чувствительность»

Эта метрика определяет количество истинно положительных среди всех меток класса, которые были определены как «положительный»
$$ Recall = \frac{TP}{TP + FN}$$

Необходимо уделить особое внимание этой оценке, когда в поставленной задаче ошибка нераспознания положительного класса высока

In [4]:
def recall(y_pred, y_true):
    TP = sum(y_pred + y_true == 2)
    FN = sum(((y_pred == 0)*1 + (y_true == 1)*1) == 2)
    return TP/(TP + FN)

#### F1-score<a id='f1'></a>
в русском языке так же

В том случае, если Precision и Recall являются одинаково значимыми, можно использовать их среднее гармоническое для получения оценки результатов, которое и называется F1-score
$$ F1 = 2 * \frac{precision * recall}{precision + recall}$$

In [5]:
def f1_score(y_pred, y_true):
    recall_value = recall(y_pred, y_true) 
    precision_value = precision(y_pred, y_true)
    return 2*recall_value*precision_value/(precision_value + recall_value)

#### ROC-AUC score<a id='roc_auc'></a>

ROC — Receiver Operating Characteristic (рабочая характеристика приёмника) – график, показывающий зависимость верно классифицируемых объектов положительного класса от ложно положительно классифицируемых объектов негативного класса. Иными словами, соотношение True Positive Rate (Recall) и False Positive Rate (Рисунок 2). 
AUC или area under curve — это просто площадь под кривой ROC.
Почему площадь под кривой ROC – хорошая метрика для оценки модели классификации?
Хорошая метрика модели машинного обучения должна отображать истинную и постоянную способность модели к прогнозированию. Это означает, что, если я изменю тестовый набор данных, он не должен давать другой результат.

ROC-кривая учитывает не только результаты классификации, но и вероятность предсказания всех классов. Например, если результат корректно классифицирован на основе 51% вероятности, то он, скорее всего, будет классифицирован неверно, если вы воспользуетесь другим тестовым датасетом. Кроме того, ROC-кривая также учитывает эффективность модели при различных пороговых значениях. Она является комплексной метрикой для оценки того, насколько хорошо разделяются случаи в разных группах.

In [6]:
def tpr(y_pred, y_true):
    TP = sum(y_pred + y_true == 2)
    FN = sum(((y_pred == 0)*1 + (y_true == 1)*1) == 2)
    return TP/(TP + FN)

def fpr(y_pred, y_true):
    FP = sum((y_true == 0)*1 + (y_pred == 1)*1 == 2)
    TN = sum((y_true == 0)*1 + (y_pred == 0)*1 == 2)
    return FP/(FP+ TN)

def roc(y_true, probs_true, step = 0):
    min_p = min(probs)
    max_p = max(probs)
    tpr_values = []
    fpr_values = []
    if step == 0:
        step = min_p
    cutoff = min_p ## порог вероятности выше которой значения мы принимаем как положительные
    while cutoff <= max_p:
        predict = np.array((probs >= cutoff)*1)
        tpr_values.append(tpr(predict, data))
        fpr_values.append(fpr(predict, data))
        cutoff += step
    # строим график
    roc_auc = np.trapz(x = fpr_values, y = tpr_values)
    plt.plot(fpr_values, tpr_values, color='darkorange',
         label='ROC кривая (area = %0.2f)' % roc_auc)
    plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC-кривая')
    plt.legend(loc="lower right")
    plt.show()

#### Accuracy<a id='m_accuracy'></a> 

Так-же как и для бинарной классификации, но для всех классов
$$ Average Accuracy = \frac{\sum\limits_{i=1}^K Accuracy_{i}}{K} $$

K - колличество классов

#### Precision<a id='m_precision'></a>

Так-же как и для бинарной классификации, но для всех классов
$$ Average Precision = \frac{\sum\limits_{i=1}^K Precision_{i}}{K} $$

K - колличество классов

#### Recall или же  (true positive rate)<a id='m_recall'></a>

Так-же как и для бинарной классификации, но для всех классов
$$ Average Recall = \frac{\sum\limits_{i=1}^K Recall_{i}}{K} $$

K - колличество классов

#### F1-score<a id='m_f1'></a>

Так-же как и для бинарной классификации, но для всех классов
$$ Average F1 = \frac{\sum\limits_{i=1}^K F1_{i}}{K} $$

K - колличество классов

#### ROC-AUC score<a id='m_roc_auc'></a>

Так-же как и для бинарной классификации, но для всех классов

$$ AUC_{total} = \sum\limits_{i=1}^K AUC(c_{i})*f(c_{i}) $$

f(c) - относительная частота класса c

K - колличество классов

### Метрики регрессии<a id='regression'></a>
* [Логистическая функция потерть (logloss)](#logloss)
* [Средняя квадратическая ошибка (MSE)](#mse)
* [Среднеквадратическая ошибка (RMSE)](#rmse)
* [Средняя абсолютная ошибка (MAE)](#mae)
* [R в квадрате (R²)](#r)
* [Среднеквадратичная логарифмическая ошибка (RMSLE)](#rmsle)

#### Logistic Loss<a id='logloss'></a>

логарифм потери
$$ logloss = -\frac{1}{l} * \sum\limits_{i=1}^l((y_i * log(\hat{y_i}) + (1 - y_i) * log(1 - \hat{y_i})) $$

$$ \hat{y} - предсказание\:модели $$ 

$$ y - истинное\:значение $$ 
$$ l - размер\:выборки $$

In [7]:
def logloss(y_true, y_pred):
    return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

#### Средняя квадратическая ошибка (MSE)<a id='mse'></a>
сильно реагирует на выбросы, среднее от суммы квадратов ошибок

$$ MSE = \frac{1}{N}*\sum\limits_{i=1}^N(y_i - \hat{y_i})^2 $$

In [8]:
def mse(y_true, y_pred):
    return sum((y_true-y_pred)**2)

#### Среднеквадратическая ошибка (RMSE)<a id='rmse'></a>
менее подвержена выбросам, является квадратным корне из MSE
$$ RMSE =  \sqrt{MSE} = \sqrt{\frac{1}{N}*\sum\limits_{i=1}^N(y_i - \hat{y_i})^2} $$

In [9]:
def rmse(y_true, y_pred):
    return (sum((y_true-y_pred)**2))**(1/2)

#### Средняя абсолютная ошибка (MAE)<a id='mae'></a>
В MAE ошибка рассчитывается как среднее абсолютных разностей между целевыми значениями и прогнозами. MAE - это линейная оценка, которая означает, что все индивидуальные различия взвешены одинаково в среднем
$$ MAE = \frac{1}{N}*\sum\limits_{i=1}^N|y_i - \hat{y_i}| $$

In [10]:
def mae(y_true, y_pred):
    return sum(np.abs((y_true-y_pred)))

#### R² или же коэффициент детерминации<a id='r'></a>
Он тесно связан с MSE, но имеет преимущество в том, что без масштабное- не имеет значения, являются ли выходные значения очень большими или очень маленькими,R² всегда будет между -∞ и 1.
Когда R² отрицательно, это означает, что модель предсказывает хуже, чем предсказание среднего значения.
$$ R^2 = 1 - \frac{MSE_{model}}{MSE_{baseline}} $$
$$ MSE_{baseline} - MSE\:где\:в\:место\:предсказания\:модели\:мы\:используем\:среднее\:значение\:целевой\:переменной $$

In [11]:
def r2(y_true, y_pred):
      return 1 - (mse(y_true, y_pred)/mse(y_true, np.mean(y_true)))

#### Среднеквадратичная логарифмическая ошибка (RMSLE)<a id='rmsle'></a>
Это просто RMSE, рассчитанная в логарифмическом масштабе. Фактически, чтобы вычислить его, мы берем логарифм наших прогнозов и целевых значений и вычисляем среднеквадратичное отклонение между ними. Цели обычно неотрицательны, но могут быть равны 0, а логарифм 0 не определен. Вот почему константа обычно добавляется к прогнозам и целям перед применением логарифмической операции. Эта константа также может быть выбрана, чтобы отличаться от одной в зависимости от проблемы.
$$ RMSLE = \sqrt{\frac{1}{N}\sum\limits_{i=1}^N(log(y_i + c) - log(\hat{y_i}+c))^2} $$

c- константа, обычно это единица

In [12]:
def rmsle(y_true, y_pred, c = 1):
    N = len(y_true)
    return (1/N*sum(np.log(y_true + c) - np.log(y_pred + c)))**(1/2)