## Что такое метрика? (Evaluation metric)

* Метрика --- метод квантитативной оценки качества модели(-ей)

## Как оценивать модели?

* Holdout (train/test split)
* Cross-validation
* ...

## Метрики для задач обучения с учителем

#### Классификация:

* Accuracy
* Precision
* Recall
* F1 score
* ROC/AUC
* Matthews correlation coef
* Log loss

#### Регрессия:

* R^2
* MAE
* MSE
* RMSE
* MAPE

### Бинарная классификация

##### Accuracy

$$ accuracy = \frac{количество \quad  верно \quad  предсказанных}{общее \quad количество}$$

In [3]:
# Sklearn

model = LogisticRegression()

model.fit(X_train, y_train)
model.score(X_test, y_test)

# 0.95

In [None]:
from sklearn.dummy import DummyClassifier

dummy = DummyClassifer(strategy='most frequent')
dummy.fit(X_train, y_train)
dummy.score(X_test, y_test)

# 0.94

In [None]:
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=10_000, n_classes=2, weights=[0.95, 0.05])

In [None]:
from sklearn.ensemble import RandomForestClassifier

mdoel = RandomForestClassifier().fit(X_train, y_train)
model.score(X_test, y_test)

# 0.8

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, model.predict(X_test))

#  [[ 126, 13],
#   [ 24, 60]]

![](https://i.ibb.co/X2RVNKP/image.png)

![](https://i.ibb.co/hMDChdX/image.png)

### Решить что важнее

* Минимизировать ложно-положительные: Precision
* Минимизировать ложно-отрицательные: Recall

In [4]:
from sklearn.metrics import precision_score, recall_score, f1_score

In [None]:
from sklearn.model_selection import GridSearchCV

grid = {
    'n_estimators': [10, 200]
}
gs = GridSearchCV(estimator=model,
                 param_grid=grid,
                 scoring='precision')
gs.fit(X_train, y_train)

gs.best_estimator_.predict(X_test)

 ##### Matthews Correaltion Coefficient

* Способ вывести значение из матрицы несоответствия

$$ MCC = \frac{ TP * TN - FP * FN}{\sqrt{(TP+FP)(TP + FN)(TN+FP)(TN+FN)}}$$

* NB.: MCC не задан, когда знаменатель равен нулю

![](https://i.ibb.co/d0ptGhW/image.png)

### ROC (Receiver Operating Characteristic) curve

$$ True Positive Rate = \frac{TP}{TP + FN} $$
$$ False Positive Rate = \frac{FP}{FP + TN} $$

![](https://i.ibb.co/RvMySR6/image.png)

### AUC (Area Under Curve)

![](https://i.ibb.co/xgB193H/image.png)

### Precision \ recall curve

![](https://i.ibb.co/mc2qyGR/image.png)

### Log loss

* Принимает во внимание неуверенность предсказания модели
* Принимает большие значения, когда модель уверена в неверном предсказании

$$
-\frac{1}{n} \sum_{i=1}^{n} y_i\log p_i + (1 - y_i)\log(1-p_i)
$$

$y_i$ в бинарном случае - верный лейбл

![](https://i.ibb.co/DkwFXt8/image.png)

# Мультикласс

![](https://i.ibb.co/WfBmH0q/image.png)

F1

Micro - все семплы участвуют в равной степени в усреднении

Macro - все классы участвуют в равной степени в усреднении

### Multiclass log loss

$$ -\frac{1}{n} \sum_{i=1}^{n}\sum_{j=1}^{m}y_{ij}\log p_{ij} $$

## Регрессия


#### R^2 (коэфициент детерминации)

model.score(X_test, y_test)

1 - идеально

0 - dummy среднее


$$ R^2(y, y_{pred}) = 1 - \frac{\sum_{i=1}^{n}(y_i - y_{pred_i})}{\sum_{i=1}^{n}(y_i - y_{mean})}$$

## MAE

$$ MAE(y, y_{pred}) = \frac{1}{n}\sum_{i=1}^{n}|y_i-y_{pred_i}|$$

In [None]:
np.average(np.abs(y_true - y_pred))

## MSE 

$$ MAE(y, y_{pred}) = \frac{1}{n}\sum_{i=1}^{n}(y_i-y_{pred_i})^2$$

In [7]:
np.average((y_true - y_pred)**2)

## RMSE 

$$ RMSE(y, y_{pred}) = \sqrt(\frac{1}{n}\sum_{i=1}^{n}(y_i-y_{pred_i})^2)$$

In [8]:
np.sqrt(np.average((y_true - y_pred)**2))

В чём разница между MAE и RMSE

* RMSE даёт больший вес большим ошибкам

* MAE менее чувствителен к выбросам

## RMSLE (log)

$$ RMSLE(y, y_{pred}) = \sqrt(\frac{1}{n}\sum_{i=1}^{n}(log_e(y_i+1) - log_e(y_{pred_i+1}))^2$$

### Выводы:

* Нет одной "идеальной" метрики
* Проведите расследовательный анализ данных
* Порассуждайте о потенциальных проблемах в процессе моделирования