## <center> Метрики в задаче классификации

### 1. Accuracy

Метрика **accuracy** (точность) представляет собой долю правильно классифицированных объектов и вычисляется, как отношение количества правильно классифицированных объектов ко всем объектам.

У этой метрики есть недостаток - она бесполезна в таких задачах, когда количество объектов в каждом классе разное. В этом случае говорят, что классы ***несбалансированны***.


Чтобы понять, почему так происходит, рассмотрим следующий пример. 


**Пример:**

Допустим, у нас есть модель, которая фильтрует письма на спам / не спам. Спам - класс 1, не спам - ксасс 0

Подаем на вход модели **100** писем, из которых **90** - не спам, а **10** - спам. 
<br>Модель правильно определила **83** из **90**, определив их как не спам, а **7** - как спам.
<br>Из **10** спам-писем модель классифицировала как спам **6** писем, а **4** определила как не спам.

Тогда доля правильных ответов алгоритма составляет:
$$\frac{83+6}{100}=0.89$$

Выглядит очень неплохо!

При предсказании на двух классах возможны следующие варианты: 
- **True Positive** (истинно положительный) - предсказали как положительный класс и угадали!
- **False Positive** (ложно положительный) - предсказали как положительный класс и ошиблись, на самом деле класс отрицательный
- **True Negative** (истинно отрицательный) - предсказали как отрицательный класс и угадали!
- **False Negative** (ложно отрицательный) - предсказали как отрицательный класс и ошиблись, на самом деле класс положительный

Теперь можно составить ***матрицу ошибок (confusion matrix)***.

### <center> Confusion Matrix 
<img src="https://github.com/MalikaL17/course_materials/blob/main/img/confusion_matrix.png?raw=true"  width="75%" height="75%">

Теперь мы можем боле полно записать формулу **Accuracy**:

$$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$$

Подставим в эту формулу результаты классификации из примера про классификацию на спам/неспам:

$$Accuracy=\frac{6+83}{6+83+7+4}=\frac{89}{100}=0,89$$

Но что, если бы наш алгоритм всегда классифицировал все письма как неспам (выдавал метку класса 0)? 

$$Accuracy=\frac{0+90}{0+90+0+10}=\frac{90}{100}=0,90$$
 
Как видим, мы получили даже большее значение **Accuracy**, хотя наш алгоритм абсолютно не умеет выявлять спам. Причина этого - дисбаланс классов, при которой применять метрику **Accuracy** нельзя. Нужны другие метрики, котрые могут показать корректрные результаты на несбалансирвоанных классах.



### 2. Precision, Recall, F-score

**Precision** - *точность отнесения к классу*,  доля действительно положительных из тех, кого наш алгоритм отнес к положительным;

Показывает с какой точностью мы определяем объекты класса

$$Precision=\frac{TP}{TP+FP}$$

**Recall** - *полнота выявления класса*, доля действительно положительных из всего количество положительный; 

Показывает, насколько полно мы нашли все объекты класса

$$Recall=\frac{TP}{TP+FN}$$

<img src="https://github.com/MalikaL17/course_materials/blob/main/img/truefalsepositives.png?raw=true">

Найдем **Precision** и **Recall** для нашего примера со спам фильтром.

**Precision** - сколько из *тех, кого алгоритм* назвал спамом, действительно им является?

$$Precision=\frac{6}{6+7}=\frac{6}{13}=0,46$$

**Recall** - какую долю от *всего* спама мы вявили? 

$$Recall=\frac{6}{6+4}=\frac{6}{10}=0,6$$

**F-score** - метрика, которая объедияет **precision** и **recall**
<img src="https://github.com/MalikaL17/course_materials/blob/main/img/f-score.PNG?raw=true">

Где параметр **бетта** - вес **precison** в метрике. **F-мера** достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.

### 3. ROC-AUC  

Для оценки качества классификации можно оценивать **площадь под ROC-кривой**
. Чем ближе значение метрики к 1, тем лучше качество классификации. Эта метрика также устойчива к дисбалансу классов.

**True positive rate** - какой % всех положительных объектов предсказан верно, полнота

**False positive rate** - какой % всех отрицательный объектов предсказан неверно, частота ложных срабатываний
$$FPR = \frac{FP}{FP+TN}$$

**ROC-кривая** дает возможность определить такую отсечку, при которой увеличение полноты (TPR) будет существеннее, чем увеличение FPR.

<img src="https://github.com/MalikaL17/course_materials/blob/main/img/roc_auc_score.png?raw=true">



Построение ROC-кривой

<img src='https://github.com/MalikaL17/course_materials/blob/main/img/roc-auc_1.png?raw=true'>
<img src='https://github.com/MalikaL17/course_materials/blob/main/img/roc-auc_2.PNG?raw=true'>

<a href='https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/comment-page-1/'> Статья </a> про построение ROC-кривой

### <center> Метрики классификации в sklearn

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, classification_report, roc_auc_score, confusion_matrix

In [None]:
churn = pd.read_csv('telecom_churn_1.csv')
churn.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


В данных есть дисбаланс классов

In [None]:
churn['Churn'].value_counts()

False    2850
True      483
Name: Churn, dtype: int64

In [None]:
# Кодируем категориальные переменные в число
churn['International plan'] = churn['International plan'].map({'Yes':1, 'No':0})
churn['Voice mail plan'] = churn['Voice mail plan'].map({'Yes':1, 'No':0})
churn['Churn'] = churn['Churn'].astype(int)

In [None]:
# Строим модель
x = churn[['International plan','Voice mail plan', 'Number vmail messages', 'Total day minutes','Total day calls', 
      'Total day charge', 'Total eve minutes','Total eve calls', 'Total eve charge', 'Total night minutes','Total night calls',
      'Total night charge', 'Total intl minutes','Total intl calls', 'Total intl charge', 'Customer service calls']]
y = churn['Churn']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=45)
log_reg = LogisticRegression()
model = log_reg.fit(x_train, y_train) 

pred_train = model.predict(x_train) 

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# Выводим метрики для обучающих данных
print('1. Accuracy train: ', accuracy_score(y_train, pred_train))
print('Confusion matrix:\n', confusion_matrix(y_train, pred_train))
print('_'*60)
print('2. Classification_report: \n', classification_report(y_train, pred_train))
print('3. ROC_AUC_Score: ', roc_auc_score(y_train, pred_train))

1. Accuracy train:  0.8539415766306523
Confusion matrix:
 [[2112   23]
 [ 342   22]]
____________________________________________________________
2. Classification_report: 
               precision    recall  f1-score   support

           0       0.86      0.99      0.92      2135
           1       0.49      0.06      0.11       364

    accuracy                           0.85      2499
   macro avg       0.67      0.52      0.51      2499
weighted avg       0.81      0.85      0.80      2499

3. ROC_AUC_Score:  0.5248333633579535


Рассмотрим внимательнее **сlassification_report**. 
В нем представлены метрики **precision**, **recall** и **f1-score** для каждого класса, а также **support** - количество объектов в каждом классе

Кроме этого, есть и агрегированные метрики по всем классам:

- **macro avg** - среднее арифметическое значение метрики по всем классам, не учитывает дисбаланс классов

- **weighted avg** - средневзвешенное значение метрики, учитывает дисбаланс классов

Ниже проилюстрированны примеры расчета macro и weighted avg по сlassification_report, который представлен в ячейке выше

In [1]:
# Средняя арифметическая -> macro avg
(0.86 + 0.49) /2

0.675

In [None]:
# Средневзвешенная ->
(0.86 * 2135 + 0.49*364)/(2135+364)

0.8061064425770308

In [None]:
# Выводим метрики для тестовых данных
pred_test = model.predict(x_test) 
print('1. Accuracy train: ', accuracy_score(y_test, pred_test))
print('Confusion matrix:\n', confusion_matrix(y_test, pred_test))
print('_'*60)
print('2. Classification_report: \n')
print(classification_report(y_test, pred_test))
print('3. ROC_AUC_Score: ', roc_auc_score(y_test, pred_test))

1. Accuracy train:  0.8477218225419664
Confusion matrix:
 [[701  14]
 [113   6]]
____________________________________________________________
2. Classification_report: 

              precision    recall  f1-score   support

           0       0.86      0.98      0.92       715
           1       0.30      0.05      0.09       119

    accuracy                           0.85       834
   macro avg       0.58      0.52      0.50       834
weighted avg       0.78      0.85      0.80       834

3. ROC_AUC_Score:  0.5154198742434036


### <center> Что важнее Precision или Recall?

Чтобы понять, что важнее для конкретной задачи, **precison** или **recall**, нужно понять, какие из двух типов ошибок для нас хуже или более "непростительные"


- ***Ошибки I рода*** ухудшают **precison**
- ***Ошибки II рода*** ухудшают **recall**

### <center> Ошибки I и II рода
<img src="https://github.com/MalikaL17/course_materials/blob/main/img/1_2_type_errors.jpg?raw=true">


**Подумайте, что важнее - точность или полнота - в следущих ситуация:**

**1.** Для осуществления профилактики заболевания решили использовать модель, которая классифицирует пациентов на склонных к болезни (класс 1) и несклонных к ней (класс 0). Профилактика не опасна для здорового человека.

**2.** Используем модель для выявления смертельно-больных, при этом известно, что лечение лекарством здорового человека сильно ухудшит его состояния и даже может убить.

**3.** Хотим сделать рекламную рассылку клиентам со специальным предложением, при этом мужчинам хотим предложить скидку на товары для рыбалки, а женщинам - на платья.

**4.** Хотим сделать фильтр, чтобы убрать контент 18+ из детского портала

**5.** Хотим банить пользователей на форуме за оскорбление других
