### Урок 1. Введение в задачу классификации. Постановка задачи и подготовка данных.

**1. Приведите по 2 примера, когда лучше максимизировать Precision, а когда Recall.**

**I. Когда лучше максимизировать Precision:**
1. В системе, распознающей (с дорожной камеры) номера автомашин нарушителей дорожного движения, и автоматически выписывающей им штрафы.
2. В системе алгоритмической биржевой торговли, самостоятельно принимающей решения о покупке/продаже.

**II. Когда лучше максимизировать Recall:**
1. При анализе рентгеновских снимков на предмет наличия злокачественных новообразований.
2. При анализе случаев мошенничества с кредитными картами.

**2. Почему мы используем F-меру, почему, например, нельзя просто взять среднее от Precision и Recall?**

F-score позволяет учитывать дисбаланс между Precision и Recall. Т.е. если, например, Precision стремится к 0, а Recall стремится к 1, то F-score будет ниже сред. арифметического Precision и Recall. Кроме того, F-score допускает тюнинг (в отличие от сред. арифметического), смещающий баланс в сторону Precision или Recall.

**3. *Реализовать функции для подсчета Accuracy, Precision, Recall, F-score, которые на вход принимают y_true (истинные значения), y_pred (предсказанные значения), а на выход дается метрика.**

In [1]:
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report,\
recall_score,f1_score, precision_score
from random import randint

In [2]:
def perf_measure(y_true, y_pred):
    '''
    Вспомогательная функция для подсчета TN, FP, FN, TP
    https://datascience.stackexchange.com/a/28500
    '''
    
    TP, FP, TN, FN = 0, 0, 0, 0

    for i in range(len(y_pred)): 
        if y_true[i]==y_pred[i]==1:
           TP += 1
        if y_pred[i]==1 and y_true[i]!=y_pred[i]:
           FP += 1
        if y_true[i]==y_pred[i]==0:
           TN += 1
        if y_pred[i]==0 and y_true[i]!=y_pred[i]:
           FN += 1

    return(TP, FP, TN, FN)


def get_accuracy(y_true, y_pred):
    TP, FP, TN, FN = perf_measure(y_true, y_pred)
    
    try: 
        result = (TP + TN)/(TP + FP + TN + FN)
    
    except ZeroDivisionError:
        result = 0                    
                           
    return result


def get_precision(y_true, y_pred):
    TP, FP, _, _ = perf_measure(y_true, y_pred)
    
    try: 
        result = TP/(TP + FP)
    
    except ZeroDivisionError:
        result = 0                    
                           
    return result


def get_recall(y_true, y_pred):
    TP, _, _, FN = perf_measure(y_true, y_pred)
    
    try: 
        result = TP/(TP + FN)
    
    except ZeroDivisionError:
        result = 0                    
                           
    return result


def get_f1_score(y_true, y_pred):
    precision = get_precision(y_true, y_pred)
    recall = get_recall(y_true, y_pred)
    
    try: 
        result = 2 * (precision * recall) / (precision + recall)
    
    except ZeroDivisionError:
        result = 0                    
                           
    return result

In [3]:
y_true = [randint(0, 1) for i in range(30)]
y_pred = [randint(0, 1) for i in range(30)]
print(f'y_pred: {y_pred}')
print(f'y_true: {y_true}', '\n')
print('Confusion matrix:\n', confusion_matrix(y_true, y_pred),'\n')
print('Метрики sklearn:', '\n')
print(classification_report(y_true, y_pred))
print(f'Accuracy: {accuracy_score(y_true, y_pred)}')
print(f'Precision: {precision_score(y_true, y_pred)}')
print(f'Recall: {recall_score(y_true, y_pred)}')
print(f'F1-score: {f1_score(y_true, y_pred)}')
print('*'*60, '\n')
print('Свои метрики: \n')
print(f'Accuracy: {get_accuracy(y_true, y_pred)}')
print(f'Precision: {get_precision(y_true, y_pred)}')
print(f'Recall: {get_recall(y_true, y_pred)}')
print(f'F1-score: {get_f1_score(y_true, y_pred)}')

y_pred: [1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1]
y_true: [1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1] 

Confusion matrix:
 [[ 8  5]
 [ 7 10]] 

Метрики sklearn: 

              precision    recall  f1-score   support

           0       0.53      0.62      0.57        13
           1       0.67      0.59      0.62        17

    accuracy                           0.60        30
   macro avg       0.60      0.60      0.60        30
weighted avg       0.61      0.60      0.60        30

Accuracy: 0.6
Precision: 0.6666666666666666
Recall: 0.5882352941176471
F1-score: 0.625
************************************************************ 

Свои метрики: 

Accuracy: 0.6
Precision: 0.6666666666666666
Recall: 0.5882352941176471
F1-score: 0.625
