In [1]:
import numpy as np
from numpy.random import RandomState
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix, classification_report

In [3]:
# przypadkowe dane, aby nam to zadziałało
random = RandomState(30)

random_1 = random.normal(loc = 0.0, size = 100)
random_2 = random.logistic(loc = 1, size = 100)
y_test = [1 if i >=0 else 0 for i in random_1]
y_pred = [1 if i >=0 else 0 for i in random_2]

## Self-defined
Macierz błędu

In [4]:
# tworzymy funckję definiującą wartości do macierzy błędu

def confusion_matrix(truth, prediction):
    tp, tn, fp, fn = 0, 0, 0, 0
    
    for label_t, label_p in zip(truth, prediction):
        if label_t == label_p:
            if label_p == 1:
                tp +=1
            else:
                tn +=1
        else:
            if label_p == 1:
                fp +=1
            else:
                fn +=1
    return tp, tn, fp, fn

In [5]:
# używamy funkcje aby uzyskać dane do macierzy błędu
tp, tn, fp, fn = confusion_matrix(y_test, y_pred)

In [6]:
print(f'TP:{tp}, TN:{tn}')
print(f'Ile obserwacji zaklasyfikowaliśmy poprawnie: {tp+tn}')
print(f'FP:{fp}, FN:{fn}')
print(f'Ile obserwacji zaklasyfikowaliśmy niepoprawnie: {fp+fn}')

TP:30, TN:14
Ile obserwacji zaklasyfikowaliśmy poprawnie: 44
FP:43, FN:13
Ile obserwacji zaklasyfikowaliśmy niepoprawnie: 56


Accuracy (dokładność)

accuracy = (tp+tn) / (tp+tn+fp+fn)  
Informuje nas o tym, jaki odsetek predykcji jest zgodny z prawdą.

#### Problem
Accuracy zachowuje się źle przy niezbalansowanych zbiorach. Wygenerujemy zbiór, w którym większość przykładów będzie negatywna.
Zakładając z góry, że wszystkie przykłady są negatywne uzyskujemy bardzo wysoką dokładność. Takie zachowanie jest w wielu przypadkach niepożądane - przypuśćmy, że próbujemy stworzyć klasyfikator do komórek rakowych, gdzie większość przypadków jest negatywna - dla takiego podejścia, zwrócenie informacji że wszystkie przypadki są negatywne da bardzo wysoką dokładność.

In [7]:
def accuracy(truth, predicition):
    tp, tn, fp, fn = confusion_matrix(truth, predicition)
    print(tp, tn, fp, fn)
    
    return (tp+tn) / (tp+tn+fp+fn)

In [8]:
acc = accuracy(y_test, y_pred)

print(f'Dokładność: {acc}')

30 14 43 13
Dokładność: 0.44


Recall (czułość)   
Informuje o odsetku poprawnie predykowanych wartości pozytywnych (jaką część wartości dodatnich wykrył klasyfikator)


recall = tp / (tp + fn)

In [9]:
def recall(truth, prediction):
    tp, tn, fp, fn = confusion_matrix(truth, prediction)
    
    return tp / (tp+fn)

In [10]:
recall(y_test, y_pred)

0.6976744186046512

Precision (precyzja)


Jest to miara, która skupia się tylko na przykładach pozytywnych - mówi jaka część wyników wskazanych przez klasyfikator jako dodatnie jest rzeczywiście dodatnia.

precision = tp / (tp+fp)


In [11]:
def precision(truth, prediction):
    tp, tn, fp, fn = confusion_matrix(truth, prediction)
    
    return tp / (tp+fp)

In [12]:
precision(y_test, y_pred)

0.410958904109589

F1 Score

Jest to średnia harmoniczna precyzji i czułości. Ogólnie - im wyższy F1-score tym lepszy jest klasyfikator.

f_score = (2 * precision * recall)/(prec+rec)

In [13]:
def f1_score(truth, predicted):
    prec = precision(truth, predicted)
    rec = recall(truth, predicted)
    
    return 2*prec*rec / (prec+rec)

In [14]:
f1_score(y_test, y_pred)

0.5172413793103448

## Z Sklearn
Możemy również wykorzystać gotowe funkcje dostępne w sklearn i jednej zbiorczej

In [15]:
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix, classification_report

In [16]:
recall_score(y_test, y_pred)
precision_score(y_test, y_pred)
f1_score(y_test, y_pred)
confusion_matrix(y_test, y_pred)

array([[14, 43],
       [13, 30]])

In [17]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.52      0.25      0.33        57
           1       0.41      0.70      0.52        43

    accuracy                           0.44       100
   macro avg       0.46      0.47      0.43       100
weighted avg       0.47      0.44      0.41       100

