# F1 Score

## $F1 = {2 \over ({1 \over recall}+{1 \over precision})}$

## mean-F1  
행 단위로 F1 계산후 평균값을 구함

## macro-F1  
각 클래스별 F1 계산후 평균값을 구함

## micro-F1  
행 X 클래스 각 쌍에 대해 Confusion Metrics를 이용해 F1-score 계산

# 매튜상관계수(MCC) = ${TP \times TN - FP \times FN \over \sqrt{(TP + FP)(TP + FN)(TN + FP)(TN +FN)}}$

# cross-entropy = logloss = $-{1\over N}\sum_{i = 1}^{N}{y_{i}logp_{i}+(1-y_{i})log(1-p_{i})}$

In [5]:
from sklearn.metrics import log_loss

y_true = [1,0,1,1,0,1]
y_prob = [0.1,0.2,0.8,0.8,0.1,0.3]

logloss = log_loss(y_true,y_prob)
print(logloss)

0.7135581778200728


# Multi-class logloss = $-{1\over N}\sum_{i = 1}^{N}{\sum_{m = 1}^{M}{y_{i,m}logp_{i,m}}}$ 
각 클래스의 예측 활률에 로그를 취함

# QWK    
다중 클래스 분류에서 클래스간 순서 관계가 존재할 때 사용(추천 문제에 사용하면 좋을 듯)  
- $k = 1 - {\sum_{i,j}^{}{W_{i,j}o_{i,j}} \over \sum_{i,j}^{}{W_{i,j}E_{i,j}}}$  
- $O_{i,j}$ 는 실제값 클래스가 i, 예측값 클래스가 j인 행 데이터 수로 행렬로 나열하면 혼동행렬이 됨  
- $E_{i,j}$ 는 실제값, 예측값이 서로 독립적인 관계일 떄 혼동행렬의 기대치  
- $W_{i,j}$ 는 실제값과 예측값 차이의 제곱

In [8]:
from sklearn.metrics import confusion_matrix, cohen_kappa_score

def quadratic_weighted_kappa(c_matrix):
    numer = 0.0
    denom = 0.0
    for i in range(c_matrix.shape[0]):
        for j in range(c_matrix.shape[1]):
            n = c_matrix.shape[0]
            wij = ((i-j)**2)
            oij = c_matrix[i,j]
            eij = c_matrix[i,:].sum() * c_matrix[:,j].sum() / c_matrix.sum()
            numer += wij*oij
            denom += wij*eij
    return 1.0 - numer/denom

y_true = [1,2,3,4,3]
y_pred = [2,2,4,4,5]

c_matrix = confusion_matrix(y_true,y_pred,labels=[1,2,3,4,5])

kappa = quadratic_weighted_kappa(c_matrix)
print(kappa)

print(cohen_kappa_score(y_true,y_pred,weights='quadratic'))

0.6153846153846154
0.6153846153846154


# MAP@K = ${1 \over N}{\sum_{i = 1}^{N}{({1 \over min(m_{i},K)}\sum_{k = 1}^{K}{P_{i}(k)}})}$  
- $m_{i}$ 는 행 데이터 i가 속한 클래스의 수  
- $P_{i}(k)$ 는 데이터에 대해 k번쨰까지의 예측값으로 계산되는 정밀도
추천문제에서 자주 사용하는 지표, 각 데이터가 포함될 가능성이 높을 것으로 예측한 순서대로 K개의 클래스가 예측값  