In [14]:
## TP, TN, FP, FN
def true_positive(y_true, y_pred):
    """
    TP 계산하는 함수
    param y_true : 실제 값의 목록
    param y_pred : 예측 값의 목록
    return : TP의 개수
    """
    # 초기화
    tp = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 1:
            tp += 1
    return tp

def true_negative(y_true, y_pred):
    """
    TN을 계산하는 함수
    param y_true : 실제 값의 목록
    param y_pred : 예측 값의 목록
    return : TN의 개수
    """
    # 초기화
    tn = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 0 and yp == 0:
            tn += 1
    return tn

def false_positive(y_true, y_pred):
    """
    FP을 계산하는 함수
    param y_true : 실제 값의 목록
    param y_pred : 예측 값의 목록
    return : FP의 개수
    """
    # 초기화
    fp = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 0 and yp == 1:
            fp += 1
    return fp

def false_negative(y_true, y_pred):
    """
    FN을 계산하는 함수
    param y_true : 실제 값의 목록
    param y_pred : 예측 값의 목록
    return : FN의 개수
    """
    # 초기화
    fn = 0
    for yt, yp in zip(y_true, y_pred):
        if yt == 1 and yp == 0:
            fn += 1
    return fn

In [40]:
## 정밀도 구현 코드
def precision(y_true, y_pred):
    tp = true_positive(y_true, y_pred)
    fp = false_positive(y_true, y_pred)
    precision = tp / (tp+fp)
    return precision

In [15]:
## 재현율
def recall(y_true, y_pred):
    tp = true_positive(y_true, y_pred)
    fn = false_negative(y_true, y_pred)
    recall = tp / (tp+fn)
    return recall

In [16]:
## 재현율 함수를 tpr()로 정의 : 민감도
def tpr(y_true, y_pred):
    return recall(y_true, y_pred)

In [19]:
## fpr 정의 : 1-fpr=특이도
def fpr(y_true, y_pred):
    fp = false_positive(y_true, y_pred)
    tn = true_negative(y_true, y_pred)
    return fp / (tn + fp)

In [21]:
## 다양한 기준점에 따른 TPR과 FPR을 계산하보자
tpr_list = []
fpr_list = []

# 타겟 값
y_true = [0, 0, 0, 0, 1, 0, 1,
         0, 0, 1, 0, 1, 0, 0, 1]

# 샘플의 타겟 값이 1일 확률
y_pred = [0.1, 0.3, 0.2, 0.6, 0.8, 0.05, 0.9, 0.5, 0.3, 0.66, 0.3, 0.2, 0.85, 0.15, 0.99]

thresholds = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.85, 0.9, 0.99, 1.0]

# 모든 기준점에 대해 tpr과 fpr을 계산한다.
for thresh in thresholds:
    # 주어진 기준점을 가지고 예측 확률을 범주로 변환한다.
    temp_pred = [1 if x>= thresh else 0 for x in y_pred]
    # tpr 계산
    temp_tpr = tpr(y_true, temp_pred)
    temp_fpr = fpr(y_true, temp_pred)
    
    # tpr과 fpr을 목록에 추가
    tpr_list.append(temp_tpr)
    fpr_list.append(temp_fpr)

In [22]:
## 사이킷런을 사용한 AUC 구하기
from sklearn import metrics

# 타겟 값
y_true = [0, 0, 0, 0, 1, 0, 1,
         0, 0, 1, 0, 1, 0, 0, 1]

# 샘플의 타겟 값이 1일 확률
y_pred = [0.1, 0.3, 0.2, 0.6, 0.8, 0.05, 
          0.9, 0.5, 0.3, 0.66, 0.3, 0.2,
          0.85, 0.15, 0.99]

metrics.roc_auc_score(y_true, y_pred)

0.8300000000000001

In [24]:
## 다양한 기준점에 따른 TPR과 FPR을 계산하보자
tp_list = []
fp_list = []

# 타겟 값
y_true = [0, 0, 0, 0, 1, 0, 1,
         0, 0, 1, 0, 1, 0, 0, 1]

# 샘플의 타겟 값이 1일 확률
y_pred = [0.1, 0.3, 0.2, 0.6, 0.8, 0.05, 0.9, 0.5, 0.3, 0.66, 0.3, 0.2, 0.85, 0.15, 0.99]

thresholds = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.85, 0.9, 0.99, 1.0]

# 모든 기준점에 대해 tpr과 fpr을 계산한다.
for thresh in thresholds:
    # 주어진 기준점을 가지고 예측 확률을 범주로 변환한다.
    temp_pred = [1 if x>= thresh else 0 for x in y_pred]
    # tpr 계산
    temp_tp = true_positive(y_true, temp_pred)
    temp_fp = false_positive(y_true, temp_pred)
    
    # tpr과 fpr을 목록에 추가
    tp_list.append(temp_tp)
    fp_list.append(temp_fp)

In [25]:
import numpy as np

def log_loss(y_true, y_proba):
    # 극단적인 확률 값을 조정하는데 사용할 epsilon 값
    epsilon = 1e-15
    # 샘플 별 로그 손실을 저장할 목록
    loss = []
    # 모든 타겟 값과 예측 값에 대해 로그 손실을 계산
    for yt, yp in zip(y_true, y_proba):
        # 확률 값을 아래와 같이 조정한다
        # 0 -> 1e-15
        # 1 -> 1e
        # 왜 위와 같이 조정을 할까?
        yp = np.clip(yp, epsilon, 1-epsilon)
        # 하나의 샘플에 대한 로그 손실 계산
        temp_loss = - 1.0 * (
        yt*np.log(yp)
        + (1-yt) * np.log(1-yp)
        )
        # 로그 손실 목록에 추가
        loss.append(temp_loss)
    # 모든 샘플에 대한 로그 손실의 평균을 반환
    return np.mean(loss)

In [26]:
y_true = [0, 0, 0, 0, 1, 0, 1,
         0, 0, 1, 0, 1, 0, 0, 1]

# 샘플의 타겟 값이 1일 확률
y_proba = [0.1, 0.3, 0.2, 0.6, 0.8, 0.05, 0.9, 0.5, 0.3, 0.66, 0.3, 0.2, 0.85, 0.15, 0.99]

log_loss(y_true, y_proba)

0.49882711861432294

In [29]:
## 사이킷 런을 활용한 로그 손실 구하기
from sklearn import metrics

metrics.log_loss(y_true, y_proba)

0.49882711861432294

In [32]:
## 매크로 평균 정밀도
import numpy as np
def macro_precision(y_true, y_pred):
    # 타겟 값의 목록에서 고유 값의 개수를 찾아 범주의 개수를 구한다.
    num_classes = len(np.unique(y_true))
    
    # 정밀도를 0으로 초기화
    precision = 0
    
    # 모든 범주에 대해 계산한다.
    for class_ in range(num_classes):
        # 현재 범주 이외의 범주는 음의 범주로 간주한다.
        temp_true = [1 if p==class_ else 0 for p in y_true]
        temp_pred = [1 if p==class_ else 0 for p in y_pred]
        
        # 현재 범주에 대한 tp를 계산
        tp = true_positive(temp_true, temp_pred)
        
        # 현재 범주에 대한 fp를 계산
        fp = false_positive(temp_true, temp_pred)
        
        # 현재 범주에 대한 정밀도 계산
        temp_precision = tp / (tp+fp)
        
        # 모든 범주에 대한 정밀도를 합산
        precision += temp_precision
        
    # 모든 범주의 정밀도의 합을 범주의 개수로 나누어 매크로 평균 정밀도 계산
    precision /= num_classes
    return precision


In [33]:
## 마이크로 평균 정밀도
import numpy as np
def micro_precision(y_true, y_pred):
    # 타겟 값의 목록에서 고유 값의 개수를 찾아 범주의 개수를 구한다.
    num_classes = len(np.unique(y_true))
    
    # tp와 fp를 0으로 초기화
    tp = 0
    fp = 0
    
    # 모든 범주에 대해 계산한다.
    for class_ in range(num_classes):
        # 현재 범주 이외의 범주는 음의 범주로 간주한다.
        temp_true = [1 if p==class_ else 0 for p in y_true]
        temp_pred = [1 if p==class_ else 0 for p in y_pred]
        
        # 현재 범주에 대한 tp를 계산
        tp += true_positive(temp_true, temp_pred)
        
    # 전체 정밀도를 계산한다.
    precision = tp / (tp+fp)
    return precision

In [35]:
## 가중 평균 정밀도이다.
from collections import Counter
import numpy as np

def weighted_precision(y_true, y_pred):
    
    # 타겟 값의 목록에서 고유 값의 개수를 찾아 범주의 개수를 구한다.
    num_classes = len(np.unique(y_true))
    
    # 다음과 같은 범주 : 샘플 개수 사전을 만든다.
    class_counts = Counter(y_true)
    
    # 정밀도를 0으로 초기화한다.
    precision = 0
    
    # 모든 범주에 대해 계산한다.
    for class_ in range(num_classes):
        # 현재 범주 이외의 범주는 음의 범주로 간주한다.
        temp_true = [1 if p==class_ else 0 for p in y_true]
        temp_pred = [1 if p==class_ else 0 for p in y_pred]
        
        # 현재 범주에 대한 tp를 계산
        tp = true_positive(temp_true, temp_pred)
        
        # 현재 범주에 대한 fp를 계산
        fp = false_positive(temp_true, temp_pred)
        
        # 현재 범주에 대한 정밀도 계산
        temp_precision = tp / (tp+fp)
        
        # 정밀도에 현재 범주의 샘플 수를 곱한다.
        weighted_precision = class_counts[class_] * temp_precision
        
        # 전체 정밀도에 더한다.
        precision += weighted_precision
        
        # 전체 정밀도를 전체 샘플 수로 나누어 가중 평균 정밀도를 구한다.
    overall_precision = precision / len(y_true)
    return overall_precision

In [37]:
from sklearn import metrics

y_true = [0, 1, 2, 0, 1, 2, 0, 2, 2]
y_pred = [0, 2, 1, 0, 2, 1, 0, 0, 2]

print(macro_precision(y_true, y_pred))
print(metrics.precision_score(y_true, y_pred, average = 'macro'))
print(micro_precision(y_true, y_pred))
print(metrics.precision_score(y_true, y_pred, average = 'micro'))
print(weighted_precision(y_true, y_pred))
print(metrics.precision_score(y_true, y_pred, average = 'weighted'))

0.3611111111111111
0.3611111111111111
1.0
0.4444444444444444
0.39814814814814814
0.39814814814814814


In [45]:
## 가중 평균 F1 구하기.
from collections import Counter
import numpy as np

def weighted_f1(y_true, y_pred):
    
    # 타겟 값의 목록에서 고유 값의 개수를 찾아 범주의 개수를 구한다.
    num_classes = len(np.unique(y_true))
    
    # 다음과 같은 범주 : 샘플 개수 사전을 만든다.
    class_counts = Counter(y_true)
    
    # f1을 0으로 초기화 한다.
    f1 = 0
    
    # 모든 범주에 대한 계산
    for class_ in range(num_classes):
        # 현재 범주 이외의 범주는 음의 범주로 간주한다.
        temp_true = [1 if p==class_ else 0 for p in y_true]
        temp_pred = [1 if p==class_ else 0 for p in y_pred]
        
        # 현재 범주에 대한 정밀도와 리콜을 계산한다.
        p = precision(temp_true, temp_pred)
        r = recall(temp_true, temp_pred)
        
        # 현재 범주의 f1을 계산한다.
        if p + r != 0:
            temp_f1 = 2*p*r / (p+r)
        else:
            temp_f1 = 0
            
        # f1에 현재 범주의 샘플 수를 곱한다.
        weighted_f1 = class_counts[class_]*temp_f1
        
        # 전체 f1에 함한다.
        f1 += weighted_f1
        
    # 전체 f1을 전체 샘플 수로 나누어 가중 평균 f1을 구한다.
    overall_f1 = f1 / len(y_true)
    return overall_f1

In [51]:
## 사이킷런을 활용환 가중 평균 f1 스코어와 비교
from sklearn import metrics

y_true = [0, 1, 2, 0, 1, 2, 0, 2, 2]
y_pred = [0, 2, 1, 0, 2, 1, 0, 0, 2]

print(weighted_f1(y_true, y_pred))

print(metrics.f1_score(y_true, y_pred, average = 'weighted'))

0.41269841269841273
0.41269841269841273
