In [19]:
## 암진단에서는 재현율이 더 중요~ 암인데 암이 아니라고 진단하면 안되니까...
## 스팸메일 분류에서는 정밀도가 더 중요~ 스팸메일 아닌걸 스팸메일로 분류하면 힘드니까 

## 정밀도/재현율 트레이드오프
- 정밀도 또는 재현율이 특별히 강조되어야 할 분류의 결정 임곗값(Threshold)을 조정해 정밀도 또는 재현율의 수치를 높일 수 있음
- 정밀도와 재현율은 한쪽을 높이면 다른 하나의 수치는 낮아지므로 트레이드오프(Trade-off )관계임

## 예측 확률을 반환하는 predict_probal()
- 사이킷런 분류 알고리즘은 예측 데이터가 특정 레이블(결정 클래스값)에 속하는지를 계산하기 위해 먼저 개별 레이블별로 결정 확률을 구함
- 그리고 예측 확률이 큰 레이블 값으로 예측
- 이진 분류 모델에서 특정 데이터가 0이 됭 확률이 10%, 1이 될 확률이 90%로 예측되었다면 최종 예측은 더 큰 확률을 가진 1로 예측 
- 이진 분류에서는 이 임곗값을 0.5로 정하고 이 기준 값보다 확률이 크면 Positive, 작으면 Negative로 결정함
- 사이킷런은 개별 데이터별로 예측 확률을 반환하는 메서드인 predict_prob()를 제공 - 학습이 완료된 사이킷런Classifier 객체에서 호출
- predict() 메서드와 유사하지만 단지 반환 결과가 예측 결과 클래스값이 아닌 예측 확률 결과임

In [20]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

titanic_df = pd.read_csv('dataset/train.csv')
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [33]:
# 일괄 전처리 사용자 함수(null 처리, 불필요 칼럼 삭제, 레이블 인코딩) 
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Null 처리 함수
# Age(평균), Cabin('N'), Embarked('N'), Fare(0)
def fillna(df):
    df['Age'].fillna(df['Age'].mean(),inplace=True)
    df['Cabin'].fillna('N',inplace=True)
    df['Embarked'].fillna('N',inplace=True)
    df['Fare'].fillna(0,inplace=True)
    return df

# 머신러닝 알고리즘에 불필요한 속성 제거
# PassengerId, Name, Ticket(티켓번호)
def drop_features(df):
    df.drop(['PassengerId','Name','Ticket'],axis=1,inplace=True)
    return df

# 레이블 인코딩 수행.
# Cabin(선실번호 첫문자만 추출 후 인코딩), Sex(성별), Embarked(중간 정착 항구)
def format_features(df):
    df['Cabin'] = df['Cabin'].str[:1]
    features = ['Cabin','Sex','Embarked']
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 Data Preprocessing 함수 호출
def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df

In [34]:

y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived',axis=1)
X_titanic_df = transform_features(X_titanic_df)

X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df,
                                                   test_size=0.2, random_state=11)

lr_clf = LogisticRegression()
lr_clf.fit(X_train,y_train)
pred = lr_clf.predict(X_test)
accuracy_lr = accuracy_score(y_test,pred)
accuracy_lr

0.8491620111731844

In [23]:
pred_proba = lr_clf.predict_proba(X_test)
pred = lr_clf.predict(X_test)
# print(type(pred_proba[:3]))
print(pred_proba[:3])
print()
print(pred.reshape(-1,1)[:3])

[[0.4616653  0.5383347 ]
 [0.87862763 0.12137237]
 [0.87727002 0.12272998]]

[[1]
 [0]
 [0]]


In [24]:
from sklearn.preprocessing import Binarizer

X= [[1,-1,2],
   [2,0,0],
   [0,1.1,1.2]]
# Binarizer(threshold= ) : threshold 기준값보다 같거나 작으면 0, 크면 1을 반환
binarizer= Binarizer(threshold=1.1)
print(binarizer.fit_transform(X))

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]]


In [25]:
custom_threshold= 0.5
print('pred_proba: \n',pred_proba[:5])
print()
# 생존확률 추출 후 2차원 배열로 전환 
pred_proba_1= pred_proba[:,1].reshape(-1,1)
print('생존확률: \n',pred_proba_1[:5])
print()
binarizer= Binarizer(threshold= custom_threshold).fit(pred_proba_1)
custom_predict= binarizer.transform(pred_proba_1)
custom_predict[:5]
# predict_proba() 반환 값의 첫 번째 컬럼은 Negative(0)의 확률, 두 번째 컬럼은 Positive(1)의 확률을 나타낸다.

pred_proba: 
 [[0.4616653  0.5383347 ]
 [0.87862763 0.12137237]
 [0.87727002 0.12272998]
 [0.88283621 0.11716379]
 [0.85508952 0.14491048]]

생존확률: 
 [[0.5383347 ]
 [0.12137237]
 [0.12272998]
 [0.11716379]
 [0.14491048]]



array([[1.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [26]:
# 정확도 정밀도 재현율 F1_score

# 정확도 재현율 tradeoff 관계 반대관계

In [27]:
# get_clf_eval 평가 사용자 정의 함수 
from sklearn .metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix # 정확도 정말도 재현율 f1스코어, 혼동행렬

def get_clf_eval(y_test, pred):
    confusion= confusion_matrix(y_test,pred)
    accuracy= accuracy_score(y_test, pred)
    precision= precision_score(y_test,pred)
    recall= recall_score(y_test, pred)
    f1= f1_score(y_test, pred)
    print('오차행렬')
    print(confusion)
    print('정확도 : {:.4f}\n정밀도 : {:.4f}\n재현율 : {:.4f}\nf1 : {:.4f} '.format(accuracy,precision,recall,f1))
get_clf_eval(y_test, custom_predict)

오차행렬
[[104  14]
 [ 13  48]]
정확도 : 0.8492
정밀도 : 0.7742
재현율 : 0.7869
f1 : 0.7805 


In [28]:
# 정확도 = (TP + TN) / (TP + TN + FP + FN)
# 정밀도 = TP / (TP + FP)
# 재현율 = TP / (TP + FN)
# F = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

print('정확도:',(48+104)/(14+104+13+48))
print('정밀도:',48/(48+14))
print('재현율:',48/(48+13))
print('F1:', 2*((48/(48+14))*(48/(48+13))) /((48/(48+14))+(48/(48+13))))

정확도: 0.8491620111731844
정밀도: 0.7741935483870968
재현율: 0.7868852459016393
F1: 0.7804878048780488


In [29]:
# 직관적으로 보는 방벚 - 광훈 
Label = np.unique([y_test, pred])
confustion_matrix = pd.DataFrame(
    confusion_matrix(y_test, pred, labels=Label), 
    index=['true:{:}'.format(x) for x in Label], 
    columns=['pred:{:}'.format(x) for x in Label])
print(confustion_matrix)


        pred:0  pred:1
true:0     104      14
true:1      13      48


In [46]:
# 임계값이 커지면 양성 예측이 적어지므로 FP가 적어지고 정확도가 증가한다. 

thresholds= [0.4,0.45,0.5,0.55,0.60]

def get_eval_by_threshold(y_test,pred_proba_c1,thresholds):
    #thresholds list 객체 내의 값을 차례로 iteration하면서 evaluation 수행
    for custom_threshold in thresholds:
        binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_c1)
        custom_predict= binarizer.transform(pred_proba_c1)
        print('임계값', custom_threshold)
        get_clf_eval(y_test,custom_predict)
        print()
        
get_eval_by_threshold(y_test,pred_proba[:,1].reshape(-1,1),thresholds)

임계값 0.4
오차행렬
[[99 19]
 [10 51]]
정확도 : 0.8380
정밀도 : 0.7286
재현율 : 0.8361
f1 : 0.7786 

임계값 0.45
오차행렬
[[103  15]
 [ 12  49]]
정확도 : 0.8492
정밀도 : 0.7656
재현율 : 0.8033
f1 : 0.7840 

임계값 0.5
오차행렬
[[104  14]
 [ 13  48]]
정확도 : 0.8492
정밀도 : 0.7742
재현율 : 0.7869
f1 : 0.7805 

임계값 0.55
오차행렬
[[109   9]
 [ 15  46]]
정확도 : 0.8659
정밀도 : 0.8364
재현율 : 0.7541
f1 : 0.7931 

임계값 0.6
오차행렬
[[112   6]
 [ 16  45]]
정확도 : 0.8771
정밀도 : 0.8824
재현율 : 0.7377
f1 : 0.8036 



### 결과해석
- 임계값이 낮을수록 많은 수의 양성 예측으로 인해 재현율 값이 극도로 높아지고 정밀도 값이 낮아짐 ( FN 이 작아지고 FP가 커진다)
- 로지스틱 회귀 기반의 타이타닉 생존자 예측 모델의 경우 임계값이 약 0.5 지점에서 재현율과 정밀도가 비슷해지는 모습을 보인다.
- 단순히 하나의 성능 지표 수치를 높이기 위한 수단으로 사용하는 것은 지양하고 업무 환경에 맞게 두 개의 수치를 상호 보완할 수 있는 수준에서 적용한다.

### 정밀도 및 재현율 활용시 유의 사항
- 정밀도와 재현율 성능 수치는 어느 한쪽만 참조하면 극단적인 수치 조작이 가능하다.
- 정밀도 100%가 되는 방법: 확실한 기준이 되는 경우만 Postive 로 예측하고 나머지 모두 Negative로 예측.

        -전체 환자 1000명 중 확실한 Positive 징후만 가진 환자는 단 1명이라고 하면 이 한명만 P로 예측하고 나머지는 모두 N으로 예측 FP는 0, TP는 1이 되며 정밀도 (TP/(TP+FP)는 1/(1+0) = 1

- 재현율이 100%가 되는 방법 : 모든 환자를 Postive로 예측 1000명의 환자 중 실제 양성인 사람이 30명 정도라도 TN이 수치에 포함되지 않고 FN은 0이므로 재현율(TP/(TP+FN) 은 30/(30+0) = 1
- 분류가 정밀도, 재현율 중 하나에 상대적인 중요도를 부여할 수 있지만 하나만 강조해서는 안됨.
- 암 예측 모델에서 재현율을 높인다고 주로 양성만 판정한다면 환자의 부담과 불평이 커지게 된다. 

In [52]:
from sklearn.metrics import roc_curve
pred_proda_c1 = lr_clf.predict_proba(X_test)[:,1]
fprs, tprs, thresholds = roc_curve(y_test,pred_proba_c1)
thr_index= np.arange(1,thresholds.shape[0],5)
print(np.round(threshold[thr_index],2))
print(np.round(fprs[thr_index],2))
print(np.round(tprs[thr_index],2))

NameError: name 'pred_proba_c1' is not defined

In [49]:
import matplotlib.pyplot as plt
def roc_curve_plot(y_test,pred_proba_c1):
    fprs,tprs,thresholds= roc_curve(y_test,pred_proba_c1)
    plt.plot(fprs,tprs,label='ROC')
    plt.plot([0,1],[0,1],'k--',label='Random')
    
    start,end = plt.xlim()
    plt.xticks(np.round(np.arange(start,end,0.1),2))
    plt.xlim(0,1)
    plt.ylim(0,1)
    plt.xlabel('FPR(1-specificity)') # specificity 특이도
    plt.ylabel('TPR(Recall)')
    plt.show()
roc_curve_plot(y_test,lr_clf.predict_proba(X_test[:,1]))

TypeError: '(slice(None, None, None), 1)' is an invalid key

In [None]:
# True Positive Rate(TPR): True Positive/positive
# False Positive Rate(FPR): False Positive /Negative
# False Negative Rate(FNR): False Negative/Positive
# True Negative Rate(TNR): True Negative/Negative
