## 2진분류
- 악성 암환자와 아닌 환자로 구분하는 2진분류의 일원

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import numpy as np

cancer = load_breast_cancer()
cancer_data = cancer['data']
cancer_target = cancer['target']

X_train, X_test, y_train, y_test = train_test_split(cancer_data, cancer_target, test_size=0.3, random_state=11)

model = LogisticRegression(solver='liblinear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 혼동행렬
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score
confusion_matrix(y_test, y_pred)

print('정확도', accuracy_score(y_test, y_pred)) # 예측결과와 실제값이 동일한 건수/전체 데이터 수
print('정밀도', precision_score(y_test, y_pred)) # 예측을 positive로 한 대상 중에 예측과 실제값이 positive로 일치한 데이터의 비율
print('재현율', recall_score(y_test, y_pred)) # 실제값이 positive인 대상 중에 예측과 실제값이 positive로 일치한 데이터의 비율
print(y_pred) # 예측값. 2진분류라서 0 또는 1을 출력한다 - 예측 결과

# 확률을 가져온다.
y_preda = model.predict_proba(X_test)
print(np.round(y_preda, 2))
print(cancer['target_names']) # 0-암환자, 1-양성
# 앞부분의 확률이 0.5보다 크면 암환자이다.
# [[암환자일 확률, 아닐 확률], [암환자일 확률, 아닐 확률]] 식으로 묶여있다.
# softmax함수 - 연산결과를 다 더하여 1이 되도록 확률로 바꿔주는 함수
from sklearn.ensemble import GradientBoostingClassifier

model = GradientBoostingClassifier(random_state=0, max_depth=1)
model.fit(X_train, y_train)
print("그라디언트 부스팅-------")
print("훈련셋 : ", model.score(X_train, y_train))
print("테스트셋 : ", model.score(X_test, y_test))

import xgboost as xgb
from xgboost import XGBClassifier
model = XGBClassifier(random_state=0, max_depth=1)
model.fit(X_train, y_train)
print("XGBoost-------")
print("훈련셋 : ", model.score(X_train, y_train))
print("테스트셋 : ", model.score(X_test, y_test))

정확도 0.935672514619883
정밀도 0.9304347826086956
재현율 0.9727272727272728
[0 0 0 0 0 1 1 1 1 1 1 0 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 1 1 1 0 1 1 1 0 0 1 1 0 1 1 0 1 1 1 1 1 0
 1 0 1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 0 1 1 0 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1
 0 1 0 0 1 1 0 1 0 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 0 0 1 0 1 0 1 1 0 1 0 1 1
 1 0 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1]
[[1.   0.  ]
 [1.   0.  ]
 [1.   0.  ]
 [1.   0.  ]
 [1.   0.  ]
 [0.01 0.99]
 [0.21 0.79]
 [0.01 0.99]
 [0.   1.  ]
 [0.   1.  ]
 [0.   1.  ]
 [0.67 0.33]
 [0.21 0.79]
 [0.06 0.94]
 [0.   1.  ]
 [0.   1.  ]
 [0.87 0.13]
 [0.27 0.73]
 [0.   1.  ]
 [1.   0.  ]
 [0.98 0.02]
 [0.   1.  ]
 [0.   1.  ]
 [0.   1.  ]
 [0.12 0.88]
 [0.01 0.99]
 [0.   1.  ]
 [0.16 0.84]
 [0.01 0.99]
 [0.06 0.94]
 [0.01 0.99]
 [0.   1.  ]
 [0.   1.  ]
 [0.   1.  ]
 [0.14 0.86]
 [0.01 0.99]
 [0.05 0.95]
 [0.   1.  ]
 [0.05 0.95]
 [0.17 0.83]
 [0.   1.  ]
 [0.97 0.03]
 [0.   1.  ]
 [0.   1.  ]
 [0.03 0.97]

## 정밀도/재현율의 trade off
- 정밀도 또는 재현율이 특별히 강조되어야 할 경우 분류의 결정 임곗값(threshold)을 조정해 정밀도 또는 재현율의 수치를 늘릴 수 있다.
- 정밀도와 재현율은 상호 보완적인 평가지표이기 때문에 어느 한 쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽다. 이를 정밀도/재현율의 트레이드 오프라고 한다.

In [None]:
from sklearn.preprocessing import Binarizer

# y_preda를 2차원으로 바꿔줘야 한다.
y_preda1 = y_preda[:, 0]
y_preda1 = y_preda1.reshape(-1, 1)
# np.round(y_preda1, 2) # 암환자일 확률만 추출해냄

binarizer = Binarizer(threshold=0.4)
y_preda2 = binarizer.fit_transform(y_preda1)
# y_preda2 # 0.4보다 크면 1로 0.4보다 작거나 같으면 0으로 본다

print('정확도', accuracy_score(y_test, y_preda2))
print('정밀도', precision_score(y_test, y_preda2)) 
print('재현율', recall_score(y_test, y_preda2))

## ROC Curve그리기(성능 측정)
- 최대한 면적을 채울수록 성능이 좋은 모델임을 알려준다.
- 성능을 시작적으로 보여줄 수 있는 것이 ROC Curve이다.

In [None]:
from sklearn.metrics import roc_curve
y_pred = model.predict_proba(X_test) # 예측값
# 확률을 얻으면 2차원 배열
y_pred = y_pred[:, 1] # 1번 열의 데이터를 가져간다
fprs, tprs, thresholds = roc_curve(y_test, y_pred)
thresholds

# 차트그리기
import matplotlib.pyplot as plt
def roc_curve_plot(y_test, y_pred):
    fprs, tprs, thresholds = roc_curve(y_test, y_pred)
    plt.plot(fprs, tprs, label = 'ROC')
    plt.plot([0, 1], [0, 1], 'k--', label='Random')
    plt.show()

roc_curve_plot(y_test, y_pred)