## ROC 곡선과 AUC 스코어
* ROC 곡선(Receiver Operating Characteristic Curve)은 이진 분류 모델의 성능을 평가하는데 널리 사용되는 그래프입니다. ROC 곡선은 분류 모델의 재현율(True Positive Rate)과 위양성 비율(False Positive Rate) 사이의 관계를 시각화한 것입니다. 여기서, 재현율은 모델이 실제 양성 클래스를 얼마나 잘 감지하는지를 나타내고, 위양성 비율은 모델이 실제 음성 클래스를 양성으로 잘못 분류하는 비율입니다.

* ROC 곡선의 x축은 위양성 비율(FPR)이고 y축은 재현율(TPR)입니다. 분류 모델이 얼마나 좋은 성능을 보이는지는 ROC 곡선의 면적인 AUC(Area Under the Curve)로 측정됩니다. AUC가 1에 가까울수록 모델이 좋은 성능을 보이는 것이며, 0.5에 가까울수록 랜덤한 예측과 같은 성능을 보입니다.

* TPR은 실제 양성 중에서 모델이 올바르게 양성으로 분류한 샘플의 비율을 나타내며, FPR은 실제 음성 중에서 모델이 잘못 양성으로 분류한 샘플의 비율을 나타냅니다. ROC 곡선은 FPR을 x축으로, TPR을 y축으로 나타내며, 이 곡선의 아래 면적을 계산한 값을 AUC(Area Under the Curve)라고 부릅니다. AUC 값은 분류 모델의 전반적인 성능을 나타내며, 1에 가까울수록 좋은 성능을 가진 모델입니다. AUC 값이 0.5에 가까우면 분류 모델의 성능이 무작위로 예측하는 것과 비슷하다는 것을 의미합니다.

* FP-Rate : FP / (FP + TN), 1 - Specificity : 실제가 False 인데 예측이 True로 된 비율 (제 1종 오류 비율)
* Recall, Sensitivity : 실제 값이 True인 것에 대해 예측 값이 True로 된 비율, TP / (TP + FN)

In [1]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt

# 데이터 생성
X, y = make_classification(n_samples=1000, n_classes=2, random_state=42)

# 훈련/테스트 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 분류 모델 학습 및 예측
clf = LogisticRegression()
clf.fit(X_train, y_train)
y_score = clf.predict_proba(X_test)[:, 1]

# ROC 곡선 그리기
fpr, tpr, thresholds = roc_curve(y_test, y_score)
roc_auc = auc(fpr, tpr)

plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (AUC = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()


NameError: name 'roc_curve' is not defined