## 📝 Lab #2-3 (종합 과제): 로지스틱 회귀 vs. K-NN 모델 비교 및 ROC 커브 시각화

지금까지 배운 로지스틱 회귀와 K-NN 모델의 성능을 종합적으로 비교하고 평가하는 미니 프로젝트를 수행합니다. 각 모델의 기본 성능을 확인하고, 하이퍼파라미터 튜닝의 효과를 ROC 커브 시각화를 통해 분석합니다.

### 과제 목표
1. 로지스틱 회귀와 K-NN(k=11)의 기본 모델을 학습하고 **정확도**와 **ROC-AUC 점수**를 비교합니다.
2. 두 모델의 예측 확률을 사용하여 **ROC 커브**를 하나의 그래프에 시각화합니다.
3. 시각화된 ROC 커브와 AUC 점수를 바탕으로, 고객 이탈 예측 문제에서 어떤 모델이 더 나은 성능을 보이는지 **분석하고 설명**합니다.

In [None]:
# --- 기본 라이브러리 및 데이터 준비 (튜토리얼 본문 코드 재사용) ---
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve

path = './WA_Fn-UseC_-Telco-Customer-Churn.csv'
df = pd.read_csv(path)
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df.drop('customerID', axis=1, inplace=True)
X = df.drop('Churn', axis=1)
y = df['Churn'].apply(lambda x: 1 if x == 'Yes' else 0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
numeric_features = X.select_dtypes(include=np.number).columns.tolist()
categorical_features = X.select_dtypes(include='object').columns.tolist()
numeric_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler())])
categorical_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore'))])
preprocessor = ColumnTransformer(transformers=[('num', numeric_transformer, numeric_features), ('cat', categorical_transformer, categorical_features)])

### [문제 1] 두 모델 학습 및 성능 평가

In [None]:
# 로지스틱 회귀 파이프라인 생성 및 학습
lr_pipeline = # 여기에 코드 작성
# 여기에 학습 코드를 작성하세요

# K-NN(k=11) 파이프라인 생성 및 학습
knn_pipeline = # 여기에 코드 작성
# 여기에 학습 코드를 작성하세요

# 테스트 데이터에 대한 예측 확률 계산 (ROC-AUC 계산용)
# predict_proba(X_test)[:, 1] 를 사용합니다.
y_pred_proba_lr = # 여기에 코드 작성
y_pred_proba_knn = # 여기에 코드 작성

# 각 모델의 정확도와 ROC-AUC 점수 계산 및 출력
acc_lr = # 여기에 코드 작성
auc_lr = # 여기에 코드 작성
acc_knn = # 여기에 코드 작성
auc_knn = # 여기에 코드 작성

print(f"로지스틱 회귀 정확도: {acc_lr:.4f}, ROC-AUC: {auc_lr:.4f}")
print(f"K-NN (k=11) 정확도: {acc_knn:.4f}, ROC-AUC: {auc_knn:.4f}")

### [문제 2] ROC 커브 시각화

In [None]:
# 각 모델의 ROC 커브 계산
# roc_curve(y_test, y_pred_proba) 함수를 사용합니다.
fpr_lr, tpr_lr, _ = # 여기에 코드 작성
fpr_knn, tpr_knn, _ = # 여기에 코드 작성

# Plotly를 사용하여 ROC 커브 시각화
fig = go.Figure()

# 로지스틱 회귀 ROC 커브 추가

# K-NN ROC 커브 추가
# 여기에 K-NN ROC 커브를 추가하는 코드를 작성하세요

# 램덤 추측선 (y=x) 추가


### [문제 3] 결과 분석

**아래 질문에 대한 답을 마크다운 셀에 작성해보세요.**

1. 정확도 측면에서 어떤 모델이 더 우수한가요?
2. ROC-AUC 점수와 ROC 커브 그래프를 종합적으로 고려했을 때, 어떤 모델이 '이탈 고객을 더 잘 찾아내는' 모델이라고 할 수 있나요? 그 이유는 무엇인가요? (힌트: ROC 커브가 왼쪽 위 모서리에 가까울수록 성능이 좋습니다.)