도메인 지식을 활용한 변수 선택
# 도메인 지식 기반 변수 선택은 단순히 원래 변수를 쓰는 게 아니라,

# 1)새로운 파생 변수 생성 (BMI, DTI, 상호작용 등)
# 2)의미 없는 변수 제거 (잡음/중복 변수)
# 3) 현업적으로 중요한 지표를 반영

# 하는 과정입니다.

# 예제 1: 의료 데이터 (BMI 변수 생성)

In [None]:
# ------------------------------------
# 예제 1: 의료 데이터 (BMI 변수 생성)
# ------------------------------------
import pandas as pd

data = {
    "height_cm": [170, 160, 180, 175, 165],
    "weight_kg": [70, 60, 90, 80, 55],
    "glucose": [110, 95, 150, 130, 85],
    "family_history": [1, 0, 1, 1, 0],
    "target": [0, 0, 1, 1, 0]  # 당뇨 여부
}
df = pd.DataFrame(data)
df

# 도메인 지식: BMI = 체중(kg) / (키(m)^2)
df["BMI"] = df["weight_kg"] / ((df["height_cm"]/100) ** 2)
df

# 여기서 BMI는 당뇨병 예측 모델에서 중요한 독립변수(feature)로 활용됨.



In [None]:
# ------------------------------------
# 
# ------------------------------------
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
train = pd.read_csv("diabetes_sample.csv")
train

# 타깃
y = train["target"]

# 1) Baseline (BMI 제외)
X_base = train[["glucose", "family_history"]]


# 데이터분할
X_train, X_test, y_train, y_test = train_test_split(
    X_base, y, test_size=0.3, random_state=42, stratify=y
)

# 학습
model_base = LogisticRegression(max_iter=300)
model_base.fit(X_train, y_train)

# 예측
pred_base = model_base.predict(X_test)
proba_base = model_base.predict_proba(X_test)[:, 1]

print("Baseline (BMI 제외)")
print("accuracy_score :", accuracy_score(y_test, pred_base))
print("F1-score:", f1_score(y_test, pred_base))
print("AUC:", roc_auc_score(y_test, proba_base))
print("--------------------------")


# 2) With BMI (BMI 포함)
X_bmi = train[["glucose", "family_history", "BMI"]]

X_train, X_test, y_train, y_test = train_test_split(
    X_bmi, y, test_size=0.3, random_state=42, stratify=y
)

model_bmi = LogisticRegression(max_iter=300)
model_bmi.fit(X_train, y_train)
pred_bmi = model_bmi.predict(X_test)
proba_bmi_base = model_bmi.predict_proba(X_test)[:, 1]

#
acc_bmi = accuracy_score(y_test, pred_bmi)

# 3) 결과 출력

print("BMI 포함")
print("accuracy_score :", accuracy_score(y_test, pred_bmi))
print("F1-score:", f1_score(y_test, pred_bmi))
print("AUC:", roc_auc_score(y_test, proba_bmi_base))
