In [27]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:15pt;}
div.text_cell_render.rendered_html{font-size:18pt;}
div.text_cell_render ul li{font-size:22pt; line-height:30px;}
div.output {font-size:22pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:22pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:22pt;padding:5px;}
table.dataframe{font-size:22px;}
</style>
"""))

In [28]:
# -----------------------------
# [단락 1] 라이브러리 import
# -----------------------------
import os
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Input
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint


In [29]:
# -----------------------------
# [단락 2] 데이터 로드
# -----------------------------
CSV_PATH = r"C:\ai\lecNote\1st_Project\data\서울_일반음식점_인허가일자_2022까지.csv"
df = pd.read_csv(CSV_PATH, encoding="utf-8", low_memory=False)


In [30]:
# -----------------------------
# [단락 3] 사용할 컬럼 선택 (피처/타겟)
# -----------------------------
feat_cols = ["구", "업태_그룹", "창업월"]
y_col = "폐업_3년이내"
d = df[feat_cols + [y_col]].copy()

In [31]:
# -----------------------------
# [단락 4] 타입 정리
#   - 원핫 인코딩을 위해 문자열/정수 타입 정리
# -----------------------------
d["구"] = d["구"].astype(str)
d["업태_그룹"] = d["업태_그룹"].astype(str)
d["창업월"] = d["창업월"].astype(int)
d[y_col] = d[y_col].astype(int)


In [32]:
# -----------------------------
# [단락 5] 이진분류용 데이터 필터링 (0/1만 사용) + 타겟 생성
#   - 라벨 3(3년 미만 영업중 등)은 제외
# -----------------------------
d = d[d[y_col].isin([0, 1])].copy()
y = d[y_col].values.astype(np.float32)


In [33]:
# -----------------------------
# [단락 6] 입력 X 생성 (원핫 인코딩)
#   - 구/업태_그룹/창업월은 범주형 → get_dummies로 원핫
#   - dummy_na=True: 결측도 하나의 카테고리로 취급
# -----------------------------
X = pd.get_dummies(d[feat_cols], columns=feat_cols, dummy_na=True)
X = X.astype(np.float32).values


In [34]:
# -----------------------------
# [단락 7] 학습/검증 데이터 분리
#   - stratify=y: 0/1 비율을 train/val에 비슷하게 유지
# -----------------------------
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y.astype(int)
)


In [42]:
X_train.shape, X_val.shape, y_train.shape, y_val.shape

((226914, 47), (56729, 47), (226914,), (56729,))

In [35]:
# -----------------------------
# [단락 8] 모델 설계 (MLP)
#   - Dense(128) → Dense(64) → Dense(1, sigmoid)
#   - sigmoid 출력: "폐업_3년이내=1" 확률(0~1)
# -----------------------------
model = Sequential()
model.add(Input(X_train.shape[1]))        # 입력 차원 = 원핫 결과 컬럼 수
model.add(Dense(128, activation="relu"))  # 은닉층 1
model.add(Dropout(0.2))                   # 과적합 방지
model.add(Dense(64, activation="relu"))   # 은닉층 2
model.add(Dropout(0.2))                   # 과적합 방지
model.add(Dense(1, activation="sigmoid")) # 출력층(확률)
model.summary()


Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_6 (Dense)             (None, 128)               6144      
                                                                 
 dropout_4 (Dropout)         (None, 128)               0         
                                                                 
 dense_7 (Dense)             (None, 64)                8256      
                                                                 
 dropout_5 (Dropout)         (None, 64)                0         
                                                                 
 dense_8 (Dense)             (None, 1)                 65        
                                                                 
Total params: 14,465
Trainable params: 14,465
Non-trainable params: 0
_________________________________________________________________


In [36]:
# -----------------------------
# [단락 9] 컴파일 (학습 설정)
#   - binary_crossentropy: 이진분류 표준 손실
# -----------------------------
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])

from sklearn.utils.class_weight import compute_class_weight
import numpy as np

classes = np.array([0, 1])
cw = compute_class_weight(class_weight="balanced", classes=classes, y=y_train.astype(int))
class_weight = {0: float(cw[0]), 1: float(cw[1])}
print("class_weight:", class_weight)


class_weight: {0: 0.7437364798426745, 1: 1.5256979183475876}


In [37]:
# -----------------------------
# [단락 10] 콜백 설정
#   1) ModelCheckpoint: val_accuracy 최고 모델 저장
#   2) EarlyStopping: val_loss 개선 없으면 조기 종료 + best weight 복원
# -----------------------------
save_dir = "model_ckpt"
os.makedirs(save_dir, exist_ok=True)
ckpt_path = os.path.join(save_dir, "gu_biz_mon-binary-best.h5")

checkpoint = ModelCheckpoint(
    ckpt_path, monitor="val_accuracy", save_best_only=True, mode="max", verbose=1
)
early = EarlyStopping(
    monitor="val_loss", patience=10, restore_best_weights=True
)


In [38]:
# -----------------------------
# [단락 11] 학습 실행
# -----------------------------
model.fit(
    X_train, y_train,
    epochs=50,
    batch_size=2048,
    validation_data=(X_val, y_val),
    callbacks=[checkpoint, early],
    class_weight=class_weight,   # ✅ 추가
    verbose=1
)


Epoch 1/50
Epoch 1: val_accuracy improved from -inf to 0.52474, saving model to model_ckpt\gu_biz_mon-binary-best.h5
Epoch 2/50
Epoch 2: val_accuracy improved from 0.52474 to 0.54112, saving model to model_ckpt\gu_biz_mon-binary-best.h5
Epoch 3/50
Epoch 3: val_accuracy did not improve from 0.54112
Epoch 4/50
Epoch 4: val_accuracy did not improve from 0.54112
Epoch 5/50
Epoch 5: val_accuracy did not improve from 0.54112
Epoch 6/50
Epoch 6: val_accuracy did not improve from 0.54112
Epoch 7/50
Epoch 7: val_accuracy did not improve from 0.54112
Epoch 8/50
Epoch 8: val_accuracy did not improve from 0.54112
Epoch 9/50
Epoch 9: val_accuracy improved from 0.54112 to 0.54783, saving model to model_ckpt\gu_biz_mon-binary-best.h5
Epoch 10/50
Epoch 10: val_accuracy improved from 0.54783 to 0.55640, saving model to model_ckpt\gu_biz_mon-binary-best.h5
Epoch 11/50
Epoch 11: val_accuracy did not improve from 0.55640
Epoch 12/50
Epoch 12: val_accuracy did not improve from 0.55640
Epoch 13/50
Epoch 13:

<keras.callbacks.History at 0x16d1bf1ee00>

In [39]:
# -----------------------------
# [단락 12] 검증 성능 평가
# -----------------------------
val_loss, val_acc = model.evaluate(X_val, y_val, verbose=0)
print("VAL acc:", val_acc)


from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score

# 확률 예측
import numpy as np
from sklearn.metrics import f1_score, precision_score, recall_score

p = model.predict(X_val, batch_size=4096).ravel()

best = None
for th in np.linspace(0.05, 0.95, 19):
    pred = (p >= th).astype(int)
    f1 = f1_score(y_val.astype(int), pred)
    if (best is None) or (f1 > best[1]):
        best = (th, f1, precision_score(y_val.astype(int), pred), recall_score(y_val.astype(int), pred))

print("best(th, f1, precision, recall):", best)



VAL acc: 0.5563997030258179
best(th, f1, precision, recall): (0.39999999999999997, 0.49507817023740586, 0.3328513430843668, 0.9657898983379054)


In [40]:
# -----------------------------
# [단락 13] 예측확률(p) + 조합별 평균 확률표
#   - p: "폐업_3년이내=1" 예측확률 (0~1)
#   - 검증셋 기준으로 구×업태_그룹×창업월별 평균 확률/표본수 요약
# -----------------------------

# 1) 검증셋 예측확률
p_val = model.predict(X_val, batch_size=4096).ravel()

# 2) 검증셋을 '원핫 전의 원본 컬럼'과 같이 보고 싶으면
#    같은 split 인덱스를 유지해야 해서, 아래처럼 인덱스 기반으로 나누는 방식이 안전함.
#    (현재 코드는 X를 numpy로 만든 뒤 split해서 원본 행 정보가 날아갔으니,
#     아래는 "처음부터 인덱스로 split"해서 원본을 붙이는 방식으로 다시 만드는 코드야.)

from sklearn.model_selection import train_test_split

# 원본 d에서 인덱스를 유지한 채로 train/val 인덱스 분리
idx = np.arange(len(d))
idx_tr, idx_va = train_test_split(
    idx, test_size=0.2, random_state=42, stratify=y.astype(int)
)

# 검증 원본(구/업태/월) + 정답 + 예측확률
val_table = d.iloc[idx_va][feat_cols].copy()
val_table["y_true"] = y[idx_va].astype(int)
val_table["p_pred"] = p_val

print(val_table.head())

# 3) 구×업태_그룹×창업월 조합별 평균 예측확률/정답률/표본수
combo = (
    val_table
    .groupby(["구", "업태_그룹", "창업월"])
    .agg(
        n=("p_pred", "size"),              # 표본수
        avg_pred=("p_pred", "mean"),       # 평균 예측확률
        true_rate=("y_true", "mean")       # 실제(검증) 폐업률
    )
    .reset_index()
    .sort_values("avg_pred", ascending=False)
)

print("\n[검증셋] 평균 예측확률 TOP 20")
print(combo.head(20))

# 4) csv 저장(원하면)
# val_table.to_csv("val_with_pred.csv", index=False, encoding="utf-8-sig")
# combo.to_csv("val_combo_summary.csv", index=False, encoding="utf-8-sig")

          구   업태_그룹  창업월  y_true    p_pred
173618  금천구      한식   12       0  0.491157
93151   양천구      한식    3       1  0.558062
24618   종로구  분식/간편식    1       0  0.476094
180173  도봉구      한식    7       0  0.532739
195188  노원구      한식   11       1  0.494591

[검증셋] 평균 예측확률 TOP 20
        구   업태_그룹  창업월   n  avg_pred  true_rate
107   강동구  분식/간편식   12  26  0.699726   0.461538
101   강동구  분식/간편식    6  31  0.688134   0.419355
99    강동구  분식/간편식    4  27  0.688110   0.629630
97    강동구  분식/간편식    2  27  0.680040   0.444444
102   강동구  분식/간편식    7  29  0.679267   0.551724
100   강동구  분식/간편식    5  43  0.673402   0.558140
105   강동구  분식/간편식   10  25  0.667260   0.440000
103   강동구  분식/간편식    8  24  0.666207   0.541667
437   광진구  분식/간편식    6  20  0.660963   0.450000
104   강동구  분식/간편식    9  20  0.656647   0.350000
96    강동구  분식/간편식    1  15  0.654442   0.666667
106   강동구  분식/간편식   11  26  0.650306   0.692308
779   도봉구  분식/간편식   12  13  0.648476   0.461538
98    강동구  분식/간편식    3  30  0.646359   0.666667
