In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
import pickle

In [2]:
# 데이터 로드
train_data = pd.read_excel('train_data.xlsx')
train_data = train_data.drop(['SP','결과값(연체회차)'], axis=1)
train_data = pd.get_dummies(train_data, columns=['AD_NO', 'LIV_ADD', 'RES_ADD', 'ADD_YN'])

In [3]:
# 입력 (X) / 출력 (Y) 변수 분리
X = train_data.drop('CB', axis=1)
y = train_data['CB']

In [4]:
# 학습 데이터와 검증 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
# 특성 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [6]:
# 전처리된 데이터를 pickle 형태로 저장
train_data.to_pickle("preprocessed_train_data.pkl")

In [7]:
# X_train, X_test, y_train, y_test 데이터를 각각 pickle 형태로 저장
pd.to_pickle(X_train, "X_train.pkl")
pd.to_pickle(X_test, "X_test.pkl")
pd.to_pickle(y_train, "y_train.pkl")
pd.to_pickle(y_test, "y_test.pkl")

### GBM을 이용한 주요 피처 추출

In [8]:
import lightgbm as lgb

In [9]:
# LightGBM 모델 학습
gbm = lgb.LGBMClassifier(n_estimators=100, random_state=42)
gbm.fit(X_train, y_train)

LGBMClassifier(random_state=42)

In [10]:
# 피처 중요도 확인
feature_importances = gbm.feature_importances_

In [12]:
# 피처 중요도를 데이터프레임으로 변환
feature_importance_df = pd.DataFrame({'Feature': list(X.columns), 'Importance': feature_importances})

In [13]:
# 중요도 순으로 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

In [17]:
# 중요도가 낮은 피처를 제거
sfm = SelectFromModel(gbm, threshold=0.01, prefit=True)  # threshold는 변경할 수 있습니다.
X_train_important = sfm.transform(X_train)
X_test_important = sfm.transform(X_test)

In [18]:
# 학습할 feature의 이름만 다시 가져오기
feature_idx = sfm.get_support()
feature_name = X.columns[feature_idx]

### 로지스틱 회귀 딥러닝 모델링

In [None]:
# TensorFlow를 사용해 로지스틱 회귀 딥러닝 모델 구현
strategy = tf.distribute.MirroredStrategy()  # GPU를 활용하기 위한 전략 설정

In [None]:
with strategy.scope():
    model = tf.keras.models.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_dim=X_train_important.shape[1]),
        tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(10, activation='softmax')  # 결과값이 1~10이므로 뉴런의 개수는 10
    ])

    model.compile(loss='sparse_categorical_crossentropy',  # sparse_categorical_crossentropy를 사용하여 label을 원-핫 인코딩할 필요 없음
                  optimizer='adam', 
                  metrics=['accuracy'])

In [None]:
# 모델 학습
model.fit(X_train_important, y_train, epochs=1000, batch_size=512, validation_data=(X_test_important, y_test))