In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

In [None]:
# 데이터 로드
train_data = pd.read_excel('train_data.xlsx')
train_data = train_data.drop(['SP','결과값(연체회차)'], axis=1)
train_data = pd.get_dummies(train_data, columns=['AD_NO', 'LIV_ADD', 'RES_ADD', 'ADD_YN'])

In [None]:
# 입력 (X) / 출력 (Y) 변수 분리
X = train_data.drop('CB', axis=1)
y = train_data['CB']

In [None]:
# 학습 데이터와 검증 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
features = X.columns.tolist()

In [None]:
# 특성 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# GradientBoosting 모델 학습
gb = GradientBoostingClassifier(n_estimators=100, random_state=42)
gb.fit(X_train, y_train)

In [None]:
# 훈련,테스트 데이터에서의 예측
train_pred = gb.predict(X_train)
test_pred = gb.predict(X_test)

In [None]:
# 정확도 계산
train_accuracy = accuracy_score(y_train, train_pred)
test_accuracy = accuracy_score(y_test, test_pred)
print(f'Train Accuracy: {train_accuracy:.4f}')
print(f'Test Accuracy: {test_accuracy:.4f}')

In [None]:
# 피처 중요도 확인
gb_feature_importances = gb.feature_importances_

In [None]:
# 피처 중요도를 데이터프레임으로 변환
feature_importance_df = pd.DataFrame({'Feature': features, 'Importance': gb_feature_importances})

In [None]:
# 중요도 순으로 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

In [None]:
# GBM 피처 중요도 확인 및 저장
total_importance = sum(gb_feature_importances)
gb_feature_importance_percentages = (gb_feature_importances / total_importance) * 100
gb_feature_importance_df = pd.DataFrame({'Feature': features, 'Importance': gb_feature_importance_percentages})
gb_feature_importance_df = gb_feature_importance_df.sort_values(by='Importance', ascending=False)
gb_feature_importance_df.to_excel('CB_GradientBoosting_feature_importance.xlsx', index=False)

### Test_data.xlsx CB예측

In [None]:
# test.xlsx 파일 로드
test_data = pd.read_excel('test_data.xlsx')

In [None]:
# test_data에 동일한 전처리 수행
test_data = test_data.drop(['SP','결과값(연체회차)'], axis=1)
test_data = pd.get_dummies(test_data, columns=['AD_NO', 'LIV_ADD', 'RES_ADD', 'ADD_YN'])

In [None]:
# 훈련 데이터와 동일한 특성을 가지도록 조정
missing_cols = set(X.columns) - set(test_data.columns)
for c in missing_cols:
    test_data[c] = 0
test_data = test_data[X.columns]

In [None]:
# 스케일링
test_data_scaled = scaler.transform(test_data)

In [None]:
# 훈련된 모델을 사용하여 예측 수행
test_pred = gb.predict(test_data_scaled)

In [None]:
# 예측 결과를 데이터프레임으로 변환
test_pred_df = pd.DataFrame(test_pred, columns=['CB 예측'])

In [None]:
# 결과를 엑셀 파일로 저장
test_pred_df.to_excel('test_GradientBoosting_CB.xlsx', index=False)