In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 파일 불러보기
train = pd.read_csv('../../dataset/train.csv')
test = pd.read_csv('../../dataset/test.csv')

In [None]:
# 원본 파일 복사해놓기
original = train.copy()

In [None]:
train.head()

In [None]:
def getStatics(columnName : str) :
    print(train[columnName].mean())
    print(f'{train[columnName].min()} ~ {train[columnName].max()}')

In [None]:
getStatics('family_size')

In [None]:
# occyp_type이 null 값이 존재한다.
# crdit 형변환 필요
train.info()

In [None]:
# credit 형변환
train = train.astype({'credit' : 'object'})
print(train.dtypes)

In [None]:
plt.subplots(figsize=(8,8))
plt.pie(train['credit'].value_counts(), labels=train.credit.value_counts().index, autopct='%.2f%%', shadow=True, startangle=90)
plt.title("Credit Card Distribution", size=24)
plt.show()

### 낮은 등급의 신용을 가진 사용자가 많다.

In [None]:
# 등급별 차이 보기
train_0 = train[train['credit'] == 0.0]
train_1 = train[train['credit'] == 1.0]
train_2 = train[train['credit'] == 2.0]

In [None]:
# Categorical 그래프 함수 정의
def cat_plot(column):
    f, ax = plt.subplots(1,3,figsize=(16,6))
    sns.countplot(x=column, data=train_0, ax=ax[0],
                  order=train_0[column].value_counts().index)
    ax[0].tick_params(labelsize=12)
    ax[0].set_title('credit = 0')
    ax[0].set_ylabel('count')
    ax[0].tick_params(rotation=50)
    
    sns.countplot(x=column, data=train_1, ax=ax[1],
                  order=train_1[column].value_counts().index)
    ax[1].tick_params(labelsize=12)
    ax[1].set_title('credit = 1')
    ax[1].set_ylabel('count')
    ax[1].tick_params(rotation=50)
     
    sns.countplot(x=column, data=train_2, ax=ax[2],
                  order=train_2[column].value_counts().index)
    ax[2].tick_params(labelsize=12)
    ax[2].set_title('credit = 2')
    ax[2].set_ylabel('count')
    ax[2].tick_params(rotation=50)
    plt.subplots_adjust(wspace=0.3, hspace=0.3)
    plt.show()


In [None]:
# 성별 차이? 
cat_plot('gender')

In [None]:
# 신용 등급에 따라 차량 소유 차이가 존재할까?
cat_plot('car')

In [None]:
# 신용 등급에 따른 부동산 소유 차이는 존재활까?
cat_plot('reality')

In [None]:
# 신용 등급에 따라 소득 분류 차이가 존재할까?
cat_plot('income_type')

높은 등급(0)에서는 학생이 나타나지 않음.

In [None]:
# 신용 등급에 따른 교육 수준 차이 존재?
cat_plot('edu_type')

In [None]:
# 신용 등급에 따른 결혼 여부 차이 존재?
cat_plot('family_type')

In [None]:
# 신용 등급에 따라 생활 방식 차이가 존재?
cat_plot('house_type')

In [None]:
# 신용 등급에 따라 핸드폰 소지 차이?
cat_plot('FLAG_MOBIL')  

In [None]:
# 신용 등급에 따라 가정용 전화 소유 차이가 존재?
cat_plot('work_phone')

In [None]:
# 신용 등급에 따라 이메일 소유 차이가 존재?
cat_plot('email')

In [None]:
# 직업유형의 차이?
# 결측치 -> 직업 없음으로 처리
train.info()
train_0 = train_0.fillna({'occyp_type':'No job'})
train_1 = train_1.fillna({'occyp_type':'No job'})
train_2 = train_2.fillna({'occyp_type':'No job'})

In [None]:
train_0.info()

In [None]:
f, ax = plt.subplots(1, 3, figsize=(16, 6))
sns.countplot(y = 'occyp_type', data = train_0, order = train_0['occyp_type'].value_counts().index, ax=ax[0])
sns.countplot(y = 'occyp_type', data = train_1, order = train_1['occyp_type'].value_counts().index, ax=ax[1])
sns.countplot(y = 'occyp_type', data = train_2, order = train_2['occyp_type'].value_counts().index, ax=ax[2])
plt.subplots_adjust(wspace=0.5, hspace=0.3)
plt.show()

부동산 중개자의 경우 신용등급이 높은 편이다.

In [None]:
# Categorical 그래프 함수 정의
def occyp_plot(type):
    data = train[train['occyp_type'] == type]
    data.fillna({'occyp_type':'No job'}, inplace=True)
    plt.figure(figsize=(16,6))
    ax = sns.countplot(x='credit', data=data,
                  order=data.credit.value_counts().index)
    ax.set_title(type)
    ax.set_ylabel('count')
    
    plt.subplots_adjust(wspace=0.3, hspace=0.3)
    plt.show()


In [None]:
# 절대적인 수를 고려하지 않고 비율로 판단

def occyp_ratio_plot(type):
    data = train[train['occyp_type'] == type]
    data.fillna({'occyp_type':'No job'}, inplace=True)  # inplace=True를 추가하여 데이터에 직접 적용
    
    # credit의 각 값에 대한 카운트 계산
    credit_counts = data['credit'].value_counts(normalize=True) * 100  # 비율을 백분율로 계산
    
    plt.figure(figsize=(10, 6))
    ax = plt.bar(credit_counts.index, credit_counts.values)  # bar 그래프로 그리기
    
    plt.title(f'Percentage of credits for {type}')
    plt.xlabel('Credit')
    plt.ylabel('Percentage (%)')
    plt.xticks([0, 1, 2])  # x축 눈금 설정
    plt.ylim(0, 100)  # y축의 범위를 0-100%로 설정
    
    for i in ax.patches:  # 각 막대에 텍스트 추가
        plt.text(i.get_x() + i.get_width() / 2, i.get_height() + 1, f'{i.get_height():.2f}%', ha='center')
    
    plt.show()

# 사용 예시
# occyp_plot('Manager')


In [None]:
for type in train['occyp_type'].unique():
    occyp_plot(type)

In [None]:
for type in train['occyp_type'].unique():
    occyp_ratio_plot(type)

부동산 중개자의 경우 신용 등급이 높을 확률이 크다.
반대로, HR staff의 경우 신용 등급이 낮을 확률이 크다.

## Numeric Varaible EDA

In [None]:
# Numerical 그래프 함수 정의
def num_plot(column):
  
  fig, axes = plt.subplots(1, 3, figsize=(16, 6))


  sns.distplot(train_0[column],ax = axes[0])
  axes[0].tick_params(labelsize=12)
  axes[0].set_title('credit = 0')
  axes[0].set_ylabel('count')

  sns.distplot(train_1[column],ax = axes[1])
  axes[1].tick_params(labelsize=12)
  axes[1].set_title('credit = 1')
  axes[1].set_ylabel('count')

  sns.distplot(train_2[column],ax = axes[2])
  axes[2].tick_params(labelsize=12)
  axes[2].set_title('credit = 2')
  axes[2].set_ylabel('count')
  plt.subplots_adjust(wspace=0.3, hspace=0.3)

In [None]:
train.dtypes

In [None]:
# 신용등급에 따라 자녀 수 차이 존재?
num_plot("child_num")

credit2에서 x축이 다른 데이터셋들과 분포가 다르다.

In [None]:
plt.boxplot([train_0['child_num'], train_1['child_num'], train_2['child_num']])
plt.xticks([1,2,3], ['credit 0', 'credit 1', 'credit 2'])
plt.show()

credit 2에 이상치가 존재한다.

In [None]:
# 신용 등급에 따른 연간 소득 차이 존재?
num_plot("income_total")

In [None]:
# 신용 등급에 따른 연령대 차이 존재?
train_0['Age'] = abs(train_0['DAYS_BIRTH'])/360
train_1['Age'] = abs(train_1['DAYS_BIRTH'])/360
train_2['Age'] = abs(train_2['DAYS_BIRTH'])/360
train_0['Age'].head()

In [None]:
# 신용 등급에 따른 연령대 차이 존재?
train_0 = train_0.astype({'Age':'int'})
train_1 = train_1.astype({'Age':'int'})
train_2 = train_2.astype({'Age':'int'})
train_0['Age'].head()

In [None]:
num_plot("Age")

In [None]:
# 신용 등급에 따른 업무 기간 차이 존재?
train_0['EMPLOYED'] = train_0['DAYS_EMPLOYED'].map(lambda x: 0 if x>0 else x)
train_1['EMPLOYED']= train_1['DAYS_EMPLOYED'].map(lambda x: 0 if x>0 else x)
train_2['EMPLOYED']= train_2['DAYS_EMPLOYED'].map(lambda x: 0 if x>0 else x)
train_0['EMPLOYED'] = abs(train_0['EMPLOYED'])/360
train_1['EMPLOYED'] = abs(train_1['EMPLOYED'])/360
train_2['EMPLOYED'] = abs(train_2['EMPLOYED'])/360
train_0['EMPLOYED'].head()

In [None]:
train_0 = train_0.astype({'EMPLOYED': 'int'})
train_1 = train_1.astype({'EMPLOYED': 'int'})
train_2 = train_2.astype({'EMPLOYED': 'int'})

In [None]:
num_plot('EMPLOYED')

In [None]:
num_plot('family_size')

In [None]:
# 신용 등급에 따른 카드 발급 기간 차이 존재?
train_0['Month'] = abs(train_0['begin_month'])
train_1['Month'] = abs(train_1['begin_month'])
train_2['Month'] = abs(train_2['begin_month'])
train_0 = train_0.astype({'Month': 'int'})
train_1 = train_1.astype({'Month': 'int'})
train_2 = train_2.astype({'Month': 'int'})
train_0['Month'].head()

In [None]:
num_plot("Month")

EDA 결과,
높은 등급(0)은 학생이 없다.
부동산 중개자의 경우 신용 등급이 높을 확률이 크다.
반대로, HR staff의 경우 신용 등급이 낮을 확률이 크다.

말고는 유의미한 관계가 보이지 않음 -> 변수들을 합친 **파생 변수** 생성

# 모델 학습 준비

In [None]:
# 결측치 처리
train = original
train.fillna('NaN', inplace=True)
test.fillna('Nan', inplace=True)

In [None]:
# 이상치 처리
train = train[(train['family_size'] <= 7)]
train = train.reset_index(drop=True)

### Feature Engineering

In [None]:
# 이상치 제거
train = train[(train['family_size'] <= 7)]
train = train.reset_index(drop=True)

In [None]:
# 의미 없는 변수 제거
train.drop(['index', 'FLAG_MOBIL'],axis=1,inplace=True)
test.drop(['index', 'FLAG_MOBIL'],axis=1,inplace=True)

In [None]:
# 양수 데이터 -> 현재 무직자 판단, 0처리
train['DAYS_EMPLOYED'] = train['DAYS_EMPLOYED'].map(lambda x: 0 if x > 0 else x)
test['DAYS_EMPLOYED'] = test['DAYS_EMPLOYED'].map(lambda x: 0 if x > 0 else x)

In [None]:
# 음수 -> 양수 변환
feats = ['DAYS_BIRTH', 'begin_month', 'DAYS_EMPLOYED']
for feat in feats:
    train[feat]=np.abs(train[feat])
    test[feat]=np.abs(test[feat])

In [None]:
train.head()

In [None]:
def getDistinctValues(columnName : str) :
    print(train[columnName].unique())

In [None]:
plt.boxplot(train[['child_num', 'family_size']])

In [None]:
train['family_size'].unique()

In [None]:
getDistinctValues('occyp_type')

- 중복 데이터 존재 -> 파생변수 생성
- numeric -> 최대한 다양한 특징
- category -> 전체 변수를 합친 값이 logloss가 낮음

### **logloss**
- logloss = 분류 문제의 평가지표로, 교차 엔트로피라고도 한다.
- 실제 값을 예측하는 확률에 로그를 취해 부호를 반전시킨 값.
- 즉, 분류 모델 자체의 잘못 분류된 수치적인 손실값(loss)을 계산
- **logloss는 낮을수록 좋은 지표**
- **0에 가까울수록 정확하다.**
- 모델이 그 값에 얼마나 확신하는지

In [None]:
for df in [train,test]:
    # before_EMPLOYED: 고용되기 전까지의 일수
    df['before_EMPLOYED'] = df['DAYS_BIRTH'] - df['DAYS_EMPLOYED']
    df['income_total_befofeEMP_ratio'] = df['income_total'] / df['before_EMPLOYED']
    df['before_EMPLOYED_m'] = np.floor(df['before_EMPLOYED'] / 30) - ((np.floor(df['before_EMPLOYED'] / 30) / 12).astype(int) * 12)
    df['before_EMPLOYED_w'] = np.floor(df['before_EMPLOYED'] / 7) - ((np.floor(df['before_EMPLOYED'] / 7) / 4).astype(int) * 4)
    
    #DAYS_BIRTH 파생변수- Age(나이), 태어난 월, 태어난 주(출생연도의 n주차)
    df['Age'] = df['DAYS_BIRTH'] // 365
    df['DAYS_BIRTH_m'] = np.floor(df['DAYS_BIRTH'] / 30) - ((np.floor(df['DAYS_BIRTH'] / 30) / 12).astype(int) * 12)
    df['DAYS_BIRTH_w'] = np.floor(df['DAYS_BIRTH'] / 7) - ((np.floor(df['DAYS_BIRTH'] / 7) / 4).astype(int) * 4)

    
    #DAYS_EMPLOYED_m 파생변수- EMPLOYED(근속연수), DAYS_EMPLOYED_m(고용된 달) ,DAYS_EMPLOYED_w(고용된 주(고용연도의 n주차))  
    df['EMPLOYED'] = df['DAYS_EMPLOYED'] // 365
    df['DAYS_EMPLOYED_m'] = np.floor(df['DAYS_EMPLOYED'] / 30) - ((np.floor(df['DAYS_EMPLOYED'] / 30) / 12).astype(int) * 12)
    df['DAYS_EMPLOYED_w'] = np.floor(df['DAYS_EMPLOYED'] / 7) - ((np.floor(df['DAYS_EMPLOYED'] / 7) / 4).astype(int) * 4)

    #ability: 소득/(살아온 일수+ 근무일수)
    df['ability'] = df['income_total'] / (df['DAYS_BIRTH'] + df['DAYS_EMPLOYED'])
    
    #income_mean: 소득/ 가족 수
    df['income_mean'] = df['income_total'] / df['family_size']
    
    #unique 생성: 각 컬럼의 값들을 더해서 고유한 사람을 파악(*한 사람이 여러 개 카드를 만들 가능성을 고려해 begin_month는 제외함)
    df['unique'] = \
    df['child_num'].astype(str) + '_' + df['income_total'].astype(str) + '_' +\
    df['DAYS_BIRTH'].astype(str) + '_' + df['DAYS_EMPLOYED'].astype(str) + '_' +\
    df['family_size'].astype(str) + '_' +\
    df['gender'].astype(str) + '_' + df['car'].astype(str) + '_' +\
    df['reality'].astype(str) + '_' + df['income_type'].astype(str) + '_' +\
    df['edu_type'].astype(str) + '_' + df['family_type'].astype(str) + '_' +\
    df['house_type'].astype(str) + '_' + df['occyp_type'].astype(str)


In [None]:
train.head()

In [None]:
# 파생 변수와 다중 공선을 보이는 컬럼 삭제
cols = ['child_num', 'DAYS_BIRTH', 'DAYS_EMPLOYED',]
train.drop(cols, axis=1, inplace=True)
test.drop(cols, axis=1, inplace=True)

## Scailing, Encoding

In [None]:
train['credit'] = train['credit'].astype('int64')

In [None]:
# Numeric, Category 컬럼 분류
numerical_feats = train.dtypes[train.dtypes != "object"].index.tolist()
numerical_feats.remove('credit')
print("Number of Numerical features: ", len(numerical_feats))

categorical_feats = train.dtypes[train.dtypes == "object"].index.tolist()
print("Number of Categorical features: ", len(categorical_feats))

In [None]:
numerical_feats

In [None]:
categorical_feats

In [None]:
# Log Scale
for df in [train, test]:
    df['income_total']=np.log1p(1+df['income_total'])

In [None]:
numerical_feats.append('income_total')

In [None]:
# Ordinal Encoder 변환 -> 범주가 많아서 one hot encoding은 부적절함.
from category_encoders import OrdinalEncoder
encoder = OrdinalEncoder(categorical_feats)
train[categorical_feats]=encoder.fit_transform(train[categorical_feats],train['credit'])
test[categorical_feats]=encoder.transform(test[categorical_feats])

train['unique'] = train['unique'].astype('int64')
test['unique'] = test['unique'].astype('int64')

In [None]:
# 인코더 저장
import pickle

# 모델을 파일로 저장
with open('encoder.pkl', 'wb') as file:
    pickle.dump(encoder, file)

In [None]:
train.head()

### 타겟을 결정짓는 뚜렷한 특징을 가진 feature X -> clustering

In [None]:
from sklearn.cluster import KMeans
kmeans_train = train.drop(['credit'], axis=1)
kmeans = KMeans(n_clusters=36, random_state=42).fit(kmeans_train)
train['cluster'] = kmeans.predict(kmeans_train)
test['cluster'] = kmeans.predict(test)

In [None]:
import pickle

# 모델을 파일로 저장
with open('kmeans.pkl', 'wb') as file:
    pickle.dump(kmeans, file)

In [None]:
numerical_feats

In [None]:
# 로그 변환을 진행한 income_toal을 제외한 나머지 numeric 컬럼 정규화
from sklearn.preprocessing import StandardScaler
numerical_feats.remove('income_total')
scaler = StandardScaler()
train[numerical_feats] = scaler.fit_transform(train[numerical_feats])
test[numerical_feats] = scaler.transform(test[numerical_feats])

In [None]:
import pickle
with open('scaler.pkl', 'wb') as file:
    pickle.dump(scaler, file)

# Modeling - catboost
### **catboost?**
- Sequential한 특성을 가진 boosting 계열 모델이다.
- 속도 개선 로직과 정규화 방법을 보유한 모델이며, 트리를 boosting해나갈 때 level-wise(BFS)로 확장해나간다.
- 모든 훈련 데이터를 대상으로 잔차계산을 하는 것이 아닌 일부만으로 잔차계산을 한 뒤 모델을 다시 만들게 된다.

**fold 선택**
- 최적 fold -> 15
- parameter -> default

In [None]:
n_est = 2000
seed = 42
n_fold = 15
n_class = 3

target = 'credit'
X = train.drop(target, axis=1)
y = train[target]
X_test = test

In [None]:
test['occyp_type'] = test['occyp_type'].astype('int64')

In [None]:
train.head()

In [None]:
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import log_loss
import warnings, random
warnings.filterwarnings(action='ignore')
skfold = StratifiedKFold(n_splits=n_fold, shuffle=True, random_state=seed)
folds=[]
for train_idx, valid_idx in skfold.split(X, y):
        folds.append((train_idx, valid_idx))

cat_pred = np.zeros((X.shape[0], n_class))
cat_pred_test = np.zeros((X_test.shape[0], n_class))
cat_cols = ['income_type', 'edu_type', 'family_type', 'house_type', 'occyp_type', 'unique']
best_log_loss = float('inf')
model = None
for fold in range(n_fold):
  print(f'\n----------------- Fold {fold} -----------------\n')
  train_idx, valid_idx = folds[fold]
  X_train, X_valid, y_train, y_valid = X.iloc[train_idx], X.iloc[valid_idx], y[train_idx], y[valid_idx]
  train_data = Pool(data=X_train, label=y_train, cat_features=cat_cols)
  valid_data = Pool(data=X_valid, label=y_valid, cat_features=cat_cols)
  

  model_cat = CatBoostClassifier()
  model_cat.fit(train_data, eval_set=valid_data, use_best_model=True, early_stopping_rounds=100, verbose=100)
  
  cat_pred[valid_idx] = model_cat.predict_proba(X_valid)
  cat_pred_test += model_cat.predict_proba(X_test) / n_fold
  current_log_loss = log_loss(y_valid, cat_pred[valid_idx])
  print(f'CV Log Loss Score: {current_log_loss:.6f}')
  if current_log_loss < best_log_loss:
        best_log_loss = current_log_loss
        model = model_cat
    
print(f'\tLog Loss: {log_loss(y, cat_pred):.6f}')

In [None]:
cat = CatBoostClassifier(n_estimators=443, max_depth=8, random_seed=2, learning_rate =0.04, bootstrap_type ='Bernoulli')
cat.fit(X_train, y_train, cat_features=cat_cols, verbose=50)
test_predictions = cat.predict_proba(test)

### Feature Importance
- unique의 중요도가 상당히 높게 나옴

In [None]:
def plot_feature_importance(importance,names,model_type):
    
    feature_importance = np.array(importance)
    feature_names = np.array(names)
    
    data={'feature_names':feature_names,'feature_importance':feature_importance}
    fi_df = pd.DataFrame(data)
    
    fi_df.sort_values(by=['feature_importance'], ascending=False,inplace=True)

    plt.figure(figsize=(10,8))

    sns.barplot(x=fi_df['feature_importance'], y=fi_df['feature_names'])

    plt.title(model_type + ' Feature Importance')
    plt.xlabel('Feature Importance')
    plt.ylabel('Feature Names')

In [None]:
plot_feature_importance(model_cat.get_feature_importance(),X_test.columns,'CATBOOST')

In [None]:
import pickle

# 모델을 파일로 저장
with open('model.pkl', 'wb') as file:
    pickle.dump(cat, file)

In [None]:
df = pd.read_csv('../../dataset/test.csv').iloc[0].to_frame()

In [None]:
df.head()

# 함수 테스트

In [None]:
from pydantic import BaseModel
class Customer(BaseModel):
    gender: str
    car: str
    reality: str
    child_num: int
    income_total: float
    income_type: str
    edu_type: str
    family_type: str 
    house_type: str
    DAYS_BIRTH: int
    DAYS_EMPLOYED: int
    work_phone: int
    phone : int
    email: int
    occyp_type: str
    family_size: float
    begin_month: float

In [None]:
async def predict(customer: Customer):
    data_dict = customer.dict()
    df = pd.DataFrame([data_dict])
    df.head()
    # before_EMPLOYED: 고용되기 전까지의 일수
    df['before_EMPLOYED'] = df['DAYS_BIRTH'] - df['DAYS_EMPLOYED']
    df['income_total_befofeEMP_ratio'] = df['income_total'] / df['before_EMPLOYED']
    df['before_EMPLOYED_m'] = np.floor(df['before_EMPLOYED'] / 30) - ((np.floor(df['before_EMPLOYED'] / 30) / 12).astype(int) * 12)
    df['before_EMPLOYED_w'] = np.floor(df['before_EMPLOYED'] / 7) - ((np.floor(df['before_EMPLOYED'] / 7) / 4).astype(int) * 4)
    
    #DAYS_BIRTH 파생변수- Age(나이), 태어난 월, 태어난 주(출생연도의 n주차)
    df['Age'] = df['DAYS_BIRTH'] // 365
    df['DAYS_BIRTH_m'] = np.floor(df['DAYS_BIRTH'] / 30) - ((np.floor(df['DAYS_BIRTH'] / 30) / 12).astype(int) * 12)
    df['DAYS_BIRTH_w'] = np.floor(df['DAYS_BIRTH'] / 7) - ((np.floor(df['DAYS_BIRTH'] / 7) / 4).astype(int) * 4)

    
    #DAYS_EMPLOYED_m 파생변수- EMPLOYED(근속연수), DAYS_EMPLOYED_m(고용된 달) ,DAYS_EMPLOYED_w(고용된 주(고용연도의 n주차))  
    df['EMPLOYED'] = df['DAYS_EMPLOYED'] // 365
    df['DAYS_EMPLOYED_m'] = np.floor(df['DAYS_EMPLOYED'] / 30) - ((np.floor(df['DAYS_EMPLOYED'] / 30) / 12).astype(int) * 12)
    df['DAYS_EMPLOYED_w'] = np.floor(df['DAYS_EMPLOYED'] / 7) - ((np.floor(df['DAYS_EMPLOYED'] / 7) / 4).astype(int) * 4)

    #ability: 소득/(살아온 일수+ 근무일수)
    df['ability'] = df['income_total'] / (df['DAYS_BIRTH'] + df['DAYS_EMPLOYED'])
    
    #income_mean: 소득/ 가족 수
    df['income_mean'] = df['income_total'] / df['family_size']
    
    #unique 생성: 각 컬럼의 값들을 더해서 고유한 사람을 파악(*한 사람이 여러 개 카드를 만들 가능성을 고려해 begin_month는 제외함)
    df['unique'] = \
    df['child_num'].astype(str) + '_' + df['income_total'].astype(str) + '_' +\
    df['DAYS_BIRTH'].astype(str) + '_' + df['DAYS_EMPLOYED'].astype(str) + '_' +\
    df['family_size'].astype(str) + '_' +\
    df['gender'].astype(str) + '_' + df['car'].astype(str) + '_' +\
    df['reality'].astype(str) + '_' + df['income_type'].astype(str) + '_' +\
    df['edu_type'].astype(str) + '_' + df['family_type'].astype(str) + '_' +\
    df['house_type'].astype(str) + '_' + df['occyp_type'].astype(str)
    
    cols = ['child_num', 'DAYS_BIRTH', 'DAYS_EMPLOYED',]
    df.drop(cols, axis=1, inplace=True)
    
    numerical_feats = df.dtypes[df.dtypes != "object"].index.tolist()
    categorical_feats = df.dtypes[df.dtypes == "object"].index.tolist()
    
    df['income_total']=np.log1p(1+df['income_total'])
    
    numerical_feats.append('income_total')
    
    df[categorical_feats]=encoder.transform(df[categorical_feats])
    df['unique'] = df['unique'].astype('int64')
    
    
    df['cluster'] = kmeans.predict(df)
    
    numerical_feats.remove('income_total')
    df[numerical_feats] = scaler.transform(df[numerical_feats])
    
    df['occyp_type'] = df['occyp_type'].astype('int64')

    cat_cols = ['income_type', 'edu_type', 'family_type', 'house_type', 'occyp_type', 'unique']
# Pool 객체 생성
    pool = Pool(data=df, cat_features=cat_cols)
    # credit = model.predict(df.iloc[0])
    # 모델 예측
    credit = cat.predict(pool)
    
    # 예측 결과를 스칼라 값으로 반환
    credit = int(credit[0])  # NumPy 배열 또는 리스트에서 스칼라 값 추출
    return JSONResponse({
        "credit": credit
    })


In [None]:
# 임시 데이터 생성
test_customer = Customer(
    gender="F",
    car="N",
    reality="Y",
    child_num=0,
    income_total=202500.0,
    income_type="Commercial associate",
    edu_type="Secondary / secondary special",
    family_type="Married",
    house_type="House / apartment",
    work_phone=0,
    phone=1,
    email=0,
    occyp_type="Sales staff",
    family_size=2.0,
    begin_month=37,
    DAYS_BIRTH=15088,
    DAYS_EMPLOYED=2092
)


In [None]:
# predict 함수를 정의하고 있는 가정하에, 이 함수를 호출
result = await predict(test_customer)


In [None]:
from starlette.responses import JSONResponse