## - 불러올 패키지 목록

In [32]:
# 수학 함수 패키지
import math

# 데이터 핸들링을 위한 패키지
import numpy as np
import pandas as pd

# 사이킷런 패키지
from sklearn.preprocessing import *  # 데이터 전처리를 위한 패키지
from sklearn.model_selection import *  # 데이터 분리, 검증 및 파라미터 튜닝을 위한 패키지
from sklearn.metrics import *  # 모델에 대한 다양한 성능 평가를 위한 패키지
from sklearn.linear_model import *    # 선형 회귀 분석을 위한 패키지 (로지스틱 회귀 포함)
from sklearn.cluster import *  # 비지도 군집화 알고리즘 제공
from sklearn.tree import *  # 의사결정나무 알고리즘 제공
from sklearn.ensemble import *  # 앙상블 알고리즘 제공
from sklearn.neighbors import *  # kNN 알고리즘 제공
from sklearn.svm import *  # 서포트 벡터 머신 알고리즘 제공
from sklearn.mixture import *  # 혼합분포군집(GMM 등) 알고리즘 제공
from sklearn.decomposition import *  # 차원축소 알고리즘 제공

# 사이파이 패키지
from scipy.stats import *  # 통계 분석을 위한 패키지
from scipy.cluster.hierarchy import *  # 계층적 군집 분석을 위한 패키지

# statsmodels 패키지
import statsmodels.api as sm
from statsmodels.formula.api import ols

# mlxtend 패키지
from mlxtend.preprocessing import *  # 연관분석에 필요한 트랜잭션 전처리 알고리즘 포함
from mlxtend.frequent_patterns import *  # 연관분석에 사용되는 알고리즘 포함 
from mlxtend.plotting import plot_decision_regions

# missingno 패키지 (데이터 전처리 전 결측치 확인)
import missingno as msno

# label별 데이터 카운트를 위한 모듈
from collections import Counter  # https://docs.python.org/3/library/collections.html

# 시각화를 위한 패키지
import seaborn as sb
import matplotlib.pyplot as plt
import matplotlib.cm as cm  # 내장 colormap, colormap 처리 유틸리티
from matplotlib.colors import ListedColormap  # colors and colormaps
from mlxtend.plotting import plot_decision_regions
%matplotlib inline
# %matplotlib inline 의 목적은 plt.show()함수가 호출되지 않은 경우에도 matplotlib 다이어그램을 렌더링하는 것이다.
# 그러나 현재 업데이트된 버전의 주피터 노트북 버전에서는 %matplotlib inline 를 사용하지 않더라도 Matplotlib 다이어그램을 개체로 표현한다.
# 따라서 굳이 필요하지는 않다. 그러나 코드를 깨끗하게 유지하고 자신이 만든 플롯을 호출하기 위해 여전히 관례적으로 권장된다.

# 경고 메시지 무시
import warnings
warnings.filterwarnings('ignore')

# 그래프 스타일 서식 지정
plt.style.use('default')

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

# 그래프 축의 음수 표현 오류 방지
plt.rcParams['axes.unicode_minus'] = False

# Dataset 불러오기 및 data 정보 확인

## Dataset 불러오기

In [12]:
# 데이터 로드 및 데이터프레임 생성
df_credit = pd.read_csv( r'C:\Users\Boanerges\GitHub\TIL\rawdata\credit_final.csv')

df_credit

Unnamed: 0,credit.rating,account.balance,credit.duration.months,previous.credit.payment.status,credit.purpose,credit.amount,savings,employment.duration,installment.rate,marital.status,...,residence.duration,current.assets,age,other.credits,apartment.type,bank.credits,occupation,dependents,telephone,foreign.worker
0,1,1,18,3,2,1049,1,1,4,1,...,4,2,21,2,1,1,3,1,1,1
1,1,1,9,3,4,2799,1,2,2,3,...,2,1,36,2,1,2,3,2,1,1
2,1,2,12,2,4,841,2,3,2,1,...,4,1,23,2,1,1,2,1,1,1
3,1,1,12,3,4,2122,1,2,3,3,...,2,1,39,2,1,2,2,2,1,2
4,1,1,12,3,4,2171,1,2,4,3,...,4,2,38,1,2,2,2,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0,1,24,2,3,1987,1,2,2,3,...,4,1,21,2,1,1,2,2,1,1
996,0,1,24,2,4,2303,1,4,4,3,...,1,1,45,2,2,1,3,1,1,1
997,0,3,21,3,4,12680,4,4,4,3,...,4,4,30,2,3,1,4,1,2,1
998,0,2,12,2,3,6468,4,1,2,3,...,1,4,52,2,2,1,4,1,2,1


## Dataset에 대한 정보 및 대략적인 분포 확인

In [13]:
df_credit.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                          Non-Null Count  Dtype
---  ------                          --------------  -----
 0   credit.rating                   1000 non-null   int64
 1   account.balance                 1000 non-null   int64
 2   credit.duration.months          1000 non-null   int64
 3   previous.credit.payment.status  1000 non-null   int64
 4   credit.purpose                  1000 non-null   int64
 5   credit.amount                   1000 non-null   int64
 6   savings                         1000 non-null   int64
 7   employment.duration             1000 non-null   int64
 8   installment.rate                1000 non-null   int64
 9   marital.status                  1000 non-null   int64
 10  guarantor                       1000 non-null   int64
 11  residence.duration              1000 non-null   int64
 12  current.assets                  1000 non-null   int64
 13  age 

In [18]:
df_credit.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
credit.rating,1000.0,0.7,0.458487,0.0,0.0,1.0,1.0,1.0
account.balance,1000.0,2.183,0.835589,1.0,1.0,2.0,3.0,3.0
credit.duration.months,1000.0,20.903,12.058814,4.0,12.0,18.0,24.0,72.0
previous.credit.payment.status,1000.0,2.292,0.620581,1.0,2.0,2.0,3.0,3.0
credit.purpose,1000.0,2.965,0.971967,1.0,2.0,3.0,4.0,4.0
credit.amount,1000.0,3271.248,2822.75176,250.0,1365.5,2319.5,3972.25,18424.0
savings,1000.0,1.874,1.196476,1.0,1.0,1.0,3.0,4.0
employment.duration,1000.0,2.446,1.10558,1.0,2.0,2.0,4.0,4.0
installment.rate,1000.0,2.973,1.118715,1.0,2.0,3.0,4.0,4.0
marital.status,1000.0,2.372,1.067125,1.0,1.0,3.0,3.0,4.0


# 모델 학습에 사용할 x값(예측변수), y값(목표변수) 설정

In [20]:
# 독립변수, 종속변수 지정
x = df_credit.iloc[:, 1:]
x.head(5)

Unnamed: 0,account.balance,credit.duration.months,previous.credit.payment.status,credit.purpose,credit.amount,savings,employment.duration,installment.rate,marital.status,guarantor,residence.duration,current.assets,age,other.credits,apartment.type,bank.credits,occupation,dependents,telephone,foreign.worker
0,1,18,3,2,1049,1,1,4,1,1,4,2,21,2,1,1,3,1,1,1
1,1,9,3,4,2799,1,2,2,3,1,2,1,36,2,1,2,3,2,1,1
2,2,12,2,4,841,2,3,2,1,1,4,1,23,2,1,1,2,1,1,1
3,1,12,3,4,2122,1,2,3,3,1,2,1,39,2,1,2,2,2,1,2
4,1,12,3,4,2171,1,2,4,3,1,4,2,38,1,2,2,2,1,1,2


In [21]:
y = df_credit.iloc[:,0]
y.head(5)

0    1
1    1
2    1
3    1
4    1
Name: credit.rating, dtype: int64

# 학습/테스트용 데이터셋 분리
- `sklearn.model_selection.train_test_split()`  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [24]:
# 데이터 분할 : train 70%, test 30%
x_train, x_test, y_train, y_test = train_test_split( x, y,
                                                     test_size = 0.3,
                                                     random_state = 153 )

print( 'train_x', x_train.shape,'\n', 'test_x', x_test.shape)
print( 'train_y', y_train.shape,'\n', 'test_y', y_test.shape)

train_x (700, 20) 
 test_x (300, 20)
train_y (700,) 
 test_y (300,)


In [25]:
# 라벨별 데이터 분포 확인
print( Counter(y_train) )
print()
print( Counter(y_test) )

Counter({1: 495, 0: 205})

Counter({1: 205, 0: 95})


# 로지스틱 회귀 분석

## statsmodels 패키지 사용
- `statsmodels.formula.api.logit()`  https://www.statsmodels.org/stable/generated/statsmodels.formula.api.logit.html

In [29]:
# 로지스틱 회귀분석 실행

model_logit = sm.Logit( y_train, x_train )

model_logit.fit()

Optimization terminated successfully.
         Current function value: 0.463463
         Iterations 6


<statsmodels.discrete.discrete_model.BinaryResultsWrapper at 0x1bd705352b0>

In [31]:
print( model_logit.fit().summary() )

Optimization terminated successfully.
         Current function value: 0.463463
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:          credit.rating   No. Observations:                  700
Model:                          Logit   Df Residuals:                      680
Method:                           MLE   Df Model:                           19
Date:                Sat, 21 Aug 2021   Pseudo R-squ.:                  0.2336
Time:                        16:43:13   Log-Likelihood:                -324.42
converged:                       True   LL-Null:                       -423.28
Covariance Type:            nonrobust   LLR p-value:                 9.675e-32
                                     coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------------------------
account.balance                    0.8389      0.123      6.834     

## sklearn 패키지 사용

In [4]:
# 로지스틱 회귀를 이용하여 학습 및 예측 수행. 
lr_clf = LogisticRegressionCV(max_iter = 1000)
lr_clf.fit( train_x, train_y )

LogisticRegressionCV(max_iter=1000)

In [5]:
lr_preds = lr_clf.predict(test_x)

# accuracy와 roc_auc 측정
print('accuracy: {:0.3f}'.format(accuracy_score(test_y, lr_preds)))
print('roc_auc: {:0.3f}'.format(roc_auc_score(test_y , lr_preds)))

accuracy: 0.723
roc_auc: 0.628
