# [ PART 05. 정형 데이터마이닝 ] - 2장. 분류 분석
- 분류분석은 데이터가 어떤 그룹에 속하는지 예측하는데 사용하는 기법.
- 의사결정나무, 앙상블기법, 인공신경망 등이 있음.
- ADP 실기에서는 "분류기법들을 활용해 가장 정확도같은 지표가 좋은 기법과 결과를 보고서에 나타내라"는 형식의 문제가 출제됨.

## - 불러올 패키지 목록

In [15]:
# 데이터 핸들링을 위한 패키지
import numpy as np
import pandas as pd

import statsmodels.api as sm
from statsmodels.formula.api import ols

import statsmodels.regression.linear_model


from sklearn.model_selection import train_test_split    # training/test data set을 추출하는 패키지
from sklearn.linear_model import *    # 로지스틱 회귀 분석을 위한 패키지
from sklearn.metrics import *
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler



## 1. 로지스틱 회귀분석
- 반응변수가 범주형인 경우 적용되는 회귀분석
- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정확률을 기준치에 따라 분류하는 목적으로 활용

In [2]:
# 데이터 로드 및 데이터프레임 생성
df_credit = pd.read_csv( 'C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/credit_final.csv')


# 회귀모델의 상수항에 해당하는 컬럼 추가
df_credit = sm.add_constant( df_credit,
                             has_constant = "add" )

df_credit.head()

Unnamed: 0,const,credit.rating,account.balance,credit.duration.months,previous.credit.payment.status,credit.purpose,credit.amount,savings,employment.duration,installment.rate,...,residence.duration,current.assets,age,other.credits,apartment.type,bank.credits,occupation,dependents,telephone,foreign.worker
0,1.0,1,1,18,3,2,1049,1,1,4,...,4,2,21,2,1,1,3,1,1,1
1,1.0,1,1,9,3,4,2799,1,2,2,...,2,1,36,2,1,2,3,2,1,1
2,1.0,1,2,12,2,4,841,2,3,2,...,4,1,23,2,1,1,2,1,1,1
3,1.0,1,1,12,3,4,2122,1,2,3,...,2,1,39,2,1,2,2,2,1,2
4,1.0,1,1,12,3,4,2171,1,2,4,...,4,2,38,1,2,2,2,1,1,2


In [4]:
# 독립변수, 종속변수 지정
x = df_credit.drop('credit.rating', axis = 1)
y = df_credit['credit.rating']


# 데이터 분할 : train 70%, test 30%
train_x, test_x, train_y, test_y = train_test_split( x, y,
                                                     train_size = 0.7, test_size = 0.3,
                                                     random_state = 153 )

print( 'train_x', train_x.shape,'\n', 'test_x', test_x.shape)
print( 'train_y', train_y.shape,'\n', 'test_y', test_y.shape)

train_x (700, 21) 
 test_x (300, 21)
train_y (700,) 
 test_y (300,)


### sklearn 패키지 사용

In [19]:
# 로지스틱 회귀를 이용하여 학습 및 예측 수행. 
lr_clf = LogisticRegressionCV(max_iter = 1000)
lr_clf.fit( train_x, train_y )

LogisticRegressionCV(max_iter=1000)

In [20]:
lr_preds = lr_clf.predict(test_x)

# accuracy와 roc_auc 측정
print('accuracy: {:0.3f}'.format(accuracy_score(test_y, lr_preds)))
print('roc_auc: {:0.3f}'.format(roc_auc_score(test_y , lr_preds)))

accuracy: 0.723
roc_auc: 0.628


### statsmodels 패키지 사용

In [None]:
# 로지스틱 회귀분석 실행

model = sm.Logit(train_y, train_x)
result = model.fit()

In [None]:
print( result.summary() )

In [None]:
df_credit.info()

In [None]:
# 독립변수, 종속변수 지정
x2 = df_credit[ ['account.balance', 'credit.duration.months', 'previous.credit.payment.status',
                 'savings', 'credit.purpose', 'current.assets', 'apartment.type', 'foreign.worker',
                 'guarantor', 'age', 'other.credits', 'marital.status', 'installment.rate'] ]
y = df_credit['credit.rating']


# 데이터 분할 : train 70%, test 30%
train_x, test_x, train_y, test_y = train_test_split( x2, y,
                                                     train_size = 0.7, test_size = 0.3,
                                                     stratify = y,
                                                     random_state = 153 )

print( 'train_x', train_x.shape,'\n', 'test_x', test_x.shape)
print( 'train_y', train_y.shape,'\n', 'test_y', test_y.shape)

In [None]:
# 로지스틱 회귀분석 실행

model = sm.Logit(train_y, train_x)
result = model.fit()

In [None]:
print( result.summary() )