# 로지스틱 회귀분석실습

### 패키지 import 및 데이터 load

In [1]:
from sklearn import datasets

In [2]:
data = datasets.load_breast_cancer()

데이터 셋의 형태를 파악하기 위해 데이터를 출력해본다. 데이터셋의 형태는 딕셔너리 형태로, key가 data와 target으로 구분되어있다. 친절하게 scikit-learn에서는 데이터를 미리 전처리해두어서 data(X, 독립변수), target(Y, 종속변수)로 구분지어놨다.

In [3]:
print(data)

{'data': array([[  1.79900000e+01,   1.03800000e+01,   1.22800000e+02, ...,
          2.65400000e-01,   4.60100000e-01,   1.18900000e-01],
       [  2.05700000e+01,   1.77700000e+01,   1.32900000e+02, ...,
          1.86000000e-01,   2.75000000e-01,   8.90200000e-02],
       [  1.96900000e+01,   2.12500000e+01,   1.30000000e+02, ...,
          2.43000000e-01,   3.61300000e-01,   8.75800000e-02],
       ..., 
       [  1.66000000e+01,   2.80800000e+01,   1.08300000e+02, ...,
          1.41800000e-01,   2.21800000e-01,   7.82000000e-02],
       [  2.06000000e+01,   2.93300000e+01,   1.40100000e+02, ...,
          2.65000000e-01,   4.08700000e-01,   1.24000000e-01],
       [  7.76000000e+00,   2.45400000e+01,   4.79200000e+01, ...,
          0.00000000e+00,   2.87100000e-01,   7.03900000e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 1, 1, 1, 1, 0, 0, 

입력받은 데이터를 X,Y로 구분하여 처리한다. x 데이터의 형태를 확인하기 위해 아래와 같이 진행한다

In [4]:
x = data['data']
y = data['target']
print(x.shape)

(569, 30)


### 데이터 분할

데이터 분할은 scikit-learn에서 제공하는 train_test_split을 이용하면 편리하다. 아래와 같이 split을 하게되면 하나의 데이터로 부터 특정 비율만큼을 트레이닝셋으로, 나머지를 테스트셋으로 구분하여 활용할 수 있다.

In [6]:
from sklearn.model_selection import train_test_split

In [9]:
# 데이터셋 분할
X_train, X_test,Y_train,Y_test = train_test_split(x,y,test_size=0.3,random_state=0)
X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((398, 30), (171, 30), (398,), (171,))

### Training Model

In [10]:
import numpy as np
from sklearn.linear_model import LogisticRegression

scikit-learn에서의 모델 트레이닝은 매우 간단한데, 아래와 같이 특정 모델의 객체를 생성 한 후, 각 객체에 공통적으로 존재하는 fit함수를 사용하면 주어진 데이터에 대해서 학습을 진행한다.

In [15]:
# 로지스틱 객체 생성 및 fit
logistic = LogisticRegression()
logistic.fit(X_train, Y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

Logistic 모델에서 추정한 회귀변수를 보고자 한다면 아래와 같이 진행한다.

In [16]:
# The coefficients   beta값
print('Coefficients: \n', logistic.coef_)

Coefficients: 
 [[ 1.71030868  0.1075281   0.08653647 -0.00666117 -0.12352116 -0.32626484
  -0.5036071  -0.26140792 -0.2451446  -0.02115584  0.04516968  0.96777039
   0.08507219 -0.10526305 -0.00827507  0.00910787 -0.04093047 -0.02923993
  -0.03060043  0.00867052  1.43384767 -0.29081372 -0.25621859 -0.01913376
  -0.21277253 -1.00512078 -1.48396082 -0.53898247 -0.59708219 -0.10647987]]


모델이 얼마나 fitting이 되었는지 confusion matrix와 accuracy로 확인한다.
분류문제이다 보니 accuracy가 중요


In [17]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [26]:
# 학습 데이터 confusion matrix (Y 실제, Y예측)
cm= confusion_matrix(Y_train,logistic.predict(X_train))
print(cm)

[[139  10]
 [  7 242]]


In [31]:
# 학습 데이터 accuracy (Y 실제, Y예측)
score= accuracy_score(Y_train, logistic.predict(X_train))
print(score)

0.957286432161


In [32]:
# 테스트 데이터 confusion matrix (Y 실제, Y예측)
cm= confusion_matrix(Y_test,logistic.predict(X_test))
print(cm)

[[ 62   1]
 [  5 103]]


In [33]:
# 테스트 데이터 accuracy (Y 실제, Y예측)
score= accuracy_score(Y_test, logistic.predict(X_test))
print(score)

0.964912280702


### 추가 패키지 사용 - statsmodels 패키지

다음 데이터는 미국 의대생의 입학관련 데이터이다. 데이터의 의미는 다음과 같다.
아래의 실습 자료는 다음을 참고하였다(https://datascienceschool.net/view-notebook/d0df94cf8dd74e8daec7983531f68dfc/#%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1-%ED%95%A8%EC%88%98)
- Acceptance: 0이면 불합격, 1이면 합격
- BCPM: Bio/Chem/Physics/Math 과목의 학점 평균
- GPA: 전체과목 학점 평균
- VR: MCAT Verbal reasoning 과목 점수
- PS: MCAT Physical sciences 과목 점수
- WS: MCAT Writing sample 과목 점수
- BS: MCAT Biological sciences 과목 점수
- MCAT: MCAT 촘점
- Apps: 의대 지원 횟수

해당 패키지에서의 로지스틱 회귀는 discrete_model안의 Logit을 이용한다

In [34]:
from statsmodels.discrete.discrete_model import Logit, LogitResults
import statsmodels as sm

In [31]:
data_med = sm.datasets.get_rdataset("MedGPA", package="Stat2Data")
df_med = data_med.data
df_med.tail()

Unnamed: 0,Accept,Acceptance,Sex,BCPM,GPA,VR,PS,WS,BS,MCAT,Apps
50,D,0,M,2.41,2.72,8,8,8.0,8,32,7
51,D,0,M,3.51,3.56,11,8,6.0,9,34,6
52,A,1,F,3.43,3.48,7,10,7.0,10,34,14
53,D,0,M,2.61,2.8,7,5,,6,18,6
54,D,0,M,3.36,3.44,11,11,8.0,9,39,1


로지스틱 회귀 분석을 하기 위해 종속변수를 acceptance로 두고, 나머지 변수를 독립변수로 한다. 이때, MCAT는 VR, PS, WS, BS의 합이므로 이를 제거하고 모델을 구축하기 위해서 아래와 같이 from_formula를 이용한다.

from_formula는 종속변수 ~ 독립변수1+독립변수2+ ~ + 독립변수N 으로 구성하여 진행한다. (R에서 하는방식과 유사함)
scikit-learn처럼 새로운 데이터에 대해 예측하고자 할 때는 predict를 활용하면 된다.

In [33]:
model_med = Logit.from_formula("Acceptance ~ Sex + BCPM + GPA + VR + PS + WS + BS + Apps", df_med) # ~뒤로 독립변수 선택가능함, R이랑비슷
result_med = model_med.fit()
print(result_med.summary())

Optimization terminated successfully.
         Current function value: 0.280736
         Iterations 9
                           Logit Regression Results                           
Dep. Variable:             Acceptance   No. Observations:                   54
Model:                          Logit   Df Residuals:                       45
Method:                           MLE   Df Model:                            8
Date:                Thu, 20 Jun 2019   Pseudo R-squ.:                  0.5913
Time:                        23:44:25   Log-Likelihood:                -15.160
converged:                       True   LL-Null:                       -37.096
                                        LLR p-value:                 6.014e-07
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    -46.6414     15.600     -2.990      0.003     -77.216     -16.067
Sex[T.M]      -2.2835      1.