# 로지스틱 회귀분석의 이론

판별분석은 독립변수들이 다변량 정규분포를 따라야 한다는 가정이 필요하다.<br>
따라서 독립변수들이 이러한 가정을 따르지 않고 이산형과 연속형의 혼합인 경우 classification에 적합한 것이 로지스틱 회귀이다. 

$$0 < p < 1$$

0과 1인 이산형이므로 회귀를 적용할 수 없기 때문에 로지스틱 함수를 씌워주어 연속적인 값을 만들어 회귀할 수 있게 만든다.

$$0 < \frac{p}{1-p} < \infty$$

0에서 무한대의 범위이므로 로그를 씌워 범위를 확장시킨다.

$$-\infty < log(\frac{p}{1-p}) < \infty$$

$$\hat{y} = log(\frac{p}{1-p}) = \beta_0 + \beta_1x$$

이렇게 y가 회귀식을 통해 추정될 수 있게 되었다. 그러나 실제 추정할 값은 p이므로 p를 기준으로 식을 풀어준다.

$$p = {e^{\beta_0+\beta_1x} \over 1 + e^{\beta_0+\beta_1x}}$$

이렇게 로지스틱 회귀 방정식이 되었다.

여기서 $\frac{p}{1-p}$를 오즈 odds라고 하며 개체와 개체의 오즈의 비를 살펴 보게 된다.

$$OddsRate = \frac{\frac{1-p_i}{p_i}}{\frac{1-p_j}{p_j}}$$

오즈 비는 독립 변수가 한 단위 증가할 때 y는 얼마나 증가하는가.

# HMEQ Data Logistic Regression

In [8]:
hmeq=read.csv("hmeq.csv",header = T)
str(hmeq)
attach(hmeq)

'data.frame':	5960 obs. of  13 variables:
 $ BAD    : int  1 1 1 1 0 1 1 1 1 1 ...
 $ LOAN   : int  1100 1300 1500 1500 1700 1700 1800 1800 2000 2000 ...
 $ MORTDUE: num  25860 70053 13500 NA 97800 ...
 $ VALUE  : num  39025 68400 16700 NA 112000 ...
 $ REASON : Factor w/ 3 levels "","DebtCon","HomeImp": 3 3 3 1 3 3 3 3 3 3 ...
 $ JOB    : Factor w/ 7 levels "","Mgr","Office",..: 4 4 4 1 3 4 4 4 4 6 ...
 $ YOJ    : num  10.5 7 4 NA 3 9 5 11 3 16 ...
 $ DEROG  : int  0 0 0 NA 0 0 3 0 0 0 ...
 $ DELINQ : int  0 2 0 NA 0 0 2 0 2 0 ...
 $ CLAGE  : num  94.4 121.8 149.5 NA 93.3 ...
 $ NINQ   : int  1 0 1 NA 0 1 1 0 1 0 ...
 $ CLNO   : int  9 14 10 NA 14 8 17 8 12 13 ...
 $ DEBTINC: num  NA NA NA NA NA ...


## split data 

In [9]:
set.seed(1234) 
ind <- sample(2, nrow(hmeq), replace=TRUE, prob=c(0.7, 0.3))
trainData <- hmeq[ind==1,];dim(trainData)
testData <- hmeq[ind==2,] ;dim(testData)

## 모델 생성 

In [10]:
out=glm(BAD~., family=binomial, data=trainData)
summary(out)


Call:
glm(formula = BAD ~ ., family = binomial, data = trainData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6465  -0.3817  -0.2672  -0.1693   3.5824  

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -6.693e+00  1.495e+00  -4.476 7.59e-06 ***
LOAN          -2.735e-05  1.022e-05  -2.678 0.007413 ** 
MORTDUE       -5.556e-06  4.562e-06  -1.218 0.223258    
VALUE          6.947e-06  3.916e-06   1.774 0.076071 .  
REASONDebtCon -7.804e-01  6.030e-01  -1.294 0.195601    
REASONHomeImp -9.490e-01  6.165e-01  -1.539 0.123691    
JOBMgr         2.139e+00  1.299e+00   1.646 0.099663 .  
JOBOffice      1.218e+00  1.307e+00   0.932 0.351342    
JOBOther       1.923e+00  1.289e+00   1.493 0.135549    
JOBProfExe     1.988e+00  1.298e+00   1.532 0.125468    
JOBSales       3.463e+00  1.353e+00   2.560 0.010469 *  
JOBSelf        2.949e+00  1.356e+00   2.175 0.029607 *  
YOJ           -2.027e-02  1.230e-02  -1.648 0.099291 .  
DEROG 

family = binomial로 지정하는데 예측할 것이 이진 데이터이기 때문이다.

In [11]:
exp(6.872e-01)

계수를 해석할 때는 베타 값에 지수를 씌워야한다.