# 회귀분석

## 단순회귀분석과 다중회귀분석
회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다.

* 종속변수: 영향을 받는 변수(예측되는 변수), 보통 y로 표기
* 독립변수: 영향을 주는 변수(설명변수), 보통 x,x1,x2 등으로 표기

회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값으로 구한다. 이와같이 구해진 회귀계수의 추정량을 최소제곱추정량(Least Squares Estimator 혹은 LSE)라고 한다.

### 모형 선정시 체크해야할 사항

##### 모형이 통계적으로 유의미한가?
F통계량을 확인한다. 유의수준 5%하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의미하다고 볼 수 있다.

##### 회귀계수들이 유의미한가?
해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다.
p-value가 0.05 이하이면 대립가설을 채택한다.

##### 모형이 얼마나 설명력을 갖는가?
결정계수를 확인한다. 결정계수는 0에서 1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

##### 모형이 데이터를 잘 적합하고 있는가?
잔차를 그래프로 그리고 회귀진단을 한다.

##### 데이터가 아래의 모형 가정을 만족하는가?
* 가정 : 선형성,독립성, 등분산성, 비상관성, 정상성

### 단순선형회귀모형 : 독립변수 n개가 x1,x2,..와 같이 주어지고, 종속변수는 독립변수에 대해 쌍으로 y1,y2,...와 같이 주어진 자료에 적합할 수 있다.
##### 설명변수가 1개이며 반응변수와의 관계가 직선

In [1]:
set.seed(2)
x = runif(10,0,11)
y = 2 + 3*x + rnorm(10,0,0.2)
dfrm = data.frame(x,y)
dfrm

x,y
<dbl>,<dbl>
2.033705,8.127599
7.726114,25.319934
6.30659,20.871829
1.848571,7.942608
10.382233,33.118941
10.378225,33.218204
1.420749,6.458597
9.167937,29.425272
5.148204,17.236677
6.049821,20.505909


In [2]:
lm(y~x, data=dfrm)


Call:
lm(formula = y ~ x, data = dfrm)

Coefficients:
(Intercept)            x  
      2.213        2.979  


dfrm에서 단순회귀분석을 했다. 이 경우 회귀방정식은 y = 2.213x + 2.979

### 다중회귀분석모형: 단순회귀모형이 종속변수이 변동을 설명하는데 충분하지 않다면 두개 이상의 독립변수를 사용하여 종속변수의 변화를 설명한다.
##### 설명변수가 k개이며 반응변수와의 관계가 선형(1차 함수)

In [4]:
set.seed(2)
u = runif(10,0,11)
v = runif(10,11,20)
w = runif(10,1,30)
y = 3 + 0.1*u + 2*w + rnorm(10,0,0.1)
dfrm=data.frame(y,u,v,w)
dfrm

y,u,v,w
<dbl>,<dbl>,<dbl>,<dbl>
43.36239,2.033705,15.97407,20.195064
28.33835,7.726114,13.15005,12.238937
54.17381,6.30659,17.84462,25.269786
14.01522,1.848571,12.62738,5.364542
26.22324,10.382233,14.64754,11.070895
34.59575,10.378225,18.68194,15.174424
13.6784,1.420749,19.78759,5.328159
26.78539,9.167937,13.03243,11.354815
61.54364,5.148204,15.00328,28.916677
13.28305,6.049821,11.67481,4.838788


In [9]:
m = lm(formula = y ~ u + v + w)
m


Call:
lm(formula = y ~ u + v + w)

Coefficients:
(Intercept)            u            v            w  
    3.04165      0.12317     -0.01098      2.00218  


다중선형회귀식은 y = 3.04165 + 0.12317u - 0.01098v + 2.00218w 

In [10]:
summary(m)


Call:
lm(formula = y ~ u + v + w)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.188562 -0.058632 -0.002013  0.080024  0.143757 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.041653   0.264808  11.486 2.62e-05 ***
u            0.123173   0.012841   9.592 7.34e-05 ***
v           -0.010983   0.016586  -0.662    0.532    
w            2.002184   0.005421 369.326 2.66e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1303 on 6 degrees of freedom
Multiple R-squared:      1,	Adjusted R-squared:  0.9999 
F-statistic: 5.07e+04 on 3 and 6 DF,  p-value: 1.342e-13


##### F통계량= 5.07e+04 이며 p-값이 1.342e-13으로 유의수준 5%하에서 추정된 회귀 모형이 통계적으로 매우 유의함을 볼 수 있다.
결정계수 1이며 수정된 결정계수 0.999로 이 회귀식이 데이터를 매우 잘 설명하고 있음을 알 수 있다.
또한 회귀계수 u, v, w 들의 p-값들도 0.01보다 작으므로 회귀계수의 추정치들이 통계적으로 유의하다.


## SAMPLE

### 단순회귀분석
시간의 경과에 따른 닭들의 몸무게를 단순회귀분석을 해본다.
* 식이요법 방법을 적용한 닭에 대한 데이터

In [13]:
library(MASS)

In [14]:
head(ChickWeight)

weight,Time,Chick,Diet
<dbl>,<dbl>,<ord>,<fct>
42,0,1,1
51,2,1,1
59,4,1,1
64,6,1,1
76,8,1,1
93,10,1,1


1번 닭에게 식이요법 방법 1을 적용한 데이터만 조회해 chick 변수에 할당한다.

In [22]:
Chick <- ChickWeight[ChickWeight$Diet==1,]

In [23]:
Chick

weight,Time,Chick,Diet
<dbl>,<dbl>,<ord>,<fct>
42,0,1,1
51,2,1,1
59,4,1,1
64,6,1,1
76,8,1,1
93,10,1,1
106,12,1,1
125,14,1,1
149,16,1,1
171,18,1,1


chick 데이터세트에서 1번 닭만 조회한다.

In [24]:
Chick <-ChickWeight[ChickWeight$Chick==1,]

In [25]:
Chick

weight,Time,Chick,Diet
<dbl>,<dbl>,<ord>,<fct>
42,0,1,1
51,2,1,1
59,4,1,1
64,6,1,1
76,8,1,1
93,10,1,1
106,12,1,1
125,14,1,1
149,16,1,1
171,18,1,1


In [26]:
lm(weight~Time, data=Chick)


Call:
lm(formula = weight ~ Time, data = Chick)

Coefficients:
(Intercept)         Time  
     24.465        7.988  


단순선형회귀식은 weight = 7.988*Time + 24.465

In [28]:
summary(lm(weight~Time, data=Chick))


Call:
lm(formula = weight ~ Time, data = Chick)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.3202 -11.3081  -0.3444  11.1162  17.5346 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  24.4654     6.7279   3.636  0.00456 ** 
Time          7.9879     0.5236  15.255 2.97e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 12.29 on 10 degrees of freedom
Multiple R-squared:  0.9588,	Adjusted R-squared:  0.9547 
F-statistic: 232.7 on 1 and 10 DF,  p-value: 2.974e-08


* F통계량은 232.7이며 p-값이 2.974e-08로 유의수준 5%하에서 추정된 회귀 모형이 통계적으로 매우 유의함을 볼 수 있다.
* 결정계수 또한 0.9588로 매우 높은 값을 보이므로 이 회귀식이 데이터를 96%정도로 설명하고 있음을 알 수 있다.
* Time에 대한 회귀계수가 7.99이므로 Time이 1 증가할때 weight가 7.99만큼 증가한다고 해석할 수 있다.

### 다중회귀분석
cars 데이터를 이용해 다중회귀분석

In [29]:
data(cars)

In [30]:
head(cars)

speed,dist
<dbl>,<dbl>
4,2
4,10
7,4
7,22
8,16
9,10


cars 데이터세트는 dist와 speed 변수로 구성돼 있다. dist가 speed의 변화에 따라 어떻게 변화하는지 알아보자.

In [32]:
speed2 <- cars$speed^2

In [33]:
cars <- cbind(speed2, cars)

In [34]:
head(cars)

speed2,speed,dist
<dbl>,<dbl>,<dbl>
16,4,2
16,4,10
49,7,4
49,7,22
64,8,16
81,9,10


또 하나의 설명변수인 speed2를 생성해 원래 데이터인 cars에 cbind했다.

In [36]:
lm(dist~speed+speed2, data=cars)


Call:
lm(formula = dist ~ speed + speed2, data = cars)

Coefficients:
(Intercept)        speed       speed2  
    2.47014      0.91329      0.09996  


다중회귀식은 dist = 2.47014 + 0.91329speed + 0.9996speed2로 추정된다.

In [37]:
summary(lm(dist~speed+speed2, data=cars))


Call:
lm(formula = dist ~ speed + speed2, data = cars)

Residuals:
    Min      1Q  Median      3Q     Max 
-28.720  -9.184  -3.188   4.628  45.152 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  2.47014   14.81716   0.167    0.868
speed        0.91329    2.03422   0.449    0.656
speed2       0.09996    0.06597   1.515    0.136

Residual standard error: 15.18 on 47 degrees of freedom
Multiple R-squared:  0.6673,	Adjusted R-squared:  0.6532 
F-statistic: 47.14 on 2 and 47 DF,  p-value: 5.852e-12
