# 단순선형 회귀분석
## 정의
### : 목표변수와 1개의 설명변수와의 선형관계를 분석하는 (확률적) 모델

## 모델
### : 회귀계수(=기울기)는 최소자승법(Least Squares Method)을 활용해 추정
### $y=\beta_0+\beta_1x+\epsilon, \epsilon~N(0,\sigma^2)$
$\beta_0$ : 절편으로서 모델이 y축을 통과하는 점  
$\beta_1$ : 모델의 기울기로 $x$가 1 단위 변화에 대한 $y$의 변화량  
$\epsilon$ : 모델의 잔차

### 잔차항의 필요조건
> - 잔차항은 정규분포를 따름. $\epsilon~N(0,\sigma^2)$  
> - 잔차의 평균은 0  
> - 잔차의 분산은 $\sigma^2$이고 등분산
> - 잔차항은 서로 독립

### 최소자승법
> - 자료를 적합하는 직선은 무수히 많음 -> 어떤 적합선을 선택할 것인가의 문제 -> **예측값과 실제값의 차이를 최소화(최소자승)하는 적합선 탐색**  
> - 잔차는 적합선 상의 예측값(직선 위의 값)과 실제 관측값의 차이 $min\sum{e_i^2}=min\sum({Y_i-\hat{Y_i})^2}$
> - 잔차의 제곱합이 최소가 되는 적합선(=회귀선)을 찾는 방법

### 제곱합(Sum of Squares)
> **SST(Total Sum of Squares)** : 회귀 평균과 개별 자료 간 편차 제곱 합  
> **SSR(Regression Sum of Squares)** : 회귀 평균과 적합선 예측값 간 편차 제곱합. 설명변수에 의해 설명되는 변동  
> **SSE(Error Sum of Squares)** : 적합선 예측값과 개별 자료 간 편차 제곱합. 오차로 인해 설명되지 않는 변동  
### $\sum{(y_i-\bar{y})^2}(SST)=\sum{(\hat{y}-\bar{y})^2}(SSR)+\sum{(y_i-\hat{y})^2}(SSE)$

## 분석 절차
1. 경향성 확인 
> - 변수(목표vs설명) 간 산점도 분석을 통한 패턴, 경향성 확인
> - 상관관계 분석
2. 모델의 적합성 확인 
> - 분산분석(ANOVA)을 통한 모델의 적합성 확인
> - 결정계수($R^2$) 확인을 통한 모델의 설명력 확인
3. 회귀계수 계산 및 확인
> **선택된 모델의 회귀계수 계산 및 유의성 확인**  
> - $t$-검정을 통한 회귀계수의 유의성 확인
> - 목표변수에 영향을 주는 설명변수 선택 및 해석
4. 잔차(오차) 분석
> **잔차의 기본 가정 확인**
> - 잔차의 정규성, 등분산성, 독립성 등 확인
5. 모델 선정
> **모델의 적합성, 오차의 가정 만족 여부를 확인하고 최종 모델 선정**

### 경향성 확인
#### 산점도 : 2개의 연속형 변수 간 관계, 패턴 확인을 위해 좌표 평면에 자료를 직접 표시한 통계 그래프
#### 상관분석 : 2개의 연속형 변수 간 선형적 관계 확인을 위한 통계 분석

### 상관계수 계산
> - y 평균 : $\bar{y}=\frac{\sum{y_i}}{n}$
> - x 평균 : $\bar{x}=\frac{\sum{x_i}}{n}$
> - 상관계수 : $Cor(Y,X)=\frac{\sum{(y_i-\bar{y})(x_i-\bar{x})}}{\sqrt{\sum{(y_i-\bar{y})^2}*\sum{(x_i-\bar{x})^2}}}$
### 모델의 적합성 확인
#### F검정
- 귀무가설($H_0$) : 모든 $\beta_i=0$ / 대립가설($H_1$) : 적어도 하나의 회귀계수 $\beta_i$는 0이 아니다  

|항목|자유도|제곱합|평균 제곱합|F통계|P-value|
|--|--|--|--|--|--|
|회귀|$k$|SSR|$$MSR = \frac{SSR}{k}$$|$$F=\frac{MSR}{MSE}$$|0.xxx|
|잔차|$$n-k-1$$|SSE|$$MSE=\frac{SSE}{n-k-1}$$|||
|합|$n-1$|SST|

- 적어도 하나 이상의 회귀계수가 0이 아니면 모델은 적합

#### 결정계수($R^2$, coefficient of determination)
: 전체 변동 중 모델(회귀선)에 의해 설명되는 변동의 크기로 판단($0\leq R^2\leq1$)
> 결정계수 :  
$R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$  

> 수정결정계수 :  
$Adjusted R^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$  
> * 수정결정계수는 설명변수(k)가 증가할수록 결정계수가 커지는 경향을 조정하기 위한 통계량

#### 모델의 적합성 판단
: F-검정이 유의하거나 결정계수가 커도 회귀분석의 기본가정(잔차)에 위배될 수 있으므로 잔차 분석이 필요

### 회귀계수 계산
: 최소자승법을 활용해 회귀선의 기울기와 Y절편intercept) 계산  
: 추정된 회귀계수와 표준오차를 이용한 회귀계수 유의성 검정(t-test)
- 귀무가설($H_0$) : 개별 회귀계수는 0이다($\beta_i=0$)
- 대립가설($H_1$) : 개별 회귀계수 $\beta_i$는 0이 아니다  
$y=\beta_0+\beta_1x+\epsilon$
- 일반적으로 설명변수의 계수에 대해 유의성 검정을 실시 (Y절편의 유의성은 판단하지 않음)

#### 최소자승법에서의 계산식
> 1. 잔차 제곱합  
> $$SSE=\sum{\epsilon_i^2}=\sum{(y_i-\beta_0-\beta_1x_i)^2}$$
> 2. 잔차제곱합의 최소화  
> $$min(SSE) = min(\sum{\epsilon_i^2}) = min(\sum{(y_i-\beta_0-\beta_1x_i)^2})=0$$  
> 3. 절편의 기울기의 편미분  
> $$\frac{\partial{SSE}}{\partial{\beta_0}}=-2\sum{y_i-\beta_0-\beta_1x_i}=0$$
