# 회귀분석
## 정의
#### : 연속형 목표변수(종속, 결과, Target)와 다양한 설명변수(독립, 원인, Input) 관계를 모형화(함수식) 하여 목표변수를 분석, 예측하는 통계적 기법
#### : 목표변수에 영향을 미치는 설명변수를 찾고 목표변수의 값을 예측하는 것이 목적

## 활용용도
#### : 원인과 결과 간 인과 관계를 분석하고 예측하는 다양한 사례가 있음
> **광고 지출액**에 따라 **매출액**은 어떻게 변하는가?  
> 담배 **판매량**이 증가하면 폐암 **환자 수**도 증가하는가?

## 기본 가정
> - 잔차($\epsilon_i$)는 정규분포를 따름  
> - 잔차의 평균(기대값)은 $E(\epsilon_i) = 0$  
> - 잔차의 분산은 $V(\epsilon_i) = \sigma^2$ 모든 설명변수 값에 대해 동일한 분산을 가짐  
> - 설명변수 상호 간 상관관계가 없어야 함
> - 목표변수와 설명변수 간 선형관계가 존재(선형회귀분석)  
> * 잔차 : 관측값 - 예측값 , 오차 = 실제값 - 관측값 (오차/잔차 혼용 사용. 실제값 수집은 어려움)

## 특징
* 장점
> - 가장 많이 사용되고 분석 및 해석방법이 잘 알려져 있음  
> - 결과에 대한 근거, 이유, 활용방안 등 유용한 정보를 얻을 수 있음, 이해 및 해석이 용이  
> - 목표변수와 관련 있는 설명변수 선택 방법 제공(영향 인자)  
* 단점
> - 기본 가정이 요구됨(정규분포, 자료 간 독립섣ㅇ, 잔차 등분산 등), 가정 위배 시에는 다른 방법 검토 필요  
> - 비선형 관계 내재 시 확인을 위한 적절한 기준이 없어 반복적인 검토가 필요  
> - 결측치는 분석에서 무조건 제외돼 분석결과의 신뢰성이 문제될 수 있음, 결측 발생 원인데 따른 적절한 사전 조치 필요

## 목적
#### : 결과에 영향을 미치는 설명변수를 찾고 그 관계를 함수식으로 표현해 새로운 설명변수 값에 대한 목표변수 값을 설명(Explanation) 또는 예측(Predict)
- 설명변수의 모수와 영향도를 추정해 목표변수와의 관계를 기술하고 새로운 데이터에 대한 목표값 예측

## 종류
|구분|선형회귀(Linear Regression)|로지스틱 회귀(Logistic Regression)|
|--|:--|:--|
|목표변수 유형|연속형(continuous / interval)|이진(binary)/순서(ordinal)/명목(nominal)|
|사용 목적|값 예측(prediction)|분류(classification) / 사후 확률 예측|
|분석 방법|선형방정식에 의한 함수식 표현|연결함수(Logit, Probit 등)를 이용한 관계 표현|

|분석 종류|특성|일반적인 모델 식|
|:--:|:--|:--:|
|단순 선형 회귀|설명변수 1개, 1차항|$y=\beta_0 + \beta_1x_1$|
|다중 선형 회귀|설명변수 다수(2개 이상), 1차항|$y=\beta_0+\beta_1x_!+\beta_2x_2+...+\beta_nx_n$|
|비선형 회귀|설명변수 다수(2개 이상), 1차항 및 다차항|$$y=\beta_0+\beta_1x_1+\beta_2x_2^2+...+\beta_nx_n^n$$|
|다중 로지스틱 회귀|설명변수 다수(2개 이상), 연결함수 사용|$ln(\frac{p}{1-p})=\alpha+\beta_1x_1+\beta_2x_2+...+\beta_nx_n$|

## 회귀분석의 종류
#### : 목표변수와 설명변수 간 관계 구조에 따라 분석의 종류를 구분
- **단순 선형회귀분석(Simple Linear Regression)**
> 설명변수가 1개이고 목표변수와 선형관계를 갖는 회귀 모델  
> $y = \beta_0 + \beta_1x + \epsilon$
> ![]()

- **다중 선형회귀분석(Multiple Linear Regression)**
> 설명변수가 다수이고 목표변수와 선형관계를 갖는 회귀 모델  
> $y = b_0 + b_1x_1 + b_2x_2 ... + b_nx_n + \epsilon$
> ![]()

- **비선형회귀분석(Non-Linear Regression)**
> 설명변수와 목표변수가 비선형 관계를 갖는 회귀 모델(2차, 지수 등)  
> $y = b_0 + b_1x_1 + b_2x_2^2 ... + b_nx_n^n + \epsilon$
> ![]()

#### : 목표변수 형태에 따른 회귀분석 구분
|구분|선형 회귀분석|로지스틱 회귀분석|
|:--:|:--:|:--:|
|**목표변수**|연속형 변수|범주형(이산, 순서, 명목) 변수|
|**모델 탐색 방법**|최소 자승법, 가중 최소 자승법|최대 우도법|
|**모델 검정**|$F$검정, $t$검정 등|$\chi^2$검정 등|

# 단순선형 회귀분석
## 정의
#### : 목표변수와 1개의 설명변수와의 선형관계를 분석하는 (확률적) 모델

## 모델
#### : 회귀계수(=기울기)는 최소자승법(Least Squares Method)을 활용해 추정
### $y=\beta_0+\beta_1x+\epsilon, \epsilon~N(0,\sigma^2)$
$\beta_0$ : 절편으로서 모델이 y축을 통과하는 점  
$\beta_1$ : 모델의 기울기로 $x$가 1 단위 변화에 대한 $y$의 변화량  
$\epsilon$ : 모델의 잔차

### 잔차항의 필요조건
> - 잔차항은 정규분포를 따름. $\epsilon~N(0,\sigma^2)$  
> - 잔차의 평균은 0  
> - 잔차의 분산은 $\sigma^2$이고 등분산
> - 잔차항은 서로 독립

### 최소자승법
> - 자료를 적합하는 직선은 무수히 많음 -> 어떤 적합선을 선택할 것인가의 문제 -> **예측값과 실제값의 차이를 최소화(최소자승)하는 적합선 탐색**  
> - 잔차는 적합선 상의 예측값(직선 위의 값)과 실제 관측값의 차이 $min\sum{e_i^2}=min\sum({Y_i-\hat{Y_i})^2}$
> - 잔차의 제곱합이 최소가 되는 적합선(=회귀선)을 찾는 방법

### 제곱합(Sum of Squares)
**SST(Total Sum of Squares)** : 회귀 평균과 개별 자료 간 편차 제곱 합  
**SSR(Regression Sum of Squares)** : 회귀 평균과 적합선 예측값 간 편차 제곱합. 설명변수에 의해 설명되는 변동  
**SSE(Error Sum of Squares)** : 적합선 예측값과 개별 자료 간 편차 제곱합. 오차로 인해 설명되지 않는 변동  
### $\sum{(y_i-\bar{y})^2}(SST)=\sum{(\hat{y}-\bar{y})^2}(SSR)+\sum{(y_i-\hat{y})^2}(SSE)$

## 분석 절차
1. 경향성 확인 
> - 변수(목표vs설명) 간 산점도 분석을 통한 패턴, 경향성 확인
> - 상관관계 분석
2. 모델의 적합성 확인 
> - 분산분석(ANOVA)을 통한 모델의 적합성 확인
> - 결정계수($R^2$) 확인을 통한 모델의 설명력 확인
3. 회귀계수 계산 및 확인
> **선택된 모델의 회귀계수 계산 및 유의성 확인**  
> - $t$-검정을 통한 회귀계수의 유의성 확인
> - 목표변수에 영향을 주는 설명변수 선택 및 해석
4. 잔차(오차) 분석
> **잔차의 기본 가정 확인**
> - 잔차의 정규성, 등분산성, 독립성 등 확인
5. 모델 선정
> **모델의 적합성, 오차의 가정 만족 여부를 확인하고 최종 모델 선정**

### 경향성 확인
#### 산점도 : 2개의 연속형 변수 간 관계, 패턴 확인을 위해 좌표 평면에 자료를 직접 표시한 통계 그래프
#### 상관분석 : 2개의 연속형 변수 간 선형적 관계 확인을 위한 통계 분석

### 상관계수 계산
> - y 평균 : $\bar{y}=\frac{\sum{y_i}}{n}$
> - x 평균 : $\bar{x}=\frac{\sum{x_i}}{n}$
> - 상관계수 : $Cor(Y,X)=\frac{\sum{(y_i-\bar{y})(x_i-\bar{x})}}{\sqrt{\sum{(y_i-\bar{y})^2}*\sum{(x_i-\bar{x})^2}}}$

### 모델의 적합성 확인
#### F검정
- 귀무가설($H_0$) : 모든 $\beta_i=0$ / 대립가설($H_1$) : 적어도 하나의 회귀계수 $\beta_i$는 0이 아니다  

|항목|자유도|제곱합|평균 제곱합|F통계|P-value|
|--|--|--|--|--|--|
|회귀|$k$|SSR|$$MSR = \frac{SSR}{k}$$|$$F=\frac{MSR}{MSE}$$|0.xxx|
|잔차|$$n-k-1$$|SSE|$$MSE=\frac{SSE}{n-k-1}$$|||
|합|$n-1$|SST|

- 적어도 하나 이상의 회귀계수가 0이 아니면 모델은 적합

#### 결정계수($R^2$, coefficient of determination)
: 전체 변동 중 모델(회귀선)에 의해 설명되는 변동의 크기로 판단($0\leq R^2\leq1$)
> 결정계수 :  
$R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$  

> 수정결정계수 :  
$Adjusted R^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$  
> * 수정결정계수는 설명변수(k)가 증가할수록 결정계수가 커지는 경향을 조정하기 위한 통계량

#### 모델의 적합성 판단
: F-검정이 유의하거나 결정계수가 커도 회귀분석의 기본가정(잔차)에 위배될 수 있으므로 잔차 분석이 필요