# 회귀분석
## 정의
#### : 연속형 목표변수(종속, 결과, Target)와 다양한 설명변수(독립, 원인, Input) 관계를 모형화(함수식) 하여 목표변수를 분석, 예측하는 통계적 기법
#### : 목표변수에 영향을 미치는 설명변수를 찾고 목표변수의 값을 예측하는 것이 목적

## 활용용도
#### : 원인과 결과 간 인과 관계를 분석하고 예측하는 다양한 사례가 있음
> **광고 지출액**에 따라 **매출액**은 어떻게 변하는가?  
> 담배 **판매량**이 증가하면 폐암 **환자 수**도 증가하는가?

## 기본 가정
> - 잔차($\epsilon_i$)는 정규분포를 따름  
> - 잔차의 평균(기대값)은 $E(\epsilon_i) = 0$  
> - 잔차의 분산은 $V(\epsilon_i) = \sigma^2$ 모든 설명변수 값에 대해 동일한 분산을 가짐  
> - 설명변수 상호 간 상관관계가 없어야 함
> - 목표변수와 설명변수 간 선형관계가 존재(선형회귀분석)  
> * 잔차 : 관측값 - 예측값 , 오차 = 실제값 - 관측값 (오차/잔차 혼용 사용. 실제값 수집은 어려움)

## 특징
* 장점
> - 가장 많이 사용되고 분석 및 해석방법이 잘 알려져 있음  
> - 결과에 대한 근거, 이유, 활용방안 등 유용한 정보를 얻을 수 있음, 이해 및 해석이 용이  
> - 목표변수와 관련 있는 설명변수 선택 방법 제공(영향 인자)  
* 단점
> - 기본 가정이 요구됨(정규분포, 자료 간 독립섣ㅇ, 잔차 등분산 등), 가정 위배 시에는 다른 방법 검토 필요  
> - 비선형 관계 내재 시 확인을 위한 적절한 기준이 없어 반복적인 검토가 필요  
> - 결측치는 분석에서 무조건 제외돼 분석결과의 신뢰성이 문제될 수 있음, 결측 발생 원인데 따른 적절한 사전 조치 필요

## 목적
#### : 결과에 영향을 미치는 설명변수를 찾고 그 관계를 함수식으로 표현해 새로운 설명변수 값에 대한 목표변수 값을 설명(Explanation) 또는 예측(Predict)
- 설명변수의 모수와 영향도를 추정해 목표변수와의 관계를 기술하고 새로운 데이터에 대한 목표값 예측

## 종류
|구분|선형회귀(Linear Regression)|로지스틱 회귀(Logistic Regression)|
|--|:--|:--|
|목표변수 유형|연속형(continuous / interval)|이진(binary)/순서(ordinal)/명목(nominal)|
|사용 목적|값 예측(prediction)|분류(classification) / 사후 확률 예측|
|분석 방법|선형방정식에 의한 함수식 표현|연결함수(Logit, Probit 등)를 이용한 관계 표현|

|분석 종류|특성|일반적인 모델 식|
|:--:|:--|:--:|
|단순 선형 회귀|설명변수 1개, 1차항|$y=\beta_0 + \beta_1x_1$|
|다중 선형 회귀|설명변수 다수(2개 이상), 1차항|$y=\beta_0+\beta_1x_!+\beta_2x_2+...+\beta_nx_n$|
|비선형 회귀|설명변수 다수(2개 이상), 1차항 및 다차항|$$y=\beta_0+\beta_1x_1+\beta_2x_2^2+...+\beta_nx_n^n$$|
|다중 로지스틱 회귀|설명변수 다수(2개 이상), 연결함수 사용|$ln(\frac{p}{1-p})=\alpha+\beta_1x_1+\beta_2x_2+...+\beta_nx_n$|

## 회귀분석의 종류
#### : 목표변수와 설명변수 간 관계 구조에 따라 분석의 종류를 구분
- **단순 선형회귀분석(Simple Linear Regression)**
> 설명변수가 1개이고 목표변수와 선형관계를 갖는 회귀 모델  
> $y = \beta_0 + \beta_1x + \epsilon$
> ![]()

- **다중 선형회귀분석(Multiple Linear Regression)**
> 설명변수가 다수이고 목표변수와 선형관계를 갖는 회귀 모델  
> $y = b_0 + b_1x_1 + b_2x_2 ... + b_nx_n + \epsilon$
> ![]()

- **비선형회귀분석(Non-Linear Regression)**
> 설명변수와 목표변수가 비선형 관계를 갖는 회귀 모델(2차, 지수 등)  
> $y = b_0 + b_1x_1 + b_2x_2^2 ... + b_nx_n^n + \epsilon$
> ![]()

#### : 목표변수 형태에 따른 회귀분석 구분
|구분|선형 회귀분석|로지스틱 회귀분석|
|:--:|:--:|:--:|
|**목표변수**|연속형 변수|범주형(이산, 순서, 명목) 변수|
|**모델 탐색 방법**|최소 자승법, 가중 최소 자승법|최대 우도법|
|**모델 검정**|$F$검정, $t$검정 등|$\chi^2$검정 등|