> # **회귀 심화**

## **1. 선형회귀**

### 1-1. 전체적인 회귀 분석 프로세스

1. 사전검증
- 데이터 탐색 (EDA) 및 전처리
- 회귀 분석의 기본 가정 6가지 검토

2. 모델 생성 및 모델 학습
- 회귀 모델 생성, 모델 설정, 모델 학습
- 모델의 유의성 검정 (F-검정, T-검정)

3. 모델 성능 평가
- 결정계수
- 회귀 분석 후 검증 가능한 가설 검토

4. 모델 성능 개선
- 필요 없는 변수 제거
- 비선형 모델 활용

### 1-2. 다중선형회귀의 수식적 이해

$$
y_i = \beta_0+\beta_1X_{1i}+\beta_2X_{2i}+...\beta_kX_{ki}+\varepsilon_i
$$

- yi : i 번째 종속변수 (우리가 관심있는 값)
- X1,X2,...,Xki : i번째 y에 대한 여러개의 독립변수
- B0 : 절편, 독립변수가 모두 0일때의 Y값
- B1,B2,..,Bk : 독립변수에 의한 회귀 계수 (각 변수 X의 영향력)
- Ei : 오차항

$$
y=w_0x_0+w_1x_1+\cdot\cdot\cdot+w_mx_m=\sum_{i=0}^mw_ix_i=w^Tx
$$

일반적인 형태에서 상수항과 오차항을 제외한 식     
-> 즉 선형회귀신은 종속변수 y에 대한 독립변수의 가중평균

### 1-3. 다중선형회귀의 기본가정

> 가정 1. 선형성 (lineraity)


$E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$


- 종속변수와 설명변수 간의 관계가 선형적이어야 한다

> 가정 2. 독립성 (independence)

 $X_i, X_j \ is \ linearly\ independent \ for\ all \ i,j$


- 각각의 설명 변수가 서로 선형독립적이어야 한다
- 선형 독립적이지 않은 경우 다중공선성이 존재

> 가정 3. 오차항의 평균은 0이다 (0에 가까워야 한다)

$E(\varepsilon_i|X_i) = 0$


- 오차항: 실제 값과 예측 값 사이의 차이
- 오차항 = 백색 잡음 = 특정 패턴 없이 랜덤하게 변하는 신호

> 가정 4. 등분산성 (homoscedasticity)

$Var(\varepsilon_i|X_i) = \sigma^2$


- 오차항의 분산이 일정해야 한다
- 오차항의 분산이 일정하지 않은 경우, 이분산성이 있다고 함

> 가정 5. 오차항은 자기상관되어 있지 않다 (non-autocorrelation)

 $Cov(\varepsilon_i, \varepsilon_j|X_i) =0$


- 오차항의 공분산은 항상 0이어야 된다
- 오차항의 공분산이 0이 아닌 경우, 자기상관이 존재

자기 상관: 한 변수의 현재 값이 과거 값과 상관관계를 가지는 현상   
모델이 이전 데이터의 패턴을 학습하여 반복적인 오류를 만들어낼 수 있음

> 가정 6. 정규성 (normality)

$\varepsilon_i \sim N(0, \sigma^2)$

- 오차항이 정규분포를 따른다는 가정
- 위배되어도 다중선형회귀분석의 결과에 큰 옇향 X

### 1-4. 회귀분석 평가방법

> 시각화

회귀선이 데이터 전반을 잘 요약하고 직관적이지만
객관적으로 비교하기는 어려움

> 통계지표

1. 모델의 유의성 검정
- F-검정 : 전체 회귀 모델이 유의미 한지 검정     
Ho: 모든 회귀계수가 0이다.    
p-value가 0.05 보다 작다면 귀무가설을 기각 (모델이 통계적으로 유의미)
- T-검정 : 특정 독립 변수가 유의미 한지 검정     
H0: 해당 변수의 회귀 계수가 0이다. 
특정 변수의 p-value가 0.05 보다 작다면 귀무가설을 기각 (해당 변수는 종목변수에 유의미한 영향)

2. 모델의 성능 평가

결정 계수 (R-squared, R^2)
- 회귀 분석에서 모델이 설명하는 데이터의 총 변동(평균과의 차이) 중에서 설명된 비율 의미

![image.png](attachment:image.png)

$\bar{Y}$: 평균 / $\hat{Y}$: 예측 값 / $Y$: 실제 값      
노란색선이 전체데이터의 평균     
초록색 선 : SST / 보라색 선 : SSR / 빨간색 선 : SSE     

![image.png](attachment:image.png)

결정계수는 0과 1 사이의 값으로, 1에 가까울수록 모델이 데이터를 잘 설명 한다고 할 수 있음

#### 조정된 결정계수 (Adjusted R-squared, Adjusted R^2)


결정계수는 독립 변수의 개수가 증가하면 증가할수록 자연스럽게 증가함     
따라서 변수의 개수 증가에 덜 민감하도록 조정된 것이 조정된 결정계수

#### AIC, BIC(SC)

두 지표 모두 정보기준이라고도 불리며, 값이 낮을수록 좋다고 평가함
- AIC
- BIC에 비해 복잡성에 대한 패널티가 비교적 작음
- BIC
- AIC보다 더 엄격한 기준으로, 데이터의 양에 따라 더 강한 패널티 부과

## **2.비선형 회귀**

### 2-1. 다항식 회귀모델

![image.png](attachment:image.png)

다항식 회귀 모델: $Y=a+bX+cX^2+dX^3+\cdot\cdot\cdot$의 형태로, 독립 변수에 거듭제곱 항을 추가하여 데이터의 곡선적(비선형적) 특성을 모델링함

- 관계가 직선적이지 않고 곡선을 그리는데이터에서 유용
- 성장률, 감소율 등 시간에 따라 변화하는 속도가 다른 경우

### 2-2. 지수 회귀모델

![image.png](attachment:image.png)

- 종속 변수가 지수적으로 변화하는 관계를 모델링할 때 사용

1. 종속 변수 Y에 로그함수를 적용
2. 로그 변환된 Y와 기존의 독립변수 X에 대해 선형 회귀 적용
→ 모델이 ln Y(로그 변환된 Y)와 X의 선형 관계를 학습
3. Y값을 예측 시, 모델이 예측한 Y값에 지수함수를 적용하여 로그 변환하기 전 Y로 변형

- 값이 시간에 따라 지수적으로 증가하거나 감소하는 경우 적합
- 기술 발전, 투자 수익률 증가 등

### 2-3. 로그 회귀모델

![image.png](attachment:image.png)

- 종속변수와 독립변수의 관계가 로그함수를 통해 잘 표현될 때

1. 독립 변수 X에 로그함수를 적용
2. 선형 회귀를 적용

- 데이터가 초기에 빠르게 증가하고 점차 증가율이 줄어드는 패턴일 때

### 2-4. 스플라인 회귀

![image.png](attachment:image.png)

- 데이터를 구간별로 나누고 각 구간에서 선형 또는 비선형 함수를 적용하여 예측

- 전체 데이터 범위를 여러 구간으로 나누고, 각 구간에 대해 별도의 회귀 모델(선형 또는 다항 등)을 적용
- 구간 경계에서의 연속성을 유지하는 것이 중요

- 데이터 패턴이 여러 구간에서 서로 다르게 나타날 때
- 계절에 따라 판매량이 변화하는 소매 데이터 분석 등