# 1. 선형회귀
## 전체적인 회귀 분석 프로세스
1. 사전 검증 : 데이터 탐색, 전처리 (결측치, 이상치 제거), 회귀 분석의 기본 가정 6가지 검토
2. 모델 생성 및 모델 fit : 회귀 모델 생성, 모델 설정, 모델 학습. 유의성 검정 (t, f검정)
3. 모델 평가 ; r-squared, 회귀 분석 후 검증 가능한 가설 검토
4. 모델 성능 개선 : 필요 없는 변수 제거, 비선형 모델 활용

## (1) 다중선형회귀의 수식적 이해
$y_i = \beta_0+\beta_1X_{1i}+\beta_2X_{2i}+...\beta_kX_{ki}+\varepsilon_i$
- $X$ : y에 대한 여러 개의 설명변수
- $\beta$ : 설명변수에 의한 회귀 계수
- $\beta_0$, $\epsilon_i$ 는 각각 절편 / 오차항
- 즉, y에 대해 영향을 줄 것 같은 여러 설명변수를 채택하여 선형적으로 식을 작성할 수 있음
$y=w_0x_0+w_1x_1+\cdot\cdot\cdot+w_mx_m=\sum_{i=0}^mw_ix_i=w^Tx$
- 선형회귀식 : 종속변수 y에 대한 설명변수의 가중평균이라 할 수 있다.
- **but : 선형회귀를 모든 상황에 쓸 수 있는 것은 아님**

## (2) 다중선형회귀의 기본가정
기본가정을 만족하지 않으면 결과의 신뢰성 하락. or 분석이 아예 불가능할수도 있음
1. 선형성 : IV-DV 간 관계가 선형적이어야 한다. (scatterplot) $E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$
2. 독립성 : 각각의 IV가 서로 선형독립적이어야 한다. (선형독립적이지 않은 경우 = 다중공선성, 설명변수 간 상관관계가 강한 경우) - 상관계수나 VIF를 구해 판독할 수 있음
3. 오차항의 평균은 0이다. (0에 가까워야 한다) : 백색 잡음 = 패턴 없이 랜덤하게 변하는 신호. 즉, 어느 방향에 치우치지 않아야 한다. (np.mean(residuals))
4. 등분산성 : 오차항의 분산이 일정해야 함. 설명변수의 크기에 따라 분산이 달라지는 경우, 그만큼 모델의 오차도 커진다. (잔차 도표화)
5. 오차항은 자기상관되어있지 않다 : 오차항의 공분산이 항상 0이어야 한다. 즉, 현재-과거값 사이의 상관관계 (자기상관)이 있으면 안된다. 특히 시계열 자료에서 많이 나타남. (Durbin-Watson 검정)
6. 정규성 : 오차항이 정규분포를 따른다. (위배되어도 결과에 큰 영향을 주지 않음. 하지만 p-value가 정규성을 가정하고 계산하기 때문에, p-value의 값이 정확하지 않을 수 있다.) (Sharpiro-Wilk 검증, Q-Q plot)
<br>
- 회귀 분석 전에 검증 가능 : 선형성, 독립성, 오차항의 자기상관 // 나머지는 불가

## (3) 회귀분석 평가방법
회귀분석의 결과가 얼마나 유효한지 평가하기 위해서 회귀선을 데이터와 함께 시각화하거나 통계지표를 이용하면 된다. 
- 시각화 : 데이터 전반에 대한 요약 가능. 하지만 비교가 필요할 때 어느 회귀선이 데이터를 더 잘 요약하는지 파악하기는 어려움
- 통계지표
    - 모델 유의성 검정
        - F-statistic : 회귀 모델이 유의미한지 검정. p < 0.05이면 회귀 모델이 유의미함.
        - T-statistic : 특정 독립 변수가 유의미한지 검정. p < 0.05이면 해당 변수가 유의미함.
    - 모델의 성능 평가
        - 결정계수 (R-squared) : 모델이 설명하는 데이터의 총변동 중에서 설명된 비율. = SSR/SST
        - 조정된 결정계수 (adjusted R-squared) : r^2는 독립 변수의 개수가 증가할수록 자연스레 증가한다. 조정된 결정계수는 변수의 개수 증가에 덜 민감하도록 조정됨
        - AIC, BIC(SC) : 정보기준. 값이 낮을수록 좋음.

# 비선형 회귀
데이터셋의 분포가 선형적이지 않은 경우
## (1) 다항식 회귀모델
- 기존 $y = a + bX$ 형태의 선형회귀식에 거듭제곱 항 $cX^2$, $dX^3$ 등을 추가함.
- 선형 모델에 비해 더 맞는 회귀선을 그릴 수 있지만, 너무 많은 피처를 이용하는 경우 과적합 문제가 발생할 수 있음.
- 관계가 직선적이지 않고 곡선을 그리는 데이터 패턴인 경우, 성장률/감소율 들이 시간에 따라 변화하는 속도가 다른 경우 사용

## (2) 지수 회귀모델
- 종속 변수가 지속적으로 변화하는 관계를 모델링할 때 사용할 수 있음
- $Y = ae^{bX}$ 형태의 수식을 따름
- 종속변수 Y에 로그를 취한 후 선형 회귀 적용 (선형회귀와 비슷한 모양임)
- 원래의 데이터 형태로 복구하기 위해 예측 값에 지수함수를 적용한다.
- 값이 시간에 따라 지수적으로 증가/감소하는 경우에 사용 (ex. 기술 발전 투자 수익률 증가 등)

## (3) 로그 회귀모델
- $Y=a+b\log(X)$ 형태의 수식을 따른다
- 선형회귀 수식에서 X 대신 $\log(X)$가 들어간 형태임
- 지수 회귀모델과 달리, Y는 그대로이므로 예측값에 별도 처리를 하지 않고 그대로 사용할 수 있음!

## (4) 스플라인 회귀
- 데이터를 구간별로 나누고 각 구간에서 다른 선형/비선형 함수를 적용하여 예측하는 방식
- 데이터 패턴이 여러 구간에서 서로 다르게 나타날 때 사용한다. (ex. 계절에 따른 판매량 변화)