# 회귀 심화

## 회귀 Review

### 회귀란?
- 정답 데이터의 유무를 기준으로 지도학습/비지도학습으로 분류
- 정의: 연속적인 데이터에서 패턴(함수관계)를 찾아내 미래의 값을 추정하는 통계적 방법
- 종류: 선형회귀, 비선형회귀, 다항회귀 등
- 활용: 데이터의 요약 및 예측, 시계열 모델링, 변수 간 인과관계 발견
- MAS, MAE, (Adjusted) R-square, AIC, BS(SC)

### 단순/다중선형회귀분석
- 독립변수의 개수에 따라 분류

### 최소제곱법, 최소자승법
- OLS
- 잔차 = 예측값-관측값
- 잔차 제곱의 합(RSS or SSR)을 최소화하는 회귀선 찾기

## 1.선형회귀

### 1-0. 전체적인 회귀 분석 프로세스
- 사전 검증 -> 모델 생성 및 fit(학습) -> 모델 평가 -> 모델 성능 개선

1. 사전 검증
   - 데이터 탐색 및 전처리
   - 회귀 분석의 기본 가정 6가지 검토
2. 모델 생성 및 fit
   - 회귀 모델 생성, 모델 설정, 모델 학습
   - 모델의 유의성 검정
     - F-검정, T-검정
3. 모델 성능 평가
   - R-squared
   - 회귀 분석 후 검증 가능한 가설 검토
4. 모델 성능 개선
   - 필요 없는 변수 제거
   - 비선형 모델 활용

### 1-1. 다중선형회귀의 수식적 이해
$y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i
$

- $y_i$: i번째 종속변수
- $\beta_1$$ X_{1i}$...: i번째 y에 대한 독립변수(=설명변수)
- $\beta_0$: 절편
- $\beta_1$...: 설명변수에 의한 회귀 계수
- $\varepsilon_i$: 오차항

선형회귀식은 결국 y에 대한 독립변수(설명변수)의 가중평균이라고 할 수 있음

but, 모든 상황에서 쓸 수 있는 것은 아님

### 다중선형회귀의 기본가정

1. 선형성
   - 종속변수와 설명변수 간의 관계가 선형적이어야 함
   - 당연함
2. 독립성
   - 각각의 선형변수가 서로 선형독립적이어야 함. (다중공선성 이슈 x)
3. 오차항의 평균은 0이다 (0에 가까워야 함)
   - 오차항($\varepsilon_i$): 실제 값과 예측 값 간의 차이
   - white noise라고도 함.
     - white noise: 특정 패턴 없이 랜덤하게 변하는 신호
     - 평균적으로 어느 방향으로 치우치지 않아야 함 (평균이 0에 가까워야 함)
4. 등분산성
   - 오차항의 분산이 일정해야 한다는 가정
   - 분산이 일정하지 않은 경우 -> 이분산성이 있다고 말함
     - 등분산성 가정을 만족하지 않으면, 일부 구간에서는 매우 정확하지만 일부 구간에서는 오차가 매우 커질 수 있음
     - 횡단면 자료에서 많이 나타남
   - 잔차의 도표화, 검정을 통해 알아볼 수 있음
5. 오차항은 자기상관되어 있지 않다
   - 오차항의 공분산은 항상 0이어야 함
   - 오차항의 공분산이 0이 아닌 경우, 즉 오차항들이 서로 독립적이지 않은 경우 자기상관이 있다고 함.
     - 자기상관: 한 변수의 현재 값이 과거 값과 상관관계를 가지는 현상
     - 이는 시계열 자료에서 많이 나타나고, 모델이 이전 데이터의 패턴을 학습하여 반복적인 오류를 만들어낼 가능성이 높아짐
6. 정규성
   - 오차항이 정규분포를 따른다는 가정
     - 회귀계수의 신뢰구간과 p-value를 계산할 때, 오차항이 정규분포를 따른다고 가정하고 만듦
     - 따라서 오차항의 정규성이 만족되어야 p-value를 통해 유의미한 해석을 할 수 있음
   - 정규성은 위배되어도 분석 결과에 큰 영향을 미치지는 않음

### 1-3. 회귀분석 평가방법

- 시각화
  - 직관적으로 보기는 좋지만, 두 집단의 차이의 정도를 객관적으로 비교하기는 힘듦 -> 통계지표 활용
- 통계지표
  - R-squared, 기타 등등
- 모델의 유의성 검정
    - prob(F-static): 값이 클수록 모델이 통계적으로 유의미한지 판단. prob가 0.05보다 작다면, 귀무가설 기각 가능
    - T-static: 각 독립변수가 종속변수에 유의미한 영향을 미치는지 판단. 마찬가지로 0.05가 기준 
    - f검정: 전체 모델에 대해 회귀 모델이 유의미한지 검정
    - t검정: 개별 변수에 대해 특정 독립변수가 유의미한지 검정
- 모델의 성능 평가
  - R^2: 결정 계수. 모델이 설명하는 데이터의 총 변동(평균과의 차이)중에서 설명된 비율을 나타냄
    - 데이터의 평균을 예측값으로 사용할 때보다, 모델을 사용할 때 얼마나 더 정확하게 예측하는지
    - 1에 가까울수록 SSR과SST의 값이 비슷해지고, SSE는 0에 가까워짐 -> 설명 good
    - 0 -> 평균으로 예측한거랑 같음 -> 모델이 데이터를 설명하지 못함
  - Adj.R^2: 독립변수의 개수가 늘어날수록 R^2의 값도 증가하는데, 변수의 개수 증가에 덜 민감하도록 조절하여 이를 해결한 지표
- AIC, BIC(SC)
  - 정보기준이라고도 불리며, 낮을수록 좋음
  - AIC: BID에 비해 복잡성에 대한 페널티가 적음
  - BIC(SC): AIC보다 엄격함. 데이터의 양에 따라 더 강한 페널티를 부과

## 2. 비선형 회귀

### 2-1. 다항식 회귀모델
- Y=a+bX+cX^2...의 형태
- 선형모델에 비해 회귀선을 잘 fit하도록 할 수 있지만, 너무 많은 feature을 사용하면 overfitting될수도
- 곡선을 그리는 데이터 패턴. 성장률, 감소율 등이 시간에 따라 변화하는 속도가 다른 경우에 적합함
### 2-2. 지수 회귀모델
- 종속변수가 지수적으로 변화할 때 사용할 수 있음
- Y=ae^(bX)의 수식을 따름
- 양변에 로그 -> lnY=lna+bX가 됨
- lnY->Y', lna->a'로 보면 Y'=a'+bX가 됨 (로그 취하니깐 선형 회귀랑 비슷하게 생겨짐)
  -> 지수모델은 종속변수에 로그를 취한 후 선형회귀를 적용하면 됨.
      -> 원래의 데이터 형태로 복구하기 위해 예측값에 지수 씌움(지수함수 적용)
1. Y에 로그함수 적용
2. 로그변환된 Y와 독립변수 X에 대해 선형회귀 적용
   -> 모델이 lnY와 X의 선형 관계 학습
3. 모델이 예측한 Y값에 지수함수 적용하여 Y모양으로 다시 바꾸고 예측
### 2-3. 로그 회귀모델
- Y=a+blog(X)의 수식을 따름
- 지수모델과 반대로 X에 로그연산을 취한 후, 선형회귀와 동일하게 과정 진행
- but, Y를 그대로 예측하므로 예측값에 별도의 처리 필요 x
### 2-4. 스플라인 회귀
- 데이터를 구간별로 나누고 각 구간에서 선형/비선형 함수를 적절하게 적용하여 예측
- 구간 경계에서의 연송성을 유지하는 것이 중요