# 회귀
- 머신러닝 지도학습의 한 방법입니다.
- 독립변수와 종속변수 모두 연속형 변수일때 사용하며, 서로의 관계를 가장 잘 설명하는 회귀식을 찾는 것을 목표로 합니다.

## 선형회귀
- 독립변수(설명변수)와 종속변수 사이의 패턴을 선형방정식으로 나타내는 회귀 기법입니다.
- 독립변수의 개수에 따라 단순회귀(1개)와 다중회귀(2개 이상)로 구분할 수 있습니다.
![선형회귀.png](attachment:fe926d22-1bef-4413-9762-37c683fc0931.png)

### 최소제곱법(OLS)
![Untitled (10).png](attachment:9be96cbf-6709-4e4b-8b37-e033e3605622.png)
- 최적의 회귀식을 찾기 위해 가장 많이 사용되는 방법입니다.
- 잔차의 제곱합이 최소가 되는 회귀선을 찾는 것을 목표로 합니다.
    - 잔차란 회귀선(예측값)과 관측된 데이터(실제값)의 차이로, 모집단에서의 오차(error)와 유사한 개념입니다.

### 다중선형회귀
- 우리가 일상에서 접하는 문제들은 대부분 단순회귀보다 다중회귀에 가까울 것입니다.
    - 현실에서 어떤 일이 발생할 때는 다양한 원인들이 복합적으로 작용하기 때문입니다.
- 선형회귀식의 회귀계수는 특정 설명변수가 종속변수에 얼마나 영향을 미치는 지를 의미합니다.
    - 즉, 회귀계수는 종속변수에 대한 설명변수의 가중치라고도 볼 수 있습니다.
- 선형회귀는 회귀식을 통해 독립변수와 종속변수의 관계를 이해하기 쉽게 해주지만, 선형회귀를 사용하기 위해서는 다음의 기본가정들을 만족시켜야 합니다.

#### 다중선형회귀의 기본가정
1. 선형성
- 종속변수와 독립변수는 선형관계여야 합니다.
2. 등분산성
- 잔차의 분산이 고르게 분포하고 있어야 합니다. 즉, 일정해야 합니다.
3. 정규성
- 잔차가 정규분포를 따라야 합니다.
    - 다만 이는 위배되어도 회귀분석 결과에 큰 영향을 주지는 않습니다.
        - 정규성은 Q-Q plot, 샤피로 윌크 검정, 히스토그램, 왜도와 첨도 등을 통해 확인할 수 있습니다.
4. 독립성
    - 독립변수들 간에 상관관계가 없어야 합니다.
    - 다중선형회귀에서 독립성이 위배된다면, 이는 다중공선성 문제에 해당합니다.
        - 다중공선성은 VIF 지수, PCA, 히트맵 등을 통해 확인할 수 있습니다.
5. 잔차의 평균은 0이어야 합니다.
6. 잔차의 공분산도 항상 0이어야 합니다. (자기상관 x)
    - 이는 시계열 자료에서도 중요한 사항입니다.
        - 시계열 모형에서는 오차항을 백색 잡음이라고 합니다.
        - 시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 합니다.
     
## 회귀분석 평가방법
- 회귀분석에 대해 평가할 때는 분산분석표(ANOVA table)를 참고해 볼 수 있습니다.
![9980C03860179E2313.jfif](attachment:90226a5b-fcac-4721-aa7a-865127130079.jfif)
- SSR은 Regression Sum of Square의 약자로, (예측값 - 평균)^2의 총합입니다.
    - (예측값의 분산과 유사, 설명 가능한 부분)
- SSE는 Residual(Error) Sum of Square의 약자로, (실제값 - 예측값)^2의 총합입니다.
    - (잔차의 분산과 유사, 설명 불가능한 부분)
    - MSE는 잔차제곱의 평균으로, SSE를 잔차의 자유도로 나눠 표준화한 값입니다.
- SST는 Total Sum of Square의 약자로, (실제값 - 평균)^2의 총합입니다.
    - (실제값의 분산과 유사, SSR + SSE)

![Untitled (11).png](attachment:f9218027-dc75-40d8-aa05-ea5c54b4278c.png)

- 성능을 평가할 땐 결정계수(R-Square)를 사용합니다.
    - 회귀분석에서 모델이 설명하는 데이터의 총 변동(평균과 실제값의 차이) 중 설명 가능한 부분의 비율을 나타냅니다. 
        - SSR/SST (= 1 - SSE/SST)로 계산하며, 1에 가까울수록 성능이 좋다고 판단합니다.
    - 다만 r2 score는 설명변수의 개수가 증가할수록 같이 증가하는 경향을 갖고 있기 때문에, 다중선형회귀에서 사용하기에는 적절하지 않은 부분이 있습니다.
        - 따라서 다중회귀에서는 변수 개수의 증가에 덜 민감한 Adjusted R-square를 평가지표로 사용하며, 계산식은 1-(n-1)MSE/SST입니다.
     
## 비선형회귀
![비선형회귀.png](attachment:4f1b1c10-0748-41b6-8406-4de9d04184e6.png)
- 앞서 선형회귀를 사용하기 위해서는 기본적으로 선형성을 만족해야 한다고 했는데, 위 그림처럼 비선형적인 관계일 때도 회귀를 사용할 수 있습니다.
- 분포가 이차/삼차함수 등의 모형이라면 다항회귀를, 지수/로그함수를 따른다면 지수/로그 회귀모델을 적용할 수 있습니다.
- 다항회귀의 경우, 선형모델에 비해 회귀선을 잘 fit하게 그릴 수 있다는 장점이 있지만, 너무 많은 feature를 이용할 시 과적합(overfitting) 문제가 발생할 우려가 있습니다.
    - 이에 대한 해결책으로 규제(regularization)가 있습니다.
### 규제
- 머신러닝 모델이 훈련 세트를 과도하게 학습하지 못하도록 방지하는 것입니다.
- feature의 기울기 크기를 하는 방식으로 진행됩니다.
- 규제를 가하는 방법에 따라 릿지(ridge)모델과 라쏘(lasso)모델로 나뉩니다.

![릿지라쏘.png](attachment:cfe08ff5-77c5-434e-bfb1-f5ff25a47e16.png)

- 릿지(L2) 모델(우)는 계수를 제곱한 값을 제한합니다.
- 라쏘(L1) 모델(좌)는 계수의 절댓값을 제한합니다.
    - 릿지 모델과 비교했을 때, 라쏘 모델은 기울기를 아예 0으로 만드는 경우가 있기 때문에 조금 더 극단적일 수 있으나, 변수가 너무 많을 때 유용한 feature만을 선택하는 용도로 활용할 수도 있습니다.