# 회귀 리뷰

- **지도학습** : <u>정답</u>으로 간주할 데이터 있음.
- **비지도학습** : <u>정답</u>으로 간주할 데이터 없음.

---

- **회귀** : 연속적인 데이터에서 패턴(함수관계)을 찾아내는 통계적 방법.
	- 종류 - 선형/비선형 회귀, 로지스틱 회귀, 릿지 회귀, 라쏘 회귀, 다항 회귀
	- 활용 - 데이터 **요약**, **예측**, 시계열 모델링, 변수 간 인과관계 발견 등
	- 평가지표 - MSE, MAE, R-squre, Adjusted R-square, AIC, BIC(SC)

---

- **단순선형회귀분석**
- **다중선형회귀분석**

> 설명변수 개수가 다를 뿐, 둘은 본질적으로 같음.<br>
> $\to$ 이런 최적의 회귀선을 찾는 법(=fitting하는 법)은?

$\Rightarrow$ **최소제곱법, 최소자승법(Least Squares Method, Ordinary Least Square)**

- = **OLS**
- 회귀선($\hat{y}$) - 관측된 데이터값($y$) = **잔차**.
- **잔차의 제곱의 합(=RSS or SSR)** 을 최소화하는 회귀선을 찾는 방법.

# 1. 선형회귀

## 1.1 다중선형회귀의 수식적 이해

가장 일반적인 형태는 다음과 같다:

$$y_i = \beta_1 + \beta_2 X_{2i} + \beta_3 X_{3i} + ... + \beta_k X_{ki} + \epsilon_i$$

종속변수 y에 대해 영향을 줄 것 같은 설명변수들을 선택해 선형적인 식을 작성한다.

여기서 상수항과 오차항을 제외하면, 다음과 같이 가중평균을 구하는 식 형태가 되는 것을 확인할 수 있다.

$$y = w_0 x_0 + w_1 x_1 + ... + w_m x_m = \sum ^m _{i=0} w_i x_i = \mathbf w ^T \mathbf x$$

$\to$ 선형회귀식 = y에 대한 x들의 **가중평균**.

## 1.2 다중선형회귀의 기본 가정

선형회귀를 사용하기 위해 필요한 가정들이 있음 - 이들을 만족하지 않으면 분석 결과의 신뢰성이 떨어지거나 분석이 불가함.

- 가정 1 : 선형성 - 종속변수와 설명 변수 간 관계가 선형적이어야 한다.
	- $E(y|x) = \beta_1 + \beta_2 X_i$
- 가정 2 : 오차항의 평균은 0이다.
	- $E(\epsilon_i X_i) = 0$
	- 백색 잡음(=오차항)의 성질을 만족하기 위해 필요한 가정.
- 가정 3 : 독립성 - 각각의 설명 변수는 서로 선형독립적이야 한다.
	- $X_i, \; X_j \; \text{is linearly independent for all} \; i, j$
	- 이 가정이 위배될 경우 **다중공선성**이 있다고 함.
- 가정 4 : 등분산성 - 오차항의 분산은 일정해야 한다.
	- $Var(\epsilon_i | X_i) = \sigma^2$ 
	- 이 가정이 위배될 경우 **이분산성**이 있다고 함.
		- **횡단면 자료**에서 많이 나타남. 
		- 이 경우 회귀 분석의 결과가 정확하지 않을 수 있음
	- 잔차의 도표화, 검정(Brown-Forsythe, Breusch-Pagan) 등을 통해 등분산성 확인.
- 가정 5 : 오차항은 자기상관되어 있지 않다 ($\to$ 오차항의 공분산은 항상 0이어야 함.)
	- $Cov(\varepsilon_i , \varepsilon_j | X_i) = 0$ 
	- 이 가정이 위배될 경우 **자기상관**이 있다고 함. 
		- 시계열 자료에서 많이 나타남.
	- 더빈-왓슨 검정, ACF, PACF 함수 등을 통해 자기상관 확인.
- 가정 6 : 정규성 - 오차항이 정규분포를 따른다.
	- 위배되어도 다중선형회귀분석의 결과에 큰 영향 x.
	- 샤피로-윌크 검정, 자퀴-베라 검정, Q-Q plot으로 확인.

## 1.3 회귀분석 평가 방법

> 회귀분석의 결과의 유효성 평가를 위해, 회귀선을 데이터와 함께 **시각화**하거나 **통계지표**를 이용.

### 시각화

- 시각적으로 확인하기에는 좋음.
- 두 회귀선 중 어떤 것이 해당 데이터를 더 잘 요약하는지 비교는 어려움.

$\to$ 객관적 비교를 위해 통계 지표 활용.

### 통계지표

```python
import statsmodels.api as sm
results = sm.OLS(Y, sm.add_constant(X)).fit()
results.summary()
```

$\to$ 이 코드를 통해 통계 지표 확인.

**결정 계수(R-squared, $R^2$)**

- 회귀분석에서 모델이 설명하는 데이터의 총 변동(=평균과의 차이) 중 설명된 비율을 나타냄.
- 모델이 데이터를 얼마나 잘 설명하는지 측정하는 지표. 0과 1 사이의 값.
	- **1에 가까울수록** 모델이 데이터를 잘 설명함. (SSR, SST 값이 비슷, SSE는 0에 근접)
- $$R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}}$$
	- SST : 총 편차
	- SSR : 회귀선에 의해 설명되는 편차
	- SSE : 회귀선에 의해 설명되지 않는 편차

**조정된 결정 계수(Adjusted R-squared, Adjusted $R^2$)**

> R-square 값이 높기만 하면 무조건 좋은 것은 아님 - $R^2$는 설명변수 개수가 증가하면 증가하므로, 데이터와 큰 관련 없는 변수를 추가해도 높아짐.

- $R^2$를 변수의 개수 증가에 덜 민감하도록 조정한 지표.
- 변수의 개수를 $k$라 할 때, 식에 $\frac{n-1}{n-k}$를 곱해주면 됨. -- *변수의 개수에 따른 패널티를 부여함.*

**AIC, BIC(SC)**

- 정보기준(info. criteria), 값이 낮을수록 좋다고 평가.
- AIC = Akaike Information Criterion
- BIC(SC) = Bayesian Information Criterion
	- AIC보다 엄격한 기준. 데이터 양(n)에 따라 더 강한 패널티 부과.

# 2. 비선형 회귀
> 데이터셋의 분포가 선형적이지 않을 경우 사용하는 회귀분석방법

## 2.1 다항식 회귀모델

- 선형 모델의 feature를 다항식으로 만들어 선형 회귀 사용.
- 장점 : 선형 모델에 비해 회귀선을 잘 fit하도록 그릴 수 있음.
- 단점 : 너무 많은 feature를 이용하면 과적합 문제 발생할 수도.
	- $\to$ 이를 방지하기 위해 Ridge, Lasso 규제 이용 가능.

```python
# 1. 기존의 변수들을 다항식으로 만듦.
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures() # x1, x2를 2차항화.
poly.fit([[2, 3]])
poly = PolynomialFeatures(include_bias=False) # 상수항 제외
poly.fit(train_input)
test_poly = poly.transform(test_input)
## poly.get_feature_names_out() # 변수명 출력
```

```python
# 2. scikit-learn의 선형회귀 클래스 똑같이 이용.
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))
```


## 2.2 지수/로그 회귀모델

- 데이터의 증감 형태가 지수/로그함수 형태인 경우 $\to$ 지수/로그 식을 이용해 회귀선 그음.
- 2.1처럼 기존 식에 지수/로그를 사용해 변형한 후 선형 회귀 사용.

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LinearRegression

plt.scatter(cancer.data[:,col1], cancer.data[:,col2], c= cancer.target, alpha=0.3)
X = cancer.data[:,[col1]]
y = np.log(cancer.data[:,col2]+0.01) # 값이 0인 데이터가 있어 0.01 을 더해줌.

model = LinearRegression()
model.fit(X, y)

xs = np.arange(0,30,0.1)
ys = np.exp(xs*model.coef_[0] + model.intercept_) - 0.01

plt.scatter(cancer.data[:,col1], cancer.data[:,col2], c= cancer.target, alpha=0.3)
plt.plot(xs,ys,'r-',lw=3)
```