## <span style="background-color:#E0F7FA; color:#1565C0; padding:4px; border-radius:5px;"> 선형회귀 </span>

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 회귀 분석 프로세스 </span>

> 사전 검증 -> 모델 생성 및 모델 fit -> 모델 평가 -> 모델 성능 개선



1. 사전 검증 <BR>
- 데이터 탐색 및 전처리
- 회귀 분석의 기본 가정 6가지 검토

2. 모델 생성 및 모델 fit <BR>
- 회귀 모델 생성 -> 모델 설정 -> 모델 학습
- 모델 유의성 검정 (F, T검정)

3. 모델 성능 평가
- R-squared
- 회귀 분석 후 검증 가능한 가설 검정

4. 모델 성능 개선
- 필요 없는 변수 제거
- 비선형 모델 활용

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 다중 선형 회귀 수식 </span>

$
y=w_0x_0+w_1x_1+\cdot\cdot\cdot+w_mx_m=\sum_{i=0}^mw_ix_i=w^Tx$

- 종속 변수 y에 대한 설명 변수의 가중 평균

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 다중 선형 회귀의 기본 가정</span>

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 선형성 </span>

$$E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$$

- 종속변수와 설명변수 관계가 선형적이어야 함

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 독립성 </span>

- 각각의 설명변수가 서로 선형독립적이어야 함 (다중공선성 x)

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 오차항의 평균은 0 </span>

- 오차항: 실제값과 예측값 차이

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 등분산성 </span>

- 오차항의 분산이 일정해야 함 (이분산성 x)
- 만족하지 않으면 회귀분석 결과가 일부 구간에서 오차 매우 커짐

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 오차항은 자기상관되어 있지 x </span>

- 오차항의 공분산(두 변수 간의 상관 관계)이 항상 0 (자기 상관 x)
- 만족하지 않을 시 반복적인 오류 만들어낼 수 o

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 정규성 </span>

- 오차항이 정규분포를 따름
- 위배되어도 결과에 큰 영향 x
- 계산에 사용 공식의 가정이 정규분포를 따른다는 것이기 떄문


|기본 가정|회귀 분석 전 검증 가능|회귀 분석 후 검증 가능|검증 방법|
|-------|-----------------|-----------------|------|
|선형성|o|o|scatter plot|
|독립성|o|o|VIF 지수, 상관계수|
|오차항 평균 0|x|o|np.mean(residuals)|
|등분산성|x|o|잔차의 도표화|
|오차항 자기상관 x|o(간접 검증)|o|분석 후: Durbin-Watson 검정|
|정규성|x|o|Shapiro-Wilk 검증, Q-Q plot|

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 회귀 분석 평가법 </span>

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 시각화 </span>

![image.png](attachment:image.png)

- 객관적 비교 위하여 통계 지표 활용 필요

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 통계 지표 </span>

![image-2.png](attachment:image-2.png)

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 모델의 유의성 검정 </span>

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> F-검정 </span>
: 회귀 모델이 유의미한가? (**관계**)

- 귀무가설 $H_0$: **모든 회귀 계수**가 0이다 (독립 변수들이 종속 변수들과 관계가 없다)
- 대립가설 $H_1$: 적어도 하나의 회귀 계수는 0이 아니다 (독립 변수 중 하나 이상이 종속 변수에 영향을 준다)

> F-statistic 값 클수록 모델이 통계적으로 유의미함
> prob(F의 p-value)<0.05: 귀무 가설 기각 가능

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;">T-검정 </span>
: 각 독립 변수가 종속 변수에 유의미한 영향을 미치는가?

- 귀무가설 $H_0$: **해당 변수의 회귀 계수**가 0이다 (이 변수는 종속 변수에 영향을 미치지 않는다)
- 대립가설 $H_1$: **해당 변수의 회귀 계수**는 0이 아니다 (이 변수는 종속 변수에 유의미한 영향을 준다)

> p-value(P>|t|) 기준으로 가설 검정 수행: 0.05 기준

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 모델의 성능 평가 </span>

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 결정 계수 (R-sqaured) </span>
![image.png](attachment:image.png)

모델이 데이터를 얼마나 잘 설명하는가?

**식**
![image-2.png](attachment:image-2.png)
> 노란색 선: 평균, 초록색 선: SST, 보라색 선: SSR, 빨간색 선: SSE

- 0과 1 사이의 값: 1에 가까울수록 모델이 데이터를 잘 설명한다

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 조정된 결정 계수 (Adjusted R-sqaured) </span>
- R^2는 독립 변수 개수 증가할수록 자연스레 증가 <BR>
> 변수의 개수 증가에 덜 민감하도록 조정

**식**

$\overline{R}^2 = \frac{SSR}{SST}\frac{n-1}{n-k}=1-(\frac{SSE/(n-k)}{SST/(n-1)})$

> n: 샘플 수, k: 독립 변수 개수
- k가 증가하면 전체 값 감소 -> 변수 개수에 따른 설명력 추가 상쇄

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> AIC, BIC(SC) </span>
: 정보 기준, 값이 낮을수록 좋다고 평가

- AIC: 복잡성에 대한 패널티가 비교적 작음
- BIC: 엄격한 기준으로 데이터 양에 따라 강한 페널티 부여

## <span style="background-color:#E0F7FA; color:#1565C0; padding:4px; border-radius:5px;"> 자료의 척도 </span>

##### <span style="background-color:#DCDCDC; color:#000000; padding:4px; border-radius:5px;"> 명목 척도 </span>

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 중심화 경향 </span>

## <span style="background-color:#E0F7FA; color:#1565C0; padding:4px; border-radius:5px;"> 비선형 회귀 </span>

![image.png](attachment:image.png)

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 다항식 회귀 모델 </span>

![image-2.png](attachment:image-2.png)

$Y=a+bX+cX^2+dX^3+\cdot\cdot\cdot$

- 곡선 데이터 패턴에 유용
- 성장률, 감소율 등이 시간에 따라 변화하는 속도 다른 경우

**code**

1. 기존 변수를 다항식으로
```python
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False)  
X_poly = poly.fit_transform(X)
```

2. 선형회귀 클래스 이용

(1) statsmodel의 sm 이용
```python
import statsmodels.api as sm

X_poly = sm.add_constant(X_poly)
model = sm.OLS(Y, X_poly).fit()
Y_pred = model.predict(X_poly)
```

(2) sklearn의 LinearRegression 이용
```python
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_poly, Y)
Y_pred = model.predict(X_poly)
```

![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)


### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 지수 회귀 모델 </span>

![image-3.png](attachment:image-3.png)

: 종속 변수가 지수적으로 변화하는 관계 모델링

ex) 기술 발전, 투자 수익률 증가

1. 종속 변수 y에 로그함수 적용
2. 로그 변환된 y와 기존 독립변수 x에 대해 선형 회귀 적용
3. y값 예측 시 지수함수 적용하여 로그 변환 전 y로 변경

**code**

```python
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

# 지수함수 형태의 임의의 데이터 생성 
np.random.seed(42)
X = np.linspace(1, 10, 20).reshape(-1, 1)
Y = 2 * np.exp(0.8 * X).flatten() + np.random.normal(0, 10, X.shape[0]) 

# 종속변수 Y에 자연 로그 변환
log_Y = np.log(Y) # log_Y: 로그 변환된 Y

# 회귀 모델 학습 (log(Y) = a + bX)
X_const = sm.add_constant(X)  
model = sm.OLS(log_Y, X_const).fit()

# 예측값 변환 (exp를 적용해 원래 스케일로 변환)
log_Y_pred = model.predict(X_const)
Y_pred = np.exp(log_Y_pred) # exp(지수 함수) 적용해서 로그 변환 되기 전의 Y로

# 데이터 시각화
plt.scatter(X, Y, label="Actual Data", color="blue")
plt.plot(X, Y_pred, label="Exponential Fit", color="red")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.title("Exponential Regression")
plt.show()
```

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 로그 회귀 모델 </span>

![image-4.png](attachment:image-4.png)

- 데이터가 초기에 빠르게 증가, 점차 증가율 줄어드는 패턴일 때 효과적 <BR>
ex) 인구 성장, 감염병 호가산

1. 독립 변수 x에 로그함수 적용
2. 선형 회귀 적용 (y값 그대로기 때문)

**code**

```python
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

# 로그함수 형태의 임의의 데이터 생성 
np.random.seed(42)
X = np.linspace(1, 10, 20).reshape(-1, 1)
Y = 5 + 3 * np.log(X).flatten() + np.random.normal(0, 0.5, X.shape[0]) 

# 독립 변수 X에 자연 로그 변환
log_X = np.log(X)

# 회귀 모델 학습 (Y = a + b * log(X))
log_X_const = sm.add_constant(log_X) 
model = sm.OLS(Y, log_X_const).fit()

# 예측값 계산
Y_pred = model.predict(log_X_const)

# 데이터 시각화
plt.scatter(X, Y, label="Actual Data", color="blue")
plt.plot(X, Y_pred, label="Logarithmic Fit", color="red")
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Logarithmic Regression")
plt.show()
```

### <span style="background-color:#FFFFE0; color:#CD5C5C; padding:4px; border-radius:5px;"> 스플라인 회귀 </span>

![image-5.png](attachment:image-5.png)

- 데이터를 구간별로 나누고 각 구간에서 다른 함수 적용하여 에측
- 구간 경계의 연속성 유지하는 것이 중요
- 데이터 패턴이 여러 구간에서 서로 다르게 나타날 때 유용 <BR>
ex) 소매 데이터 분석