# 회귀분석
* 가장 기본적이고, 중요한 통계적 모형
* 모형 = (함수 또는 방정식) + (확률분포)

## 선형모형
* 여기서 우리의 포커스는 선형모형을 회귀분석하는 것에 있음.  
* 선형 = 우리의 관심인 변수(여기서는 $\beta_i$)가 덧셈과 상수배로 이뤄져 있다는 뜻  
* 모든 고전적 통계모형의 기본이라고 할 수 있음.  
* 변수의 갯수에 따라 단순선형모형과 다중선형모형으로 나눌 수 있음.  

## 무엇을 할 수 있는가?
    - x가 주어질 때, Y의 평균을 파악해 미래를 예측 (추정의 영역)
    - Y와 x의 관계를 파악. (가설검정의 영역)

물론, 다양한 머신러닝 기법의 등장으로 선형모형만으로 추정을 하는 것은 어리석은 일.  
그러나 그럼에도 불구하고 여전히...

## 왜 선형모형인가?
    - 해석이 쉬움 = 검정이 가능함
    - 추정 과정에 너무 많은 힘을 기울이지 않아도 됨.

# 단순회귀
다음과 같은 선형모형을 단순회귀모형이라고 함.

$$
Y = \beta_0 + \beta_1x + \epsilon \\[5pt]
\epsilon \sim N(0, \sigma)
$$

* $Y$ : 종속변수. 기본적인 선형모형에서는 항상 연속형 데이터.
* $x$ : 독립변수. 연속형 데이터와 이산형 데이터 모두가 될 수 있음.
* $\epsilon$ : 오차항. 확률변수.

## 단순회귀의 가정
> 단순회귀모형은 가정을 가지고 있음.
1. 등분산성 : 모든 분산은 같음.
2. 정규성 : 오차항은 무조건 정규분포, 평균이 0, 분산은 $\sigma^2$를 따름.
3. 선형성 : y와 x는 선형이어야 함.
4. 독립성 : 각 x들은 서로 독립.

단순회귀모형이라면 기본적으로 이 가정들을 무조건 만족해야 함.

## 단순회귀의 추정
$$
Y = \beta_0 + \beta_1x + \epsilon \\[5pt]
\epsilon \sim N(0, \sigma)
$$

무엇을 추정하는가? $\beta_0$와 $\beta_1$, 그리고 $\sigma^2$  
어떻게 추정하나요? 빈도주의를 따른다는 가정하에, 여러가지 방법이 있음.  
1. OLS (ordinary least square)
2. mle (maximum likelihood estimation)
3. mme (method of moments)

우리의 단순회귀가 4가지 가정을 만족한다고 했을 때, OLS를 쓸 수 있음.

## OLS의 원리
![sse](../../_files/regression_sse.png)

데이터(오렌지색 점)과 회귀선, 그리고 평균($\bar{Y}$)를 보자.  
* 데이터와 $\bar{Y}$ 사이의 거리를 T(Total)라고 한다. 데이터와 전체 평균 간의 차이라고 보면 된다.
* 데이터와 회귀선 사이의 거리를 E(Error) 라고 한다. 
* 회귀선과 $\bar{Y}$ 사이의 거리를 R(Regress) 라고 한다.

E는 회귀선을 통해 설명된 부분이다. 반면, E는 회귀선으로도 설명할 수 없는 부분이다.  
우리의 목표는 회귀직선으로 최대한 많은 것을 설명하게 하는 것.  
따라서 모든 데이터의 E를 줄이는 방향으로 회귀직선을 설정해야 한다.  
회귀직선을 설정한다 == y절편($\beta_0$)과 기울기($\beta_1$)을 구하는 것!

어떻게 모든 데이터의 E를 계산할 것인가?
* 데이터 - (회귀선의 Y값)이 음수가 될 수도 있다. 
* 그런데, 우리는 거리를 계산해야 하므로 음수가 나와서는 안됨.
* 따라서 E를 제곱하고(Squared), 그리고 전부 더한다(sum).
그래서 이를 Sum of Squared Error, SSE라고 한다.

그럼, SSE를 어떻게 만들어야 하는가?
$$
f(\beta_0, \beta_1) = \sum_{i=1}^{n}~(Y_i - (\beta_0 + \beta_1x_i))^2
$$

이 함수을 우리는 손실함수(loss function)이라고도 한다.

여기에서 어떻게 SSE를 최소화할 것인가? 편미분을 활용하면 된다.
$$
\frac{\partial}{\partial \beta_0}~f(\beta_0, \beta_1) = 0 \\[10pt]
\frac{\partial}{\partial \beta_1}~f(\beta_0, \beta_1) = 0
$$

이를 이용해 $\beta_0$, $\beta_1$을 구한다.

또한, 이 SSE를 이용해서 $\sigma^2$ 역시 추정가능하다.
$$
\sigma^2 = \frac{SSE}{n-2}
$$

## 단순회귀의 검정
통계적 검정은 언제나 같은 과정을 거친다.
1. 가설의 설정
2. 유의수준 $\alpha$의 설정
3. 검정통계량의 설정
4. 검정하기
    1. p-value < $\alpha$ 면 기각.
    2. 검정통계량 T > 임계값(critical value) 면 기각

**<t검정>**
* 단순회귀에서는 주로 t검정을 진행한다.
* 이 경우, 검정통계량이 따르는 분포는 t분포가 된다.  
* 가설의 종류에 따라서 단측가설, 양측가설이 될 수 있으며 t분포는 둘 다 할 수 있다.

## 주로 나오는 검정
1. $H_0 : \beta_0 = a$ vs $H_1 : \beta_0 \neq a$ (양측검정)
2. $H_0 : \beta_0 = a$ vs $H_1 : \beta_0 > a$ (단측검정)

# 코드 예시
* 유명한 데이터셋을 가지고 진행.
* 추정만을 진행하지는 않음.

In [12]:
# 필요한 패키지 불러오기
import seaborn as sns
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn.datasets import load_iris

ModuleNotFoundError: No module named 'sklearn'

In [10]:
import pandas as pd

# Iris 데이터셋 불러오기
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

ModuleNotFoundError: No module named 'sklearn'

In [None]:
# 데이터에 대한 EDA (Exploratory Data Analysis)
print(data.describe())
sns.pairplot(data)
plt.show()

In [None]:
# 단순회귀 모형의 추정: 'total_bill'이 독립변수, 'tip'이 종속변수
X = data['total_bill']
y = data['tip']

# X에 상수항 추가 (절편을 포함시키기 위해)
X = sm.add_constant(X)

In [None]:
# statsmodels을 사용한 OLS 추정
model = sm.OLS(y, X).fit()
print(model.summary())

In [None]:
# 패키지를 쓰지 않고 OLS를 함수로 구현
def manual_ols(x, y):
    n = len(y)
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    # beta_1 (기울기) 계산
    beta_1 = np.sum((x - x_mean) * (y - y_mean)) / np.sum((x - x_mean)**2)
    
    # beta_0 (절편) 계산
    beta_0 = y_mean - beta_1 * x_mean
    
    # y 예측값 계산
    y_pred = beta_0 + beta_1 * x
    
    # SSE (Sum of Squared Errors), SSR (Sum of Squared Regression), SST (Total Sum of Squares) 계산
    sse = np.sum((y - y_pred)**2)
    ssr = np.sum((y_pred - y_mean)**2)
    sst = np.sum((y - y_mean)**2)
    
    # R^2 값 계산
    r_squared = ssr / sst
    
    # 회귀계수, SSE, SSR, SST, R^2 값을 반환
    return {
        'beta_0': beta_0, 
        'beta_1': beta_1, 
        'SSE': sse, 
        'SSR': ssr, 
        'SST': sst, 
        'R_squared': r_squared
    }

In [None]:
# OLS 함수 결과 계산
manual_results = manual_ols(data['total_bill'], data['tip'])
print(manual_results)

# confint()를 사용한 구간추정
conf_intervals = model.conf_int(alpha=0.05)
print("95% Confidence intervals:\n", conf_intervals)

# 단순회귀 모형의 검정 (t검정)
t_values = model.tvalues
print("t-values:\n", t_values)

# R^2 값 도출 (패키지를 사용한 방법)
r_squared = model.rsquared
print("R-squared (statsmodels):", r_squared)