# 제1장 단순회귀모형

## 1.1 회귀분석이란?

독립변수들과 종속변수 간의 함수관계를 규명하는 통계적인 분석방법을 회귀분석(Regression Analysis)이라고 부른다.

- 독립변수(설명변수): 다른 변수에 영향을 주는 변수
- 종속변수(반응변수): 독립변수에 의하여 영향을 받는 변수

## 1.2 단순회귀모형

### 1.2.1 산점도

두 변수 간의 함수관계를 밝히기 위해 산점도(Scatter Plot)를 그려볼 수 있다.

In [10]:
# ! pip install pandas
# ! pip install plotly
# ! pip install statsmodels

Collecting statsmodels
  Downloading statsmodels-0.13.5-cp39-cp39-win_amd64.whl (9.2 MB)
Collecting patsy>=0.5.2
  Downloading patsy-0.5.3-py2.py3-none-any.whl (233 kB)
Installing collected packages: patsy, statsmodels
Successfully installed patsy-0.5.3 statsmodels-0.13.5


You should consider upgrading via the 'c:\users\barkl\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [29]:
import pandas as pd
import plotly.express as px
import statsmodels.api as sm

In [2]:
# market-1.txt: 광고료-판매액 자료
market = pd.read_csv('data/market-1.txt', sep='\t')
market.head()

Unnamed: 0,ID,X,Y
0,1,4.2,9.3
1,2,8.5,18.5
2,3,9.3,22.8
3,4,7.5,17.7
4,5,6.3,14.6


In [8]:
# 산점도를 그린다
fig = px.scatter(market, x='X', y='Y', width=600, height=500)
fig.show()

### 1.2.2 단순회귀모형

$$Y_i = \beta_0 + \beta_i X_i + \varepsilon_i$$

Y<sub>i</sub> : i번째 측정된 반응변수 Y의 값  
$\beta$<sub>0</sub> : 절편 회귀계수  
$\beta$<sub>1</sub> : 기울기 회귀계수  
X<sub>i</sub> : i번째 주어진 상수값  
$\varepsilon$<sub>i</sub> : i번째 측정된 Y의 오차항, 평균 E($\varepsilon_i$)=0, 분산 Var($\varepsilon_i$)=$\sigma_2$ 이면서, 다른 오차항과는 상관관계가 없는 것으로 가정  

#### 단순회귀모형의 가정

① 반응변수 Y<sub>i</sub>는 상수항 $\beta_0 + \beta_i X_i$와 오차항 $\varepsilon_i$으로 이루어져 있다.  
- 따라서 Y<sub>i</sub>는 확률변수이다. $\beta_0 + \beta_i X_i$ 부분은 상수항이지만, 오차항이 더해지므로 합은 확률적으로 변할 수 있기 때문이다.
- 상수항의 분산은 0이므로, Y<sub>i</sub>의 분산은 $\varepsilon_i$의 분산과 같다. 즉, Y<sub>i</sub>와 $\varepsilon_i$은 등분산이다.  

② 오차항의 평균 $E(\varepsilon_i)=0$으로 가정했으므로, Y의 기댓값은 $\beta_0 + \beta_i X_i$이다.  

③ 반응변수 Y<sub>i</sub>의 오차항들은 서로 독립이라고 가정했다. $\varepsilon_i$와 $\varepsilon_j$는 서로 독립이다.
$$ Cov(\varepsilon_i, \varepsilon_j)=0 $$
- 따라서, Y<sub>i</sub>와 Y<sub>j</sub>도 독립이다.

## 1.3 회귀선의 추정

### 1.3.1 최소제곱법

최소제곱법은 $Y_i = \beta_0 + \beta_i X_i + \varepsilon_i$ 에서 오차제곱들의 합
$$ S = \sum_{i=1}^{n}(Y_i - \beta_0 - \beta_1 X_i)^2 $$
을 최소로 하는 $\beta_0$와 $\beta_1$의 값들을 이들의 추정값 $b_0$와 $b_1$으로 하는 회귀선 $\hat{Y}=b_0+b_1 X$을 구하는 방법이다.

In [31]:
# statsmodels 모듈을 사용하여 회귀선을 구한다.
# $\hat{Y} = 0.32822 + 2.149674 X$
model = sm.formula.ols('Y ~ X', market)
result = model.fit()
result.params

Intercept    0.328220
X            2.149674
dtype: float64

In [11]:
# 산점도를 그린다
fig = px.scatter(market, x='X', y='Y', trendline='ols', width=600, height=500)
fig.show()