# Recall) Linear regression Equation

For a give $n$ dimensional data $\mathbb{x} = \left(x_1, x_2, ..., x_n \right)$, a linear regression equation is defined by
$$y = \beta_0 + \beta_1 x_1 + ... +\beta x_n $$
where
- $y$ is a response variable (or dependent variable)
- $\mathbb{x} = \left(x_1, x_2, ..., x_n \right)$ is an input variable
- $\beta_0, \beta_1, ... ,\beta_n$ are regression coefficients

If $n = 1$, a linear regression equation is called a simple regression equation, and

if $n > 1 $ a linear regression equation is called a multiple regression equation.

## A simple linear regression model

우리에게 n개의 샘플 ($(x_i, y_i), \quad i=1,2,...,n$)이 주어져있다고 하자.

이 때 우리는 $y_i$를 추정하는 데 $\hat{y_i} = \beta_0+\beta_1x_i$를 이용하고자 한다. 

-Figure 1 선형회귀분석
![](./image/img5.png)
이미지 출저:https://blog.naver.com/mykepzzang/220935001644

이 때 현재의 $\beta_0, \beta_1$이 얼마나 적당한지를 측정하는 Performance measure로써 우리는 MSE(Mean Squared Error, 평균제곱오차)를 사용한다.

$$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2 = \frac{1}{n} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 $$

이제 우리가 찾고자 하는 $\beta_0, \beta_1$은 MSE를 최소로 하는 값을 선택하면 된다.

MSE는 $\beta_0, \beta_1$에 대해서 convex(?)이므로 극값에서 최소값을 갖는다.

From $$\frac{\partial{MSE}}{\partial{\beta_0}} = \frac{-2}{n} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) =0 \quad \rightarrow \quad \beta_0 = \bar{y} - \beta_1 \bar{x}$$

From $$\frac{\partial{MSE}}{\partial{\beta_1}} = \frac{-2}{n} \sum_{i=1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) =0 \quad \rightarrow \quad \beta_1 = \frac{\sum_{i=1}^{n} x_i y_i - n \bar{x}\bar{y}}{\sum_{i=1}^{n} {x_i}^2 - n {\bar{x}}^2}$$

where $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$, $\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$

식을 조금 간단히 하기 위해 새로운 Notation을 도입해보자.

### Notation)
- $S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2 $ : 편차 제곱의 합
- $S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $ 
- $S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) = \sum_{i=1}^{n} x_i y_i - n \bar{x} \bar{y} $

이 기호를 사용하여 $\beta_0, \beta_1$을 나타내면 다음과 같다.

$$ \beta_0 = \bar{y} - \beta_1 \bar{x} \\ \beta_1 = \frac{S_{xy}}{S_{xx}}$$

이렇게 Explicit 한 Form 말고도, 반복적인 방법으로도 답을 구할 수 있다.

초기 $\beta_0, \beta_1$을 정한다음 MSE를 최적화 방법(예를 들면 Gradient Descent 방법: 후에 다시 다뤄보도록 하자)을 이용하여 구할 수 도 있다.
- Figure2. 선형회귀의 반복적인 업데이트
![](./image/img6.png)
이미지 출저:https://medium.com/mathpresso/mathpresso-%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EC%8A%A4%ED%84%B0%EB%94%94-4-%ED%9A%8C%EA%B7%80-%EB%B6%84%EC%84%9D-regression-1-6d6cc0aaa483

## Multiple Linear Regression
이번에는 독립변수가 여러개가 있다고 가정하자.

우리에게 다음과 같은 n개의 샘플이 주어졌다고 하자. 이 때, $x$는 독립변수 $y$는 종속변수이다.

$((x_{i1},x_{i2}, ... , x_{ik}), y_i), \quad i=1,2,...,n$

이 때 우리는 $y_i$를 추정하는 데 $\hat{y_i} = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_k x_{ik}$을 이용하려고 한다.

간단히 하기 위해 Notation을 

- $\mathbb{x}_{i} = [1,x_{i1},x_{i2}, ... ,x_{ik}]^T ,\quad i = 1,2, ... , n$
- $X = \begin{bmatrix} \mathbb{x_1} \\ \vdots \\  \mathbb{x_n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{1k} \\ & & \vdots \\ 1 & x_{n1} &  \cdots & x_{nk} \end{bmatrix}$
- $\mathbb{\beta} = [\beta_0, \beta_1, ... , \beta_k]^T$
- $\mathbb{\hat{y}} = [\hat{y_1}, ... ,\hat{y_n}]^T$
- $\mathbb{y} = [y_1, ... ,y_n]^T$

$ \Longrightarrow \quad \mathbb{\hat{y}} = X \mathbb{\hat{\beta}}, \quad i.e) \ \  \mathbb{\hat{y}}_{i} =  \sum_{j=1}^{k} \beta_j x_{ij}, \quad i=1,2,...,n$

이 때 MSE는 다음과 같다.

$$ MSE =\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$$ 

From $$ \frac{\partial MSE}{\partial \beta_i} = 0 , \quad i = 1,2, ... , k$$

$\beta$ 는 다음과 같이 결정 된다.

$$ X^T X \beta = X^T \mathbb{y}\quad \Longrightarrow \quad \beta = (X^T X)^{-1} X^T \mathbb{y} $$

- Figure3. 다중회귀의 반복적인 업데이트
![](./image/img7.png)
이미지 출저:https://medium.com/mathpresso/mathpresso-%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EC%8A%A4%ED%84%B0%EB%94%94-4-%ED%9A%8C%EA%B7%80-%EB%B6%84%EC%84%9D-regression-1-6d6cc0aaa483


릿지, 라쏘, 선형 분류 알고리즘(이건 SVM, 로지스틱 등으로 빼야하나?) 등

## Reference
- https://tensorflow.blog/2-%ED%85%90%EC%84%9C%ED%94%8C%EB%A1%9C%EC%9A%B0-%EC%84%A0%ED%98%95-%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D-first-contact-with-tensorflow/
- https://m.blog.naver.com/PostView.nhn?blogId=istech7&logNo=50152984368&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F
- Lecture note of Machine Learning lectured by Prof. 길이만

선형회귀분석+ 확률을 하면 좋을까 하지말까?

모델의 적합성을 판단하는 $R^2$를 해야하나?