# 다중선형 회귀 분석
두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 방법

- 종속변수

    - 독립변수의 특정한 값에 따른 그의 값을 예측하고자 하는 변수

- 독립변수

    - 종속 변수에 영향을 주고 그 변수의 값을 예측하려는 변수
    
- 식
  $$
      \hat{y}_i = a + b_{1}x_{1i} + b_{2}x_{2i} + \cdots{} + b_{k}x_{ki}
  $$
  
독립변수인 a와 b들을 구하는 것이 다중 선형 회귀 분석

## 추정의 표준오차
$$
    S_e = \sqrt{ \frac{\sum{e_t^2}}{ n - (k+1)} }
$$

k는 독립 변수의 개수로 단순 선형 회귀였을 때 2로 나누어진 이유는 k가 1이기 때문 

## 예제

$$
    \bar{x}_1 = 18.5 \\
    \bar{x}_2 - 10.33 \\
    \bar{y} = 27.67 \\
    x_{1i}^{*} = x_1 - \bar{x}_1 \\
    x_{2i}^{*} = x_2 - \bar{x}_2 \\
    y_{i}^{*} = y - \bar{y} \\
    \text{일 때, b와 a를 구하는 공식} \\
    %%b_i = frac{ a  }{ \sum{x_{1i}^{*^2}}\sum{x_{2i}^{*^2}} -    }
$$

In [1]:
from sklearn import linear_model
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
matplotlib.style.use('ggplot')

  return f(*args, **kwds)
  return f(*args, **kwds)


In [2]:
data = {'x1':[13, 18, 17, 20, 22, 21], 
        'x2':[9, 7, 17, 11, 8, 10], 
        'y':[20, 22, 30, 27, 35, 32]}
data = pd.DataFrame(data)
data

Unnamed: 0,x1,x2,y
0,13,9,20
1,18,7,22
2,17,17,30
3,20,11,27
4,22,8,35
5,21,10,32


In [3]:
X = data[['x1', 'x2']]
y = data['y']

In [7]:
linear_regression = linear_model.LinearRegression()
linear_regression.fit(X = pd.DataFrame(X), y = y)
prediction = linear_regression.predict(X = pd.DataFrame(X))
prediction

array([18.33980044, 24.81208426, 29.51496674, 30.39966741, 31.61419069,
       31.31929047])

In [18]:
linear_regression.predict(X = pd.DataFrame({'x1': [25], 'x2':[15]}))

array([40.62028825])

In [14]:
np.dot(linear_regression.coef_, np.array([25, 15])) + linear_regression.intercept_

40.62028824833703

In [5]:
print("a value = ", linear_regression.intercept_)

a value =  -7.359201773835938


In [6]:
print("b value = ", linear_regression.coef_)

b value =  [1.5443459  0.62472284]


In [8]:
SSE = ((y-prediction) ** 2).sum()
SSE

34.38414634146345

In [9]:
SST = ((y-y.mean()) ** 2).sum()
SST

169.33333333333331

In [10]:
R_squared = 1 - (SSE/SST)
R_squared

0.796944017668523

In [21]:
x_2i = (data['x2']-data['x2'].mean())
x_1i = (data['x1'] - data['x1'].mean())
y_i = (data['y'] - data['y'].mean())

In [23]:
b1 = ((x_2i**2).sum() * (x_1i *y_i).sum() - (x_1i * x_2i).sum() * (y_i * x_2i).sum() )\
/ ((x_1i**2).sum() * (x_2i**2).sum() - (x_1i*x_2i).sum()**2)
b1

1.5443458980044347

In [24]:
b2 = ((x_1i**2).sum() * (x_2i *y_i).sum() - (x_1i * x_2i).sum() * (y_i * x_1i).sum() )\
/ ((x_1i**2).sum() * (x_2i**2).sum() - (x_1i*x_2i).sum()**2)
b2

0.6247228381374723

In [25]:
a = data['y'].mean() - b1 * data['x1'].mean() - b2 * data['x2'].mean()
a

-7.3592017738359194

In [26]:
print("a value = ", linear_regression.intercept_)
print("b value = ", linear_regression.coef_)

print("a value = ", a)
print("b value = ", b1,"   ", b2)

a value =  -7.359201773835938
b value =  [1.5443459  0.62472284]
a value =  -7.3592017738359194
b value =  1.5443458980044347     0.6247228381374723


In [28]:
Se = ( ((data['y']-prediction)**2).sum() / (len(data)-(2 + 1)) ) **0.5
Se

3.385466306702985

In [30]:
r_square2 = ((prediction - data['y'].mean())**2).sum() /\
    ((data['y'] - data['y'].mean())**2).sum()

r_square2

0.796944017668524

데이터가 많고 독립변수 수가 적을 수록 좋다


## 결정계수

### 조정 결정 계수

$$
    \mathbf{R}^2_a = 1 - (1 - \mathbf{R}^2)
$$

#### 예제

$$
    \mathbf{r}^2 = 0.7967 \\
    k = 2, n = 6 \text{일 경우,}\\
    1 - ( (1-r^2) (\frac{6-1}{6-2-1})) = 0.6612  \\
    k= 3, n = 6 \text{일 경우,}\\
    1 - ( (1-r^2) (\frac{6-1}{6 - 3 - 1})) = 0.475
$$

위의 식으로 봤을 때 k(독립변수)가 적을 수록 조정 결정 계수가 크고, k가 클수록 조정 결정 계수가 작아진다