### 선형 회귀분석의 기초
회귀분석(regression analysis)은 독립 변수 $x$ 와 이에 대응하는 종속 변수  y 간의 관계를 정량화하는 작업이다.
일반적으로 비선형 회귀분석은 구하기도 어렵고, 결과도 분석하기도 어려워서 일반적으로 선형 회귀분석을 이용한다.
회귀분석에는 결정론적 모형(Deterministic Model)과 확률적 모형(Probabilistic Model)이 있다. 여기에서는 결정론적 모형에 대해 설명한다. 결정론적 모형은 단순히 독립 변수  x 에 대해 대응하는 종속변수  $y$ 와 가장 비슷한 값  y^ 를 출력하는 함수  f(x) 를 찾는 과정이다.

$$\hat{y} = f \left( x \right) \approx y$$
 
만약 독립 변수  x 와 이에 대응하는 종속 변수  y 간의 관계가 다음과 같은 선형 함수  f(x) 이면 선형 회귀분석(linear regression analysis)이라고 한다.

$$\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_D x_D = w_0 + w^Tx$$
 
위 식에서  w0,⋯,wD 를 함수  f(x) 의 계수(coefficient)이자 이 선형 회귀모형의 모수(parameter)라고 한다.

#### 바이어스 오그멘테이션
상수항이 0이 아닌 회귀분석모형인 경우에는 수식을 간단하게 만들기 위해 다음과 같이 상수항을 독립변수에 추가한다. 이를 바이어스 오그멘테이션(bias augmentation)이라고 한다.

$$x_i =
\begin{bmatrix}
x_{i1} \\ x_{i2} \\ \vdots \\ x_{iD}
\end{bmatrix}
\rightarrow 
x_{i,a} =
\begin{bmatrix}
1 \\ x_{i1} \\ x_{i2} \\ \vdots \\ x_{iD}
\end{bmatrix}$$
 
오그멘테이션을 하게 되면 모든 원소가 1인 벡터가 입력 데이터 행렬에 추가된다.

X=⎡⎣⎢⎢⎢⎢x11x21⋮xN1x12x22⋮xN2⋯⋯⋮⋯x1Dx2D⋮xND⎤⎦⎥⎥⎥⎥→Xa=⎡⎣⎢⎢⎢⎢11⋮1x11x21⋮xN1x12x22⋮xN2⋯⋯⋮⋯x1Dx2D⋮xND⎤⎦⎥⎥⎥⎥
 
이렇게 되면 전체 수식이 다음과 같이 (바이어스 오그멘트된) 가중치 벡터와 (바이어스 오그멘트된) 입력 데이터 벡터의 내적으로 간단히 표시된다.

f(x)=w0+w1x1+w2x2+⋯+wDxD=[1x1x2⋯xD]⎡⎣⎢⎢⎢⎢⎢⎢⎢w0w1w2⋮wD⎤⎦⎥⎥⎥⎥⎥⎥⎥=xTawa=wTaxa
상수항이 0이 아닌 경우에는 항상 바이어스 오그멘테이션을 하기 때문에 특별히 벡터 기호를  xa  또는  wa 라고 표시하지 않아도 바이어스 오그멘테이션이 되어 있는 경우가 많다.

X벡터가 0벡터이면 Y벡터가 반드시 0벡터이다라는 자연법칙이 있는 것만 오그멘테이션을 하지 않는다.

In [1]:
from sklearn.datasets import make_regression

X0, y, coef = make_regression(n_samples=100, n_features=2,
                              bias=100, noise=10, coef=True, random_state=1)

In [2]:
X0[:5]

array([[ 0.0465673 ,  0.80186103],
       [-2.02220122,  0.31563495],
       [-0.38405435, -0.3224172 ],
       [-1.31228341,  0.35054598],
       [-0.88762896, -0.19183555]])

StatsModels에는 바이어스 오그멘테이션을 위한 add_constant 함수가 제공된다. 회귀분석에서 자동으로 바이어스 오그멘테이션을 해줄 수 있다.

In [8]:
X = sm.add_constant(X0)
X[:5]

array([[ 1.        ,  0.0465673 ,  0.80186103],
       [ 1.        , -2.02220122,  0.31563495],
       [ 1.        , -0.38405435, -0.3224172 ],
       [ 1.        , -1.31228341,  0.35054598],
       [ 1.        , -0.88762896, -0.19183555]])

In [None]:
predictions = model_boston.predict(boston.data)

plt.scatter(boston.target, predictions)
plt.xlabel(u"실제 집값")
plt.ylabel(u"집값 예측치")
plt.show()

In [None]:
scatter plot이 0을 지나는 직선이 되면 이 모델이 정확히 예측했다고 볼 수 있다

In [10]:
bias = 100
X0, y, coef = make_regression(n_samples=100, n_features=1, bias=bias, noise=10, coef=True, random_state=1)
X = sm.add_constant(X0)
y = y.reshape(len(y), 1)

In [11]:
w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), y)
w

array([[102.02701439],
       [ 81.59750943]])

In [12]:
x_new = np.linspace(np.min(X0), np.max(X0), 50)
X_new = sm.add_constant(x_new)
y_new = np.dot(X_new, w)

plt.scatter(X0, y, label="data")
plt.plot(x_new, y_new, 'r-', label="regression")
plt.legend()
plt.show()

In [13]:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

In [None]:
상수항이 없으면 fit_intercept=False로 설정한다.(True는 바이어스 항이 있음)

In [16]:
model = LinearRegression(fit_intercept=True)
model1 = model.fit(X0, y)
model1.coef_

array([[81.59750943]])

In [17]:
model1.intercept_

array([102.02701439])

RegressionResults 클래스 객체로 출력된다. result 객체에는 데이터와 결과를 모두 가지고 있는 훨씬 큰 규모이다.

In [None]:
sm.OLS(y, x)
y와 x에 dataframe과 배열을 다 넣어도 되지만 dataframe을 넣어야 변수명도 인식

In [None]:
const 가 intercept 36.5

In [None]:
std err 실제 값은 coef 의 +- 0.033 사이에 값이 있을 것이다.
t : t-statistics 귀무가설은 coef = 0이다(아무관련이 없다). 

In [None]:
y값 예측은 처음에 x값과 동일 한 형태(dataframe과 같은 변수개수 등)로 넣어야 한다.

이외에도 StatsModels 패키지는 회귀분석 결과를 살펴볼 수 있는 다양한 메서드와 도구를 제공한다. plot_regress_exog 명령은 StatsModels 패키지가 제공하는 분석용 함수의 한 예이다.

각변수와 y값의 관계를 그려볼 수 있지만 항상 coef와 부호가 동일 하게 나타나지 않는다. y값에 다른 변수들의 영향도 포함되어 있기 때문이다.  세로선은 예측치오차를 나타내는데 그 선 밖에 잇는 데이터는 outlier로 볼 수 있다. x값이 달라져도 잔차값에 영향이 없이 나타나야 데이터에서 상관관계를 다 제거하지 못해 잘 못 뽑아낸것 정보가 남아 있음. 최적의 w를 뽑아내지 못한것 이유1 모델이 잘못된 경우, 2차 함수와 같이 나올 수 있음 우리는 선형 모형을 썼기 때문에 비선형 관계는 남아 있음 -> 난 충분하다 ㅎ면 그냥 쓰고 다시 만들려면 비선형 모델, 다항회귀를 써야 한다. 
y와 x값에서 다른 변수들이 미치는 영향을 제거하고 그리면 coef와 동일한 상관관계를 나타내는 그래프를 볼 수 있다 