# 선형회귀(Linear Regression)


In [None]:
# 보스턴 집값 예측
from sklearn.datasets import load_boston

boston = load_boston()

In [None]:
boston.keys()

In [None]:
boston.data

In [None]:
boston.feature_names

### 독립변수
- CRIM : 범죄율
- INDUS : 비소매상업지역 면적비율
- NOX : 일산화질수 농도
- RM : 주택당 방 수
- LSTAT : 하위 계층 비율
- B : 흑인 비율
- PTRATIO : 학생과 선생님 비율
- ZN : 25,000평방 피트를 초과 거주지역 비율
- CHAS : 찰스강의 경계에 위치하면 1 아니면 0
- AGE : 1940년 이전에 건축된 주택의 비율
- RAD : 방사형 고속도로까지의 거리
- DIS : 직업센터의 거리
- TAX : 재산세율
### 종속변수
- 보스턴 506개 타운의 1978년 주택 가격 중앙값(단위 1,000달러)

In [None]:
!pip install koreanize-matplotlib
import koreanize_matplotlib

In [None]:
import pandas as pd
dfX = pd.DataFrame(boston.data, columns=boston.feature_names)
dfy = pd.DataFrame(boston.target, columns =['MEDV'])

In [None]:
df = pd.concat([dfX,dfy], axis=1)
df.head()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(df[['MEDV','RM','AGE','CHAS']])
plt.show()

In [None]:
# 당뇨병 진행도 예측
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target
df.tail()

In [None]:
sns.pairplot(df[['target','bmi','bp','s1']])
plt.plot()

In [None]:
# 가상 데이터 예측
from sklearn.datasets import make_regression
X, y, w = make_regression(n_samples=50, n_features=1, bias=100, noise=10, coef=True, random_state=0)
# X

y = xw+b+e

In [None]:
import numpy as np
xx = np.linspace(-3, 3, 100)
y0 = w * xx + 100

In [None]:
plt.plot(xx, y0,'r')
plt.scatter(X, y, s=100)
plt.title('l-regression')
plt.show()

## 선형회귀분석 기초
$$\hat{y} = f(x)$$
$$\hat{y} = w_0 + w_1x_1 + w_2x_2 + \cdots + w_Dx_D$$
$$= w_0+w^Tx$$

### 최소자승법(OLS)
y와 $\hat{y}$이 가까워 지려면 OLS(Oridnary Least Squares) 방법을 통해 RSS(Residual Sum of Squares)를 최소화시키는 것과 같다.

$$\hat{y} = Xw$$   
$$ϵ=y-\hat{y} =y - Xw$$   
$$RSS = ϵ^Tϵ=(y - Xw)^T(y - Xw)$$   
$$ = y^T-2y^TXw + w^TX^TXw$$

w로 미분하여 잔차제곱합의 그레디언트 벡터를 구합니다.   
잔차가 최소가 되기 위해서는 그레디언트 벡터가 0이어야 합니다.   
$$\frac{dRSS}{dw} = 0$$   
$$\frac{dRSS}{dw} = -2X^Ty + 2X^TXw$$   
$$X^Ty = X^TXw$$   
$$w=(X^TX)^{-1}X^Ty$$



### 직교 방정식
그레디언트 벡터가 0벡터가 되는 관계를 직교방정식
$$X^Ty - X^TXw = 0$$
$$X^T(y-Xw) = 0$$
$$X^Te = 0$$

- 직교 방정식의 성질
      잔차 벡터의 원소의 합은 0
$$\Sigma_{i=0}^Ne_i=0$$

      x 데이터의 평균값에 대한 예측값은 y 데이터의 평균값이다.


In [None]:
from sklearn.datasets import make_regression
import statsmodels.api as sm

bias = 100
X0, y, w = make_regression(
    n_samples=200, n_features=1, bias=bias, noise=10, coef=True, random_state=1
)
X = sm.add_constant(X0)
y = y.reshape(len(y),1)

In [None]:
w

In [None]:
# OLS 해 구하기
w = np.linalg.inv(X.T @ X) @ X.T@y
w

In [None]:
x_new = np.linspace(np.min(X0), np.max(X0), 10)
X_new = sm.add_constant(x_new)
y_new = np.dot(X_new, w)

plt.scatter(X0, y, label='기존데이터')
plt.plot(x_new, y_new, 'rs-', label='예측값')
plt.title('선형 회귀분석')
plt.legend()
plt.grid()
plt.show()

#### sklearn을 활용

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression().fit(X0,y)
print(model.intercept_, model.coef_)

In [None]:
model.predict([[-2],[-1],[0],[1],[2]])

#### statsmodel을 활용

In [None]:
df = pd.DataFrame({'x':X0[:,0], 'y':y[:,0]})
df

In [None]:
dfy = df[['y']]
dfX = sm.add_constant(df[['x']])
model = sm.OLS(dfy, dfX)
result = model.fit()

In [None]:
model = sm.OLS.from_formula("y ~ x",data=df)
result = model.fit()

In [None]:
result.predict({'x':[1000,2000]})

In [None]:
result.params

In [None]:
result.resid.plot(style='o')
plt.grid()
plt.title('잔차벡터')
plt.show()

In [None]:
result.resid.sum()

In [None]:
result.predict({'x':X0.mean()})

In [None]:
y.mean()

#### 보스턴 집값 예측


In [None]:
dfX0 = pd.DataFrame(boston.data, columns=boston.feature_names)
dfy = pd.DataFrame(boston.target, columns=['MEDV'])
dfX = sm.add_constant(dfX0)

model_boston2 = sm.OLS(dfy, dfX)
result_boston2 = model_boston2.fit()
print(result_boston2.summary())

In [None]:
A = np.eye(4)
np.linalg.cond(A)

In [None]:
b = np.ones(4)
x = np.linalg.solve(A,b)

In [None]:
x

In [None]:
x_error = np.linalg.solve(A + 0.0001 * np.eye(4), b)

In [None]:
x_error

In [None]:
import scipy as sp
A = sp.linalg.hilbert(4)
A

In [None]:
np.linalg.cond(A)

In [None]:
sp.linalg.solve(A,b)

In [None]:
sp.linalg.solve(A + 0.0001*np.eye(4), b)

In [None]:
dfX.describe().loc['std']

In [None]:
dfX2 = dfX.copy()
dfX2['TAX'] *= 1e13
df = pd.concat([dfX2, dfy], axis=1)
model2 = sm.OLS.from_formula('MEDV ~ ' + '+'.join(boston.feature_names),data=df)
result2 = model2.fit()
print(result2.summary())

In [None]:
feature_names = list(boston.feature_names)
feature_names.remove('CHAS')
feature_names = [f'scale({name})' for name in feature_names] + ['CHAS']
model3 = sm.OLS.from_formula('MEDV ~ ' + "+".join(feature_names),data= df)

In [None]:
feature_names

In [None]:
result3 = model3.fit()
print(result3.summary())

## 범주형 독립변수
D개의 독립변수를 가지는 선형회귀모델
$$\hat{Y} = w_0 + w_1x_1 + ⋯ + w_Dx_D$$

$$\hat{Y} = w_{A,0} + w_{A,1}x_2 + ⋯ + w_{A, D}x_D$$ 
$$\hat{Y} = w_{B,0} + w_{B,1}x_2 + ⋯ + w_{B, D}x_D$$ 

- 더미 변수 방법   
  - 풀랭크 방식
$$w_1x_1 = w_{1A}d_{1A}+w_{1B}d_{1B}$$   
$$\hat{Y} = w_0 + w_{1A}d_{1A}+w_{1B}d_{1B} + ⋯ + w_Dx_D$$


$x1 = A : d_{1A} = 1, d_{1B}=0$   
$x1 = B : d_{1A} = 0, d_{1B}=1$

$$x_1 = A : \hat{Y} = w_0 + w_{1A} + w_2x_2 + ⋯ + w_Dx_D$$
$$x_1 = B : \hat{Y} = w_0 + w_{1B} + w_2x_2 + ⋯ + w_Dx_D$$

In [None]:
import datetime
from calendar import isleap

def convert_partial_year(number):
  # 날짜 계산
  year = int(number)
  d = datetime.timedelta(days=(number - year) * (365 + isleap(year)))
  day_one = datetime.datetime(year, 1, 1)
  date = d + day_one
  return date

df_nottem = sm.datasets.get_rdataset('nottem').data

In [None]:
df_nottem.info()

In [None]:
df_nottem['date0'] = df_nottem[['time']].applymap(convert_partial_year)
df_nottem['date'] = pd.DatetimeIndex(df_nottem['date0']).round('60min') + datetime.timedelta(seconds=3600*24)
df_nottem['month'] = df_nottem['date'].dt.strftime('%m').astype('category')
del df_nottem['date0'], df_nottem['date']
df_nottem.head()

In [None]:
df_nottem.info()

In [None]:
# x : 월 (12개)
# 종속변수 (y) : 월 평균기온
model = sm.OLS.from_formula('value ~ C(month) + 0', data=df_nottem)
result = model.fit()
print(result.summary())

In [None]:
from sklearn.datasets import load_boston
boston = load_boston()

dfX = pd.DataFrame(boston.data, columns = boston.feature_names)
dfy = pd.DataFrame(boston.target, columns=['MEDV'])
df_boston = pd.concat([dfX,dfy], axis=1)

model1 = sm.OLS.from_formula('MEDV ~ '+ '+'.join(boston.feature_names), data=df_boston)
result1 = model1.fit()
print(result1.summary())

In [None]:
feature_names = list(boston.feature_names)
feature_names.remove('CHAS')
feature_names = [name for name in feature_names] + ['C(CHAS)']
model2 = sm.OLS.from_formula('MEDV ~ 0 + '+'+'.join(feature_names),data=df_boston)
result2 = model2.fit()
print(result2.summary())