# TensorFlow의 Keras를 이용한 다중회귀
### 보스턴 집값 데이터
- 독립변수는 CRIM~LSTAT 12개 특성, 종속변수는 MEDV
    - CRIM: 지역별 범죄 발생률
    - ZN: 25,000평방피트를 초과하는 거주 지역의 비율
    - NDUS: 비상업 지역 넓이 비율
    - CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0)
    - NOX: 일산화질소 농도
    - RM: 거주할 수 있는 방 개수
    - AGE: 1940년 이전에 건축된 소유 주택의 비율
    - DIS: 5개 주요 고용센터까지의 가중 거리
    - RAD: 고속도로 접근 용이도
    - TAX: 10,000달러당 재산세율
    - PTRATIO: 지역의 교사와 학생 수 비율
    - B: 지역의 흑인 거주 비율
    - LSTAT: 하위 계층의 비율
    - MEDV: 본인 소유의 주택 가격(중앙값)

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras import optimizers
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error , r2_score

# load_boston 데이터셋 로드
boston = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv")

# 입력 데이터와 타겟 데이터 설정
X = boston.iloc[:, :-1].values
y = boston.iloc[:, -1].values

# 데이터 전처리
scaler = StandardScaler()
X = scaler.fit_transform(X)
y = scaler.fit_transform(y.reshape(-1,1))

# train/test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
boston[:5]

## Scikit-learn의 LinearRegression을 이용

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error , r2_score

# train/test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear Regression OLS로 학습/예측/평가 수행. 
lr = LinearRegression()
lr.fit(X_train ,y_train )
y_preds = lr.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)

print('MSE : {0:.3f} , RMSE : {1:.3F}'.format(mse , rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

In [None]:
#추정된 회귀계수
print(lr.coef_)
print(lr.intercept_)

## TensorFlow의 Keras를 이용
- 아래의 예는 다중회귀
- 다항회귀의 예는 링크 [참조](https://medium.com/analytics-vidhya/polynomial-regression-with-keras-ef1797b39b88)

In [None]:
# 데이터 전처리
scaler = StandardScaler()
X = scaler.fit_transform(X)
y = scaler.fit_transform(y.reshape(-1,1))

# train/test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Sequential 모델 구성
model = Sequential()
model.add(Dense(1, input_dim=13, activation='linear', kernel_regularizer='l2'))

# 모델 컴파일
opt = optimizers.SGD(learning_rate=0.005)
model.compile(loss='mean_squared_error', optimizer=opt, metrics=['mse'])

# 모델 학습
history = model.fit(X_train, y_train, epochs=200, batch_size=20, verbose=0)

# 모델 평가
mse,_ = model.evaluate(X_test, y_test, verbose=0)

y_preds = model.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)

print('MSE : {0:.3f} , RMSE : {1:.3F}'.format(mse , rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

model.summary()

In [None]:
import matplotlib.pyplot as plt

# 학습 손실 값과 검증 손실 값을 플롯팅 합니다.
plt.plot(history.history['loss'])
plt.title('Model loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend(['Train', 'Test'], loc='upper left')
plt.show()

In [None]:
# 추정된 회귀계수
weights = model.layers[0].get_weights()
weights

In [None]:
# colab에 기본적으로 kera-visualizer가 설치되어 않음.
!pip3 install keras-visualizer

In [None]:
from keras_visualizer import visualizer 

visualizer(model, file_name='graph', file_format='png', view=True, settings=None)

In [None]:
# 생성된 png이미지를 조회하려면 현재 경로를 우선 파악
!pwd

#좌측 폴더구조에서 png 파일을 찾아서 double-click