# [선형회귀모델 실습 2: 예측 및 평가]

## 1. 모듈 불러오기

In [None]:
from IPython.display import display, HTML

# 데이터 전처리 패키지
import numpy as np
import pandas as pd

# 기계학습 모델 구축 및 성능 평가 패키지
import statsmodels.api as sm
import statsmodels.formula.api as smf
import scipy as sp
import scipy.stats as stats
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.model_selection import train_test_split

# 데이터 시각화 패키지
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

## 2. 데이터 불러오기: California Housing Data
#### 데이터 구조  
- 데이터: 1990년 캘리포니아의 각 행정 구역 내 주택 가격  
- 관측치 개수: 20640개
- 변수 개수: 설명변수 8개 / 반응변수 1개

#### 설명 변수(예측값을 설명할 수 있는 변수)      
- MedInc : 행정 구역 내 소득의 중앙값
- HouseAge : 행정 구역 내 주택 연식의 중앙값
- AveRooms : 평균 방 갯수
- AveBedrms : 평균 침실 갯수
- Population : 행정 구역 내 인구 수
- AveOccup : 평균 자가 비율
- Latitude : 해당 행정 구역의 위도
- Longitude : 해당 행정 구역의 경도 

#### 반응 변수(예측하고자 하는 값)
- House Value: 주택가격

In [None]:
california = fetch_california_housing()
print(california.DESCR)

In [None]:
X = pd.DataFrame(california.data, columns=california.feature_names)
y = pd.DataFrame(california.target, columns=['House Value'])

## 3. 데이터 전처리

In [None]:
X.head()

In [None]:
y.head()

In [None]:
data = pd.concat([X, y], axis=1)

In [None]:
data.head()

### 모델을 학습(train) 및 테스트(test) 데이터로 분리
<br>

![alt text](Figures/Train_Test.png"")
<br>

In [None]:
train_data, test_data = train_test_split(data, test_size=0.3, random_state=20190625)

In [None]:
train_data.head()

In [None]:
train_data.shape

In [None]:
test_data.head()

In [None]:
test_data.shape

## 4. 모델링
 - OLS: 가장 기본적인 결정론적 선형 회귀 방법으로 잔차제곱합(RSS: Residual Sum of Squares)를 최소화하는 가중치(β1, β2 ...) 구하는 방법
 - 모델 선언: model = sm.OLS(Y데이터, X데이터)   
 - 모델 학습: model_trained = model.fit()

In [None]:
lm = sm.OLS(train_data['House Value'], train_data.drop(['House Value'], axis=1))

In [None]:
lm_trained = lm.fit()

## 5. 모델 해석

In [None]:
display(lm_trained.summary())

## 6. 예측 값 도출 및 예측 성능 평가

### 학습 데이터 (Training Data)에 대한 (1) 예측 및 (2) 성능 평가

In [None]:
train_data

In [None]:
train_pred = lm_trained.predict(train_data.drop(['House Value'], axis=1))

In [None]:
train_pred

In [None]:
plt.figure(figsize=(6, 6))
plt.title('실제값 vs. 예측값')
plt.scatter(train_data['House Value'], train_pred)
plt.xlabel('실제값', size=16)
plt.ylabel('예측값', size=16)
plt.xlim(-2, 8)
plt.ylim(-2, 8)
plt.show()

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true-y_pred)/y_true))*100

In [None]:
print('Training MSE: {:.3f}'.format(mean_squared_error(train_data['House Value'], train_pred)))
print('Training RMSE: {:.3f}'.format(np.sqrt(mean_squared_error(train_data['House Value'], train_pred))))
print('Training MAE: {:.3f}'.format(mean_absolute_error(train_data['House Value'], train_pred)))
print('Training MAPE: {:.3f}'.format(mean_absolute_percentage_error(train_data['House Value'], train_pred)))

### 테스트 데이터 (Testing Data)에 대한 예측 성능 평가

In [None]:
test_data

In [None]:
test_pred = lm_trained.predict(test_data.drop(['House Value'], axis=1))

In [None]:
display(test_pred)

In [None]:
plt.figure(figsize=(6, 6))
plt.title('실제값 vs. 예측값')
plt.scatter(test_data['House Value'], test_pred)
plt.xlabel('실제값', size=16)
plt.ylabel('예측값', size=16)
plt.xlim(-2, 8)
plt.ylim(-2, 8)
plt.show()

print('Testing MSE: {:.3f}'.format(mean_squared_error(test_data['House Value'], test_pred)))
print('Testing RMSE: {:.3f}'.format(np.sqrt(mean_squared_error(test_data['House Value'], test_pred))))
print('Testing MAE: {:.3f}'.format(mean_absolute_error(test_data['House Value'], test_pred)))
print('Testing MAPE: {:.3f}'.format(mean_absolute_percentage_error(test_data['House Value'], test_pred)))