# 선형회귀모델 실습 1: 모델링 및 해석

## 1. 모듈 불러오기

In [None]:
from IPython.display import display, HTML
import numpy as np
import pandas as pd
import scipy as sp
import scipy.stats as stats

import statsmodels.api as sm
from statsmodels.formula.api import ols

import pylab

from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

plt.rc('font', family='Malgun Gothic')

## 2. 데이터 불러오기: Boston Housing Data

In [None]:
boston = load_boston()
print(boston.DESCR)

## 3. 데이터 전처리

$\mathbf{X}$: 설명변수/입력변수 <br>
$\mathbf{y}$: 반응변수/출력변수

In [None]:
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = pd.DataFrame(boston.target, columns=['MEDV'])

In [None]:
X.head()

In [None]:
y.head()

In [None]:
data = pd.concat([X, y], axis=1)

In [None]:
data.head()

## 4. 탐색적 데이터 분석

### sns.pairplot을 이용하여 설명변수의 분포(히스토그램) 및 설명변수들 간의 관계(산점도)를 그리고, 특성을 파악

In [None]:
sns.pairplot(data)
plt.show()

### 일부 변수만 선택하여 확인

In [None]:
sns.pairplot(data[['MEDV', 'AGE', 'TAX', 'RM']])
plt.show()

### 설명변수 간 상관계수(correlation) 확인

In [None]:
plt.figure(figsize=(10, 9))
sns.heatmap(data.corr(), cmap=sns.color_palette("coolwarm", 10), annot=data.corr())

## 5. 모델링

### statsmodels의 OLS를 사용하여 선형회귀분석 시행 (OLS: Ordinary Least Squares)

In [None]:
lm = sm.OLS(data['MEDV'], data.drop(['MEDV'], axis=1))

In [None]:
lm_trained = lm.fit()

## 6. 모델 해석

In [None]:
display(lm_trained.summary())

### 분산분석 (ANOVA: Analysis of Variance) 시행

In [None]:
lm2 = ols('MEDV ~ CRIM + ZN + INDUS + CHAS + NOX + RM + AGE + DIS + RAD + TAX + PTRATIO + B + LSTAT - 1', data=data)
lm2_trained = lm2.fit()

In [None]:
lm2_trained.summary()

In [None]:
sm.stats.anova_lm(lm2_trained)

## 7. 실제값 vs. 모델 출력 값 비교


### 실제값 - 모델 출력 값 산점도를 통한 비교

In [None]:
plt.figure(figsize=(6, 6))
plt.title('실제값 vs. 모델 출력 값')
plt.scatter(y, lm_trained.fittedvalues)
plt.xlabel('실제값', size=16)
plt.ylabel('모델 출력 값', size=16)
plt.xlim(-5, 55)
plt.ylim(-5, 55)
plt.show()

### 모델 출력 값 평가를 위한 지표들

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true-y_pred)/y_true))*100

### <center> Mean Squared Error (평균 제곱 오차): $\frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y}_{i})^{2}$

In [None]:
print(mean_squared_error(y, lm_trained.fittedvalues))

### <center> Root Mean Squared Error (제곱근 평균 제곱 오차): $\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y}_{i})^{2}}$

In [None]:
print(np.sqrt(mean_squared_error(y, lm_trained.fittedvalues)))

### <center>Mean Absolute Error (평균 절대 오차): $\frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y}_{i}|$



In [None]:
print(mean_absolute_error(y, lm_trained.fittedvalues))

### <center> Mean Absolute Percentage Error (평균 절대 백분율 오차): $\frac{1}{n}\sum_{i=1}^{n} \left|\frac{y_{i} - \hat{y}_{i}}{y_{i}} \right| \times 100\%$

In [None]:
print(mean_absolute_percentage_error(y, lm_trained.fittedvalues))

### <center> Correlation Coefficient (상관계수)

In [None]:
print(np.corrcoef(data['MEDV'].values.flatten(), lm_trained.fittedvalues))