# 0. 선형 회귀분석의 기초
- 회귀분석(regression analysis)은 독립 변수  x 와 이에 대응하는 종속 변수  y 간의 관계를 정량화하는 작업이다.

- 회귀분석에는 결정론적 모형(Deterministic Model)과 확률적 모형(Probabilistic Model)이 있다. 여기에서는 결정론적 모형에 대해 설명한다. 결정론적 모형은 단순히 독립 변수  x 에 대해 대응하는 종속변수  y 와 가장 비슷한 값  ŷ  를 출력하는 함수  f(x) 를 찾는 과정이다.

ŷ =f(x)≈y
 
- 만약 독립 변수  x 와 이에 대응하는 종속 변수  y 간의 관계가 다음과 같은 선형 함수  f(x) 이면 선형 회귀분석(linear regression analysis)이라고 한다.

ŷ =w0+w1x1+w2x2+⋯+wDxD
 
- 위 식에서  w0,⋯,wD 를 함수  f(x) 의 계수(coefficient)이자 이 선형 회귀모형의 모수(parameter)라고 한다.

- OLS(Ordinary Least Squares)는 가장 기본적인 결정론적 선형 회귀 방법으로 잔차제곱합(RSS: Residual Sum of Squares)를 최소화하는 가중치 벡터를 행렬 미분으로 구하는 방법이다.

# 1. 회귀분석 모듈 소개

## Statsmodels 패키지를 사용한 선형회귀분석
### statsmodels 패키지에서는 OLS 클래스를 사용하여 선형회귀분석을 실시한다. 
### OLS 클래스 사용법은 다음과 같다.

#### 1. OLS 클래스 객체 생성. 이 때 Scikit-Learn 패키지와 달리 데이터를 미리 주어야 하며 자동으로 상수항을 만들어주지 않기 때문에 사용자가 add_constant 명령으로 상수항을 추가해야 한다. 또한 인수의 순서가 Scikit-Learn 패키지와 달리 출력 데이터를 먼저 넣어야 한다.



In [13]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
model = OLS(y, X)

NameError: name 'OLS' is not defined

- 상수항이 없으면 fit_intercept=False로 설정한다.

#### 2. fit 메서드로 모형 추정. Scikit-Learn 패키지와 달리 추정 결과는 별도의 RegressionResults 클래스 객체로 출력된다.

In [14]:
result = model.fit()

NameError: name 'model' is not defined

#### 3. RegressionResults 클래스 객체는 결과 리포트용 summary 메서드와 예측을 위한 prediction 메서드를 제공한다.

In [15]:
print(result.summary())

y_new = result.predict(x_new)

NameError: name 'result' is not defined

# 2. 데이터 준비
## 보스턴 주택 가격 데이터
### 1970년대 미국 보스턴의 주택 가격 데이터이다.
- conda install scikit-learn을 설치해야 함.
- load_boston() 명령으로 로드하며 다음과 같이 구성되어 있다.

    - 타겟 데이터(boston.target)
        1. 1978 보스턴 주택 가격(506개 타운의 주택 가격 중앙값 (단위 1,000 달러))
    - 특징 데이터(boston.data)
        1. CRIM: 범죄율
        2. INDUS: 비소매상업지역 면적 비율
        3. NOX: 일산화질소 농도
        4. RM: 주택당 방 수
        5. LSTAT: 인구 중 하위 계층 비율
        6. B: 인구 중 흑인 비율
        7. PTRATIO: 학생/교사 비율
        8. ZN: 25,000 평방피트를 초과 거주지역 비율
        9. CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0
        10. AGE: 1940년 이전에 건축된 주택의 비율
        11. RAD: 방사형 고속도로까지의 거리
        12. DIS: 직업센터의 거리
        13. TAX: 재산세율

In [None]:
from sklearn.datasets import load_boston
# 데이터 준비
boston = load_boston()
# 데이터(boston) 소개
print(boston.DESCR)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

# 폰트 문제 해결하기
import platform

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~') 

## StatsModels 모듈을 사용한 선형회귀분석

In [11]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [12]:
import pandas as pd
# 독립변수
X = pd.DataFrame(boston.data, columns = boston.feature_names)
# 종속변수
Y = pd.DataFrame(boston.target, columns = ["MEDV"]) # 1000 달러짜리 소유 주택의 중앙값(median)

# 데이터 횡으로 합치기(concat)
df = pd.concat([X, Y], axis=1)
df.tail()

NameError: name 'boston' is not defined

In [None]:
# 종속변수
X.head()

In [None]:
# 독립변수
Y.head()

In [None]:
# 데이터 준비
dfX0 = pd.DataFrame(boston.data, columns=boston.feature_names) # 독립변수
dfX = sm.add_constant(dfX0) # 자동으로 상수항을 만들어주지 않기 때문에 사용자가 add_constant 명령으로 상수항을 추가해야 한다.
dfy = pd.DataFrame(boston.target, columns=["MEDV"]) # 종속변수

In [None]:
# model_boston2라는 이름으로 OLS 모델 구조화
model_boston2 = sm.OLS(dfy, dfX) # (종속변수, 독립변수)

# OLS 회귀모형 피팅
result_boston2 = model_boston2.fit()

# 회귀분석 결과 요약
print(result_boston2.summary())

- 모델의 설명력(R-squared)
    - 즉, 결정계수가 0.22라면 Y의 변동 중 22%가 회귀모형에 의해 설명되고 나머지 78%는 모형에 포함되지 않는 다른 요인들로 설명됨
    - 단순 선형회귀에서는 상관계수r의 제곱과 정확히 일치함 r^2 = R^2
    - r=0.87 -> r^2=0.76 -> R^2 = 0.76 X와 Y의 상관관계가 높을 수록 모형에 의해 데이터가 많이 설명될 수 있다

In [10]:
dfy_new = result_boston2.predict(dfX)

plt.scatter(dfy, dfy_new)
plt.xlabel(u"실제 집값")
plt.ylabel(u"집값 예측치")
plt.show()

NameError: name 'result_boston2' is not defined

- 예측을 할 때는 입력 데이터가 추정모형과 동일한 형태가 되어야 한다. 예를 들어 다음과 같은 입력데이터를 생각해보자.

In [None]:
x_new = [4, 11, 11, 0.1, 0.6, 6, 70, 4, 10, 410, 20, 360, 13]

- 이 데이터는 원래 입력데이터의 평균값을 변형하여 만든 가상의 데이터이다.

In [8]:
dfX0.mean()

NameError: name 'dfX0' is not defined

- 다음과 같이 원래 데이터와 동일한 형태의 데이터프레임을 만들어야 한다. 
- 여기에서 데이터 행이 하나인 경우에는 add_constant에 has_constant="add" 인수를 추가해야 한다.

In [3]:
import numpy as np
dfx_new = sm.add_constant(pd.DataFrame(np.array(x_new)[:, np.newaxis].T, 
                                       columns=boston.feature_names), 
                          has_constant="add") # has_constant = "add"
dfx_new

NameError: name 'pd' is not defined

In [5]:
result_boston2.predict(dfx_new)

NameError: name 'result_boston2' is not defined

- RegressionResults 클래스는 분석 결과를 다양한 속성에 저장해주므로 추후 사용자가 선택하여 활용할 수 있다. 
- 자주 사용되는 속성으로는 다음과 같은 것들이 있다.
    1. resid: 잔차 벡터
    2. params: 모수 벡터

In [6]:
result_boston2.params

NameError: name 'result_boston2' is not defined

In [7]:
result_boston2.resid

NameError: name 'result_boston2' is not defined