In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import time
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sp
import statsmodels.api as sm # statsmodel 기본 import
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms 
import sklearn as sk
from patsy import dmatrix

  from pandas.core import datetools


##### 조건수

In [2]:
A = np.eye(4)

In [3]:
b = np.ones(4)
sp.linalg.solve(A,b)   #Ax = b 의 x 찾는 식

array([ 1.,  1.,  1.,  1.])

In [4]:
sp.linalg.solve(A + 0.0001 * np.eye(4), b) #A에 약간의 오차가 발생할 경우, x에도 오차가 발생

array([ 0.99990001,  0.99990001,  0.99990001,  0.99990001])

In [5]:
A = sp.linalg.hilbert(4)
A

array([[ 1.        ,  0.5       ,  0.33333333,  0.25      ],
       [ 0.5       ,  0.33333333,  0.25      ,  0.2       ],
       [ 0.33333333,  0.25      ,  0.2       ,  0.16666667],
       [ 0.25      ,  0.2       ,  0.16666667,  0.14285714]])

In [6]:
np.linalg.cond(A) #Ax=b일때의 조건수

15513.738738929662

In [7]:
sp.linalg.solve(A, b)  #조건수가 위에 보는것처럼 10000수준만 되도 기존의 x가 전혀 다른 행렬이 됨

array([  -4.,   60., -180.,  140.])

In [8]:
sp.linalg.solve(A + 0.0001 * np.eye(4), b)  
#앞서 구했던 x의 예측값도 전혀 다른 행렬이 된다. => cont'd가 커질경우 회귀모델의 성능이 매우 안좋아진다.

array([ -0.58897672,  21.1225671 , -85.75912499,  78.45650825])

##### 스케일링

In [9]:
#보스턴 집값 데이

from sklearn.datasets import load_boston
boston = load_boston()
dfX = pd.DataFrame(boston.data, columns = boston.feature_names)
dfy = pd.DataFrame(boston.target, columns=["MEDV"])
df = pd.concat([dfX, dfy], axis=1)

model1 = sm.OLS.from_formula("MEDV~"
                            "CRIM + ZN + INDUS + NOX + RM + AGE + "
                            "DIS + RAD + TAX + PTRATIO + B + LSTAT + CHAS",
                            data = df)
result1 = model1.fit()
print(result1.summary())

                            OLS Regression Results                            
Dep. Variable:                   MEDV   R-squared:                       0.741
Model:                            OLS   Adj. R-squared:                  0.734
Method:                 Least Squares   F-statistic:                     108.1
Date:                Tue, 20 Mar 2018   Prob (F-statistic):          6.95e-135
Time:                        20:43:59   Log-Likelihood:                -1498.8
No. Observations:                 506   AIC:                             3026.
Df Residuals:                     492   BIC:                             3085.
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     36.4911      5.104      7.149      0.0

In [None]:
#현재 상태에서 cont' d 매우 큰 것을 알 수 있음.
#이는 회귀분석의 성능을 좋지 않게 만드므로, 스케일링 진행

In [10]:
model2 = sm.OLS.from_formula("MEDV ~"
                            "scale(CRIM) + scale(ZN) + scale(INDUS) + scale(NOX) + scale(RM) + scale(AGE) +"
                            "scale(DIS) + scale(RAD) +  scale(TAX) + scale(PTRATIO) + scale(B) + scale(LSTAT) +"
                            "CHAS", data=df)
result2 = model2.fit()
print(result2.summary())

                            OLS Regression Results                            
Dep. Variable:                   MEDV   R-squared:                       0.741
Model:                            OLS   Adj. R-squared:                  0.734
Method:                 Least Squares   F-statistic:                     108.1
Date:                Tue, 20 Mar 2018   Prob (F-statistic):          6.95e-135
Time:                        20:47:05   Log-Likelihood:                -1498.8
No. Observations:                 506   AIC:                             3026.
Df Residuals:                     492   BIC:                             3085.
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept         22.3468      0.219    101.

In [None]:
# cond't no 확연하게 줄어든 것을 확인할 수 있음.

##### 변수 변환

In [None]:
# 독립변수와 종속변수의 관계가 비선형일 때, 이를 선형 관계로 '비슷한 그래프 형태'로 plotting할 수 있게 변수를 변환할 경우,
# 회귀 성능이 좋아지기도 함.


# 독립변수나 종속변수가 심하게 한쪽으로 치우친 분포를 보이는 경우
# 독립변수와 종속변수간 관계가 곱셈 혹은 나눗셈으로 연결된 경우
# 종속변수와 예측치(y-hat)가 비선형 관계를 보이는 경우

In [11]:
model3 = sm.OLS.from_formula("np.log(MEDV) ~ "
                            "scale(CRIM) + scale(ZN) + scale(INDUS) + scale(NOX) + scale(RM) + scale(AGE) +"
                            "scale(np.log(DIS)) + scale(RAD) + scale(TAX) +"
                            "scale(np.log(PTRATIO)) + scale(B) + scale(np.log(LSTAT)) + CHAS", data=df)
result3 = model3.fit()
print(result3.summary())

                            OLS Regression Results                            
Dep. Variable:           np.log(MEDV)   R-squared:                       0.806
Model:                            OLS   Adj. R-squared:                  0.801
Method:                 Least Squares   F-statistic:                     157.4
Date:                Tue, 20 Mar 2018   Prob (F-statistic):          8.61e-166
Time:                        20:51:20   Log-Likelihood:                 150.27
No. Observations:                 506   AIC:                            -272.5
Df Residuals:                     492   BIC:                            -213.4
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                             coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------
Intercept                  3