In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import time
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

from haversine import haversine

sns.set()
sns.set_style("whitegrid")
sns.set_color_codes()

%matplotlib inline
%config InlineBackend.figure_formats = {'png', 'retina'}

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

import platform
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)

import scipy as sp
import statsmodels.api as sm # statsmodel 기본 import
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms 
import sklearn as sk
from patsy import dmatrix

import warnings
warnings.filterwarnings("ignore")

  from pandas.core import datetools


### R스타일 모형 정의

##### patsy패키지소개

- 회귀분석 전처리를 위한 패키지 ->  데이터프레임을 가공/인코딩/변환
- dmatrix 명령 -> 실험설계 행렬 생성

In [2]:
from patsy import dmatrix

In [3]:
np.random.seed(0)
x1 = np.random.rand(5) + 10
x2 = np.random.rand(5) * 10
y = x1 + 2 * x2 + np.random.randn(5)
df1 = pd.DataFrame(x1, columns=["x1"])
df2 = pd.DataFrame(np.array([x1, x2]).T, columns=["x1", "x2"])
df = pd.DataFrame(np.array([x1, x2, y]).T, columns=["x1", "x2", "y"])

In [4]:
df1

Unnamed: 0,x1
0,10.548814
1,10.715189
2,10.602763
3,10.544883
4,10.423655


In [5]:
df2

Unnamed: 0,x1,x2
0,10.548814,6.458941
1,10.715189,4.375872
2,10.602763,8.91773
3,10.544883,9.636628
4,10.423655,3.834415


In [6]:
dmatrix("x1")

DesignMatrix with shape (5, 2)
  Intercept        x1
          1  10.54881
          1  10.71519
          1  10.60276
          1  10.54488
          1  10.42365
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)

In [7]:
dmatrix("x1", df1)

DesignMatrix with shape (5, 2)
  Intercept        x1
          1  10.54881
          1  10.71519
          1  10.60276
          1  10.54488
          1  10.42365
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)

In [8]:
dmatrix("x1", df2)

DesignMatrix with shape (5, 2)
  Intercept        x1
          1  10.54881
          1  10.71519
          1  10.60276
          1  10.54488
          1  10.42365
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)

##### R-style formula 연산자

In [9]:
dmatrix("x1 - 1")

DesignMatrix with shape (5, 1)
        x1
  10.54881
  10.71519
  10.60276
  10.54488
  10.42365
  Terms:
    'x1' (column 0)

In [10]:
dmatrix("x1 + 0")

DesignMatrix with shape (5, 1)
        x1
  10.54881
  10.71519
  10.60276
  10.54488
  10.42365
  Terms:
    'x1' (column 0)

In [11]:
dmatrix("x1 + x2")
# 이 열에   x1 데이터, x2데이터, 상수항을 다 넣으셈

DesignMatrix with shape (5, 3)
  Intercept        x1       x2
          1  10.54881  6.45894
          1  10.71519  4.37587
          1  10.60276  8.91773
          1  10.54488  9.63663
          1  10.42365  3.83442
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'x2' (column 2)

In [12]:
dmatrix("x1 + x2 - 1")
# 상수항 (Intercept) 은 빼삼.

DesignMatrix with shape (5, 2)
        x1       x2
  10.54881  6.45894
  10.71519  4.37587
  10.60276  8.91773
  10.54488  9.63663
  10.42365  3.83442
  Terms:
    'x1' (column 0)
    'x2' (column 1)

In [13]:
dmatrix("x1 + x2 + x1:x2 - 1")
# 두 데이터의곱을 함께 표시할 때
# 언제 사용? - x1, x2의 교집합을 구할때 (복합작용)

DesignMatrix with shape (5, 3)
        x1       x2      x1:x2
  10.54881  6.45894   68.13417
  10.71519  4.37587   46.88830
  10.60276  8.91773   94.55258
  10.54488  9.63663  101.61711
  10.42365  3.83442   39.96862
  Terms:
    'x1' (column 0)
    'x2' (column 1)
    'x1:x2' (column 2)

In [14]:
dmatrix("x1 * x2 - 1")
# 위처럼 x1, x2, x1:x2를 모두 넣으라 = x1 * x2 로 나타낼 수 있다.

DesignMatrix with shape (5, 3)
        x1       x2      x1:x2
  10.54881  6.45894   68.13417
  10.71519  4.37587   46.88830
  10.60276  8.91773   94.55258
  10.54488  9.63663  101.61711
  10.42365  3.83442   39.96862
  Terms:
    'x1' (column 0)
    'x2' (column 1)
    'x1:x2' (column 2)

In [15]:
dmatrix("x1 / x2 - 1")
# x1, x1:x2 는 넣고, x2는 뺄때 : x2 가 '촉매'일때
# 촉매 : 그 자신만 들어갔을때는 아무 역할이 없으나, 다른 데이터와 함께 들어가면 영향력이 있을 때.

DesignMatrix with shape (5, 2)
        x1      x1:x2
  10.54881   68.13417
  10.71519   46.88830
  10.60276   94.55258
  10.54488  101.61711
  10.42365   39.96862
  Terms:
    'x1' (column 0)
    'x1:x2' (column 1)

##### 변환

- numpy함수, patsy전용 함수 사용 가능
- jupyter notebook 안에서 새로 정의한 함수도 쓸 수 있음

In [16]:
dmatrix("x1 + np.log(np.abs(x2))")

DesignMatrix with shape (5, 3)
  Intercept        x1  np.log(np.abs(x2))
          1  10.54881             1.86547
          1  10.71519             1.47611
          1  10.60276             2.18804
          1  10.54488             2.26557
          1  10.42365             1.34402
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'np.log(np.abs(x2))' (column 2)

##### 변수보호

-  I() 연산자 안에 넣으면 진짜로 수치적 연산을 수행

In [17]:
dmatrix("I(x1 + x2)")

DesignMatrix with shape (5, 2)
  Intercept  I(x1 + x2)
          1    17.00775
          1    15.09106
          1    19.52049
          1    20.18151
          1    14.25807
  Terms:
    'Intercept' (column 0)
    'I(x1 + x2)' (column 1)

In [18]:
dmatrix("x1 + x2")
# I() 넣어야 위처럼 수치적 연산을 수행

DesignMatrix with shape (5, 3)
  Intercept        x1       x2
          1  10.54881  6.45894
          1  10.71519  4.37587
          1  10.60276  8.91773
          1  10.54488  9.63663
          1  10.42365  3.83442
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'x2' (column 2)

##### 다항선형회귀
- 뭔말인지 잘 모르겟는데,, 나중에 다항선형회귀 다시 한다고 함.

##### 카테고리 변수 인코딩
- One-Hot-Encoding수행

In [19]:
df3 = pd.DataFrame(["A", "B", "A", "C"], columns=["x3"])
df3

Unnamed: 0,x3
0,A
1,B
2,A
3,C


In [20]:
dmatrix("x3 - 1", df3)
# 주의 : 카테고리가 들어갈 경우에는 상수항이 있으면 안됨

DesignMatrix with shape (4, 3)
  x3[A]  x3[B]  x3[C]
      1      0      0
      0      1      0
      1      0      0
      0      0      1
  Terms:
    'x3' (columns 0:3)

In [21]:
df4 = pd.DataFrame([1, 1, 4, 2], columns=["x4"])
dmatrix("C(x4) + 0", df4)

# 카테고리값이 정수일 때 : C()으로 카테고리값임을 지정한다 (예: 1반, 2반, 4반..)

DesignMatrix with shape (4, 3)
  C(x4)[1]  C(x4)[2]  C(x4)[4]
         1         0         0
         1         0         0
         0         0         1
         0         1         0
  Terms:
    'C(x4)' (columns 0:3)

##### OLS.from_formula 매서드

- OLS를 쓸때, 사용자가 직접 데이터 행렬을 정의하지 않고, \n 
  문자열 (열이름))만으로 선형회귀모형을 만든다

In [22]:
# 직접 데이터 행렬을 만드는 경우
dfy = df.iloc[:, -1]
dfX = sm.add_constant(df.iloc[:, :-1])
model1 = sm.OLS(dfy, dfX)

# 모형 정의 문자열을 사용하는 경우
model2 = sm.OLS.from_formula("y ~ x1 + x2", data=df)
# x1, x2에 column_label을 넣는다 (여러개일경우 : x1 + x2 + x3 + x4..)
# x1, x2가 너무 많을 경우에는 join함수 등을 사용해서 넣는다

In [23]:
print(model1.fit().summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.998
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                     406.1
Date:                Sat, 10 Mar 2018   Prob (F-statistic):            0.00246
Time:                        04:10:50   Log-Likelihood:                0.41801
No. Observations:                   5   AIC:                             5.164
Df Residuals:                       2   BIC:                             3.992
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -41.9480     17.631     -2.379      0.1