## 다항 변수에 대한 regression. 다항 회귀 분석

In [0]:
import numpy as np
from sklearn import datasets

iris = datasets.load_iris()

In [0]:
X = iris.data
Y = iris.target
Y = Y.reshape((-1, 1))

In [11]:
NUM = 100
Xtr = X[:NUM]
Ytr = Y[:NUM]
Xte = X[NUM:]
Yte = Y[NUM:]
print(Xtr.shape)
print(Xte.shape)

(100, 4)
(50, 4)


In [0]:
def rmse(arr1, arr2):
    return np.sqrt(np.mean((arr1-arr2)**2))

In [0]:

# 주어진 모델로 실행하고, 결과 성능 출력하기
from sklearn.metrics import mean_squared_error, r2_score

def exe_regression(model, Xtr, Ytr, Xte, Yte):
  model.fit(Xtr, Ytr)
  Y2 = model.predict(Xte)
  rmse_v = rmse(Yte, Y2)
  print("RMSE: %.4f" % (rmse_v))
  print("MSE: %.4f" % mean_squared_error(Yte, Y2))
  print('R2: %.4f' % r2_score(Yte, Y2))

In [0]:
"""
scikit-learn의 LinearRegression()을 직접 만들어 보기
"""
def my_regrssion_with_la(X, Y, debug=False):  
  # X.shape[0] - 행의 갯수
  rows = X.shape[0]
  X = X.reshape((rows, -1)) # 1차원벡터인 경우, 행열로 변환
  Y = Y.reshape((rows, -1)) # 1차원벡터인 경우, 행열로 변환
      
  xx = X.T.dot(X) # X*X  
  xx_inv = np.linalg.inv(xx)  # (X*X)^-1
  xy = X.T.dot(Y) # X*Y
  
  W = np.matmul(xx_inv, xy) # XY/XX
  W = W.reshape((-1))
  if debug: print(xx_inv, xy)
  return W


In [0]:
### 내 regression 클래스 만들기
class MyRegressWithLa(object):
  #def __init__(self):
  #  self.w =  None
    
  def fit(self, X, Y):
    rows = X.shape[0] # X.shape[0] - 행의 갯수
    X = X.reshape((rows, -1)) # 1차원벡터인 경우, 행열로 변환
    Y = Y.reshape((rows, -1)) # 1차원벡터인 경우, 행열로 변환
    
    # bias 에 해당하는 [1,1,1, ..,1] 칼럼을 X에 추가한다.
    Xb = np.append(X, np.ones((rows, 1)), axis=1)
    self.w = my_regrssion_with_la(Xb, Y)
    
  def predict(self, X):
    rows = X.shape[0] # X.shape[0] - 행의 갯수
    Xb = np.append(X, np.ones((rows, 1)), axis=1)
    pred = np.matmul(Xb, self.w)
    return pred

In [16]:
from sklearn.linear_model import LinearRegression

mymodel = MyRegressWithLa()
skmodel = LinearRegression()

print('=== My Regression')
exe_regression(mymodel, Xtr, Ytr, Xte, Yte)
print('W', mymodel.w)

print('=== scikit-learn Regression')
exe_regression(skmodel, Xtr, Ytr, Xte, Yte)
print('W', skmodel.coef_, skmodel.intercept_)

  

=== My Regression
RMSE: 0.6191
MSE: 0.3833
R2: 0.0000
W [-0.02848968 -0.16819751  0.20313089  0.28785017  0.36970342]
=== scikit-learn Regression
RMSE: 0.6191
MSE: 0.3833
R2: 0.0000
W [[-0.02848968 -0.16819751  0.20313089  0.28785017]] [0.36970342]
