## 선형회귀 클래스 코딩 - OLS 해

In [1]:
import numpy as np
import pandas as pd

#### 1. 다음과 같은 데이터셋이 주어졌다.
<br>
study = 학습 시간을 배열의 형태로 제공한다. 설명변수 역할을 한다. <br>
score = 시험 점수를 배열의 형태로 제공한다. 반응변수 역할을 한다.

In [2]:
study = np.array([ 3, 4.5, 6, 1.2, 2, 6.9, 6.7, 5.5]).reshape(-1,1)
score = np.array([ 88, 85, 90, 80, 81, 92, 95, 90]).reshape(-1,1)

#### 2. 'LinearRegression' 클래스를 정의한다.

In [3]:
class LinearRegression:
    def __init__(self):
        return
        
    def train(self, input_X, input_Y):
        n = input_X.shape[0]                                      # 관측의 개수.
        k = input_X.shape[1]                                      # 설명 변수의 개수.
        ones_column = np.ones((n,1))                              # 1로 채워진 컬럼.
        X = np.concatenate((ones_column,input_X),axis=1)
        Y = input_Y.copy()

        # OLS를 적용한 회귀 계수 계산.
        self.beta = np.dot(np.linalg.inv(np.dot(X.T,X)),np.dot(X.T,Y))
        
        # 잔차.
        self.residuals = Y - np.dot(X,self.beta)
        
        # R^2.
        SSE = np.dot((self.residuals).T, self.residuals)
        SST = np.dot((Y - Y.mean()).T, (Y - Y.mean()))
        self.rsquared = 1.0 - SSE[0][0]/SST[0][0]
        
        # 회귀분석 결과를 요약해서 보여주는 summary.
        self.summary = pd.DataFrame(self.beta, columns = ['Coefficient'])
        features = ['Intercept']
        for i in range(1,k+1):
            features += ['X' + str(i)]
        self.summary.index = features
        return  
    
    def output(self):
        print(self.summary)
        print("-"*30)
        print("R^2 : %f" % self.rsquared)

#### 3. OLS 선형회귀 해를 적용해 본다.

In [4]:
LR = LinearRegression()                    # 선형회귀 객체 생성.
LR.train(study, score)                     # 학습.
LR.output()                                # 회귀분석 결과 출력.

           Coefficient
Intercept    77.684670
X1            2.221303
------------------------------
R^2 : 0.845842
