# 과제 1

## Matrix 구현
1. Linear Regression에서 쓰이는 **정규방정식**을 행렬로 구현하고, sklearn 혹은 OLS 패키지를 통해 구한 **실제 값과 비교**해주세요.
2. LSE에서 쓰이는 Loss Function, **MSE**를 행렬로 구현해 출력해주세요.

### Data Load

In [None]:
#구글 드라이브와 mount(연결)
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
data = pd.read_csv("/content/drive/MyDrive/Tobigs/week_2 Optimization, Regression/Regression/과제/assignment1.csv")

In [None]:
data.head()

Unnamed: 0,y,x1,x2,x3,x4,x5
0,10,38.9,64.7,4,868,59.7
1,13,41.6,45.3,-4,957,61.4
2,11,39.7,74.1,8,786,61.0
3,7,37.3,48.0,19,984,67.5
4,10,39.5,51.9,6,700,57.2


In [None]:
data.shape     # y:(9,1), X:(9,5)

(9, 6)

In [None]:
X = data.drop(["y"], axis=1)
y = data.y

In [None]:
# Matrix 계산을 위해 X와 y를 numpy 형태로 바꾸어줍니다.
X = X.to_numpy()
y = y.to_numpy()

In [None]:
X

array([[  38.9,   64.7,    4. ,  868. ,   59.7],
       [  41.6,   45.3,   -4. ,  957. ,   61.4],
       [  39.7,   74.1,    8. ,  786. ,   61. ],
       [  37.3,   48. ,   19. ,  984. ,   67.5],
       [  39.5,   51.9,    6. ,  700. ,   57.2],
       [  37.4,   53.6,   -5. , 1037. ,   58.8],
       [  35.1,   71.4,    3. ,  986. ,   58.6],
       [  38.8,   58.3,    6. ,  819. ,   59.2],
       [  36.6,   52.6,  -19. ,  791. ,   54.4]])

In [None]:
y

array([10, 13, 11,  7, 10,  9,  9,  6,  5])

### 1. Normal Equation

In [None]:
import numpy as np
from numpy.linalg import inv

In [None]:
def estimate_beta(X, y):
    #designX에 상수항을 추가
    ones = np.ones((len(X), 1))
    designX = np.hstack([ones, X])

    #정규 방정식 계산
    beta_hat = np.linalg.inv(designX.T @ designX) @ designX.T @ y

    return beta_hat

- 디자인 행렬 X에 상수항(intercept)을 추가하기 위해 1로 이루어진 열을 추가. 이는 선형 회귀 모델에 절편을 포함시키기 위함임.

- 정규 방정식을 사용하여 파라미터 $\hat{\beta}$를 추정. 이를 위해 np.linalg.inv()를 사용하여 행렬의 역행렬을 계산하고, 이를 designX의 전치와 y에 곱함.

- 추정된 파라미터 beta_hat을 반환

    beta_hat = np.linalg.inv(designX.T @ designX) @ designX.T @ y

- **@**: 이것은 행렬 곱셈 연산자이다. 파이썬 3.5 이상에서 사용할 수 있으며, NumPy 배열 또는 유사 배열 객체 간의 행렬 곱셈을 수행한다. 예를 들어, A @ B는 행렬 A와 B의 곱셈을 나타낸다.

- **designX.T**: .T는 NumPy 배열의 전치(transpose)를 나타냄

- **np.linalg.inv(...)**: np.linalg.inv 함수는 행렬의 inverse을 계산함. 이 함수는 square matrix에만 적용 가능하며, 역행렬이 존재하지 않는 경우 오류가 발생함.

- 따라서, **np.linalg.inv(designX.T @ designX) @ designX.T @ y**는
  - 먼저 designX.T @ designX를 계산하여 designX의 전치와 designX 자신을 곱함
  - 그 결과의 역행렬을 계산
  - 이 역행렬에 designX.T (다시 한 번 designX의 전치)를 곱함
  - 그리고 마지막으로 y 벡터를 곱하여 최종적으로 beta_hat을 계산


In [None]:
beta_hat = estimate_beta(X, y)
beta_hat

array([-3.92447368e+01,  1.31232583e+00,  8.53744361e-02,  7.41849897e-02,
        1.50018573e-02, -3.42273652e-01])

#### 실제 값과 비교

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression()
model.fit(X, y)

pred = model.predict(X)

In [None]:
print(model.intercept_)   # intercept
print(model.coef_)   # 추정된 회귀계수 (intercept 제외)

-39.24473678135658
[ 1.31232583  0.08537444  0.07418499  0.01500186 -0.34227365]


### 2. MSE

In [None]:
def MSE(X, y, beta_hat):
    ones = np.ones((len(X), 1))
    designX = np.hstack([ones, X])

    #예측값 계산
    y_pred = designX @ beta_hat

    mse = np.mean((y - y_pred) ** 2)

    return mse

- designX를 구성하기 위해 상수항을 X에 추가. 이는 선형 회귀 모델에 절편을 포함시키기 위함임.

- y_pred를 계산하기 위해 디자인 행렬 designX와 추정된 파라미터 beta_hat의 행렬 곱셈을 수행함.

- MSE를 계산하기 위해 실제 레이블 y와 예측값 y_pred 간의 차이를 제곱한 후, 이 값들의 평균을 구함.

- 계산된 MSE 값을 반환함.

In [None]:
MSE(X, y, estimate_beta(X, y))

1.6155977229019145