# 1장. 다중 선형 회귀

---

## 학습 목표
- 다중 선형 회귀의 최적화 방식을 학습합니다. 
- 다중 선형 회귀 class를 구현합니다.

---

## 목차

### 1. 다중 선형 회귀 모델
1. 다중 선형 회귀란?

### 2. 다중 선형 회귀 최적화
1. 다중 선형 회귀 least square solution
2. 다중 선형 회귀 gradient descent

### 3. 다중 선형 회귀 함수 class 
1. 단중 선형 회귀 class 구조
2. 함수 정의
3. scikit-learn 모듈


---

## 2. 다중 선형 회귀 함수 class

### 2-1. 다중 선형 회귀 class 구조

이제 단순 선형 회귀를 수행하기 필요했던 함수들을 모아서 하나의 class로 정리하여 보다 쉽게 사용해보겠습니다.

##### <예제 1> 다중 선형 회귀 class

class는 least square를 사용했던 단순 선형 회귀 구조와 비슷하게 초기화, 학습, 예측, loss 함수로 구성합니다.

In [24]:
import numpy as np

class multi_linaer_regression:
    # 초기화 함수
    def __init__(self, initial_w):
        self.w = initial_w
        
    # 학습 함수    
    def fit(self, feature, label):
        
        X = np.c_[np.ones((feature.shape[0],1)),feature]
        self.w = np.dot(np.linalg.inv(np.dot(X.transpose(),X)),np.dot(X.transpose(),label))

        
    # 예측값 계산 함수
    def predict(self, feature):
        
        X = np.c_[np.ones((feature.shape[0],1)),feature]
        prediction = np.dot(X,self.w)
        
        return prediction
    
    # loss 값 계산 함수
    def loss(self, feature, label):
        
        error = label - self.predict(feature)
        ls = np.mean(error**2)
        
        return ls

### 2-2. 함수 정의

#### 초기화 함수: `__init__`

class에 사용되는 변수 `w`을 초기값을 받아 저장합니다.

`w`는 다중 선형 회귀 모델에 사용되는 파라미터로 $p$ 개의 feature column 종류의 개수보다 하나 더 많은 $p+1$ 성분을 갖는 column 벡터로 정의합니다.

#### 학습 함수: `fit`

feature 데이터와 label 데이터를 `feature, label`로 입력 받아 loss 값을 최소로 만드는 파라미터 `w`을 least square로 구하여 저장합니다.

여기서 입력하는 `feature`은 $N$개의 row 샘플과 $p$개의 feature 종류를 갖는 행렬을, `label`은 $N$개의 row 샘플을 갖는 벡터를 사용해야합니다.

#### 예측값 계산 함수: `predict`

입력 받은 `feature` 데이터를 넣어 다중 선형 모델로 계산된 예측값을 계산합니다.

#### loss 값 계산 함수: `loss`

feature 데이터와 label 데이터를 feature, label로 입력 받아 loss 값을 계산하여 출력합니다.

##### <예제 2>  다중 선형 회귀 학습

<예제 1> 다중 선형 회귀 class에서 구현한 class를 사용하여 학습 과정을 수행해봅시다.

In [26]:
import numpy as np

# 학습용 데이터
feature_data = np.array([[1, 2, 3, 4],[3, 6, 7, 8]]).transpose()
label_data = np.array([3.1,4.9,7.2,8.9]).reshape((-1,1))

# 파라미터 0으로 초기화
w = np.zeros((feature_data.shape[0]+1,1))
            
# 다중 선형 회귀 모델 불러오기 및 초기화
model = multi_linaer_regression(w)

# 학습 수행
model.fit(feature_data, label_data)

print("loss: {}\n".format(model.loss(feature_data, label_data))) 

loss: 0.014999999999999982



### 2-3. scikit-learn 모듈

scikit-learn에서는 다중 선형 회귀 class가 따로 존재 하지 않습니다. 

단순 선형 회귀에서 사용한 `LinearRegression()` class는 다중 선형 회귀에서도 그대로 사용됩니다.

##### <예제 3> scikit-learn을 사용한 다중 선형 회귀

`<예제 2>`에서와 같은 데이터를 사용하여 이번엔 scikit-learn의 loss 값을 출력해 봅시다.

In [27]:
import numpy as np
from sklearn.linear_model import LinearRegression

feature_data = np.array([[1, 2, 3, 4],[3, 6, 7, 8]]).transpose()
label_data = np.array([3.1,4.9,7.2,8.9]).reshape((-1,1))

# 모델 설정
sci_model = LinearRegression()

# 학습 수행
sci_model.fit(feature_data, label_data)

# scikit-learn 에서는 loss 함수가 모델안에 내정되어 있지 않기에 정의
def loss(prediction, label):
        
    error = label - prediction
    ls = np.mean(error**2)

    return ls

print("loss: {}\n".format(loss(sci_model.predict(feature_data), label_data))) 

loss: 0.014999999999999982



---