# 4. 단순 선형 회귀

---

## 학습 목표
- 선형 회귀 분석 모델에서 least square solution을 사용하여 최적의 선형 파라미터를 구할 수 있습니다.
- least square solution을 사용하여 단순 선형 회귀 class를 구현할 수 있습니다.
- 단순 선형 회귀 모델을 평가하는 방법들에 대해서 학습합니다.

---

## 목차

### 1. Least square 최적화
1. 단순 선형 회귀 least square solution

### 2. 단순 선형 회귀 class 
1. 단순 선형 회귀 class 구조
2. 함수 정의
3. scikit-learn 모듈

### 3. 단순 선형 회귀 평가
1. RMSE, RMAE
2. R2, adjusted R2


---

## 2. 단순 선형 회귀 class

### 2-1. 단순 선형 회귀 class 구조

이제 단순 선형 회귀를 수행하기 필요했던 함수들을 모아서 하나의 class로 정리하여 보다 쉽게 사용해보겠습니다.

class는 아래와 같은 구조로 설정하겠습니다.

In [8]:
import numpy as np

class simple_linaer_regression:
    # 초기화 함수
    def __init__(self, initial_w0, initial_w1):
        self.w1 = initial_w1
        self.w0 = initial_w0
        
    # 학습 함수    
    def fit(self, feature, label):
        
        leastsquare1 = np.array([[feature.size, np.sum(feature)],[np.sum(feature), np.sum(feature**2)]])
        leastsquare2 = np.array([[np.sum(label)],[np.sum(feature*label)]])
        
        W = np.dot(np.linalg.inv(leastsquare1),leastsquare2)
        self.w0 = W[0]
        self.w1 = W[1]
        
    # 예측값 계산 함수
    def predict(self, feature):
        
        prediction = self.w1*feature + self.w0
        
        return prediction
    
    # loss 값 계산 함수
    def loss(self, feature, label):
        
        error = label - self.predict(feature)
        ls = np.mean(error**2)
        
        return ls

### 2-2. 함수 정의

#### 초기화 함수: `__init__`

class에 사용되는 변수 `w0, w1`을 초기값을 받아 저장합니다.

#### 학습 함수: `fit`

feature 데이터와 label 데이터를 `feature, label`로 입력 받아 loss 값을 최소로 만드는 파라미터 `w0, w1`을 least square로 구하여 저장합니다.

여기서 입력하는 `feature, label`은 N개의 row를 갖는 벡터를 사용해야합니다.

#### 예측값 계산 함수: `predict`

입력 받은 `feature` 데이터를 넣어 단순 선형 모델로 계산된 예측값을 계산합니다.

#### loss 값 계산 함수: `loss`

feature 데이터와 label 데이터를 feature, label로 입력 받아 loss 값을 계산하여 출력합니다.

##### <예제 1>  `simple_linaer_regression`을 사용한 학습

아래 예제를 통하여 단순 선형 회귀 class 를 이용한 학습 과정을 수행해봅시다.

In [9]:
import numpy as np


feature_data = np.array([1,2,3,4]).reshape((-1,1))
label_data = np.array([3.1,4.9,7.2,8.9]).reshape((-1,1))

# 단순 선형 회귀 모델 불러오기 및 초기화
model = simple_linaer_regression(1,1)

# 학습 수행
model.fit(feature_data, label_data)

print("loss: {}\n".format(model.loss(feature_data, label_data))) 

loss: 0.01574999999999998



### 2-3. scikit-learn 모듈

scikit-learn은 머신 러닝 기법을 간단하고 효율적으로 구현할 수 있는 파이썬 라이브러리입니다.

scikit-learn을 사용하면 보다 쉽게 머신 러닝 기법을 구현할 수 있습니다.

아래 예제를 보며 같은 데이터를 scikit-learn으로 학습하여 loss 값을 뽑는 과정을 살펴봅시다.

##### <예제 2> scikit-learn을 사용한 학습

In [10]:
import numpy as np
from sklearn.linear_model import LinearRegression

feature_data = np.array([1,2,3,4]).reshape((-1,1))
label_data = np.array([3.1,4.9,7.2,8.9]).reshape((-1,1))

# 모델 설정
sci_model = LinearRegression()

# 학습 수행
sci_model.fit(feature_data, label_data)

# scikit-learn 에서는 loss 함수가 모델안에 내정되어 있지 않기에 정의
def loss(prediction, label):
        
    error = label - prediction
    ls = np.mean(error**2)

    return ls

print("loss: {}\n".format(loss(sci_model.predict(feature_data), label_data))) 

loss: 0.015749999999999993



우선 `from sklearn.linear_model import LinearRegression` 으로 해당 class 모델을 가져옵니다.

`sci_model = LinearRegression()` 코드로 LinearRegression class를 sci_model로 입력합니다.

`sci_model.fit(feature_data, label_data)` 코드는 fit이란 함수를 사용하여 학습 과정을 수행합니다.

fit 함수은 `simple_linear_regression`의 least square 를 사용해서 학습하는 과정과 거의 동일합니다.

`sci_model.predict(feature_data)` predict 함수는 `simple_linear_regression`의 predict 함수와 동일하게 예측 값을 출력합니다.

더 자세한 함수 설명은 scikit-learn 가이드를 참고합시다. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html?highlight=linear%20regression#sklearn.linear_model.LinearRegression

마지막으로 scikit-learn 장단점에 대해서 알아봅시다.

**scikit-learn 장점:**

- 머신 러닝 기법의 클래스 호출로 간단하게 알고리즘 구현 가능

- 머신 알고리즘 뿐만 아니라 머신 러닝에 필요한 기능을 갖는 함수 제공

- Cython 기반 계산으로 빠른 학습 속도

**scikit-learn 단점:**

- 머신 러닝 기법의 알고리즘을 이해하지 못하고 사용하면 다양한 응용 함수를 사용하기 어려움

- 데이터에 맞게 커스텀 알고리즘을 구현할 수 없음

---