## 다항회귀 개요(Polynomial Regression)
- 다항회귀 $y = w0+w1*x_{1}+w2*x_{2} + w3*x_{1}*x_{2} + w4*x_{1}^{2}$와 같이 회귀식이 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 지칭합니다.
- 데이터 세트에 대해서 피처 X에 대해 Target y값의 관계를 단순 선ㅅ형 회귀 직선형으로 표현한 것보다 다항 회귀 곡선형으로 표현한 것이 더 예측 성능이 높습니다.


## 선형 회귀와 비선형 회귀의 구분
- 다항회귀는 선형회귀 입니다.
- 회귀에서 선형 회귀/비선형 회귀를 나누는 기준은 **회귀 계수**가 선형/비선형인지에 따르며, 독립변수의 선형/비선형 여부와는 무관합니다.
    - 선형 회귀 예시 
        - $y = w0+w1*x_{1}+w2*x_{2} + w3*x_{1}*x_{2} + w4*x_{1}^{2}$
    - 비선형 회귀 예시 
        - $y = w_{1}*x^{w_{2}}$
        - $y = w_{1}*cos(x+w_{4})+w_{2}*cos(2x+4)+w_{3}$

## 사이킷런에서의 다항 회귀
- 사이킷런은 다항회귀를 바로 API로 제공하지 않으며, PolynomialFeatures 클래스로 원본 단항 피처들을 다항 피처들로 변환한 데이터 세트에 LinearRegression 객체를 적용하여 다항회귀 기능을 제공합니다.
- PolynomialFeatures : 원본 피처 데이터 세트를 기반으로 degree 차수에 따른 다항식을 적용하여 새로운 피처들을 생성하는 클래스 피처 엔지니어링의 기법중의 하나임.
- 단항 피처 $[x_{1}, x_{2}]$를 degree = 2, 즉 2차 다항 피처로 변환한다면?
    - $(x_{1}+x_{2})^{2}$의 식 전개에 대응되는 $[1, x_{1}, x_{2}, x_{1}x_{2}, x_{1}^{2}, x_{2}^{2}]$의 다항 피처들로 변환
    - 1차 단항 피처 값이 $[x_{1}, x_{2}]$ = [0, 1]일 경우 -> 2차 다항피처들의 값은 [1, 0, 1, 0, 0, 1]로 변환
- 사이킷런에서는 일반적으로 Pipeline 클래스를 이용하여 PolynomialFeatures 변환과 LinearRegression 학습/예측을 결합하여 다항 회귀를 구현합니다.
    - 단항 피처를 2차 다항 피처로 변경 -> PolynomialFeature로 변환된 X 피처들을 LinearRegression 객체로 학습

##### 실습

In [2]:
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

# 다항식으로 변환한 단항식 생성, [[0, 1], [2, 3]]의 2X2 행렬 생성
X = np.arange(4).reshape(2,2)
print('일차 단항식 계수 feature : \n', X)

# degree = 2인 2차 다항식으로 변환하기 위해 PolynomialFeatures를 이용하여 변환
poly = PolynomialFeatures(degree = 2)
poly.fit(X)
poly_ftr = poly.transform(X)
print('변환된 2차 다항식 계수 feature:\n', poly_ftr)

일차 단항식 계수 feature : 
 [[0 1]
 [2 3]]
변환된 2차 다항식 계수 feature:
 [[1. 0. 1. 0. 0. 1.]
 [1. 2. 3. 4. 6. 9.]]


3차 다항식 결정값을 구하는 함수 polynomial_func(X) 생성. 즉, 회귀식은 결정값 $y=1+2x_1+3x_1^2 + 4x_2^3$

In [6]:
def polynomial_func(X):
    y = 1+2*X[:,0] + 3*X[:,0]**2 + 4*X[:,1]**3
    print(X[:,0])
    print(X[:,1])
    return y

X = np.arange(0,4).reshape(2,2)
print('일차 단항식 계수 feature:\n',X)
print()
y = polynomial_func(X)
print('삼차 다항식 결정값:\n', y)

일차 단항식 계수 feature:
 [[0 1]
 [2 3]]

[0 2]
[1 3]
삼차 다항식 결정값:
 [  5 125]


3차 다항식 계수의 피처값과 3차 다항식 결정값으로 학습

In [11]:
from sklearn.linear_model import LinearRegression

# 3차 다항식 변환
poly_ftr = PolynomialFeatures(degree = 3).fit_transform(X)
print('3차 다항식 계수 feature : \n', poly_ftr)

# Linear Regression에 3차 다항식 계수 feature와 3차 다항식 결정값으로 학습 후 회귀 계수 확인
model = LinearRegression()
model.fit(poly_ftr, y)
print('Polynomial 회귀 계수\n' , np.round(model.coef_, 2))
print('Polynomial 회귀 Shape :', model.coef_.shape)

3차 다항식 계수 feature : 
 [[ 1.  0.  1.  0.  0.  1.  0.  0.  0.  1.]
 [ 1.  2.  3.  4.  6.  9.  8. 12. 18. 27.]]
Polynomial 회귀 계수
 [0.   0.18 0.18 0.36 0.54 0.72 0.72 1.08 1.62 2.34]
Polynomial 회귀 Shape : (10,)


##### 사이킷런 파이프라인(Pipeline)을 이용하여 3차 다항회귀 학습
사이킷런의 Pipeline 객체는 **Feature 엔지니어링 변환**과 모델 **학습/예측**을 순차적으로 결합해줍니다.

In [17]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np

def polynomial_func(X):
    y = 1 + 2*X[:,0] + 3*X[:,0]**2 + 4*X[:,1]**3 
    return y

# Pipeline 객체로 Streamline 하게 Polynomial Feature 변환과 Linear Regression을 연결
model = Pipeline([('poly', PolynomialFeatures(degree=3)),
                ('linear', LinearRegression())])

X = np.arange(4).reshape(2,2)
y = polynomial_func(X)

model = model.fit(X,y)
print('Polynomial 회귀 계수\n', np.round(model.named_steps['linear'].coef_, 2))

Polynomial 회귀 계수
 [0.   0.18 0.18 0.36 0.54 0.72 0.72 1.08 1.62 2.34]


##### 다항회귀를 이용한 보스턴 주택가격 예측

In [20]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [25]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error , r2_score
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np

# boston 데이타셋 로드
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
X_data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
y_target = raw_df.values[1::2, 2]

# # boston 데이타셋 DataFrame 변환 
# bostonDF = pd.DataFrame(boston.data , columns = boston.feature_names)

# # boston dataset의 target array는 주택 가격임. 이를 PRICE 컬럼으로 DataFrame에 추가함. 
# bostonDF['PRICE'] = boston.target
# print('Boston 데이타셋 크기 :',bostonDF.shape)


X_train , X_test , y_train , y_test = train_test_split(X_data , y_target ,test_size=0.3, random_state=156)

## Pipeline을 이용하여 PolynomialFeatures 변환과 LinearRegression 적용을 순차적으로 결합. 
p_model = Pipeline([('poly', PolynomialFeatures(degree=3, include_bias=False)),
                  ('linear', LinearRegression())])

p_model.fit(X_train, y_train)
y_preds = p_model.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)


print('MSE : {0:.3f} , RMSE : {1:.3F}'.format(mse , rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

MSE : 79625.593 , RMSE : 282.180
Variance score : -1116.598


In [26]:
X_train_poly= PolynomialFeatures(degree=2, include_bias=False).fit_transform(X_train, y_train)
X_train_poly.shape, X_train.shape

((354, 104), (354, 13))

## Polynomial Regression을 이용한 Underfitting, Overfitting 이해

### 편향-분산 트레이드 오프
![image.png](attachment:image.png)
- 과소적합
    - 편향이 높으면, 분산은 낮아짐
- 과대적합
    - 분산이 높으면, 편향이 낮아짐