# 다항 회귀

## 다항회귀란?
- 독립변수와 종속변수들 간의 관계를 다차 다항식으로 표현하는 회귀 방식
- 예를 들어, 2개의 독립변수 X1, X2와 종속변수 Y의 관계를 아래와 같은 다항식으로 표현
> $ Y = w_0 + w_1X_1 + w_2X_2 + w_3X_1X_2 + w_4X_1^2 + w_5X_2^2 $
- 회귀식의 형태가 독립변수의 선형이 아니기 때문에 비선형 회귀라고 오해할 수 있으나, **다항 회귀는 선형 회귀**에 해당!
- 선형 회귀와 비선형 회귀를 구분하는 기준은 **회귀 계수들의 형태가 선형인가 비선형인가의 여부**이다. (독립변수의 형태와는 상관 없다.)
- 보다 엄밀하게, 다항 회귀를 선형화 할 수 있는(linearizable)회귀라고 명명
- 회귀식의 독립변수들을 각각 새로운 변수로 치환해서 1차 방정식으로 표현
> $ Y = w_0 + w_1Z_1 + w_2Z_2 + w_3Z_3 + w_4Z_4 + w_5Z_5 $
- 따라서 다항 회귀는 다중 선형 회귀와 동일한 절차를 통해서 분석을 수행
- 단, 비선형 함수를 선형적으로 적용시키는 과정이 선행되어야 함

## 사이킷런에서 다항식 특성으로의 변환 수행

### preprocessing 모듈에 있는 PolynomialFeatures를 이용하여 특성들을 다항식 형태로 변환하는 객체를 생성

In [2]:
import numpy as np
import sklearn.preprocessing as pp

# 원본 특성 데이터는 아래와 같이 [[0, 1] [2, 3]] 배열
X = np.arange(4).reshape(2,2)

# 매개변수 degree는 변환하려는 다항식의 차수이며, 기본값은 2
poly = pp.PolynomialFeatures(degree=2)

### 객체에 대해서 fit_transform 메소드를 이용하여 변환

In [3]:
# 매개변수는 원본 특성 집합
# 반환 결과는 다항식 형태로 변환된 특성 집합
X_poly = poly.fit_transform(X)
print(X_poly)

[[1. 0. 1. 0. 0. 1.]
 [1. 2. 3. 4. 6. 9.]]


In [5]:
#  fit 및 transform을 각각 순서대로 호출해도 무방
poly.fit(X)
X_poly = poly.transform(X)
print(X_poly)

[[1. 0. 1. 0. 0. 1.]
 [1. 2. 3. 4. 6. 9.]]


- 2차 다항식으로 변환된 결과는 원본 특성에 대해서 0차식,1차식, 2차식을 순서대로 나열한 것
- 원래의 특성을 2차 다항식으로 변환하는 경우

|원본|변환된 결과|
|---|--------|
|$X$|$1,X,X^2$|  
|$X,Y$|$1,X,Y,X^2,XY,Y^2$|  
|$X,Y,Z$|$1,X,Y,Z,X^2,XY,XZ,Y^2,YZ,Z^2$|  

## 사이킷런으로 다항 회귀 수행

### 데이터를 생성하여 확인

### 비교를 위해 단순 선형 회귀를 실행

### 2차항 형태로 다항 회귀를 실행

### 7차항 형태로 다항 회귀를 실행

### 전체적인 결과를 확인