#### [ 지도학습 - 선형 모델 : 다항회귀 ]
- 선형회귀 알고리즘을 기반으로 과대적합이 되지 않으며 실제값과 예측값 차이를 최소로 하는 선형식을 찾는 방법
- 기존 피쳐들을 변형해서 직석 => 곡선의 다항식 도출
- 문제점 : 과대적합(Overfitting) 주의 필요!!!
- 선형식 : y = W0 + W1*X1 + .... + Wn*Xn

[1] 모듈 로딩 및 데이터 준비 <hr>

In [22]:
## [1-1] 모듈 로딩

## 기본 모듈
import numpy as np
import pandas as pd

## 시각화 모듈
import matplotlib.pyplot as plt
import koreanize_matplotlib

## ML전처리 관련
from sklearn.preprocessing import PolynomialFeatures

## ML 학습 관련 알고리즘 관련
from sklearn.linear_model import LinearRegression

## ML 성능평가 관련 모듈
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.metrics import mean_squared_error, root_mean_squared_error



[1-2] 실습 데이터 준비

In [23]:
featureNP = np.arange(4).reshape(2,2)
targetNP = 1 + 2*featureNP[:, 0] + 3*featureNP[:, 0]**2 + 4*featureNP[:,1]**3
print(featureNP)
# print(featureNP.shape, featureNP.ndim)

print(targetNP)


[[0 1]
 [2 3]]
[  5 125]


[2] 데이터 전처리 <hr>

In [24]:
## =>특성 / 피쳐 공학 => 피쳐 생성
poly = PolynomialFeatures()

poly.fit_transform(featureNP)

array([[1., 0., 1., 0., 0., 1.],
       [1., 2., 3., 4., 6., 9.]])

In [25]:
## [설] 2차 다항식 + 절편 사용 + 제곱값 미사용
poly = PolynomialFeatures(interaction_only=True)
feature2 = poly.fit_transform(featureNP)

In [26]:
## [설] 2차 다항식 + 절편 미사용 + 제곱값 미사용
poly = PolynomialFeatures(interaction_only=True, include_bias=False)
feature2 = poly.fit_transform(featureNP)

In [27]:
## [설] 3차 다항식 + 절편 사용 + 제곱값 사용
poly = PolynomialFeatures(degree=3)
feature3 = poly.fit_transform(featureNP)

[3] 학습진행 <hr>


In [None]:
## 2차 다항식 피쳐
lrModel = LinearRegression()
lrModel.fit(feature2, targetNP)
score = lrModel.score(feature2, targetNP)

print(f'피처별 가중치 : {lrModel.coef_}')
print(f'선형식 절  편 : {lrModel.intercept_}')
print(f'R2_score    : {score}')


피처별 가중치 : [ 5.45454545  5.45454545 16.36363636]
선형식 절  편 : -0.45454545454545325
R2_score    : 1.0
