#### [지도학습 - 선형 모델: 다항회귀]
- 선형회귀 알고리즘을 기반으로 과대적합이 되지 않으며 실제값과 예측값 차이를 최소로 하는 선형식을 찾는 방법
- 기본 피쳐들을 변형해서 직선 => 곡선의 다항식 도출
- 문제점 : 과대적합(Overfitting) 주의 필요!
- 선형식 : y = W0 + W1*X1+... + Wn*Xn
- 다항 회귀 클래스를 명시적으로 제공하지 않음 -> 비선형 함수를 선형 모델에 적용시키는 방법

[1] 모듈 로딩 및 데이터 준비 <hr>

In [43]:
# ================================================================
# [1-1] 모듈 로딩
# ================================================================

# 기본 
import pandas as pd
import numpy as np

# 시각화
import seaborn as sns
import koreanize_matplotlib
import matplotlib.pyplot as plt

# 머신러닝 전처리
from sklearn.preprocessing import PolynomialFeatures

# 머신러닝 학습 알고리즘
from sklearn.linear_model import LinearRegression

# 머신러닝 성능평가
from sklearn.metrics import r2_score, f1_score, mean_absolute_error, root_mean_squared_error, mean_squared_error

# ================================================================
# [1-2] 데이터 준비
# ================================================================
featureNP = np.arange(4).reshape(2, 2)
targetNP = 1 + 2*featureNP[:, 0] + 3*featureNP[:, 0]**2 + 4*featureNP[:, 1]**3

print(featureNP.shape, featureNP.ndim)   # 형태, 차원
print(featureNP)
print(targetNP)

(2, 2) 2
[[0 1]
 [2 3]]
[  5 125]


[2] 데이터 전처리 <hr>

In [44]:
# => 특성/피쳐 공학 => 피쳐 생성
# [기본값] 2차 다항식 + 절편 사용 + 제곱값 사용
poly = PolynomialFeatures()
poly.fit(featureNP)
feature2 = poly.transform(featureNP)
feature2
# poly.fit_transform(featureNP)

array([[1., 0., 1., 0., 0., 1.],
       [1., 2., 3., 4., 6., 9.]])

In [45]:
# [설정값] 2차 다항식 + 절편 미사용 + 제곱값 미사용
poly = PolynomialFeatures(interaction_only=True, include_bias=False)
poly.fit(featureNP)
feature2 = poly.transform(featureNP)
feature2

array([[0., 1., 0.],
       [2., 3., 6.]])

In [46]:
# [설정값] 3차 다항식 + 절편 사용 + 제곱값 사용
poly = PolynomialFeatures(degree=3)
poly.fit(featureNP)
feature3 = poly.transform(featureNP)
feature3

array([[ 1.,  0.,  1.,  0.,  0.,  1.,  0.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.,  8., 12., 18., 27.]])

[3] 학습 진행 <hr>

In [47]:
# 2차 다항식 피쳐
lrModel = LinearRegression()
lrModel.fit(feature2, targetNP)
score = lrModel.score(feature2, targetNP)

print(f"피쳐별 가중치 : {lrModel.coef_}")
print(f"선형식 절 편  : {lrModel.intercept_}")
print(f"R2_score    : {score}")

피쳐별 가중치 : [ 5.45454545  5.45454545 16.36363636]
선형식 절 편  : -0.45454545454545325
R2_score    : 1.0


In [48]:
# 3차 다항식 피쳐
lrModel = LinearRegression()
lrModel.fit(feature3, targetNP)
score = lrModel.score(feature3, targetNP)

print(f"피쳐별 가중치 : {lrModel.coef_}")
print(f"선형식 절 편  : {lrModel.intercept_}")
print(f"R2_score    : {score}")

피쳐별 가중치 : [0.         0.18018018 0.18018018 0.36036036 0.54054054 0.72072072
 0.72072072 1.08108108 1.62162162 2.34234234]
선형식 절 편  : 1.7567567567567792
R2_score    : 1.0
