#### 【 지도학습 - 선형모델: 다항회귀 】

- 선형회귀 알고리즘을 기반으로 과대적합이 되지 않으며 실제값과 예측값 차이를 최소로 하는 선형식을 찾는 방법
- 기존 피쳐들을 변형해서 직성 => 곡선의 다항식 도출
- 문제점 : 과대적합(Overfitting) 주의 필요 !!
- 선형식 : y = W0 + W1*X1 + .... + Wn*Xn

#### 【 지도학습 - 선형 모델 : 다항회귀 】

- 주__제 : 농어의 길이에 따른 무게 예측 모델 구현
- 데이터 : ../Data/fish.csv
- 종__류 : 지도학습 - 수치값 예측 즉, 회귀
- 방__법 : 선형모델을 기반으로 구현 => LinearRegression

[1] 모듈 로딩 및 데이터 준비 <hr>

In [None]:
## [1-1] 모듈 로딩
## 기본 모듈
import numpy as np
import pandas as pd

## 시각화
import matplotlib.pyplot as plt
import koreanize_matplotlib

## ML 전처리 관련
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.model_selection import train_test_split

## ML 학습 알고리즘 관련
from sklearn.linear_model import LinearRegression

## ML 성능평가 관련
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, root_mean_squared_error


In [50]:
## ================================================================= 
## [1-2] 데이터 준비 : 74행 ~ 129행 , Weight, Lenght
## =================================================================
## 데이터 파일 및 추출
fishDF = pd.read_csv('../DATA/fish.csv',skiprows=73, nrows=55, usecols=[1, 2], header=None)
print(fishDF.shape, fishDF.ndim)
fishDF
# featureDF = fishDF[fishDF.Species == 'Perch']



(55, 2) 2


Unnamed: 0,1,2
0,5.9,8.4
1,32.0,13.7
2,40.0,15.0
3,51.5,16.2
4,70.0,17.4
5,100.0,18.0
6,78.0,18.7
7,80.0,19.0
8,85.0,19.6
9,85.0,20.0


실습 데이터 준비

In [None]:
## [1-2]  데이터
featureNP = np.arange(4).reshape(2,2)
targetNP = 1 + 2*featureNP[:,0] + 3*featureNP[:,0]**2 + 4*featureNP[:,1]**3

print(featureNP.shape, featureNP.ndim)
print(targetNP)

(2, 2) 2
[  5 125]


[2] 데이터 전처리 <hr>

In [None]:
## => 특성/피쳐 공학 => 피쳐 생성
## [기본] 2차 다항식 + 절편 사용 + 제곱값 사용
poly = PolynomialFeatures()
feature2 = poly.fit_transform(featureNP)

In [None]:
## [설정] 2차 다항식 + 절편 사용 + 제곱값 미사용
poly = PolynomialFeatures(interaction_only=True)  ## 2랑 3의 제곱은 빠짐
feature2 = poly.fit_transform(featureNP)
feature2

array([[1., 0., 1., 0.],
       [1., 2., 3., 6.]])

In [None]:
## [설정] 2차 다항식 + 절편 미사용 + 제곱값 미사용
poly = PolynomialFeatures(interaction_only=True, include_bias=False)  ## 2랑 3의 제곱은 빠짐 + 절편(1)이 빠짐
feature2 = poly.fit_transform(featureNP)
feature2

array([[0., 1., 0.],
       [2., 3., 6.]])

In [None]:
## [설정] 2차 다항식 + 절편 사용 + 제곱값 사용 -> 3차원으로
poly = PolynomialFeatures(degree=3)   ## 3차원
feature3 = poly.fit_transform(featureNP)
feature3

array([[ 1.,  0.,  1.,  0.,  0.,  1.,  0.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.,  8., 12., 18., 27.]])

[3] 학습 진행 <hr>

In [None]:
## 2차 다항식 피쳐
lrModel = LinearRegression()
lrModel.fit(feature2, targetNP)

print(f'피쳐별 가중치 : {lrModel.coef_}')
print(f'선형식 절  편 : {lrModel.intercept_}')

피쳐별 가중치 : [ 5.45454545  5.45454545 16.36363636]
선형식 절  편 : -0.45454545454545325


In [None]:
## 2차 다항식 피쳐
lrModel = LinearRegression()
lrModel.fit(feature3, targetNP)
score = lrModel.score(feature3, targetNP) ## r2_score

print(f'피쳐별 가중치 : {lrModel.coef_}')
print(f'선형식 절  편 : {lrModel.intercept_}')
print(f'R2_score    : {score}')

피쳐별 가중치 : [0.         0.18018018 0.18018018 0.36036036 0.54054054 0.72072072
 0.72072072 1.08108108 1.62162162 2.34234234]
선형식 절  편 : 1.7567567567567792
R2_score    : 1.0
