In [1]:
### Machine Running library install
from sklearn.neighbors import KNeighborsRegressor

### 선형회귀모델 라이브러리 정의
from sklearn.linear_model import LinearRegression

### visualization library
import matplotlib.pyplot as plt

# Definition of the NumPy library
import numpy as np

### Definition of Library (Preprocessing Library)
from sklearn.model_selection import train_test_split

# - Defining the MAE Library
from sklearn.metrics import mean_absolute_error

# - 변환기 모델(클래스) 라이브러리 정의하기
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler


import pandas as pd 

plt.rc("font", family="Malgun Gothic")

plt.rcParams["axes.unicode_minus"] = False

In [2]:
"""
<다중회귀모델(Multiple Regression)>
 - 여러 개의 특성(항목, 컬럼, 퓨처 같은 용어)을 사용한 회귀모델
 - 특성이 많을수록 모델이 훈련(학습) 중에 집중력(복잡도)이 높아짐
 - 단점: 훈련 시간이 다소 오래 걸릴 수 있음(시스템 성능에 따라 훈련 소요 시간이 달라짐)
 - 장점: 기존 선형(직성 & 곡선) 모델에 비하여 과적합 해소에 도움이 되는 모델임
"""

'\n<다중회귀모델(Multiple Regression)>\n - 여러 개의 특성(항목, 컬럼, 퓨처 같은 용어)을 사용한 회귀모델\n - 특성이 많을수록 모델이 훈련(학습) 중에 집중력(복잡도)이 높아짐\n - 단점: 훈련 시간이 다소 오래 걸릴 수 있음(시스템 성능에 따라 훈련 소요 시간이 달라짐)\n - 장점: 기존 선형(직성 & 곡선) 모델에 비하여 과적합 해소에 도움이 되는 모델임\n'

In [3]:
### 사용할 데이터: 03_농어의 길이 높이 두께 데이터.csv
# - 주제: 농어의 길이, 두께, 너비를 이용해서 -> 무게 예측하기
# - 독립변수: 길이, 두께, 너비
# - 종속변수: 무게

In [4]:
### 데이터 읽어들이기
# 변수명: df
file_path = "./data/03_농어의_길이_높이_두께_데이터.csv"
df = pd.read_csv(file_path)
df.info()
df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   length  56 non-null     float64
 1   height  56 non-null     float64
 2   width   56 non-null     float64
dtypes: float64(3)
memory usage: 1.4 KB


Unnamed: 0,length,height,width
0,8.4,2.11,1.41


In [5]:
### 독립변수 데이터 만들기
# - 데이터프레임의 데이터를 numpy의 배열(array) 형태로 변화하면 됩니다.
# - 변수명: perch_full
# - shape 명령으로 차원 확인하기
perch_full = df.to_numpy()
print(perch_full.shape)

(56, 3)


In [6]:
### 종속변수 생성하기
### 농어의 무게
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [7]:
### 현재 기준 최종 독립변수와 종속변수 데이터
perch_full.shape, perch_weight.shape

((56, 3), (56,))

In [8]:
### 데이터 분류하기
# - 분류기준 -> 훈련 : 테스트 = 7 : 3으로 분류하기
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, test_size=0.3, random_state=42)

print(train_input.shape, train_target.shape)
print(test_input.shape, test_target.shape)

(39, 3) (39,)
(17, 3) (17,)


### 훈련모델 생성 및 훈련시키기

In [9]:
### 훈련모델 생성: 변수명 Lr
lr = LinearRegression()

### 훈련시키기
lr.fit(train_input, train_target)

### 훈련 및 테스트 데이터로 결정계수 확인하기
train_score = lr.score(train_input, train_target)
test_score = lr.score(test_input, test_target)

### 4. 과적합 여부 판단하기(해석)
print(f"훈련: {train_score} \n테스트: {test_score} \n과적합여부: {train_score-test_score}")
# - 과소적합은 일어나지 않았음
# - 훈련과 테스트의 결정계수 차이는 0.067로 과대적합 또한 발생하지 않은
# - 매우 훌륭한 모델로 판단됨
# - 그럼에도 불구하고 조금이라도 성능을 향상 시킬 수 있는 방법이 있다면 더 수행해 봅니다.
# - 농어의 길이, 두께, 높이를 이용하여 무게를 예측하는 다항회구모델을 이용할 경우
#   0.954 정도의 매우 높은 정확도를 발휘하는 일반화된(과대 또는 과소적합이 발생하지 않은) 모델로 사용가능함

훈련: 0.9537065271284176 
테스트: 0.886342083634778 
과적합여부: 0.06736444349363968


### 테스트 데이터로 예측하기

In [10]:
### 예측하기
# - 예측결과 담을 변수명: pred
pred = lr.predict(test_input)
pred

array([-328.54944233,   48.99648009,  328.530777  ,  168.01071374,
        147.28466932,  790.89418753,  383.33837613,  247.89949679,
        814.06695812,  123.2000108 ,  981.8543067 ,  -37.63667416,
        356.2229673 ,  419.56345249,   48.15564696,  140.06819759,
         46.70641917])

In [11]:
### 평균절대오차(MAE)로 평가결과 확인하기
mae = mean_absolute_error(test_target, pred)
mae

### - 해석
# - 농어의 길이, 두께, 높이를 이용하여 무게를 예측하는 다항회귀모델을 이용할 경우
# - 해당 모델의 예측 오차 범위는 약(+-)68.567g 이다

68.56651514640546

In [12]:
"""
<성능 높이는 방법>
 1. 데이터 양 늘리기, 즉 데이터 추가 수집()
    (데이터 양은 행단위 또는 열단위로 늘리는 것을 의미함)
 2. 하이퍼파라미터 튜닝
 3. 다른 모델 찾기
"""

'\n<성능 높이는 방법>\n 1. 데이터 양 늘리기, 즉 데이터 추가 수집()\n    (데이터 양은 행단위 또는 열단위로 늘리는 것을 의미함)\n 2. 하이퍼파라미터 튜닝\n 3. 다른 모델 찾기\n'

### 특성 늘리기

In [13]:
"""
<특성 공학 적용>
 - 열단위 특성 늘리기
 - 기존의 정확도(결정계수)를 더 높일 수 있는지 확인하는 절차
 - 특성은 임의 데이터를 사용하는 것이 아닌, 기존의 수집되어 있는 특성을 이용합니다.
 
<특성을 생성하는 라이브러리>
 - 패키지: sklearn.preprocessing
 - 사용라이브러리(클래스): PolynomialFeatures()
                        :"변환기" 모델이라고 칭합니다.
                        : 실제 훈련 모델은 아니며, 전처리 모델이라고 칭하기도 합니다.
                        : **"새로 생성할 특성들의 패턴을 찾습니다."**
 - 사용되는 함수
  -> fit(): 변환기 모델을 이용하여 생성할 특성 패턴 찾기
  -> transform(): 찾은 패턴을 기준으로 특성 생성하기

<특성 생성 순서 : 훈련모델 처리와 동일>
 1. 변환기 모델 생성하기
 2. 변환기 모델 패턴찾기: fit(훈련 독립변수)
 3. 찾은 패턴으로 특성 생성하기: transform(훈련/검증/테스트 독립변수)

** 특성 생성시 사용하는 데이터
 - fit()을 이용하여 패턴을 찾을 때는 "훈련 독립변수"만 사용함
 - transform()을 이용하여 찾은 패턴으로 특성을 생성할 때는
  -> 훈련, 검증, 테스트 데이터 모두 처리해 주어야 합니다.
 - 종속변수는 원본 유지 합니다.(처리 대상이 아님, 정답이기 때문에)
"""

'\n<특성 공학 적용>\n - 열단위 특성 늘리기\n - 기존의 정확도(결정계수)를 더 높일 수 있는지 확인하는 절차\n - 특성은 임의 데이터를 사용하는 것이 아닌, 기존의 수집되어 있는 특성을 이용합니다.\n \n<특성을 생성하는 라이브러리>\n - 패키지: sklearn.preprocessing\n - 사용라이브러리(클래스): PolynomialFeatures()\n                        :"변환기" 모델이라고 칭합니다.\n                        : 실제 훈련 모델은 아니며, 전처리 모델이라고 칭하기도 합니다.\n                        : **"새로 생성할 특성들의 패턴을 찾습니다."**\n - 사용되는 함수\n  -> fit(): 변환기 모델을 이용하여 생성할 특성 패턴 찾기\n  -> transform(): 찾은 패턴을 기준으로 특성 생성하기\n\n<특성 생성 순서 : 훈련모델 처리와 동일>\n 1. 변환기 모델 생성하기\n 2. 변환기 모델 패턴찾기: fit(훈련 독립변수)\n 3. 찾은 패턴으로 특성 생성하기: transform(훈련/검증/테스트 독립변수)\n\n** 특성 생성시 사용하는 데이터\n - fit()을 이용하여 패턴을 찾을 때는 "훈련 독립변수"만 사용함\n - transform()을 이용하여 찾은 패턴으로 특성을 생성할 때는\n  -> 훈련, 검증, 테스트 데이터 모두 처리해 주어야 합니다.\n - 종속변수는 원본 유지 합니다.(처리 대상이 아님, 정답이기 때문에)\n'

In [14]:
### 변환기 모델(클래스) 생성하기
poly = PolynomialFeatures()
poly

In [15]:
### 샘플 데이터로 특성의 패턴 확인해보기
temp_date = [[2, 3, 4]]
temp_date

[[2, 3, 4]]

In [16]:
### 독립변수의 특성을 이용해서 패턴 찾기(훈련시키기 개념과 동일)
poly.fit(temp_date)

In [17]:
### 찾은 패턴으로 독립변수 데이터 변환하기
poly.transform(temp_date)

### 가장 첫번째 0번째 값은 y절편, 나머지 1번째 부터가 독립변수 특성들 입니다.
# - 절편값은 사용하지 않기에 추후 제거해 주어야 합니다.

array([[ 1.,  2.,  3.,  4.,  4.,  6.,  8.,  9., 12., 16.]])

In [18]:
### 변환기 모델(클래스) 생성하기
# - include_bias=False: y절편을 제외하는 속성(파라미터)
# - 독립변수에는 순수한 데이터만 존재해야 하기 때문에, y절편 값은 제외합니다.
poly = PolynomialFeatures(include_bias=False)

### 독립변수의 특성을 이용해서 패턴 찾기(훈련시키기 개념과 동일)
poly.fit(temp_date)

### 찾은 패턴으로 독립변수 데이터 변환하기
temp_poly = poly.transform(temp_date)
print(temp_poly)

### fit()에서 찾은 패턴 확인하기
poly.get_feature_names_out()

[[ 2.  3.  4.  4.  6.  8.  9. 12. 16.]]


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [19]:
### 변환기 모델(클래스) 생성하기
# - include_bias=False: y절편을 제외하는 속성(파라미터)
# - 독립변수에는 순수한 데이터만 존재해야 하기 때문에, y절편 값은 제외합니다.

# - degree=n: 특성의 패턴 생성시 사용할 차원을 정의함
#           : 1~4차원까지의 패턴을 만들어 냅니다.
#           : 기본값은 2 (생략가능)
poly = PolynomialFeatures(degree=4, include_bias=False)

### 독립변수의 특성을 이용해서 패턴 찾기(훈련시키기 개념과 동일)
poly.fit(temp_date)

### 찾은 패턴으로 독립변수 데이터 변환하기
temp_poly = poly.transform(temp_date)
print(temp_poly)

### fit()에서 찾은 패턴 확인하기
poly.get_feature_names_out()

[[  2.   3.   4.   4.   6.   8.   9.  12.  16.   8.  12.  16.  18.  24.
   32.  27.  36.  48.  64.  16.  24.  32.  36.  48.  64.  54.  72.  96.
  128.  81. 108. 144. 192. 256.]]


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2', 'x0^3', 'x0^2 x1', 'x0^2 x2', 'x0 x1^2', 'x0 x1 x2',
       'x0 x2^2', 'x1^3', 'x1^2 x2', 'x1 x2^2', 'x2^3', 'x0^4', 'x0^3 x1',
       'x0^3 x2', 'x0^2 x1^2', 'x0^2 x1 x2', 'x0^2 x2^2', 'x0 x1^3',
       'x0 x1^2 x2', 'x0 x1 x2^2', 'x0 x2^3', 'x1^4', 'x1^3 x2',
       'x1^2 x2^2', 'x1 x2^3', 'x2^4'], dtype=object)

### 실제 독립변수를 이용해서 새로운 특성 생성하기

In [20]:
### 2차원으로 특성 생성하기
# - 훈련 및 테스트 독립변수 데이터 모두 변환해 주세요.
# - 훈련 독립변수 데이터 변환 후 변수명 : train_poly
# - 테스트 독립변수 데이터 변환 후 변수명 : test_poly
poly = PolynomialFeatures(degree=2, include_bias=False)

poly.fit(train_input)

train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(f"훈련 새로운 특성{train_poly.shape} \n테스트 새로운 특성{test_poly.shape}")

poly.get_feature_names_out()

훈련 새로운 특성(39, 9) 
테스트 새로운 특성(17, 9)


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

### 훈련하기

In [21]:
### 훈련 모델 생성하기
lr = LinearRegression()

### 훈련 시키기
lr.fit(train_poly, train_target)

### 훈련데이터 및 세스트 데이터로 정확도(결정계수) 확인하기
train_score = lr.score(train_poly, train_target)
test_score =  lr.score(test_poly, test_target)

### 과적합 여부 해석
print(f"훈련: {train_score}, 테스트: {test_score}, 과적합여부: {train_score-test_score}")

### 해석
# (특성 추가 전)         : 훈련: 0.9537, 테스트: 0.8863, 과적합여부: 0.0673
# (특성 추가 후 - 2차원) : 훈련: 0.9898, 테스트: 0.9714, 훈련-테스트0.0184
# - 특성 추가 전/후를 비교하였을 때,
# - 훈련 정확도는 약 0.03 정도 다소 높아졌으나, 테스트 정확도의 경우에는 약 0.09 정도로 매우 높아졌음
# - 훈련과 테스트의 차이는 0.018로 기존 대비 약 0.05정도 낮아졌음
# - 따라서, 특성을 2차원으로 늘린 경우, 전체적으로 매우 높은 성능을 발휘하는 모델로
# - 무게 예측에 사용 가능함

훈련: 0.9898271546307026, 테스트: 0.9713771600629656, 과적합여부: 0.018449994567736994


### 평가하기

In [22]:
### 테스트 데이터로 예측하기
test_pred = lr.predict(test_poly)

### 평균절대오차(MAE) 확인하기
mae = mean_absolute_error(test_target, test_pred)
mae

### 해석
# - 기존 오차는 약(+-)68.567이었으나, 특성 증가 후에는 약(+-)30.217g 정도로
# - 50%이상의 오차를 줄일 수 있었음

30.216889590342735

In [23]:
"""
<성능 높이는 방법>
 1. 데이터 증강 (수집)
  - 전처리(특성 늘리기)
 2. 전처리(스케일링)
 3. 하이퍼파라미터 튜닝
 4. 다른 모델 사용
"""

'\n<성능 높이는 방법>\n 1. 데이터 증강 (수집)\n  - 전처리(특성 늘리기)\n 2. 전처리(스케일링)\n 3. 하이퍼파라미터 튜닝\n 4. 다른 모델 사용\n'

### 데이터 스케일링 하기

In [24]:
"""
<데이터 스케일링 - 전처리>
 - 특성들 간의 단위(cm, g, kg, 등등) 차이로 인한 값의 범위가 크게 차이나는 경우에 사용
 - 라이브러리를 이용해서 스케일링 처리를 합니다.
 - 보통 스케일링이라는 용어 이외에 "정규화" 또는 "표준화"라는 용어를 사용하기도 합니다.

<라이브러리>
 - 패키지: sklearn.preprocessing
 - 변환기 클래스: StandardScaler, MinMaxScaler, RobustScaler
 - 사용함수: fit(훈련 독립변수), transform(훈련/검증/테스트 독립변수)

<변환기 클래스 특성>
 - StandardScaler: 주로 분류에 사용되며, 회귀에서도 자주 사용됨
 - MinMaxScaler: 회귀에서 주로 사용됨
 - RobustScaler: 회귀 또는 분류에서 모두 사용 가능(많이 사용 안되고 있음)
 *** 모델 성능을 확인하기 위해서는 위 3개 각각에 대하여 모두 훈련 후 성능 검증 비교합니다.
"""

'\n<데이터 스케일링 - 전처리>\n - 특성들 간의 단위(cm, g, kg, 등등) 차이로 인한 값의 범위가 크게 차이나는 경우에 사용\n - 라이브러리를 이용해서 스케일링 처리를 합니다.\n - 보통 스케일링이라는 용어 이외에 "정규화" 또는 "표준화"라는 용어를 사용하기도 합니다.\n\n<라이브러리>\n - 패키지: sklearn.preprocessing\n - 변환기 클래스: StandardScaler, MinMaxScaler, RobustScaler\n - 사용함수: fit(훈련 독립변수), transform(훈련/검증/테스트 독립변수)\n\n<변환기 클래스 특성>\n - StandardScaler: 주로 분류에 사용되며, 회귀에서도 자주 사용됨\n - MinMaxScaler: 회귀에서 주로 사용됨\n - RobustScaler: 회귀 또는 분류에서 모두 사용 가능(많이 사용 안되고 있음)\n *** 모델 성능을 확인하기 위해서는 위 3개 각각에 대하여 모두 훈련 후 성능 검증 비교합니다.\n'

In [25]:
### StandardScaler로 스케일링하기
ss = StandardScaler()
ss

In [26]:
### 스케일링하기 위한 패턴 찾기
ss.fit(train_poly)

In [27]:
### 찾은 패턴으로 변환(스케일링)하기
train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

print(train_scaled.shape, train_target.shape)
print(test_scaled.shape, test_target.shape)
train_scaled

(39, 9) (39,)
(17, 9) (17,)


array([[-1.33950837, -1.26813468, -1.14309977, -1.1763046 , -1.14308546,
        -1.10896682, -1.10842448, -1.07610233, -1.03444092],
       [ 0.79230245,  0.82048447,  1.02545355,  0.70987177,  0.72626939,
         0.86669407,  0.72827059,  0.8616057 ,  0.982992  ],
       [-0.46844589, -0.62628328, -0.72080254, -0.56436642, -0.64102903,
        -0.68755357, -0.69883931, -0.73527803, -0.76576431],
       [ 1.25075639,  1.27845412,  1.23660217,  1.28717194,  1.31561362,
         1.29755826,  1.3254775 ,  1.30617758,  1.26404722],
       [ 1.13614291,  1.45192747,  1.37356343,  1.13714986,  1.36245671,
         1.32077292,  1.56995803,  1.52454747,  1.45438267],
       [ 1.59459685,  1.27845412,  1.33361639,  1.76002635,  1.53708181,
         1.59305516,  1.3254775 ,  1.37391426,  1.3982155 ],
       [-0.81228634, -0.90384064, -0.81211005, -0.83212735, -0.86948964,
        -0.83777825, -0.89281795, -0.86374427, -0.8289462 ],
       [-1.04151331, -1.09813079, -1.24011399, -0.99164451, -1

In [28]:
"""
<한개 모델(클래스)로 성능 확인하는 방법
 1. 순수한(아무것도 처리하지 않은) 원본 데이터(훈련,검증,테스트)로 훈련 및 성능확인
 2. 1번 + 특성 추가 한 데이터로 훈련 및 성능 확인
 3. 1번 + 스케일링 한 데이터로 훈련 및 성능 확인
 4. 1번 + 2번 + 3번 한 데이터로 훈련 및 성능 확인
 
 5. 1번 + 2번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인
 6. 1번 + 3번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인
 6. 1번 + 4번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인
"""

'\n<한개 모델(클래스)로 성능 확인하는 방법\n 1. 순수한(아무것도 처리하지 않은) 원본 데이터(훈련,검증,테스트)로 훈련 및 성능확인\n 2. 1번 + 특성 추가 한 데이터로 훈련 및 성능 확인\n 3. 1번 + 스케일링 한 데이터로 훈련 및 성능 확인\n 4. 1번 + 2번 + 3번 한 데이터로 훈련 및 성능 확인\n \n 5. 1번 + 2번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인\n 6. 1번 + 3번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인\n 6. 1번 + 4번 + 하이퍼파라미터 튜닝한 훈련 및 성능 확인\n'

In [29]:
### 훈련 모델 생성하기
lr = LinearRegression()

### 훈련 시키기
lr.fit(train_scaled, train_target)

### 훈련데이터 및 테스트 데이터로 정확도(결정계수) 확인하기
train_score = lr.score(train_scaled, train_target)
test_score =  lr.score(test_scaled, test_target)

### 과적합 여부 해석
print(f"훈련: {train_score}, 테스트: {test_score}, 과적합여부: {train_score-test_score}")

### 테스트 데이터로 예측하기
test_pred = lr.predict(test_scaled)
print(f"예측결과: {test_pred}")

### 예측 결과를 이용해서 평균절대오차(MAE) 확인하기
mae = mean_absolute_error(test_target, test_pred)
mae

### 최종 해석
# (특성 추가 전)         : 훈련: 0.9537, 테스트: 0.8863, 과적합여부: 0.0673
# (특성 추가 후 - 2차원) : 훈련: 0.9898, 테스트: 0.9714, 과적합여부: 0.0184
# (특성2차원 + 스케일링) : 훈련: 0.9898, 테스트: 0.9714, 과적합여부: 0.0184


# (특성 추가 전)         : 오차는 약(+-)68.567
# (특성 추가 후 - 2차원) : 오차는 약(+-)30.217
# (특성2차원 + 스케일링) : 오차는 약(+-)30.217

# - 2차원 특성 추가에 대한 훈련 결과와 평가결과는 동일하게 나왔음
# - 따라서, 스케일링 전/후의 결과가 같기에 스케일링 없이 진행하여도 성능에는 영향을 미치지 않음

훈련: 0.9898271546307026, 테스트: 0.9713771600629614, 과적합여부: 0.018449994567741212
예측결과: [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]


30.216889590344675

In [30]:
### MinMaxScaler 사용
# 변환기 클래스 생성하기
mm = MinMaxScaler()

### 스케일링하기 위한 패턴 찾기
mm.fit(train_poly)

### 찾은 패턴으로 변환(스케일링)하기
train_scaled = mm.transform(train_poly)
test_scaled = mm.transform(test_poly)

# print(train_scaled.shape, train_target.shape)
# print(test_scaled.shape, test_target.shape)

### 훈련 모델 생성하기
lr = LinearRegression()

### 훈련 시키기
lr.fit(train_scaled, train_target)

### 훈련데이터 및 테스트 데이터로 정확도(결정계수) 확인하기
train_score = lr.score(train_scaled, train_target)
test_score =  lr.score(test_scaled, test_target)

### 과적합 여부 해석
print(f"훈련: {train_score}, 테스트: {test_score}, 과적합여부: {train_score-test_score}")

### 테스트 데이터로 예측하기
test_pred = lr.predict(test_scaled)
print(f"예측결과: {test_pred}")

### 예측 결과를 이용해서 평균절대오차(MAE) 확인하기
mae = mean_absolute_error(test_target, test_pred)
mae

훈련: 0.9898271546307025, 테스트: 0.9713771600629622, 과적합여부: 0.018449994567740324
예측결과: [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]


30.216889590344127

In [31]:
### RobustScaler 사용
# 변환기 클래스 생성하기
rs = RobustScaler()

### 스케일링하기 위한 패턴 찾기
rs.fit(train_poly)

### 찾은 패턴으로 변환(스케일링)하기
train_scaled = rs.transform(train_poly)
test_scaled = rs.transform(test_poly)

# print(train_scaled.shape, train_target.shape)
# print(test_scaled.shape, test_target.shape)

### 훈련 모델 생성하기
lr = LinearRegression()

### 훈련 시키기
lr.fit(train_scaled, train_target)

### 훈련데이터 및 테스트 데이터로 정확도(결정계수) 확인하기
train_score = lr.score(train_scaled, train_target)
test_score =  lr.score(test_scaled, test_target)

### 과적합 여부 해석
print(f"훈련: {train_score}, 테스트: {test_score}, 과적합여부: {train_score-test_score}")

### 테스트 데이터로 예측하기
test_pred = lr.predict(test_scaled)
print(f"예측결과: {test_pred}")

### 예측 결과를 이용해서 평균절대오차(MAE) 확인하기
mae = mean_absolute_error(test_target, test_pred)
mae

훈련: 0.9898271546307026, 테스트: 0.9713771600629589, 과적합여부: 0.018449994567743655
예측결과: [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]


30.216889590346174

### 가장 적절한 특성의 차원(degree) 찾기

In [32]:
### 특성공학을 저용한 특성 늘릴 떄 사용한 차원 갯수는
# - 모델 성능에 영향을 미치는 하이퍼파라미터 입니다.
# - 가장 최적의 차원의 갯수를 찾아주세요...(하이퍼파라미터 튜닝)
# - 테스트할 차원의 갯수: 2~10까지(보통 2~4차원까지 사용합니다)
# - 확인 절차
#  - standard 스케일러 사용
#  - 과적합 여부까지만 확인하여 가장 적절한 차원의 갯수 확인
for degree in range(2, 11):
    poly = PolynomialFeatures(degree=degree, include_bias=False)
    poly.fit(train_input)
    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)
    
    ### MinMaxScaler 사용
    # 변환기 클래스 생성하기
    ss = StandardScaler()
    
    ### 스케일링하기 위한 패턴 찾기
    ss.fit(train_poly)
    
    ### 찾은 패턴으로 변환(스케일링)하기
    train_scaled = ss.transform(train_poly)
    test_scaled = ss.transform(test_poly)
    
    ### 훈련 모델 생성하기
    lr = LinearRegression()
    
    ### 훈련 시키기
    lr.fit(train_scaled, train_target)
    
    ### 훈련데이터 및 테스트 데이터로 정확도(결정계수) 확인하기
    train_score = lr.score(train_scaled, train_target)
    test_score =  lr.score(test_scaled, test_target)
    
    ### 과적합 여부 해석
    print(f"[{degree}]차원 / 훈련: {train_score}, 테스트: {test_score}, 과적합여부: {train_score-test_score}")

[2]차원 / 훈련: 0.9898271546307026, 테스트: 0.9713771600629614, 과적합여부: 0.018449994567741212
[3]차원 / 훈련: 0.99619107314902, 테스트: 0.9454275516673535, 과적합여부: 0.05076352148166652
[4]차원 / 훈련: 0.9999640640983476, 테스트: -23.738083479635996, 과적합여부: 24.738047543734343
[5]차원 / 훈련: 1.0, 테스트: -26.192517778821642, 과적합여부: 27.192517778821642
[6]차원 / 훈련: 1.0, 테스트: -19.566327413087702, 과적합여부: 20.566327413087702
[7]차원 / 훈련: 1.0, 테스트: -33.587042048571774, 과적합여부: 34.587042048571774
[8]차원 / 훈련: 1.0, 테스트: -53.58956867620866, 과적합여부: 54.58956867620866
[9]차원 / 훈련: 1.0, 테스트: -83.68397757999257, 과적합여부: 84.68397757999257
[10]차원 / 훈련: 1.0, 테스트: -133.48864488661647, 과적합여부: 134.48864488661647


### 클래스로 만들어서 처리해주세요

In [33]:
"""
지금까지 수행한 처리 과정과 확인절차 등을 볼 때..
 - 함수로 정의해서 사용하면 편리한 부분이 있을겁니다.

-> 클래스로 정의하여 편의성 있게 만들어주세요.
-> 클래스 이름 : Model_Util
"""

'\n지금까지 수행한 처리 과정과 확인절차 등을 볼 때..\n - 함수로 정의해서 사용하면 편리한 부분이 있을겁니다.\n\n-> 클래스로 정의하여 편의성 있게 만들어주세요.\n-> 클래스 이름 : Model_Util\n'