#### 다중회귀모델(Multiple Regression)
- 여러 개의 특성(항목, 컬럼, 퓨처 같은 용어)를 사용한 회귀모델
- 특성이 많을수록 모델이 훈련(학습) 중에 직중력(복잡도)이 높아짐
- 단점 : 훈련시간이 다소 오래 걸릴 수 있음 (시스템 성능에 따라 훈련 소요 시간이 달라짐)
- 장점 : 기존 선형(직선 & 곡선) 모델이 비하여 과적합 해소에 도움이 되는 모델

In [1]:
### 라이브러리 정의
# - 데이터를 읽기 위한 라이브러리
import pandas as pd

# - 시각화 라이브러리
import matplotlib.pyplot as plt

# - 히트맵 라이브러리
import seaborn as sns

### 수치 계산 라이브러리
import numpy as np

# - 데이터 가공 라이브러리
from sklearn.model_selection import train_test_split

# 선형회귀모델 라이브러리
from sklearn.linear_model import LinearRegression

# - MAE 라이브러리 정의
from sklearn.metrics import mean_absolute_error

# - 한글처리
plt.rc("font", family="Malgun Gothic")

# - 마이너스 기호 깨짐 처리
plt.rcParams["axes.unicode_minus"] = False

In [2]:
### 사용할 데이터 : 03_농어의_길이_높이_두께_데이터.csv
# - 주제 : 농어의 길이, 두께, 너비를 이용해서 무게를 예측하기
# - 독립변수 : 길이, 두께, 너비
# - 종속변수 : 무게

In [3]:
### 데이터 읽어 들이기
# 변수명 : df

file_path = "./data/03_농어의_길이_높이_두께_데이터.csv"
df = pd.read_csv(file_path)
df.info()
df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   length  56 non-null     float64
 1   height  56 non-null     float64
 2   width   56 non-null     float64
dtypes: float64(3)
memory usage: 1.4 KB


Unnamed: 0,length,height,width
0,8.4,2.11,1.41


In [4]:
### 독립변수 데이터 만들기
# - 데이터 프레임의 데이터를 numpy의 배열(array) 형태로 변환
# - 변수명 : perch_full

perch_full = df.to_numpy()
perch_full.shape

(56, 3)

In [5]:
### 종속변수 생성
### 농어의 무게
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [6]:
### 현재 기준 최종 독립변수와 종속변수 데이터
perch_full.shape, perch_weight.shape

((56, 3), (56,))

In [7]:
### 데이터 분류하기
# - 분류기준 = 훈련 : 테스트 7 : 3

train_input, test_input, train_target, test_target = train_test_split(
    perch_full, perch_weight, test_size=0.3, random_state=42
)

print(train_input.shape, train_target.shape)
print(test_input.shape, test_target.shape)

(39, 3) (39,)
(17, 3) (17,)


### 훈련 모델 생성 및 훈련 시키기

In [8]:
### 훈련 모델 생성 : 변수명 lr
lr = LinearRegression()
lr

In [9]:
### 훈련 시키기
lr.fit(train_input, train_target)

In [10]:
### 훈련 및 테스트 데이터로 결정계수 확인
train_score = lr.score(train_input, train_target)
test_score = lr.score(test_input, test_target)

print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}")

훈련 결정계수 : 0.9537065271284176, 테스트 결정계수 : 0.8863420836347777


In [11]:
### 과적합 여부 판단(해석)
print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

### 결과
# 훈련 결정계수 : 0.95, 테스트 결정계수 : 0.89, 훈련 - 테스트 : 0.067
# - 해석
# 과소적합은 일어나지 않았음
# 훈련결과 테스트의 결정계수 차이는 0.067로 과대적합 발생도 없음
# 매우 훌륭한 모델로 판단됨
# 그럼에도 불구하고 조금이라도 성능을 향상시킬 수 있는 방법이 있다면 수행
# 농어의 길이, 두께, 높이를 이용하여 무게를 예측하는 다항회귀모델을 이용할 경우
# 0.954 정도의 매우 높은 정확도를 발휘하는 일반화된(과대 또는 과소적합이 발생하지 않은) 모델로 사용 가능함

훈련 결정계수 : 0.9537065271284176, 테스트 결정계수 : 0.8863420836347777, 과적합여부 : 0.0673644434936399


#### 테스트 데이터로 예측하기

In [12]:
### 예측하기
# - 예측결과를 담을 변수명 : pred
pred = lr.predict(test_input)
pred

array([-328.54944233,   48.99648009,  328.530777  ,  168.01071374,
        147.28466932,  790.89418753,  383.33837613,  247.89949679,
        814.06695812,  123.2000108 ,  981.8543067 ,  -37.63667416,
        356.2229673 ,  419.56345249,   48.15564696,  140.06819759,
         46.70641917])

In [13]:
### 평균절대오차(MAE)로 평과결과 확인
mea = mean_absolute_error(test_target, pred)
mea

### 해석
# 농어의 길이, 두께, 높이를 이용하여 무게를 예측하는 다항회귀모델을 이용할 경우
# 예측 오차 (+-) 68.567 정도의 오차가 발생할 수 있는 모델임

68.56651514640545

##### 성능을 높이는 방법
- 1. 데이터 양 늘리기, 즉 데이터 추가 수집
    (데이터 양은 행단위 또는 열단위로 늘리는 것을 의미)
- 2. 하이퍼 파라미터 튜닝
- 3. 새로운 모델 찾기

#### 특성 늘리기
- 특성 공학 적용
    - 열단위 특성 늘리기
    - 기존의 정확도(결정계수)를 더 높일 수 있는지 확인하는 절차
    - 특성은 임의 데이터를 사용하는 것이 아닌, 기존의 수집되어 있는 특성을 이용
<br>

- 특성을 생성하는 라이브러리
    - 패키지 : sklearn.preprocessing
    - 사용 라이브러리(클래스) : PolynomialFeatures()
        - 변환기 모델이라고 칭함
        - 실제 훈련 모델은 아님, 전처리 모델
        - *새로 생성할 특성들의 패턴을 찾음*
    - 사용되는 함수
        - fit() : 변환기 모델을 이용하여 생성할 특성 패턴 찾기
        - transform() : 찾은 패턴을 기준으로 특성 생성하기
<br>

- 특성 생성 순서 : 훈련모델 처리와 동일
    - 1. 변환기 모델 생성
    - 2. 변환기 모델 패턴 찾기 : fit(훈련 독립변수)
    - 3. 찾은 패턴으로 특성 생성 : transform(훈련/검증/테스트 독립변수)
<br>

- 특성 생성시 사용하는 데이터
    - fit()을 이용하여 패턴을 찾을 때는 "훈련 독립변수" 만 사용함
    - transform()을 이용하여 찾은 패턴으로 특성을 생성할 때
        - 훈련, 검증, 테스트 데이터 모두 처리 진행
    - 종속 변수는 원본 유지함(처리 대상이 아님, 정답이기 때문에)

In [14]:
### 변환기 모델(클래스) 라이브러리 정의
from sklearn.preprocessing import PolynomialFeatures

In [15]:
### 변환기 모델(클래스) 생성
poly = PolynomialFeatures()
poly

In [16]:
### 샘플 데이터로 특성의 패턴 확인
temp_data = [[2, 3, 4]]
temp_data

[[2, 3, 4]]

In [17]:
### 독립변수의 특성을 이용해서 패턴 찾기(훈련 시키는 개념과 동일)
poly.fit(temp_data)

In [18]:
### 찾은 패턴으로 독립변수 데이터 변환하기
poly.transform(temp_data)

### 가장 첫번째(0번째) 값은 y절편 나머지 1번째 부터가 독립변수 특성임
# - y절편값은 사용하지 않기 때문에 추후 제거해 주어야 함

array([[ 1.,  2.,  3.,  4.,  4.,  6.,  8.,  9., 12., 16.]])

In [19]:
### 변환기 모델(클래스) 생성하기
# include_bias=False : y절편을 제외하는 속성(파라메터)
# - 독립변수에는 순수한 데이터만 존재해야 하기 때문에, y절편 값은 제외합니다.
poly = PolynomialFeatures(include_bias=False)

### 독립변수의 특성을 이용해서 패턴 찾기(훈련시키기 개념과 동일)
poly.fit(temp_data)

### 찾은 패턴으로 독립변수 데이터 변환하기
temp_poly = poly.transform(temp_data)
print(temp_poly)

### fit()에서 찾은 패턴 확인하기
poly.get_feature_names_out()

[[ 2.  3.  4.  4.  6.  8.  9. 12. 16.]]


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [20]:
### 변환기 모델(클래스) 생성
# - include_bias=False : y절편을 제외하는 속성(파라미터)
# - 독립변수에는 순수한 데이터만 존재해야 하기 때문에 y절편 값은 제외

# degree=n : 특성의 패턴 생성시 사용할 차원을 정의함
# - 1~n차원까지의 패턴을 만들어냄
# - 기본값은 2(생략 가능)
poly = PolynomialFeatures(degree=4, include_bias = False)

### 독립변수의 특성을 이용해서 패턴 찾기(훈련 시키는 개념과 동일)
poly.fit(temp_data)

### 찾은 패턴으로 독립변수 데이터 변환하기
temp_poly = poly.transform(temp_data)
print(temp_poly)

### fit()에서 찾은 패턴 확인
poly.get_feature_names_out()

[[  2.   3.   4.   4.   6.   8.   9.  12.  16.   8.  12.  16.  18.  24.
   32.  27.  36.  48.  64.  16.  24.  32.  36.  48.  64.  54.  72.  96.
  128.  81. 108. 144. 192. 256.]]


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2', 'x0^3', 'x0^2 x1', 'x0^2 x2', 'x0 x1^2', 'x0 x1 x2',
       'x0 x2^2', 'x1^3', 'x1^2 x2', 'x1 x2^2', 'x2^3', 'x0^4', 'x0^3 x1',
       'x0^3 x2', 'x0^2 x1^2', 'x0^2 x1 x2', 'x0^2 x2^2', 'x0 x1^3',
       'x0 x1^2 x2', 'x0 x1 x2^2', 'x0 x2^3', 'x1^4', 'x1^3 x2',
       'x1^2 x2^2', 'x1 x2^3', 'x2^4'], dtype=object)

#### 실제 독립변수를 이용해서 새로운 특성 생성하기

In [21]:
### 2차원으로 특성 생성하기
# - 훈련 및 테스트 독립변수 데이터 모두 변환
# - 훈련 독립변수 데이터 변환 후 변수명 : train_poly
# - 테스트 독립변수 데이터 변환 후 변수명 : test_poly
poly = PolynomialFeatures(include_bias=False)
poly.fit(train_input) # 패턴 찾기

# 찾은 패턴으로 독립변수 데이터 변환
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(train_poly.shape, test_poly.shape)

# fit()에서 찾은 패턴 확인
poly.get_feature_names_out()

(39, 9) (17, 9)


array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

#### 훈련하기

In [22]:
### 훈련모델 생성
lr = LinearRegression()
lr

In [23]:
### 훈련 시키기
lr.fit(train_poly, train_target)

In [24]:
### 훈련 데이터 및 테스트 데이터로 정확도(결정계수) 확인
train_score = lr.score(train_poly, train_target)
test_score = lr.score(test_poly, test_target)

print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}")

훈련 결정계수 : 0.9898271546307027, 테스트 결정계수 : 0.9713771600629739


In [25]:
### 과적합 여부 해석
print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

### 결과
# 훈련 결정계수 : 0.9898271546307027, 테스트 결정계수 : 0.9713771600629739, 과적합여부 : 0.018449994567728778

### 해석
# - 특성 추가 전 : 훈련 : 0.9537, 테스트 : 0.8863, 과적합여부 : 0.06736
# - 특성 추가 후 2차원 : 훈련 : 0.9898 , 테스트 : 0.9713, 과적합여부 : 0.01844

# 특성 추가 전/후를 비교 하였을 때
# 훈련 정확도는 약 0.03 정도 다소 높아졌음
# 테스트 정확도의 경우에는 약 0.9 정도로 매우 높아 졌음
# 훈련과 테스트의 차이는 0.018로 기존 대비 약 0.05 정도 낮아졌음

# 따라서 특성을 2차원으로 늘린 경우 전체적으로 매우 높은 성능을 발휘하는 모델
# 무게 예측에 사용 가능함

훈련 결정계수 : 0.9898271546307027, 테스트 결정계수 : 0.9713771600629739, 과적합여부 : 0.018449994567728778


#### 평가하기

In [26]:
### 테스트 데이터로 예측하기
test_pred = lr.predict(test_poly)
print(test_pred)

[  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]


In [27]:
### 평균절대오차(MAE) 확인
mea = mean_absolute_error(test_target, test_pred)
print(mea)

### 해석
# 기존 오차는 약 (+-) 68.567 이었으나 특성 증가 후에는 약 (+-) 30.217 정도의 오차가 발생
# 50% 이상의 오차를 줄일 수 있었음

30.216889590337715


#### 성능 높이는 방법
- 1. 데이터 증강(수집)
    - 전처리(특성 늘이기)
- 2. 전처리(스케일링)
- 3. 하이퍼 파라미터 튜닝
- 4. 다른 모델 사용

#### 데이터 스케일링 - 전처리
- 특성들간의 단위(cm, g, kg, 등등) 차이로 인한 값의 범위가 크게 차이나는 경우에 사용
- 라이브러리를 이용해서 스케일링 처리 진행
- 보통 스케일링 대신 "정규화" 또는 "표준화" 라는 용어 사용
- 라이브러리
    - 패키지 : sklearn.preprocessing
    - 변환기 클래스 : StandardScaler, MinMaxScaler, RobustScaler
    - 사용함수 : fit(훈련 독립변수), transform(훈련, 검증, 테스트 독립변수)
- 변환기 클래스 특성
    - StandardScaler : 주로 분류에 사용되며 회귀에서도 자주 사용
    - MinMaxScaler : 회귀에서 주로 사용
    - RobustScaler : 회귀 또는 분류에서 모두 사용 가능 (많이 사용되지는 않음)
    - *** 모델 성능을 확인하기 위해서는 위 3개 각각에 대하여 모두 훈련 후 성능 검증 비교

In [28]:
### 데이터 스케일링 라이브러리 정의
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

In [29]:
### StandardScaler 스케일링
ss = StandardScaler()
ss

In [30]:
### 스케일링하기 위한 패턴 찾기
ss.fit(train_poly)

In [31]:
### 찾은 패턴으로 변환(스케일링)
train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

print(train_scaled.shape, train_target.shape)
print(test_scaled.shape, test_target.shape)

(39, 9) (39,)
(17, 9) (17,)


- 한개 모델(클래스)로 성능 확인하는 방법
    - 1. 순수한(아무것도 처리하지 않은) 원본 데이터(훈련, 검증, 테스트)로 훈련 및 성능 확인
    - 2. 1번 항목 + 특성 추가 한 데이터로 훈련 및 성능 확인
    - 3. 1번 항목 + 스케일링 한 데이터로 훈련 및 성능 확인
    - 4. 1번 항목 + 특성 추가 + 스케일링 한 데이터로 훈련 및 성능 확인
    - 5. 1번 항목 + 2번 항목 + 하이퍼 파라미터 튜닝한 데이터로 훈련 및 성능 확인
    - 6. 1번 항목 + 3번 항목 + 하이퍼 파라미터 튜닝한 데이터로 훈련 및 성능 확인
    - 7. 1번 항목 + 4번 항목 + 하이퍼 파라미터 튜닝한 데이터로 훈련 및 성능 확인

In [32]:
### 훈련 모델 생성
lr = LinearRegression()

### 훈련 시키기
lr.fit(train_scaled, train_target)

### 훈련 및 테스트 데이터 정확도(결정계수) 확인
train_score = lr.score(train_scaled, train_target)
test_score = lr.score(test_scaled, test_target)

### 과적합 여부 해석
print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

### 테스트 데이터로 예측
test_pred = lr.predict(test_scaled)
print(f"예측결과 : {test_pred}")

### 예측 결과를 이용해서 평균절대오차(MAE) 확인
mae = mean_absolute_error(test_target, test_pred)
print(f"평균절대오차(MAE) : {mae}")

### 최종해석
# - 특성 추가 전 : 훈련 : 0.9537, 테스트 : 0.8863, 과적합여부 : 0.06736
# - 특성 추가 후 2차원 : 훈련 : 0.9898 , 테스트 : 0.9713, 과적합여부 : 0.01844
# - 특성2차원 + 스케일링 : 훈련 0.9898, 테스트 0.9713, 과적합여부 0.01844

# 특성 추가 전 : 오차는 약(+-) 68.567
# 특성 추가 후 2차원 : 오차는 약(+-) 30.217
# 특성2차원 + 스케일링 : 오차는 약(+-) 30.217

# 2차원 특성 추가에 대한 훈련 결과와 평가 결과는 동일하게 나왔음
# 따라서 스케일링 전/후의 결과가 같기에 스케일링 없이 진행하여도 성능에 영향 없음

훈련 결정계수 : 0.9898271546307025, 테스트 결정계수 : 0.97137716006296, 과적합여부 : 0.018449994567742434
예측결과 : [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]
평균절대오차(MAE) : 30.216889590345424


#### MinMaxScaler 및 RobustScaler 각각 모두 사용

In [33]:
### MinMaxScaler 사용

# 변환기 클래스 생성
mm = MinMaxScaler()

# 변환 패턴 찾기
mm.fit(train_poly)

# 찾은 패턴으로 변환
train_scaled = mm.transform(train_poly)
test_scaled = mm.transform(test_poly)

# 모델 생성
lr = LinearRegression()

# 모델 훈련
lr.fit(train_scaled, train_target)

# 훈련 및 테스트 정확도 확인
train_score = lr.score(train_scaled, train_target)
test_score = lr.score(test_scaled, test_target)

# 과적합 여부 확인
print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

# 테스트 데이터로 예축
test_pred = lr.predict(test_scaled)
print(f"예측결과 : {test_pred}")

# 테스트 데이터로 평균절대오차(MAE) 확인
mae = mean_absolute_error(test_target, test_pred)
print(f"평균절대오차(MAE) : {mae}")

훈련 결정계수 : 0.9898271546307026, 테스트 결정계수 : 0.9713771600629613, 과적합여부 : 0.018449994567741324
예측결과 : [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]
평균절대오차(MAE) : 30.21688959034465


In [34]:
### RobustScaler 사용

# 변환기 클래스 생성
rb = RobustScaler()

# 변환 패턴 찾기
rb.fit(train_poly)

# 찾은 패턴으로 변환
train_scaled = rb.transform(train_poly)
test_scaled = rb.transform(test_poly)

# 모델 생성
lr = LinearRegression()

# 모델 훈련
lr.fit(train_scaled, train_target)

# 훈련 및 테스트 정확도 확인
train_score = lr.score(train_scaled, train_target)
test_score = lr.score(test_scaled, test_target)

# 과적합 여부 확인
print(f"훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

# 테스트 데이터로 예축
test_pred = lr.predict(test_scaled)
print(f"예측결과 : {test_pred}")

# 테스트 데이터로 평균절대오차(MAE) 확인
mae = mean_absolute_error(test_target, test_pred)
print(f"평균절대오차(MAE) : {mae}")

훈련 결정계수 : 0.9898271546307026, 테스트 결정계수 : 0.9713771600629618, 과적합여부 : 0.01844999456774077
예측결과 : [  22.92877835   31.10777487  250.98436388  111.59208216  128.85787135
  779.24558158  304.72417951  176.31471164  916.8961555    98.7200446
 1180.23592257   34.86148711  288.45880297  272.52503942   85.71366627
  120.24574045   59.93605383]
평균절대오차(MAE) : 30.216889590344515


#### 가장 적절한 특성의 차원(degree) 찾기

In [35]:
### 특성 공학을 적용한 특성 늘릴 때 사용한 차원의 갯수
# - 모델 성능에 영향을 미치는 하이퍼 파라미터
# - 가장 최적의 차원의 갯수를 찾기 (하이퍼 파라미터 튜닝)
# - 테스트 할 차원의 갯수 : 2 ~ 10까지
# - 확인 절차
#    - Standard 스케일러 사용
#    - 과적합 여부까지만 확인하여 가장 적절한 차원의 갯수 확인

for idx in range(2, 11, 1) :
    # 특성 차원 생성
    poly = PolynomialFeatures(degree=idx, include_bias=False)
    poly.fit(train_input)
    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)

    # 데이터 스케일링
    ss = StandardScaler()
    ss.fit(train_poly)
    train_scaled = ss.transform(train_poly)
    test_scaled = ss.transform(test_poly)

    # 훈련 모델 생성 및 결과 확인
    lr = LinearRegression()
    lr.fit(train_scaled, train_target)
    train_score = lr.score(train_scaled, train_target)
    test_score = lr.score(test_scaled, test_target)
    print(f"차원 : {idx}, 훈련 결정계수 : {train_score}, 테스트 결정계수 : {test_score}, 과적합여부 : {train_score - test_score}")

차원 : 2, 훈련 결정계수 : 0.9898271546307025, 테스트 결정계수 : 0.97137716006296, 과적합여부 : 0.018449994567742434
차원 : 3, 훈련 결정계수 : 0.9961910731490293, 테스트 결정계수 : 0.9454275516674097, 과적합여부 : 0.05076352148161967
차원 : 4, 훈련 결정계수 : 0.9999640640983969, 테스트 결정계수 : -23.738083493961653, 과적합여부 : 24.73804755806005
차원 : 5, 훈련 결정계수 : 1.0, 테스트 결정계수 : -26.192517921840803, 과적합여부 : 27.192517921840803
차원 : 6, 훈련 결정계수 : 1.0, 테스트 결정계수 : -19.566327412840213, 과적합여부 : 20.566327412840213
차원 : 7, 훈련 결정계수 : 1.0, 테스트 결정계수 : -33.587042048303665, 과적합여부 : 34.587042048303665
차원 : 8, 훈련 결정계수 : 1.0, 테스트 결정계수 : -53.58956868263284, 과적합여부 : 54.58956868263284
차원 : 9, 훈련 결정계수 : 1.0, 테스트 결정계수 : -83.68397765556391, 과적합여부 : 84.68397765556391
차원 : 10, 훈련 결정계수 : 1.0, 테스트 결정계수 : -133.48864507770463, 과적합여부 : 134.48864507770463


#### 클래스로 만들어서 처리
- 지금까지 수행한 처리 과정 확인 절차 등을 볼 때 함수로 정의하면 편한 부분이 있음
- 클래스로 정의해서 편의성 있게 만들기
- 클래스 이름 : Model_Util
- 데이터 전달부터 전처리 라이브러리 등등 사용
- 성능비교를 편리하게 할 수 있는 방법도 찾아서 기능 정의 하면 좋음