## 다중 회귀(Multiple Regression)

- 여전히 과소적합의 결과가 나타나는 농어 데이터
- 농어의 길이 뿐만 아니라 높이, 두께 특성도 사용하여 더욱 복잡한 모델을 만들어 훈련 세트의 점수를 높이기
- 여러 개의 특성을 사용한 선형 회귀 = " 다중 회귀 (Multiple Regression)"
- 1개의 특성을 사용했을 때 선형 회귀 모델이 학습하는 것은 '직선'
- 2개의 특성을 사용했을 때 선형 회귀 모델이 학습하는 것은 '평면'(3차원)

### 특성 공학(Feature Engineering)

- 3개의 특성(길이, 높이, 두께)을 각각 제곱하여 추가
- 거기에 각 특성을 서로 곱해서 또 다른 특성을 만들기 ex) 길이 x 높이
- 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 = "특성 공학(Feature Engineering)

#### 데이터 준비

- 판다스를 사용해 농어 데이터(csv)를 내려받아 데이터프레임에 저장
- 그 다음 넘파이 배열로 변환하여 선형 회귀 모델 훈련

In [5]:
import pandas as pd

df = pd.read_csv('https://bit.ly/perch_csv_data')

perch_full = df.to_numpy()

print(perch_full)
print(type(perch_full))
# 1열 = length, 2열 = height, 3열 = width

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [6]:
# 타깃 데이터 준비

import numpy as np

perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [7]:
# 훈련세트와 데이터세트

from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

#### transformer(변환기)

- 특성을 만들거나 전처리하기 위해 사이킷런에서 제공하는 클래스
- 훈련(fit)을 해야 변환(transform)이 가능
- 두 메서드를 하나로 붙인 fit_transform 메서드도 있음
- fit() = 새롭게 만들 특성 조합을 찾음
- transform() = 실제로 데이터를 변환
- 변환기는 입력 데이터를 변환하는데 타깃 데이터가 필요하지 않음 = 입력 데이터만 전달하면 됨

In [13]:
# 연습

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures()
poly.fit([[2, 3]])

print(poly.transform([[2, 3]]))
print(poly.fit_transform([[2, 3]]))

[[1. 2. 3. 4. 6. 9.]]
[[1. 2. 3. 4. 6. 9.]]


- PolynomialFeatures 클래스 = 각 특성을 제곱한 항을 추가하고 특성끼리 서로 곱한 항을 추가
- 2, 3을 각각 제곱한 4, 9가 추가되었고, 2, 3을 서로 곱한 6이 추가됨
- 무게 = a * 길이 + b * 높이 + c * 두께 + d * 1
- 선형 방정식의 절편을 항상 값이 1인 특성과 곱해지는 계수라고 보기 때문에 1도 추가되는 것
- include_bias = False로 지정하면 1을 추가하지 않을 수 있음

In [12]:
poly = PolynomialFeatures(include_bias = False)
poly.fit([[2, 3]])

print(poly.transform([[2, 3]]))

[[2. 3. 4. 6. 9.]]


In [14]:
# 실습

poly = PolynomialFeatures(include_bias = False)

poly.fit(train_input)
train_poly = poly.transform(train_input)

print(train_poly)
# 길이, 높이, 두께, 길이제곱, 길이x높이, 길이x두께, 높이제곱, 높이x두께, 두께제곱 = 9개
print(train_poly.shape)

[[  19.6       5.14      3.04    384.16    100.744    59.584    26.4196
    15.6256    9.2416]
 [  22.        5.88      3.52    484.      129.36     77.44     34.5744
    20.6976   12.3904]
 [  18.7       5.2       3.12    349.69     97.24     58.344    27.04
    16.224     9.7344]
 [  17.4       4.59      2.94    302.76     79.866    51.156    21.0681
    13.4946    8.6436]
 [  36.       10.61      6.74   1296.      381.96    242.64    112.5721
    71.5114   45.4276]
 [  25.        6.44      3.68    625.      161.       92.       41.4736
    23.6992   13.5424]
 [  40.       11.93      7.11   1600.      477.2     284.4     142.3249
    84.8223   50.5521]
 [  39.       12.43      7.35   1521.      484.77    286.65    154.5049
    91.3605   54.0225]
 [  43.       11.93      7.28   1849.      512.99    313.04    142.3249
    86.8504   52.9984]
 [  22.        5.64      3.52    484.      124.08     77.44     31.8096
    19.8528   12.3904]
 [  20.        5.08      2.77    400.      101.6    

In [16]:
# 9개의 특성이 각각 어떤 입력의 조합으로 만들어졌는지 알아보기

poly.get_feature_names()

['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2', 'x2^2']

In [18]:
# 테스트 세트도 변환해주기
# 훈련 세트에 적용했던 변환기(poly)로 테스트 세트를 변환

test_poly = poly.transform(test_input)

print(test_poly)
print(test_poly.shape)

[[8.400000e+00 2.110000e+00 1.410000e+00 7.056000e+01 1.772400e+01
  1.184400e+01 4.452100e+00 2.975100e+00 1.988100e+00]
 [1.800000e+01 5.220000e+00 3.320000e+00 3.240000e+02 9.396000e+01
  5.976000e+01 2.724840e+01 1.733040e+01 1.102240e+01]
 [2.750000e+01 7.280000e+00 4.570000e+00 7.562500e+02 2.002000e+02
  1.256750e+02 5.299840e+01 3.326960e+01 2.088490e+01]
 [2.130000e+01 6.380000e+00 3.530000e+00 4.536900e+02 1.358940e+02
  7.518900e+01 4.070440e+01 2.252140e+01 1.246090e+01]
 [2.250000e+01 5.860000e+00 3.620000e+00 5.062500e+02 1.318500e+02
  8.145000e+01 3.433960e+01 2.121320e+01 1.310440e+01]
 [4.000000e+01 1.114000e+01 6.630000e+00 1.600000e+03 4.456000e+02
  2.652000e+02 1.240996e+02 7.385820e+01 4.395690e+01]
 [3.000000e+01 7.620000e+00 4.770000e+00 9.000000e+02 2.286000e+02
  1.431000e+02 5.806440e+01 3.634740e+01 2.275290e+01]
 [2.460000e+01 6.730000e+00 4.170000e+00 6.051600e+02 1.655580e+02
  1.025820e+02 4.529290e+01 2.806410e+01 1.738890e+01]
 [3.900000e+01 1.114000e

#### 다중 회귀 모델 훈련하기

- 변환기를 사용해 다양한 특성을 만든 뒤(지금까지의 과정)
- LinearRegression 클래스를 이용하여 회귀 모델 훈련

In [19]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)

print(lr.score(train_poly, train_target))

0.9903183436982124


In [20]:
print(lr.score(test_poly, test_target))

0.9714559911594203
