앞선 절에서 길이와 길이의 제곱을 사용하여 선형 회귀 모델을 훈련시켰지만 과소적합이 나타났고 제곱보다 고차항을 얼마나 넣어야 할지, 수동으로 고차항을 넣기도 힘든 상황이다.  
길이 뿐만이 아닌 높이와 두께 데이터도 사용하여 다항 회귀에 적용해보자.

### 다중회귀  
여러 개의 특성을 사용한 선형 회귀를 **다중 회귀(multiple regression)**라고 부른다.  
2절에서처럼 1개의 특성을 사용했을 때는 선형 회귀 모델이 학습하는 것은 직선이다. 2개의 특성을 사용하면 무엇을 학습할까?  
특성이 2개이면 선형 회귀는 평면을 학습한다.

![image.png](attachment:image.png)

오른쪽 그림처럼 특성이 2개면 타깃값과 함께 3차원 공간을 형성하고 선형 회귀 방정식  
$'타깃 = a*특성1 + b*특성2 + 절편'$은 평면이 된다.  
특성이 3개라면 그 이상의 차원이 된다. 특성이 많은 고차원에서는 선형 회귀가 매우 복잡한 모델을 표현할 수 있다.  
---
이제는 높이와 두께도 함께 사용하고 이전 절에서 처럼 3개의 특성을 각각 제곱하여 추가할 것이다. 또한 각 특성을 서로 곱해서 또 다른 특성을 만들어 사용 할 예정이다. 즉 길이 X 높이 를 새로운 특성으로 만드는 것이다.  
이렇게 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 **특성 공학(feature engineering)**이라고 한다.

이전과 달리 특성이 3개로 늘어나 데이터를 복사해 붙여 넣는 것이 번거롭다. 인터넷에서 데이터를 바로 다운로드하면 편할 것이다. **판다스**를 사용하면 간단하다.  

**판다스(pandas)**는 데이터 분석 라이브러리이다. **데이터프레임**은 판다스의 핵심 데이터 구조이다. 데이터 프레임은 넘파이 배열로 쉽게 바꿀 수도 있다.

판다스를 사용하여 데이터를 다운로드 받아 데이터 프레임에 저장한다. 그 다음 넘파이 배열로 변환하여 선형 회귀 모델을 훈련해 보자.   
판다스 데이터프레임을 만들기 위해 많이 사용하는 파일은 CSV 파일이다. CSV 파일은 콤마로 나누어져 있는 텍스트 파일이다.  
판다스의 read_csv() 함수에 주소를 넣어 웹에서 파일 내용을 불러올 수 있으며 read_csv() 함수로 데이터프레임을 만든 다음 to_numpy() 메서드를 사용해 넘파이 배열로 바꾼다.  

![image.png](attachment:image.png)

In [3]:
import pandas as pd # pd는 관례적으로 사용하는 판다스의 별칭이다.
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [4]:
import numpy as np
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [5]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state = 42)

### 사이킷런의 변환기  
사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스를 제공한다. 사이킷런에서는 이런 클래스를 변환기(transformer)라고 부르며 변환기 클래스는 fit(), transform() 메서드를 제공한다.