## 다중 회귀 (Multiple Regression)

- 다중 회귀</br>
• 여러 ***특성***을 사용한 선형 회귀</br>
– 길이, 높이, 두께 사용</br>
– 다양한 특성의 조합을 생성</br>

- PolynomialFeatures 클래스 사용</br>

- 특성 공학 (Feature	engineering)</br>
• 기존의 특성을 사용하여 새로운 특성을 뽑아내는 작업

In [17]:
# Pandas로 데이터 준비
import	pandas	as	pd
df =	pd.read_csv('https://bit.ly/perch_csv')
perch_full =	df.to_numpy()	#	DataFrame을 Numpy의 array로 변환
print(perch_full[:5])
print(perch_full.shape)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]]
(56, 3)


In [18]:
# target 데이터(perch_weight)는 기존과 동일
# perch_full,	perch_weight를 훈련 세트와 테스트 세트로 분리
import	numpy as	np
perch_weight =	np.array(
[5.9,	32.0,	40.0,	51.5,	70.0,	100.0,	78.0,	80.0,	85.0,	85.0,
110.0,	115.0,	125.0,	130.0,	120.0,	120.0,	130.0,	135.0,	110.0,
130.0,	150.0,	145.0,	150.0,	170.0,	225.0,	145.0,	188.0,	180.0,
197.0,	218.0,	300.0,	260.0,	265.0,	250.0,	250.0,	300.0,	320.0,
514.0,	556.0,	840.0,	685.0,	700.0,	700.0,	690.0,	900.0,	650.0,
820.0,	850.0,	900.0,	1015.0,	820.0,	1100.0,	1000.0,	1100.0,
1000.0,	1000.0])

In [19]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(
    perch_full, perch_weight, random_state=42)

### 사이킷런의 변환기 (Transformer)
- 다항 특성 만들기</br>
• PolynomialFeatures 클래스 사용</br>
– *각 특성을 제곱한 항을 추가하고, 특성끼리 서로 곱한 항을 추가*</br>

• 1. **PloynomialFeatures(include_bias=True)**</br>
– include_bias=True:	bias(절편,	0차항) 추가</br>
– include_bias=False:	bias	삭제</br>

• 2. **fit([a,	b]): 특성 조합을 찾음**</br>
– [1,	a,	b,	a*b,	a^2,	b^2]	추가</br>

• 3. **transform([[a,	b]]): 특성 조합을 실제 데이터로 변환**</br>
– [1,	a,	b,	a*b,	a^2,	b^2]	로 변환

In [20]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures()         # PolynomialFeatures(include_bias=True)	(기본값)
poly.fit([[2,3]])                   # 2, 3의 조합을 찾음(2^2,	3^2,	2x3)
print(poly.transform([[2,3]]))      # 특성 조합을 데이터로 변환

poly_F=PolynomialFeatures(include_bias=False)
poly_F.fit([[2,3]])
print(poly_F.transform([[2,3]]))
#  PolynomialFeatures(include_bias=False) : 1 제거

[[1. 2. 3. 4. 6. 9.]]
[[2. 3. 4. 6. 9.]]


#### 다항 특성 만들기
- 훈련 세트(train_input)을 사용하여 다항 특성 만들기(ex) 3개)

In [30]:
from sklearn.preprocessing import PolynomialFeatures

poly	=	PolynomialFeatures(include_bias=False)
poly.fit(train_input)
train_poly =	poly.transform(train_input)	
#	train_input 데이터를 이용하여 총 9개의 특성이 만들어짐

print(train_poly[0:3])
print(train_poly.shape)
test_poly =	poly.transform(test_input)	#	테스트 세트 변환:	fit()호출 안함
# 훈련 세트를 기준으로 만들어진 특성을 이용하여 테스트 세트를 변환하기 위해서 호출 안함.

print(test_poly[0:3])

[[ 19.6      5.14     3.04   384.16   100.744   59.584   26.4196  15.6256
    9.2416]
 [ 22.       5.88     3.52   484.     129.36    77.44    34.5744  20.6976
   12.3904]
 [ 18.7      5.2      3.12   349.69    97.24    58.344   27.04    16.224
    9.7344]]
(42, 9)
[[  8.4      2.11     1.41    70.56    17.724   11.844    4.4521   2.9751
    1.9881]
 [ 18.       5.22     3.32   324.      93.96    59.76    27.2484  17.3304
   11.0224]
 [ 27.5      7.28     4.57   756.25   200.2    125.675   52.9984  33.2696
   20.8849]]


In [32]:
# get_feature_names()
# • 각 특성의 조합을 알려줌
print(poly.get_feature_names_out())

# ['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2', 'x2^2']
# x0 : length, x1 : width, x2 : height

['x0' 'x1' 'x2' 'x0^2' 'x0 x1' 'x0 x2' 'x1^2' 'x1 x2' 'x2^2']


### 다중 회귀 모델 훈련

• 선형 회귀 모델 훈련과 동일 (여러 개의 특성을 사용할 뿐임)</br>
– 특성이 늘어나면 선형 회귀의 정확도 증가

In [35]:

# • 선형 회귀 모델 훈련과 동일 (여러 개의 특성을 사용할 뿐임)

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.9903183436982125


- degree 증가</br>
• 고차항의 최대 차수 지정</br>
• 3제곱, 4제곱, 5제곱 항 추가

In [44]:
poly = PolynomialFeatures(degree=5, include_bias=False)
poly.fit(train_input)
train_poly=poly.transform(train_input)
test_poly =	poly.transform(test_input)
print(train_poly.shape, test_poly.shape)

(42, 55) (14, 55)


- 선형 회귀 모델 훈련 및 점수 계산

In [39]:
#	선형 회귀 모델 훈련 및 훈련 세트 점수 계산
lr.fit(train_poly,	train_target)
print(lr.score(train_poly,	train_target))
#	테스트 세트 점수 계산
print(lr.score(test_poly,	test_target))

# 훈련 세트에 과대 적합

0.9999999999938143
-144.40744532797535
