- 여러 개의 특성(feature)을 사용한 선형 회귀를 다중 회귀(multiple regression)라고 한다.
- 1개의 특성을 사용했을 때 선형회귀가 학습하는 것은 직선
- 특성이 2개면 선형회귀는 평면을 학습. 즉, 3차원 공간을 형성하고 타깃 = a * 특성1 + b * 특성2 + 절편
- 여러 개 특성(길이, 높이, 두께)을 사용. 이 때 길이, 높이, 두께 3개의 특성을 제곱하고 특성끼리 곱해서 또 다른 특성을 만듬 => 특성공학
- 특성공학 => 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 => 사이킷런의 PolynomialFeatures 클래스 사용

In [4]:
# 라이브러리 임포트, fish 데이터 읽어오기
import numpy as np
import pandas as pd
import seaborn as seaborn
from matplotlib import pyplot as plt

In [6]:
# Fish.csv 파일 읽어오기
fish_df = pd.read_csv('data/Fish.csv')

In [8]:
# Perch 데이터 확인
fish_df.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


In [52]:
# 농어(perch) 무게 => perch_weight
# 농어 길이(Length2), 높이(Height), 두께(Width) => perch_full

perch_full = np.array(fish_df[fish_df['Species']=='Perch'][['Length2','Height','Width']])
perch_weight = np.array(fish_df[fish_df['Species']=='Perch']['Weight'])


In [40]:
# perch_full과 perch_weight를 훈련세트와 테스트세트로 분리

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(perch_full, perch_weight, random_state=42)

In [54]:
print(X_train.shape)

(42, 3)


- 사이킷런의 추정기(estimator) : LinearRegression 같은 모델 클래스 ( fit(), predict(), score() )
- 사이킷런의 변환기(transformer) : 특성을 만들거나 전처리하기 위한 클래스 ( fit(), transform(), fit_transform() )
- 다중 회귀에 사용할 여러 특성을 만들기 위해 PolynomialFeatures 클래스 사용

In [71]:
# PolynomialFeatures 클래스 임포트
from sklearn.preprocessing import PolynomialFeatures

# PolynomialFeatures 사용 예 => 2개의 특성(특성값 2, 3)으로 이루어진 샘플 하나를 적용
poly = PolynomialFeatures()
poly.fit([[2, 3]])
print(poly.transform([[2, 3]])) #  두 특성을 각각 제곱, 곱, 1x절편


[[1. 2. 3. 4. 6. 9.]]


In [75]:
# 특성값 3, 4를 이용해서 PolynomialFeatures 적용
poly = PolynomialFeatures(include_bias=False)
poly.fit([[3, 4]])
print(poly.transform([[3, 4]])) #  두 특성을 각각 제곱, 곱, 1x절편


[[ 3.  4.  9. 12. 16.]]


In [77]:
# PolynomialFeatures의 inclue_bias = False 적용해서 절편에 기울기 삭제, 특성값 (2, 3) 적용
poly = PolynomialFeatures(include_bias=False)
poly.fit_transform([[2, 3]])

array([[2., 3., 4., 6., 9.]])

- X_train 데이터에 변환기를 적용해 봅시다.

In [89]:
# X_train 데이터에 변환기를 적용하고 적용된 shape 확인
poly = PolynomialFeatures(include_bias=False)
poly.fit(X_train)
train_poly = poly.transform(X_train)
print(train_poly.shape)


(42, 9)


In [91]:
# 변환기에 의해 만들어진 9개의 특성이 어떻게 만들어졌는지 확인
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [95]:
# 테스트세트에도 변환기 적용
test_poly = poly.transform(X_test)

In [99]:
test_poly.shape

(14, 9)

- 변환된 특성을 사용하여 다중 회귀 모델 훈련

- 다중 회귀 모델을 훈련하는 것은 선형 회귀 모델을 훈련하는 것과 같다.
- 다만, 여러 개의 특성을 사용하여 선형 회귀를 수행하는 것 뿐

In [101]:
# 다중 회귀(선형 회귀) 클래스 임포트 , 학습, 평가
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train_poly, y_train)

In [109]:
print(lr.score(train_poly, y_train))

0.9903557670312703


In [107]:
# 테스트셋에 대해 평가 결과 확인
print(lr.score(test_poly, y_test))

0.9712376207461859


- 특성을 더 많이 추가해 보자. 5제곱까지 특성을 만들어서 추가해 보자.
- PolynomialFeatures 클래스의 degree 매개변수에 최대차수를 지정하면 된다.

In [27]:
# PolynomialFeatures 클래스의 degree 매개변수에 5를 적용하고 학습, 트레인셋과 테스트셋에 변환 적용 후 트레인셋 shape 출력


In [29]:
# 변환기로 만들어진 55개 특성 확인


In [31]:
# 55개의 특성을 가진 데이터로 다시 훈련하고 score 확인


In [33]:
# 테스트셋 평가 점수 출력


- 테스트세트에서 점수가 음수가 나오는 문제가 생김
- 특성의 개수가 너무 많아 훈련세트에서는 점수가 높은데 테스트세트에서 점수가 너무 낮아 특성개수를 조정해야 함

##### 규제(regularization)
- 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것
- 모델이 훈련 세트에 과대적합되지 않도록 만드는 것
- 선형 회귀 모델의 경우 특성에 곱해지는 계수(기울기)의 크기를 작게 만드는 일

- 규제는 계수(기울기)의 값을 조정하는 작업인데 기울기에 곱해지는 값( y = a * x1 + b * x2 + c => 여기에서 x1, x2 즉, 특성의 값)이 표준화가 되어 있지 않으면 기울기의 값을 조정했을 때 특성마다 값의 차이가 많이 발생되어 공정하게 제어될 수가 없음.
- 규제를 적용하기 전에 표준화 작업을 먼저 진행해야 함.
- 사이킷런의 StandardScaler 클래스 사용 : 변환기

In [35]:
# 변환기로 StandardScaler 클래스 사용. train_poly, test_poly 데이터셋 변환


# 훈련세트로 학습한 변환기를 사용해 테스트 세트를 변환해야 함.

In [37]:
# 변환기에서 학습한 55개 평균값 출력


In [39]:
# 변환기에서 찾은 평균값과 표준편차의 개수 출력


- 선형 회귀 모델에 규제를 추가한 모델을 릿지(ridge)와 라쏘(lasso)라고 한다.
- 릿지는 계수를 제곱한 값을 기준으로 규제를 적용
- 라쏘는 계수의 절대값을 기준으로 규제를 적용
- 릿지를 더 선호
- 릿지와 라쏘 모두 계수의 크기를 줄이지만 라쏘는 아예 0으로 만들 수 있음
- 사이킷런 라이브러리가 릿지, 라쏘 제공

##### 릿지 회귀
- 사이킷런 라이브러리에서 제공하기 때문에 fit()으로 훈련하고 score()로 평가
- train_scaled 데이터로 릿지 모델을 훈련해 보자

In [41]:
# Ridge 클래스 임포트, 학습, 평가


In [43]:
# 테스트셋 평가


- 릿지와 라쏘 모델을 사용할 때 규제의 양을 임의로 조절할 수 있다.
- 모델 객체를 만들 때 alpha 매개변수로 규제의 강도를 조절
- alpha 값이 크면 규제의 강도가 세지므로 계수 값을 더 줄이고 조금 더 과소적합되도록 유도
- alpha 값이 작으면 계수를 줄이는 역할이 줄어들고 선형 회귀 모델과 유사해지므로 과대적합될 가능성이 크다.
- alpha 값은 사람이 지정해 줘야 하는 파라미터로 이런 파라미터를 하이퍼파라미터라고 한다.

- 적절한 alpha 값을 찾는 한 가지 방법은 alpha 값에 대한 R제곱(결정계수) 값의 그래프를 그려보는 것
- 훈련세트와 테스트세트의 점수가 가장 가까운 지점이 최적의 alpha 값이 된다.

In [47]:
# 트레인 스코어와 테스트 스코어 저장할 빈 리스트 생성


- alpha 값을 0.001에서 100까지 10배씩 늘려가면 릿지 회귀 모델을 훈련한 다은 훈련세트와 테스트세트의 점수를 저장

- 위에서 계산한 릿지의 alpha를 조정한 score 결과를 가지고 시각화를 해서 최적의 alpha 값을 찾아보자

- alpha 값이 0.001부터 100까지 이므로 그래프의 0값 근처에 값이 몰려있어서 최적의 alpha 값을 확인하기 어려움
- alpha 값이 있는 alpha_list의 6개의 값을 동일한 간격으로 나타내기 위해 상용 로그 함수로 바꾸어 지수로 표현해보자
- 0.001에 로그를 취하면 -3, 0.01에 로그를 취하면 -2

In [51]:
# 상용로그 테스트


In [53]:
# 상용로그 취한 값을 x축으로 시각화


- 가장 적절한 alpha 값은 두 그래프가 가장 가깝고 테스트 세트의 점수가 가장 높은 -1, 즉 0.1이다.
- 최적의 alpha 값을 찾았으니 alpha 값을 0.1로하여 최종 모델을 훈련하자

In [55]:
# Ridge의 alpha 값을 0.1로 학습, 평가


##### 라쏘 회귀
- 라쏘 모델은 릿지와 매우 비슷
- Ridge 클래스를 Lasso 클래스로만 바꾸면 됨

In [57]:
# lasso 클래스 임포트, 학습, 평가


- 라쏘도 과대적합을 잘 규제해 주네요

In [59]:
# 라쏘의 평가 점수 출력


- 라쏘 모델도 alpha 매개변수로 규제의 강도 조절 할 수 있다.

In [61]:
# 라쏘의 alpha 값을 0.001, 0.01, 0.1, 1, 10, 100 으로 학습한 결과를 시각화


In [63]:
# 리지회귀와 마찬가지로 x 축에 log를 취한 결과 시각화


- 라쏘 모델의 최적의 alpha 값은 1, 즉 10입니다.
- 이 값으로 다시 모델을 훈련해 보자

In [65]:
# 시각화로 찾은 최적의 alpha 값(10)을 적용해서 학습 후 평가


- 라쏘 모델은 계수 값을 아예 0으로 만들 수 있다고 했는데 라쏘 모델의 계수는 coef_ 속성에 있으니 확인해 봅시다.

In [67]:
# 라쏘로 찾은 기울기(계수) 값을 출력해서 0값이 있는지 확인


In [69]:
# 라쏘 회귀에서 기울기 값이 0인 전체 개수 출력


- 55개 특성 중 라쏘 모델은 15개만 사용했다는 것을 알 수 있다.
- 이러한 라쏘 모델의 특징으로 데이터 특성에서 유용한 특성을 골라내는 용도로도 사용할 수 있다.