다중 회귀(Multiple Regression)
- 여러 개의 특성을 사용한 선형 회귀

특성 공학(feature engineering)
- 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 

변환기
- 특성을 만들거나 전처리하기 위한 클래스
- PolynomialFeatures (각 특성의 제곱, 두 특성의 곱 특성 추가)

샘플 개수보다 특성이 많다면 -> 과대적합이 될 가능성
- 훈련 세트에 대해서는 완벽하게 학습할 수 있지만, 훈련 세트에 너무 과대적합되므로 테스트 세트에서는 형편없는 점수를 나타낼 수 있음

규제 
- 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것
- 즉, 모델이 훈련 세트에 과대적합되지 않도록 만드는 것 ( 특성에 곱해지는 계수(기울기)의 크기를 작게 만드는 것 )

릿지 회귀
- 계수를 제곱한 값을 기준으로 규제를 적용

라쏘 회귀
- 계수의 절댓값을 기준으로 규제를 적용 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression, Ridge

In [None]:
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()

In [None]:
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [None]:
train_input, test_input, train_target, test_target = train_test_split(
    perch_full, perch_weight, random_state = 42
)

In [None]:
poly = PolynomialFeatures(include_bias=False)
# poly = PolynomialFeatures(include_bias=False, degree=5)
poly.fit(train_input)

train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

In [None]:
lr = LinearRegression()
lr.fit(train_poly, train_target)
lr.score(train_poly, train_target)
lr.score(test_poly, test_target)

In [None]:
# 표준 점수 변환: StandardScaler
ss = StandardScaler()
ss.fit(train_poly)

train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

In [None]:
ridge = Ridge(alpha=0.1)
ridge.fit(train_scaled, train_target)

print(ridge.score(train_scaled, train_target))
print(ridge.score(test_scaled, test_target))