# 다항회귀

앞에서 선형회귀를 다루었다. 선형회귀를 응용하여 이번에는 다항회귀를 다룬다. 무엇이 더 적합한지는 검증 결과를 참고하여 스스로 판단해야 한다.

다항회귀는 `ax^2 + bx + c` 형태의 다항식으로 표현되는 회귀 모델이다. 선형회귀는 `ax + b` 형태로 표현되므로, 다항회귀는 선형회귀의 확장이라고 볼 수 있다.

## 1. 다항회귀

선형회귀에서는 x값이 (p, q, r)로 이루어져 있을 때, $y=ap +bq +cr + d$ 형태의 초평면을 구한다.

다항회귀는 이를 이용해 $x=(p)$일 때, $x=(p^2, p)$로 변환하여 $y=ap^2 + bp + c$ 형태의 p에 대한 이차다항식을 구한다. 즉, 선형회귀를 다항식으로 확장한 것이다.

이번에 여러분은 하나의 열을 여러 차수로 확장하여 다항회귀를 수행하는 방법을 배운다.

In [None]:
import seaborn as sns

diamonds = sns.load_dataset('diamonds')
diamonds

In [None]:
# diamonds 데이터셋에서 `carat` 열을 이용해 평범한 선형회귀 수행 후 시각화
import seaborn as sns
import matplotlib.pyplot as plt
import koreanize_matplotlib
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error, mean_squared_error, r2_score

diamonds = sns.load_dataset('diamonds')
x = diamonds[['carat']]
y = diamonds['price']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
model = LinearRegression()
model.fit(x_train, y_train)
y_test_pred = model.predict(x_test)

# 각종 평가
rmse = root_mean_squared_error(y_test, y_test_pred)  # RMSE
mae = mean_squared_error(y_test, y_test_pred)  # MAE
r2 = r2_score(y_test, y_test_pred)  # R2
print('RMSE:', rmse, '// MAE:', mae, '// R2:', r2)

# 시각화
plt.figure(figsize=(10, 6))
plt.title('다이아몬드 가격 예측')
plt.scatter(x_test, y_test, label='실제값', color='blue')
plt.scatter(x_test, y_test_pred, label='예측값', color='red')
plt.plot(x_test, y_test_pred, color='red')
plt.xlabel('carat')
plt.ylabel('price')
plt.legend()
plt.show()

이전과 동일한 작업을 다항회귀로 수행한다. 2차 다항식으로 변환하여 모델을 학습하고, 예측값을 시각화한다.

`PolynomialFeatures` 클래스를 사용한다.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

# 다항회귀를 위한 데이터 변환
poly = PolynomialFeatures(degree=2, include_bias=False)  # 2차 다항식
x_poly = poly.fit_transform(x)
x_poly

In [None]:
import seaborn as sns

diamonds = sns.load_dataset('diamonds')
x = diamonds[['carat']]
y = diamonds['price']

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=1, include_bias=True)  # 2차 다항식
x_poly = poly.fit_transform(x)
x_poly

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_poly, y, test_size=0.2)

# 모델 선언
from sklearn.linear_model import LinearRegression
model = LinearRegression()

# 모델 학습, 예측
model.fit(x_train, y_train)
y_test_pred = model.predict(x_test)

# 각종 평가
from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_test_pred)
print('R2:', r2)

#### Practice1. 적합한 차수 찾기

앞선 예시처럼 `diamonds`의 `carat` 열을 확장해 다항회귀를 수행하여, 몇 차 다항식이 가장 적합한지 찾아보자.

자유롭게 시도해보고, 가장 높은 R2값을 찾을 것이다.