## 다항회귀분석 : polynomial regression
### Index
1. 샘플데이터 생성
2. 선형회귀 분석
3. 다항회귀 분석
4. 과대적합과 과소적합

In [None]:
%config InlineBackend.figure_formats = {'png', 'retina'}

import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

#### 1. 샘플데이터 생성
- $Y= 0.5X^2 + X + 2 + \varepsilon$

In [None]:
m = 100
np.random.seed(0)
x = 6 * np.random.rand(m, 1) - 3
y = 0.5 * x ** 2 + x + 2 + np.random.randn(m, 1)

In [None]:
x[:3], y[:3]

In [None]:
# 산점도
plt.scatter(x, y)
plt.show()

#### 2. 선형회귀분석
- statsmodels 사용
- sklearn 사용

##### statsmodels 사용

In [None]:
import statsmodels.api as sm
from sklearn.metrics import mean_absolute_error

# 상수항 추가
feature = sm.add_constant(x, has_constant='add')

x[:2], feature[:2]

In [None]:
# 모델 학습
model_1 = sm.OLS(y, feature).fit()

# 예측값 구하기
pred_1 = np.dot(feature, model_1.params)

y[:2], pred_1[:2]

In [None]:
# 그래프 그리기
plt.scatter(x, y) # 실제 데이터
plt.plot(x, pred_1, "r") # 예측 데이터 추세선
plt.show()

In [None]:
# 회귀계수 출력, 모델 평가(MAE) : MAE > 1.2760
model_1.params, mean_absolute_error(pred_1, y)

In [None]:
# 0번째 데이터를 계산한결과와 0번째 예측 결과의 데이터가 같음
np.dot(feature[0], model_1.params), pred_1[0]

#### sklearn 사용

In [None]:
from sklearn.linear_model import LinearRegression

# 모델 학습
model_2 = LinearRegression().fit(x, y)

# 예측값 구하기
pred_2 = model_2.predict(x)

# 그래프 그리기
plt.scatter(x, y) # 실제 데이터
plt.plot(x, pred_2, "r") # 예측 데이터 추세선
plt.show()

# 회귀계수 출력, 모델 평가(MAE)
model_2.intercept_, model_2.coef_, mean_absolute_error(pred_2, y)

#### 3. 다항회귀분석
- statsmodels 사용
- sklearn 사용

In [None]:
# 2차 방정식으로 만들기
x[:3], x[:3]**2, np.c_[x[:3], x[:3]**2]

In [None]:
# feature값 행렬 데이터로 변경
from sklearn.preprocessing import PolynomialFeatures

# 모델의 학습은 선형대수로 계산이 되기 때문에 제곱한 feature를 추가
poly_features = PolynomialFeatures(degree=2, include_bias=False) # 2차방정식
x_poly = poly_features.fit_transform(x)

np.hstack([x[0], x[0]**2]), x_poly[0]

##### statsmodels 사용

In [None]:
# statsmodels 사용
import statsmodels.api as sm
from sklearn.metrics import mean_absolute_error, r2_score

# 상수항 추가
feature = sm.add_constant(x_poly, has_constant='add')

feature[:2]

In [None]:
# 모델 학습
model_3 = sm.OLS(y, feature).fit()

# 예측값 구하기
pred_3 = np.dot(feature, model_3.params)

y[:2][:, 0], pred_3[:2]

In [None]:
# 그래프 그리기
plt.scatter(x, y) # 실제 데이터

# 예측 데이터 추세선
# plt.scatter(x, pred_3)
df = pd.DataFrame({"x": x.reshape(1, -1)[0], "pred_3": pred_3}).sort_values("x") # 정렬
plt.plot(df["x"], df["pred_3"], "r")

plt.show()

In [None]:
# 회귀계수 출력, 모델 평가(MAE) : 0.827
model_3.params, mean_absolute_error(pred_3, y)

##### sklearn 사용

In [None]:
from sklearn.linear_model import LinearRegression

# 모델 학습
model_4 = LinearRegression().fit(x_poly, y)

# 예측값 구하기
pred_4 = model_4.predict(x_poly)

# 그래프 그리기
plt.scatter(x, y) # 실제 데이터

# 예측 데이터 추세선
# plt.scatter(x, pred_4)
df = pd.DataFrame({"x": x.reshape(1, -1)[0], "pred_4": pred_4.reshape(1,-1)[0]}).sort_values("x") # 정렬
plt.plot(df["x"], df["pred_4"], "r")

plt.show()

# 회귀계수 출력, 모델 평가(MAE)
model_4.intercept_, model_4.coef_, mean_absolute_error(pred_4, y)

#### 다항회귀식
- $Y=0.5X^2+X+2$
- $\hat{Y} = 0.44978823*X^2 + 0.97906552*X  + 2.34050076$

#### 최적의 차원을 구하는 방법
- 기울기값이 급격하게 감소하는 지점이 최적의 차원 - 2차원이 최적

In [None]:
def get_mae(degree):
    
    # degree 차원으로 feature를 만듦
    poly_features = PolynomialFeatures(degree=degree, include_bias=False)
    x_poly = poly_features.fit_transform(x)
    
    # 모델 학습
    model = LinearRegression().fit(x_poly, y)
    
    # 데이터 예측
    pred = model.predict(poly_features.fit_transform(x))
    
    # MAE 구함
    return mean_absolute_error(y, pred)

In [None]:
# 1차원 부터 10차원까지 mae 결과를 구해서 그래프로 그리기
degrees = range(1, 10)
maes = [get_mae(degree) for degree in degrees]
plt.plot(degrees, maes)
plt.show()

#### 과대적합과 과소적합
- 과소적합 : 1차원 
- 과대적합(과적합) : 3차원 이상