# 8. 와인 품질 예측 모델 만들기

## 8-4. 규제가 있는 선형 회귀 모델 개념 및 학습

In [3]:
# 와인 데이터 가져옥
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

redwine = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv", sep=";", header=0)
redwine["type"] = "red"

whitewine = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv", sep=";", header=0)
whitewine["type"] = "white"

wine = redwine.append(whitewine)
wine.columns = wine.columns.str.replace(" ", "_")
wine.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,type
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


### 규제가 없는 선형 회귀 모델의 적합

In [4]:
from sklearn.model_selection import train_test_split

X = wine.drop(["type", "quality"], axis=1)
y = wine.quality

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

In [6]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
np.round(np.sqrt(mean_squared_error(y_test, y_pred)), 3)

0.725

### 규제가 있는 선형 회귀 모델의 적합

- 규제가 있는 선형 회귀 모델 3가지: 리지, 라쏘, 엘라스팅넷

In [9]:
from sklearn.linear_model import Ridge

model = Ridge(alpha=0.05)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
np.round(np.sqrt(mean_squared_error(y_test, y_pred)), 3)

0.727

- alpha: 규제와 관련있는 하이퍼파라미터 값

In [10]:
from sklearn.linear_model import Lasso

model = Lasso(alpha=0.05)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
np.round(np.sqrt(mean_squared_error(y_test, y_pred)), 3)

0.761

### 규제가 있는 선형 회귀 모델의 필요성

- 과분산 모델에 대해 모델을 규제하면 오버피팅을 감소시킬 수 있음

- 규제란 오버피팅된 파라미터 값에 대해 페널티를 부여하는 것

- 페널티를 추가하게 되면 규제가 없는 회귀 모델보다 계수의 절대값이 작아지게 되는 원리를 이용해 오버피팅을 방지할 수 있음

- 페널티를 가한다는 것은 편향을 높인다는 것을 의미하며, 규제가 없는 모델보다 훈련 데이터와의 적합도가 떨어지지만 적체적인 결과는 좋아짐

- 오버피팅된 모델은 지나친 노이즈를 반영할 수 있으므로 모델을 단순화하여 좀 더 일반화된 모델로 만들 필요가 있음

In [None]:
- 과분산 모델은 훈련 데이터에 최적화되어 있는 것

- 과분산 모델 ==> 모델 복잡도가 높음

- 차수(degree)가 높아질수록 모델 복잡도가 높아짐

- 규제를 두어 모델을 단순화할 수 있는 선형 회귀 모델이 필요함

<br/>

### Reference

- https://www.youtube.com/watch?v=w4_kU4Ilgtc