# 8. 와인 품질 예측 모델 만들기2

# 8-1. 와인 품질 예측 모델의 학습 데이터 구성

# 와인 품질 데이터의 구성

### 와인 품질 데이터 프레임 준비

In [6]:
import pandas as pd
redwine = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv", sep=";", header=0)
redwine["type"] = "red"
whitewine = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv", sep=";", header=0)
whitewine["type"] = "white"

wine = redwine.append(whitewine)
wine.columns = wine.columns.str.replace(" ", "_")
wine.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,type
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


<br/>

# 8-2. 선형 회귀 모델 기반 와인 품질 예측 모델 학습

# 선형 회귀 모델의 적용

### 모델 클래스와 모델 파라미터의 선택

In [7]:
from sklearn.linear_model import LinearRegression

model = LinearRegression(fit_intercept=True)
model

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

- fit_intercept
    - 상수항 사용 여부

### 특징 행렬과 대상 벡터의 추출

In [8]:
# 특징 행렬(입력)
X = wine.drop(["type", "quality"], axis=1)
X.shape

(6497, 11)

In [9]:
# 대상 벡터(출력)
y = wine.quality
y.shape

(6497,)

- scikit-learn api를 사용하기 위해 DataFrame객체에서 특징 행렬(feature matrix)과 대상 벡터(target vector)을 추출

### 훈련 데이터와 테스트 데이터의 분리

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((4872, 11), (1625, 11), (4872,), (1625,))

### 모델의 데이터 적합

In [11]:
model.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [12]:
model.coef_

array([ 5.55618691e-02, -1.29945358e+00, -1.08205046e-01,  4.52070539e-02,
       -3.95901596e-01,  5.76479819e-03, -2.47760359e-03, -5.30023471e+01,
        3.50283862e-01,  7.49149475e-01,  2.78530060e-01])

In [13]:
model.intercept_

54.05800385466538

- 다중 선형 회귀

- coef_: 계수 값

- intercept_: 상수항 값

- n개의 특징: 11개

- 파리미터 vs 하이퍼파라미터

    - 파라미터는 학습 과정에서 자동으로 설정되는 매개변수

    - 하이퍼파라미터는 개발자가 어떤 모델을 컨트롤(제어)하기 위해서 사용하는 값, 임의로 주는 값

### 모델을 새로운 데이터에 적용

In [16]:
# 임의의 데이터로 테스트 해보기
import numpy as np

newdata = np.array([6.3, 0.3, 0.34, 1.6, 0.049, 14, 132, 0.994, 3.3, 0.49, 9.5])
newdata = np.reshape(newdata, (1, 11))
newdata

array([[6.30e+00, 3.00e-01, 3.40e-01, 1.60e+00, 4.90e-02, 1.40e+01,
        1.32e+02, 9.94e-01, 3.30e+00, 4.90e-01, 9.50e+00]])

In [17]:
model.predict(newdata)

array([5.27273597])

In [18]:
# test 데이터로 예측하기
y_pred = model.predict(X_test)
y_pred.shape

(1625,)

<br/>

# 8-3. 선형 회귀 모델 성능 측정 및 와인 품질 예측 모델 만들기 실습

# 선형회귀 모델의 성능측정

### 모델의 성능 측정

- 회귀모델의 예측 능력 평가 지표

    - 평균 제곱근 오차 RMSE(Root Mean Square Error)

- 평균 제곱근 오차는 분산의 제곱근, 즉 표준 오차가 됨

- 성능 지표는 변수(특징)이 많아지면 값이 커지는 문제가 있음

In [21]:
def rmse(y_real, y_pred):
    return np.sqrt(np.mean((y_real - y_pred)**2))

In [22]:
np.round(rmse(y_test, y_pred), 2)

0.73

In [23]:
from sklearn.metrics import mean_squared_error

np.round(np.sqrt(mean_squared_error(y_test, y_pred)), 2)

0.73

<br/>

### Reference

https://www.youtube.com/watch?v=CBvSFgfDyow


https://www.youtube.com/watch?v=ByxvPA0Hybk


https://www.youtube.com/watch?v=OXNTKInVuDk

<br/>

### 이어서

8-2. 와인 품질 예측 모델 만들기2