# 線形回帰分析（ワインの品質予測）

Ashenfelter Orley, PREDICTING THE QUALITY AND PRICES OF BORDEAUX WINES,
The Economic Jounal, vol.118, no.529, pp.F174-F184, 2008

説明変数 x から正しい教師信号 y となるパラメータ p （＋バイアス intercept）を決める問題   
線形回帰分析には単回帰分析と重回帰分析という方法があります。
## a) 単回帰分析（説明変数 _x_ とパラメータ _p_ が1次元）

$$y = p_1*x_1 + intercept$$

## b) 重回帰分析（説明変数 _x_ とパラメータ _p_ が多次元）
$$y = p_1*x_1 + p_2*x_2 + p_3*x_3 + p_4*x_4 + intercept$$

今回は重回帰分析のテストとしてボルドー産ワインの品質を予測します。   
（アッシェンフェルターのワイン方程式という重回帰分析の代表的な問題です）
## ライブラリの読み込み

In [1]:
import csv
import os
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.cross_validation import train_test_split

## データセットの読み込み
ワインの品質データはwine-ashenfelter.csvに記述してあります。   
（ http://www.liquidasset.com/winedata.html で公開されています。）

中には1952年～1980年までのワインデータがあります。
（1954年と1956年は欠番です）

## データの属性

* VINT : 年
* LPRICE2(_y_) : 品質，log(その年の平均価格/1961年の平均価格)
* WRAIN(_x1_) : 冬(10月~3月)の降雨量 [ml]
* DEGREES(_x2_) : 育成期(4月~9月)の平均気温 [deg C]
* HRAIN(_x3_) : 収穫期(8月~9月)の降雨量 [ml]
* TIME_SV(_x4_) : 熟成年数(83年基準)

In [11]:
csv_path = os.path.join("data", "regression", "wine-ashenfelter.csv")
with open(csv_path, "r") as f:
    rd = csv.reader(f)
    first_line = next(rd)
    data_set = np.asarray(
        [[float(rd_elem) for rd_elem in rd_line] for rd_line in rd])

X = data_set[:, 2:6]
Y = data_set[:, 1]
print X.shape
print Y.shape

(27L, 4L)
(27L,)


## 訓練データとテストデータ
データセットを訓練データとテストデータに分割します。
一般的に、テストデータが10%~25%となるように分割します。

In [4]:
# split dataset into training and test data
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.1)

In [5]:
# fitting model
lr = LinearRegression()
lr.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

## 当てはまりの評価と回帰結果（パラメータ）

　回帰分析の評価基準としてR2値が一般的に使われます。   
　R2値は回帰結果（パラメータ）の当てはまりの良さを0~1で示しており、1に近いほど良く当てはまっています。（0.7~0.8以上だと妥当な結果だと言えます。Rは相関係数のことです。）

論文内のR^2値と回帰結果（パラメータ）は以下の通り
* R2 : 0.8275
* params : [0.001167,  0.616397, -0.003860, 0.023847]
* intercept : -12.145398

In [9]:
# validation
print "R2"
print "    " + str(lr.score(x_test, y_test))

print "params"
print "    p1 = " + str(lr.coef_[0])
print "    p2 = " + str(lr.coef_[1])
print "    p3 = " + str(lr.coef_[2])
print "    p4 = " + str(lr.coef_[3])
print "    intercept = " + str(lr.intercept_)

R2
    0.718128180263
params
    p1 = 0.000617953065558
    p2 = 0.617302327843
    p3 = -0.00376261732081
    p4 = 0.022806964818
    intercept = -11.8256226699
