###赤ワインのデータセット
UC バークレー大学の UCI Machine Leaning Repository にて公開されている、「[Wine Quality Data Set (ワインの品質)](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)」を利用します。

変数 | 説明
:-----------|:------------
fixed acidity	| 酒石酸濃度
volatile acidity	| 酢酸酸度
citric acid	| クエン酸濃度
residual sugar	| 残留糖濃度
chlorides	| 塩化物濃度
free sulfur dioxide	| 遊離亜硫酸濃度
total sulfur dioxide	| 亜硫酸濃度
density	| 密度
pH	| pH
sulphates	| 硫酸塩濃度
alcohol	| アルコール度数
quality	| 0-10 の値で示される品質のスコア


In [None]:
import pandas as pd
import numpy as np
 
wine = pd.read_csv("/content/winequality-red.csv", sep=";")
wine.head

In [None]:
#単回帰分析

# sklearn.linear_model.LinearRegression クラスを読み込み
from sklearn import linear_model
clf = linear_model.LinearRegression()

# データを分割するモジュールをインポート
from sklearn.model_selection import train_test_split


# 説明変数に "density (密度)" を利用
#X = wine.loc[:, ['density']].as_matrix()
X_density = wine.loc[:, ['density']].values
 
# 目的変数に "alcohol (アルコール度数)" を利用
#Y = wine['alcohol'].as_matrix()
Y = wine['alcohol'].values

In [None]:
# データを分割
X_density_train, X_density_test, Y_train, Y_test = train_test_split(X_density, Y, test_size=0.3, random_state=1234)

# 予測モデルを作成
#clf.fit(X, Y)
model = clf.fit(X_density_train, Y_train)


# 回帰係数
print("回帰係数 : ", model.coef_)
 
# 切片 (誤差)
print("切片 (誤差) : ", model.intercept_)
 
# 決定係数
print("決定係数 : ", model.score(X_density, Y))

# 検証（決定係数の計算）
print("\n検証 : ", model.score(X_density_test, Y_test))

In [None]:
# matplotlib パッケージを読み込み
import matplotlib.pyplot as plt
 
# 訓練データ散布図
#plt.scatter(X, Y, c="g")
plt.scatter(X_density_train, Y_train, c="g")
 
# 回帰直線
#plt.plot(X, clf.predict(X), c="r")
plt.plot(X_density, model.predict(X_density), c="r")

In [None]:
# テストデータ散布図
plt.scatter(X_density_test, Y_test, c="blue")
plt.plot(X_density, model.predict(X_density), c="r")

In [None]:
#各変数を正規化して重回帰分析

# データフレームの各列を正規化
wine2 = wine.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))
wine2.head()

In [None]:
# 説明変数に "quality (品質スコア以外すべて)" を利用
wine2_except_quality = wine2.drop("quality", axis=1)
X2 = wine2_except_quality.values
 
# 目的変数に "quality (品質スコア)" を利用
Y2 = wine2['quality'].values
 
# データを分割
X2_train, X2_test, Y2_train, Y2_test = train_test_split(X2, Y2, test_size=0.3, random_state=1234)

# 予測モデルを作成
model2 = clf.fit(X2_train, Y2_train)
 
# 偏回帰係数
print("偏回帰係数 : \n", pd.DataFrame({"Name":wine2_except_quality.columns,
                                "Coefficients":np.abs(model2.coef_)}).sort_values(by='Coefficients') )
 
# 切片 (誤差)
print("\n切片 (誤差) : ", model2.intercept_)

# 検証（決定係数の計算）
print("\n検証 : ", model2.score(X2_test, Y2_test))