# 課題 ボストン住宅価格 線形回帰

### 線形回帰とは何か
以下の観点をすべて含めて記述しましょう。
- 線形回帰とは何か。
- 具体的に言うと？
- 分類と何か違うのか。

### 答え：
線形回帰とは、  
Yが連続値の場合に、データにY = AX + Bというモデルを当てはめる回帰分析のひとつ。YがXの係数Aに対して線形を描く。機械学習においては、Yがラベル、Xが特徴量に当たる。    
具体的には、特徴量XをモデルAX + Bに入力すればラベルYを推測できる、というもの。  
分類は、Yが連続値ではない場合(離散)を扱うため、Yが連続値である場合を扱う回帰とはこの点で異なる。

### 必要なライブラリをimportする

In [2]:
from sklearn import cross_validation
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split

### データを取得する

In [3]:
boston = load_boston()

### 取得データをDataFrameにする

In [4]:
X = pd.DataFrame(boston.data,columns=boston.feature_names)
y = pd.DataFrame(boston.target)

### 説明変数を’LSTAT’のみにする

In [5]:
X = X['LSTAT'].values

###  単回帰と重回帰についての違いを記述せよ

### 答え：
上述した線形回帰モデルY = AX + Bにおいて、X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。機械学習においては、特徴量Xが１つだけなら単回帰、２つ以上なら重回帰である。

### テストデータに分割する

In [6]:
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.2,random_state=0)

### 学習

In [7]:
lin_1d = LinearRegression()
lin_1d.fit(X_train[:,None], Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

### 決定係数

In [8]:
score_1d = lin_1d.score(X_test[:,None], Y_test)
print("一次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_1d))

一次式における'LSTAT'の住宅価格への決定係数は0.43


### 決定係数とは何か記述せよ
以下の観点をすべて含めて記述しましょう。
- 決定係数とは何か
- もっとも説明変数が、目的変数を説明できる場合、決定係数は何になるか
- どのように求めることができるか

### 答え：
決定係数とは、  
学習したモデルについて、説明変数が目的変数のどれくらいを説明できるかを表す値。未知のデータに対する予測精度を測る指標のひとつ。  
***『もっとも説明変数が、目的変数を説明できる場合』***、つまり予測値と教師情報に誤差が生じない場合、決定係数は***1***になる。  
(予測値−教師情報)の２乗和を(予測値−教師情報の平均)の２乗和で割ったものを、１から減算して、平方根を取って求めることができる(*この他にも、決定係数の定義は複数ある)。

### 決定係数をいかなる場合も信じても良いか記述せよ(決定係数が高ければ、汎用性があるモデルと言えるか)
- 決定係数が正しく評価できない例を答えよ

### 答え：
決定係数が高ければ、汎用性があるモデルとは、必ずしも言えない。何故ならば、決定係数はあくまで***予め用意できた教師情報に対するモデルの当てはまり***しか示せないからである。つまり、用意できた教師情報以外へのモデルの当てはまりは保証できないので、教師情報以外の巨大な母集団に対してはモデルが当てはまらない可能性がある。  
例えば、選挙の出口調査で１００人から投票先を聞いた場合を考える。このうち８０人のデータをトレーニングデータに学習してモデルを作り、２０人のデータをテストデータとして決定係数をとる。ここで、決定係数が高いからといってこのモデルが全体の選挙結果に対して汎用性がある保証はない。何故ならば、モデルの当てはまりが良いのは、あくまで***出口調査した１００人についてのみ***であるからだ。全体の選挙結果について汎用性を求めるなら、この方法では***日本の有権者人口約１億人全てについて***出口調査する必要がある

### 2,3,4次式の回帰

In [9]:
lin_2d = LinearRegression()
lin_3d = LinearRegression()
lin_4d = LinearRegression()

degree_2 = PolynomialFeatures(degree=2)
degree_3 = PolynomialFeatures(degree=3)
degree_4 = PolynomialFeatures(degree=4)

x_train_2 = degree_2.fit_transform(X_train[:,None])
x_train_3 = degree_3.fit_transform(X_train[:,None])
x_train_4 = degree_4.fit_transform(X_train[:,None])

lin_2d.fit(x_train_2, Y_train)
lin_3d.fit(x_train_3, Y_train)
lin_4d.fit(x_train_4, Y_train)

x_test_2 = degree_2.fit_transform(X_test[:,None])
x_test_3 = degree_3.fit_transform(X_test[:,None])
x_test_4 = degree_4.fit_transform(X_test[:,None])

score_2d = lin_2d.score(x_test_2, Y_test)
score_3d = lin_3d.score(x_test_3, Y_test)
score_4d = lin_4d.score(x_test_4, Y_test)

print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_2d))
print("三次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_3d))
print("四次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_4d))

二次式における'LSTAT'の住宅価格への決定係数は0.52
三次式における'LSTAT'の住宅価格への決定係数は0.54
四次式における'LSTAT'の住宅価格への決定係数は0.57


### 次数が大きくなるとどうなるか記述せよ
以下の観点をすべて含めて記述しましょう。
- 説明変数をxとして、次数を増やしていくとどのように数式が変化していくか記述せよ（1次式 ax + b）
- 次数を増やすとどのようなメリットが考えられるか
- 次数を増やすとどのようなデメリットが考えられるか

### 答え：
説明変数をxとして、次数を増やしていくと数式は以下のように変化していく。  
１次式：$ax + b$  
２次式：$ax^2 + bx + c$  
３次式：$ax^3 + bx^2 + cx + d$  
４次式：$ax^4 + bx^3 + cx^2 + dx + e$  
  
次数を増やすと、モデルが複雑になって表現力を向上でき、その結果、誤差が減少するというメリットが考えられる。  
次数を増やすと、モデルの表現力が高すぎるがゆえに、トレーニングデータのノイズまで含めて学習してしまう『過学習』が起きやすくなり、誤差が少なくてもモデルの汎用性は失われる、というデメリットが考えられる。

### 重回帰
今回は、LSTATのみを使用したが、他の特徴量も使用して学習させましょう。重回帰を使用して、0.71以上の決定係数出れば合格です。
- すべての特徴量を使用せず、相関が強い特徴量のみを使用してみましょう。
- 次数を変更してみましょう。

In [10]:
# 改めて、データフレームを作る
X = pd.DataFrame(boston.data,columns=boston.feature_names)
y = pd.DataFrame(boston.target)

# Xとyを一旦合体して、相関をみる
Xy = pd.concat([X, y], axis=1)
Xy.corr().loc[[0]]

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,0
0,-0.385832,0.360445,-0.483725,0.17526,-0.427321,0.69536,-0.376955,0.249929,-0.381626,-0.468536,-0.507787,0.333461,-0.737663,1.0


- yに対して強い相関が見て取れる'RM'と'LSTAT'を用いて、１〜４次式で重回帰分析。
- ２次式と３次式で決定係数0.65が出た。しかし、３次式以上の係数は過学習気味なので、取り敢えずは、２次式を採用する。

In [11]:
# 採用した説明変数でデータを作る。ここで、すでにXは行列になっている
MX = X.loc[:, ['RM','LSTAT']].as_matrix()

# 学習データとテストデータに分割する
X_train,X_test,Y_train,Y_test = train_test_split(MX,y,test_size=0.2,random_state=0)

# １〜４次式で重回帰分析
lin_1d = LinearRegression()
lin_2d = LinearRegression()
lin_3d = LinearRegression()
lin_4d = LinearRegression()

degree_1 = PolynomialFeatures(degree=1)
degree_2 = PolynomialFeatures(degree=2)
degree_3 = PolynomialFeatures(degree=3)
degree_4 = PolynomialFeatures(degree=4)

x_train_1 = degree_1.fit_transform(X_train)
x_train_2 = degree_2.fit_transform(X_train)
x_train_3 = degree_3.fit_transform(X_train)
x_train_4 = degree_4.fit_transform(X_train)

lin_1d.fit(x_train_1, Y_train)
lin_2d.fit(x_train_2, Y_train)
lin_3d.fit(x_train_3, Y_train)
lin_4d.fit(x_train_4, Y_train)

x_test_1 = degree_1.fit_transform(X_test)
x_test_2 = degree_2.fit_transform(X_test)
x_test_3 = degree_3.fit_transform(X_test)
x_test_4 = degree_4.fit_transform(X_test)

score_1d = lin_1d.score(x_test_1, Y_test)
score_2d = lin_2d.score(x_test_2, Y_test)
score_3d = lin_3d.score(x_test_3, Y_test)
score_4d = lin_4d.score(x_test_4, Y_test)

print("1次式における'RM'とLSTAT'の住宅価格への決定係数は%.2f"%(score_1d))
print(lin_1d.coef_)
print("2次式における'RM'とLSTAT'の住宅価格への決定係数は%.2f"%(score_2d))
print(lin_2d.coef_)
print("3次式における'RM'とLSTAT'の住宅価格への決定係数は%.2f"%(score_3d))
print(lin_3d.coef_)
print("4次式における'RM'とLSTAT'の住宅価格への決定係数は%.2f"%(score_4d))
print(lin_4d.coef_)

1次式における'RM'とLSTAT'の住宅価格への決定係数は0.54
[[ 0.          5.10906846 -0.65494879]]
2次式における'RM'とLSTAT'の住宅価格への決定係数は0.65
[[  0.00000000e+00  -1.46867521e+01   5.12342260e-01   1.69773861e+00
   -2.64734538e-01   1.08556128e-02]]
3次式における'RM'とLSTAT'の住宅価格への決定係数は0.65
[[  0.00000000e+00  -1.35603077e+02  -1.38317703e+01   1.86979322e+01
    4.19021313e+00   1.30229313e-01  -7.69743126e-01  -3.45231795e-01
   -1.66973729e-02  -5.14672730e-04]]
4次式における'RM'とLSTAT'の住宅価格への決定係数は0.58
[[  0.00000000e+00   7.16674537e+02  -7.06960369e+01  -2.11115569e+02
    2.00539752e+01   2.46698151e+00   2.50194319e+01  -1.71426015e+00
   -4.82578283e-01  -3.80916918e-02  -1.04097627e+00   3.61548220e-02
    2.18842490e-02   3.92884465e-03   2.04857825e-04]]


- ２次式において愚直に説明変数を組み合わせてみた。
- 'RM','LSTAT','DIS','ZN','AGE','RAD','TAX' で決定係数0.73超え。
- もっとシステマティックにやる方法もあるのだろうけれども、今回はこれでいく。

In [12]:
MX = X.loc[:, ['RM','LSTAT','DIS','ZN','AGE','RAD','TAX']].as_matrix()
X_train,X_test,Y_train,Y_test = train_test_split(MX,y,test_size=0.2,random_state=0)
lin_ = LinearRegression()
degree_ = PolynomialFeatures(degree=2)
PX_train = degree_.fit_transform(X_train)
lin_.fit(PX_train, Y_train)
PX_test = degree_.fit_transform(X_test)
score_ = lin_.score(PX_test, Y_test)
print(score_)

0.736172773702


- リッジ回帰では、正則化パラメータ0.00001、次数3で、決定係数0.76を超えた

In [13]:
lin_ = Ridge(normalize=True,alpha=0.00001)
degree_ = PolynomialFeatures(degree=3)
PX_train = degree_.fit_transform(X_train)
lin_.fit(PX_train, Y_train)
PX_test = degree_.fit_transform(X_test)
score_ = lin_.score(PX_test, Y_test)
print(score_)

0.766945774289


- クロスバリデーションとグリッドサーチにより、最も高い決定係数を出す次数と正則化パラメータを調べた
- クロスバリデーション１０回のリッジ回帰で、「３次式」で、「正則化パラメータ0.000024」で、決定係数の平均は０．８４を超えた。しかし、これは本当に正しいのかどうか自信がない

In [14]:
# クロスバリデーションの準備
My = y.loc[:, [0]].as_matrix() # yも行列にする
np.random.seed(0) # 乱数のシード設定
indices = np.random.permutation(len(MX))
rx = MX[indices] # データの順序をランダムに並び替え
ry = My[indices]
n_fold = 10 # クロスバリデーションの回数
k_fold = cross_validation.KFold(n=len(rx),n_folds = n_fold)

# グリッドサーチ結果のハイパーパラメータを格納する準備
dim=np.arange(3,11) # 今のところ３次式以上で効果があることがわかっている
lambda_=np.arange(1,30)/1e6 # 正則化パラメータは、効果があった0.00001周辺で考える

# グリッドサーチで、ハイパーパラメータと決定係数を得る
i = 0
L=len(dim)*len(lambda_)
score = np.zeros((L,3))
tmp = []
for d in dim:
    degree_=PolynomialFeatures(degree=d)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=l)
        for train, test in k_fold:
            rx_train = degree_.fit_transform(rx[train])
            lin_.fit(rx_train,ry[train])
            
            # 学習が終わったところで、テストデータで決定係数を得る
            rx_test = degree_.fit_transform(rx[test])
            tmp.append(lin_.score(rx_test, ry[test]))

        score[i,0] = d
        score[i,1] = l
        
        # 決定係数の平均を出してみる
        score[i,2] = sum(tmp)/len(tmp)
        i+=1
        tmp = []

# もっとも高い決定係数は、どの組み合わせで出て来るか
print(score[np.argmax(score[:,-1])])

[  3.00000000e+00   2.40000000e-05   8.42928601e-01]


- 少なくとも、学習データ80%、テストデータ20%では、決定係数0.84は出なかった

In [15]:
lin_ = Ridge(normalize=True,alpha=0.000024)
degree_ = PolynomialFeatures(degree=3)
PX_train = degree_.fit_transform(X_train)
lin_.fit(PX_train, Y_train)
PX_test = degree_.fit_transform(X_test)
score_ = lin_.score(PX_test, Y_test)
print(score_)

0.763643911396


### 重回帰について記述せよ
以下の観点をすべて含めて記述しましょう。
- 説明変数を増やすことでどのようなメリットがあるか
- 説明変数を増やすことでどのようなデメリットがあるか

### 答え：
説明変数を増やすことで、それらが適切な説明変数の組み合わせであった場合には、モデルの予測精度を向上できるメリットがある。  
説明変数を増やすことで、  
①それらが適切な説明変数の組み合わせでなかった場合には、モデルの予測精度が下がる。  
②モデルの複雑さが増すため計算量が多くなる。  
③グラフなどによる視覚的表現が難しくなるため、モデルの直感的な理解が難しくなる。  
以上３つのようなデメリットがある。