# 課題 ボストン住宅価格 線形回帰

### 線形回帰とは何か
以下の観点をすべて含めて記述しましょう。
- 線形回帰とは何か。
- 具体的に言うと？
- 分類と何か違うのか。

### 答え：
線形回帰とは、  
Yが連続値の場合に、データにY = AX + Bというモデルを当てはめる回帰分析のひとつ。グラフに示す場合、途切れない線形を描く。 具体的には、特徴量XをモデルAX + Bに入力すればラベルYを推測できる、というもの。  
分類は、Yが連続値ではない場合(離散)を扱う。グラフに示す場合、ある程度の刻み値を持った途切れ途切れの点や線形を描く。この***途切れないか、途切れるか***の点で、回帰と分類は扱う対象が異なる。

### 必要なライブラリをimportする

In [2]:
from sklearn import cross_validation
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
import itertools

### データを取得する

In [3]:
boston = load_boston()

### 取得データをDataFrameにする

In [4]:
X = pd.DataFrame(boston.data,columns=boston.feature_names)
y = pd.DataFrame(boston.target)

### 説明変数を’LSTAT’のみにする

In [5]:
X = X['LSTAT'].values

###  単回帰と重回帰についての違いを記述せよ

### 答え：
上述した線形回帰モデルY = AX + Bにおいて、X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。機械学習においては、特徴量Xが１つだけなら単回帰、２つ以上なら重回帰である。

### テストデータに分割する

In [6]:
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.2,random_state=0)

### 学習

In [7]:
lin_1d = LinearRegression()
lin_1d.fit(X_train[:,None], Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

### 決定係数

In [8]:
score_1d = lin_1d.score(X_test[:,None], Y_test)
print("一次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_1d))

一次式における'LSTAT'の住宅価格への決定係数は0.43


### 決定係数とは何か記述せよ
以下の観点をすべて含めて記述しましょう。
- 決定係数とは何か
- もっとも説明変数が、目的変数を説明できる場合、決定係数は何になるか
- どのように求めることができるか

### 答え：
決定係数とは、  
学習したモデルについて、説明変数が目的変数のどれくらいを説明できるかを表す値。未知のデータに対する予測精度を測る指標のひとつ。  
***『もっとも説明変数が、目的変数を説明できる場合』***、つまり予測値と教師情報に誤差が生じない場合、決定係数は***1***になる。  
(予測値−教師情報)の２乗和を(予測値−教師情報の平均)の２乗和で割ったものを、１から減算して、平方根を取って求めることができる(*この他にも、決定係数の定義は複数ある)。

### 決定係数をいかなる場合も信じても良いか記述せよ(決定係数が高ければ、汎用性があるモデルと言えるか)
- 決定係数が正しく評価できない例を答えよ

### 答え：
決定係数が高ければ、汎用性があるモデルとは、必ずしも言えない。何故ならば、決定係数はあくまで***予め用意できた教師情報に対するモデルの当てはまり***しか示せないからである。つまり、用意できた教師情報以外へのモデルの当てはまりは保証できないので、教師情報以外の巨大な母集団に対してはモデルが当てはまらない可能性がある。  
例えば、選挙の出口調査で１００人から投票先を聞いた場合を考える。このうち８０人のデータをトレーニングデータに学習してモデルを作り、２０人のデータをテストデータとして決定係数をとる。ここで、決定係数が高いからといってこのモデルが全体の選挙結果に対して汎用性がある保証はない。何故ならば、モデルの当てはまりが良いのは、あくまで***出口調査した１００人についてのみ***であるからだ。全体の選挙結果について汎用性を求めるなら、この方法では***日本の有権者人口約１億人全てについて***出口調査する必要がある

### 2,3,4次式の回帰

In [9]:
lin_2d = LinearRegression()
lin_3d = LinearRegression()
lin_4d = LinearRegression()

degree_2 = PolynomialFeatures(degree=2)
degree_3 = PolynomialFeatures(degree=3)
degree_4 = PolynomialFeatures(degree=4)

x_train_2 = degree_2.fit_transform(X_train[:,None])
x_train_3 = degree_3.fit_transform(X_train[:,None])
x_train_4 = degree_4.fit_transform(X_train[:,None])

lin_2d.fit(x_train_2, Y_train)
lin_3d.fit(x_train_3, Y_train)
lin_4d.fit(x_train_4, Y_train)

x_test_2 = degree_2.fit_transform(X_test[:,None])
x_test_3 = degree_3.fit_transform(X_test[:,None])
x_test_4 = degree_4.fit_transform(X_test[:,None])

score_2d = lin_2d.score(x_test_2, Y_test)
score_3d = lin_3d.score(x_test_3, Y_test)
score_4d = lin_4d.score(x_test_4, Y_test)

print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_2d))
print("三次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_3d))
print("四次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_4d))

二次式における'LSTAT'の住宅価格への決定係数は0.52
三次式における'LSTAT'の住宅価格への決定係数は0.54
四次式における'LSTAT'の住宅価格への決定係数は0.57


### 次数が大きくなるとどうなるか記述せよ
以下の観点をすべて含めて記述しましょう。
- 説明変数をxとして、次数を増やしていくとどのように数式が変化していくか記述せよ（1次式 ax + b）
- 次数を増やすとどのようなメリットが考えられるか
- 次数を増やすとどのようなデメリットが考えられるか

### 答え：
説明変数をxとして、次数を増やしていくと数式は以下のように変化していく。  
１次式：$ax + b$  
２次式：$ax^2 + bx + c$  
３次式：$ax^3 + bx^2 + cx + d$  
４次式：$ax^4 + bx^3 + cx^2 + dx + e$  
  
次数を増やすと、モデルが複雑になって表現力を向上でき、その結果、誤差が減少するというメリットが考えられる。  
次数を増やすと、モデルの表現力が高すぎるがゆえに、トレーニングデータのノイズまで含めて学習してしまう『過学習』が起きやすくなり、誤差が少なくてもモデルの汎用性は失われる、というデメリットが考えられる。

### 重回帰
今回は、LSTATのみを使用したが、他の特徴量も使用して学習させましょう。重回帰を使用して、0.71以上の決定係数出れば合格です。
- すべての特徴量を使用せず、相関が強い特徴量のみを使用してみましょう。
- 次数を変更してみましょう。

In [10]:
# 改めて、データフレームを作る
X = pd.DataFrame(boston.data,columns=boston.feature_names)
y = pd.DataFrame(boston.target)

# Xとyを一旦合体して、相関をみる
Xy = pd.concat([X, y], axis=1)
Xy.corr().loc[[0]]

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,0
0,-0.385832,0.360445,-0.483725,0.17526,-0.427321,0.69536,-0.376955,0.249929,-0.381626,-0.468536,-0.507787,0.333461,-0.737663,1.0


### 相関をみたけれども、どの特徴量を選択したものかピンと来ない。itertools.combinationsで、特徴量の組み合わせを総当たりで調べる。

In [12]:
# 特徴量のカラム名を取得
feat_names = list(boston.feature_names)

# カラム数毎に、全ての組み合わせを取得
comb = []
for i in range(1, len(feat_names)):
    comb.append(itertools.combinations(feat_names, i))

# 全ての組み合わせを文字列リストのリストに変換
comb_str = []
for i in range(len(comb)):
    for j in comb[i]:
        comb_str.append(list(map(str, j)))
        
len(comb_str)

8190

- 特徴量の全ての組み合わせについて１次式の重回帰分析。
- ZN, CHAS, NOX, RM, AGE, DIS, B, LSTATの組み合わせが、決定係数0.609504で最高だった。

In [13]:
# １次式の重回帰分析。組み合わせと決定係数をcomb_scoreに格納
comb_score = []
for l in comb_str:
    MX = X.loc[:, l].as_matrix()
    X_train,X_test,Y_train,Y_test = train_test_split(MX,y,test_size=0.2,random_state=0)
    lin_1d = LinearRegression()
    lin_1d.fit(X_train, Y_train)
    score_1d = lin_1d.score(X_test, Y_test)
    comb_score.append([l, score_1d])

# comb_scoreをDataFrameにして、決定係数が最大になる組み合わせを出す
pd.DataFrame(comb_score, columns=['comb', 'score'])\
    .sort_values(by=['score'], ascending=False).head(3)

Unnamed: 0,comb,score
6822,"[ZN, CHAS, NOX, RM, AGE, DIS, B, LSTAT]",0.609504
5295,"[ZN, CHAS, NOX, RM, DIS, B, LSTAT]",0.608822
5350,"[ZN, CHAS, RM, AGE, DIS, B, LSTAT]",0.605801


- 特徴量の全ての組み合わせについて２次式の重回帰分析。
- CRIM, ZN, INDUS, CHAS, NOX, RM, DIS, RAD, TAX, LSTATの組み合わせが、決定係数0.795047で最高だった。

In [63]:
# ２次式の重回帰分析。組み合わせと決定係数をcomb_scoreに格納
comb_score = []
for l in comb_str:
    MX = X.loc[:, l].as_matrix()
    X_train,X_test,Y_train,Y_test = train_test_split(MX,y,test_size=0.2,random_state=0)
    lin_ = LinearRegression()
    degree_ = PolynomialFeatures(degree=2)
    PX_train = degree_.fit_transform(X_train)
    lin_.fit(PX_train, Y_train)
    PX_test = degree_.fit_transform(X_test)
    score_ = lin_.score(PX_test, Y_test)
    comb_score.append([l, score_])

# 文字が省略されてしまうので設定
pd.set_option("display.max_colwidth", 100)

# comb_scoreをDataFrameにして、決定係数が最大になる組み合わせを出す
pd.DataFrame(comb_score, columns=['comb', 'score'])\
    .sort_values(by=['score'], ascending=False).head(3)

Unnamed: 0,comb,score
7835,"[CRIM, ZN, INDUS, CHAS, NOX, RM, DIS, RAD, TAX, LSTAT]",0.795047
7935,"[CRIM, ZN, CHAS, NOX, RM, AGE, DIS, RAD, TAX, LSTAT]",0.791046
6505,"[CRIM, CHAS, NOX, RM, DIS, RAD, TAX, LSTAT]",0.785194


- 特徴量の全ての組み合わせについて、クロスバリデーション１０回による、リッジ回帰分析。
- 最も高い決定係数を出す組み合わせと正則化パラメータを調べた。本当は次数を１０次式まで調べたかったが、１０時間以上かけても処理が終わらないため、ここでは３次式に絞ることとした。
- ３次式で２時間以上の処理になったが、結果は奮わなかった。機械学習の計算量と処理の重さを思い知った。

In [15]:
for comb in comb_str:
    MX = X.loc[:, comb].as_matrix()

    # クロスバリデーションの準備
    My = y.loc[:, [0]].as_matrix() # yも行列にする
    np.random.seed(0) # 乱数のシード設定
    indices = np.random.permutation(len(My))
    rx = MX[indices] 
    ry = My[indices]
    n_fold = 10 
    k_fold = cross_validation.KFold(n=len(rx),n_folds = n_fold)

    lambda_=np.arange(1,20)/1e6 # 正則化パラメータは0.00001周辺で考える

    score = []
    tmp = []
    degree_=PolynomialFeatures(degree=3)
    for l in lambda_:
        lin_ = Ridge(normalize=True,alpha=l)
        for train, test in k_fold:
            rx_train = degree_.fit_transform(rx[train])
            lin_.fit(rx_train,ry[train])

            # 学習が終わったところで、テストデータで決定係数を得る
            rx_test = degree_.fit_transform(rx[test])
            tmp.append(lin_.score(rx_test, ry[test]))

        # 決定係数の平均をとる
        r_mean = sum(tmp)/len(tmp)
        score.append([comb, l, r_mean])

        tmp = []

# scoreをDataFrameにして、決定係数が最大になる組み合わせを出す
pd.DataFrame(score, columns=['comb', 'param', 'score'])\
    .sort_values(by=['score'], ascending=False).head(3)

Unnamed: 0,comb,param,score
18,"[ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT]",1.9e-05,0.58064
17,"[ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT]",1.8e-05,0.572099
16,"[ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT]",1.7e-05,0.56295


### 重回帰について記述せよ
以下の観点をすべて含めて記述しましょう。
- 説明変数を増やすことでどのようなメリットがあるか
- 説明変数を増やすことでどのようなデメリットがあるか

### 答え：
説明変数を増やすことで、それらが適切な説明変数の組み合わせであった場合には、モデルの予測精度を向上できるメリットがある。  
説明変数を増やすことで、  
①それらが適切な説明変数の組み合わせでなかった場合には、モデルの予測精度が下がる。  
②モデルの複雑さが増すため計算量が多くなる。  
③グラフなどによる視覚的表現が難しくなるため、モデルの直感的な理解が難しくなる。  
以上３つのようなデメリットがある。

In [None]:
len(comb_str)