## 【AIコース】大課題 ボストン住宅価格 線形回帰

### ●線形回帰とは何か

A.線回帰分析は、複数の変数における相関関係を直線モデルによって説明しようとする分析手法である。  
ある説明変数(x)と対応する目的変数(t)から、説明変数と目的変数の回帰方程式 y(x) を予測する。
回帰は連続値を予測する。分類は離散型の値を予測する。

### ●データを取得する

In [8]:
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd
boston = load_boston()

### ●取得データをDataFrameにする

In [9]:
# 説明変数
X = pd.DataFrame(boston.data[:100],columns=boston.feature_names)
# 目的変数
y = boston.target[:100]

### ●説明変数を'LSTAT'のみにする

In [10]:
x = X.loc[:,['LSTAT']].as_matrix()

### ●単回帰と重回帰についての違いを記述せよ

A.単回帰は説明変数が一つの場合、重回帰は説明変数が二つ以上の場合を指す。

### ●テストデータに分割する

In [11]:
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.2,random_state=0)

### ●学習

In [12]:
from sklearn.linear_model import LinearRegression
lin_1d = LinearRegression()
x_ = X_train.loc[:,['LSTAT']].as_matrix()

lin_1d.fit(x_,Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

### ●決定係数

In [19]:
x_2 = X_test.loc[:,['LSTAT']].as_matrix()
score_1d = lin_1d.score(x_2,Y_test)
print("一次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_1d))

一次式における'LSTAT'の住宅価格への決定係数は0.42


### ●決定係数とは何か記述せよ

A.決定係数とは線形モデルの汎化能力を測定するための尺度。  
決定数は０〜１の値を取り、もっとも説明変数が目的変数を説明できる場合に１となる。

### ●決定係数をいかなる場合も信じても良いか記述せよ(決定係数が高ければ、汎用性があるモデルと言えるか

A.指標とするのは良いか絶対的に信じてはいけない。決定係数は単純に説明変数を増やせば増やすほど過学習して100%に近づく場合があるから。

### ●2,3,4次式の回帰

In [14]:
from sklearn.preprocessing import PolynomialFeatures

lin_2d = LinearRegression()
lin_3d = LinearRegression()
lin_4d = LinearRegression()

degree_2 = PolynomialFeatures(degree=2)
degree_3 = PolynomialFeatures(degree=3)
degree_4 = PolynomialFeatures(degree=4)

x_train_2 = degree_2.fit_transform(x_)
x_train_3 = degree_3.fit_transform(x_)
x_train_4 = degree_4.fit_transform(x_)

lin_2d.fit(x_train_2,Y_train)
lin_3d.fit(x_train_3,Y_train)
lin_4d.fit(x_train_4,Y_train)

x_test_2 = degree_2.fit_transform(x_2)
x_test_3 = degree_3.fit_transform(x_2)
x_test_4 = degree_4.fit_transform(x_2)

score_2d = lin_2d.score(x_test_2,Y_test)
score_3d = lin_3d.score(x_test_3,Y_test)
score_4d = lin_4d.score(x_test_4,Y_test)

print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_2d))
print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_3d))
print("二次式における'LSTAT'の住宅価格への決定係数は%.2f"%(score_4d))

二次式における'LSTAT'の住宅価格への決定係数は0.62
二次式における'LSTAT'の住宅価格への決定係数は0.66
二次式における'LSTAT'の住宅価格への決定係数は0.67


### ●次数が大きくなるとどうなるか記述せよ

A.次数を増やす事での数式の変化（2次式 ax^2 + b）（3次式 ax^3 + b） （3次式 ax^4 + b)  
  次数を増やす事のメリット。次数を増やす事でモデルがより複雑になり表現力が上がり、二乗和誤差を少なく抑える事が期待出来る。
  次数を増やす事のデメリットとして、次数を増やしモデルの表現力が上がり過ぎる事で学ぶ必要のないノイズまで学び過学習を起こしてしまう恐れがある。

### ●重回帰

In [15]:
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [16]:
x_mul = X_train.loc[:,['CRIM','LSTAT']].as_matrix()
lin_ = LinearRegression()
degree_3 = PolynomialFeatures(degree=3)
x_mul_3 = degree_3.fit_transform(x_mul)
lin_.fit(x_mul_3,Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [17]:
x_mul_test = X_test.loc[:,['CRIM','LSTAT']].as_matrix()
x_mul_test_2 = degree_3.fit_transform(x_mul_test)

score = lin_.score(x_mul_test_2,Y_test)
print("三次式における'LSTAT'と'CRIM'の住宅価格への決定係数は%.2f"%(score))

三次式における'LSTAT'と'CRIM'の住宅価格への決定係数は0.78


### ●重回帰について記述せよ

A.重回帰は、単回帰が一つなのに対し二つ以上の説明変数で目的変数を予測する。　　  
重回帰のメリットとしては説明変数の数を増やし回帰させると単回帰よりも予測精度の高いモデルが出来る可能性が高い。連続型のデータに適している。　
デメリットは説明変数をむやみに増やすと過学習してしまい、見せかけだけの予測が向上してしまう恐れがある。離散型のデータには適さない。