# 演習問題2 回帰 (Normal)

## 問題
以下の13個の変数からその地域の住宅価格の中央値(MEDV)を推測することができる回帰モデルを作成せよ.
1. CRIM	人口 1 人当たりの犯罪発生数
2. ZN	25,000 平方フィート以上の住居区画の占める割合
3. INDUS	小売業以外の商業が占める面積の割合
4. CHAS	チャールズ川によるダミー変数 (1: 川の周辺, 0: それ以外)
5. NOX	NOx の濃度
6. RM	住居の平均部屋数
7. AGE	1940 年より前に建てられた物件の割合
8. DIS	5 つのボストン市の雇用施設からの距離 (重み付け済)
9. RAD	環状高速道路へのアクセスしやすさ
10. TAX	10,000 ドルあたりの不動産税率の総計
11. PTRATIO	町毎の児童と教師の比率
12. B	町毎の黒人 (Bk) の比率を次の式で表したもの。 1000(Bk – 0.63)^2
13. LSTAT	給与の低い職業に従事する人口の割合 (%)

#### ヒント　
手順は以下の順番でおこなうとよい.

1. 欠損値があるかを確認する.
2. データを見て, どのアルゴリズムを使うかを決める.
3. ハイパーパラメータの最適化を行う.

(2と3は同時平行に行なってもよい.)

結局は、分類問題と回帰問題の違いはクラスを予測するか値を予測するかの違いのみである。

In [None]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import GridSearchCV

boston = datasets.load_boston()
#扱いづらいので, dataframe型のインターフェイスにする.
boston_df = pd.DataFrame(boston.data)
boston_df.columns = boston.feature_names
#今回の演習の目的変数に相当
boston_df["MEDV"] =  boston.target
#データの最初の5行を表示
boston_df.head()

欠損値があるかどうかを調べる.

In [None]:
boston_df.isnull().sum()#欠損値数の和を出力.

各変数の相関値を表示する. ここで, 目的変数との相関値が低い説明変数を選択しても意味はないどころか, 悪影響を及ぼす場合があるので注意する. しかし, 目視で変数選択をするの難しいため, Lasso回帰やAICを用いて変数選択するのがよい.

In [None]:
boston_df.corr() #各列の相関値を調べる.

### 線形回帰

まずは線形回帰(Lasso)を使ってみる.

In [None]:
from sklearn.linear_model import Lasso#lasso回帰を用いる.

rgs = Lasso(normalize=True)#ハイパーパラメータ設定

X_boston = boston_df.iloc[:,:13]#説明変数を格納
y_boston = boston_df.iloc[:,13]#目的変数を格納

params3 = {"alpha":[0, 0.001, 0.01,0.1, 1],"random_state":[0] }
cv_3 = GridSearchCV(rgs, params3, cv = 20 , n_jobs =-1,scoring= "neg_mean_squared_error")
cv_3.fit(X_boston, y_boston )
print("計算完了")

 sklearnの場合, すべての評価指標はより高い値が低い値よりも優れている という規則に従うため、
MSE等の低い値が優れているとされている指標には-1をかけて負の数をして扱う.

In [None]:
cv_3.cv_results_["mean_test_score"] #Lasso回帰の結果

In [None]:
print("最適なハイパーパラメータは {}です".format(cv_3.best_params_))
print("回帰係数は{}です.".format(cv_3.best_estimator_.coef_))
print("切片は{}です.".format(cv_3.best_estimator_.intercept_))

### 非線形回帰分析

多項式回帰を用いて、非線形な回帰モデルを作成する.

In [None]:
from sklearn.preprocessing import PolynomialFeatures
# 2乗したデータまでを格納
quadratic  = PolynomialFeatures(degree = 2)
X_quadratic_boston = quadratic.fit_transform(X_boston)

In [None]:
params4 = {"alpha":[0, 0.001,0.01,0.1,1],"random_state":[0] }
cv_4 = GridSearchCV(rgs, params4, cv = 20 , n_jobs =-1,scoring= "neg_mean_squared_error")
cv_4.fit(X_quadratic_boston , y_boston )
cv_4.cv_results_

In [None]:
cv_4.cv_results_["mean_test_score"]

In [None]:
print("最適なハイパーパラメータは {}です".format(cv_4.best_params_))
print("回帰係数は{}です.".format(cv_4.best_estimator_.coef_))
print("切片は{}です.".format(cv_4.best_estimator_.intercept_))

In [None]:
plt.scatter(y_boston, cv_4.predict(X_quadratic_boston))
plt.plot(y_boston, y_boston, color="r")
plt.show()

### まとめ
非線形回帰分析の方が表現力があがるため, 誤差の少ないモデルを構築することができた. 
今回は2次元までの多項式回帰を用いたが,　次元数を大きくし過ぎると過学習がおこり, 汎化性能はむしろ下がってしまうので注意.