<a href="https://colab.research.google.com/github/Last-Vega/Klis_Workshop_MachineLearning/blob/master/ML3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from sklearn.datasets import load_boston # scikit-learnという機械学習のためのPythonパッケージからBoston house-price dataを読み込むための関数load_bostonをimportする．
boston = load_boston() # load_boston関数を実行してBoston house-price dataを読み込み，それをbostonという変数に代入
print(boston.DESCR) # DESCRという属性にはデータセットの詳細が書かれているので，これをprintで表示させる．

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [2]:
boston.data # dataという属性に13次元のベクトルが格納されている．Colabでは各セルの最後の行の出力が自動的に出力される．

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

In [3]:
# 13次元のベクトルは行ベクトル（横長のベクトル）で表現されており，それが506個積み重なることによって行列として表現されている（計画行列とも呼ぶ）．つまり，506行 x 13列の行列となっている．
# この行列はnumpy.ndarrayというクラスのオブジェクトとして表現されており，shapeという属性には行と列の値が格納されている．
boston.data.shape

(506, 13)

In [4]:
boston.data[0] # 試しに1行目のベクトルを取り出してみる．13次元のベクトルであることが確認できる．

array([6.320e-03, 1.800e+01, 2.310e+00, 0.000e+00, 5.380e-01, 6.575e+00,
       6.520e+01, 4.090e+00, 1.000e+00, 2.960e+02, 1.530e+01, 3.969e+02,
       4.980e+00])

In [5]:
boston.data[1] # 試しに2行目のベクトルも取り出してみる

array([2.7310e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
       6.4210e+00, 7.8900e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
       1.7800e+01, 3.9690e+02, 9.1400e+00])

In [6]:
# 各住宅の価格はtarget属性に格納されている．これは506次元のベクトルで表現され，Python中ではnumpy.ndarrayというクラスのオブジェクトとして表現されている．
boston.target

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

In [7]:
boston.target[0] # 試しに1次元目の値を取り出してみる．

24.0

In [8]:
boston.target[1] # 試しに2次元目の値も取り出してみる．

21.6

In [9]:
boston.target.shape

(506,)

In [10]:
# 計画行列の先頭の406行分のベクトルとそれに対応するラベルを訓練データ，残りをテストデータとして用いることにする
#406までが訓練データ
train_num = 406
train_X, test_X = boston.data[:train_num], boston.data[train_num:]
train_y, test_y = boston.target[:train_num], boston.target[train_num:]

In [11]:
from sklearn.linear_model import LinearRegression # scikit-learnから線形回帰モデルLinearRegressionをimportする
from sklearn.metrics import mean_squared_error # 性能指標としてMean Squared Error (MSE; 平均二乗誤差)をimportする

model = LinearRegression() # 線形回帰モデルを初期化する
trained_model = model.fit(train_X, train_y) # 訓練データ train_X, train_y を与えて，モデルを学習（＝パラメータを決定）する
predicted_y = trained_model.predict(test_X) # テストデータの事例 test_X のそれぞれに対して，予測値を計算する．
performance = mean_squared_error(test_y, predicted_y) # 予測値と実測値の差をMSEで求める．小さい方が正確な予測だと言える．
print("MSE", performance) # MSEを出力

MSE 33.54828291225656


In [12]:
# 個別の事例についてどのように予測が行われるか確認しよう
print("Instance #1\n", test_X[0]) # テストデータの1つ目の事例を出力
print("Prediction #1", predicted_y[0]) # テストデータの1つ目の事例に対する予測値を出力
print("Coefficient\n", trained_model.coef_) # 学習済み線形回帰モデルのパラメータw（係数，つまり，coefficientとも呼ばれる）を出力
print("Intercept", trained_model.intercept_) # 学習済み線形回帰モデルのパラメータb（切片，つまり，interceptとも呼ばれる）を出力

# 先述の線形回帰モデルの説明通り予測が行われているか確認しよう
manual_pred = 0
for i in range(13):
  manual_pred += test_X[0][i] * trained_model.coef_[i] # x, wの両ベクトルの同じ次元同士をかけ，すべて足しあわせる
manual_pred += trained_model.intercept_ # 最後にbを足す
print("Manual Prediction #1", manual_pred) # これが予測値と一致するはず

Instance #1
 [2.07162e+01 0.00000e+00 1.81000e+01 0.00000e+00 6.59000e-01 4.13800e+00
 1.00000e+02 1.17810e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.70220e+02
 2.33400e+01]
Prediction #1 6.787739989408138
Coefficient
 [-1.91271945e-01  4.40546273e-02  5.20506841e-02  1.89168396e+00
 -1.49400807e+01  4.75726400e+00  2.70270874e-03 -1.30022119e+00
  4.58902714e-01 -1.55840407e-02 -8.11094905e-01 -2.16355137e-03
 -5.32320487e-01]
Intercept 30.20429814421056
Manual Prediction #1 6.787739989408138


In [19]:
print("Coefficient\n", max(trained_model.coef_))

Coefficient
 4.757264001199135


In [None]:
from sklearn.ensemble import GradientBoostingRegressor

# 比較手法 1
predicted_y = [20] * len(test_X) # [20, 20, ..., 20] というように，全テストデータの事例に対して20という値を予測したとする
performance = mean_squared_error(test_y, predicted_y) # 予測値と実測値の差をMSEで求める．小さい方が正確な予測だと言える．
print("MSE (Naive)", performance) # MSEを出力

# 比較手法 2
model = GradientBoostingRegressor() # GBDTモデルを初期化する
trained_model = model.fit(train_X, train_y) # 訓練データ train_X, train_y を与えて，モデルを学習する
predicted_y = trained_model.predict(test_X) # テストデータの事例 test_X のそれぞれに対して，予測値を計算する．
performance = mean_squared_error(test_y, predicted_y) # 予測値と実測値の差をMSEで求める．小さい方が正確な予測だと言える．
print("MSE (GBDT)", performance) # MSEを出力

In [None]:
print(trained_model)

In [None]:
boston.feature_names

In [16]:
from sklearn.model_selection import train_test_split
boston = load_boston()
feature = []
coef = []
abs_coef = []
contribution_rate = []
for i in range(0, 13):
    train_X, test_X, train_y, test_y = train_test_split(boston.data[:,i], boston.target, random_state=0)

    train_X = train_X.reshape((-1, 1))
    test_X = test_X.reshape((-1, 1))

    model = LinearRegression()
    model.fit(train_X, train_y)
    feature.append(boston.feature_names[i])
    coef.append(float(model.coef_))
    abs_coef.append(float(abs(model.coef_)))

#寄与率の算出
for i in abs_coef:
    j = -i / sum(coef) *100
    contribution_rate.append(j)


In [18]:
dict = {}
for f, c in zip(feature, coef):
  dict[f] = c
sorted(dict.items(), key=lambda x:x[1])

[('NOX', -36.03626490910177),
 ('PTRATIO', -2.348986808708933),
 ('LSTAT', -0.970630965034644),
 ('INDUS', -0.6947497150206814),
 ('CRIM', -0.45349691354636185),
 ('RAD', -0.4427901798092098),
 ('AGE', -0.13522314225232845),
 ('TAX', -0.027401758132168476),
 ('B', 0.03625843133807112),
 ('ZN', 0.15311244261073217),
 ('DIS', 1.2169275912770738),
 ('CHAS', 5.780598870056499),
 ('RM', 9.312949225629252)]

In [None]:
print(feature)