In [1]:
from sklearn.datasets import load_boston

In [3]:
from sklearn.linear_model import LinearRegression

In [4]:
boston = load_boston()

In [5]:
dir(boston)

['DESCR', 'data', 'feature_names', 'filename', 'target']

In [6]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [7]:
 print(boston.data)

[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]


In [8]:
print(boston.feature_names)

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


In [9]:
len(boston.feature_names) #説明変数の要素数を返してくれる

13

In [10]:
len(boston.target)  #目的変数の要素数

506

In [11]:
boston.target #その中身

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

In [12]:
from sklearn.model_selection import train_test_split

In [16]:
# import warnings
# warnings.simplefilter('ignore')

import pandas as pd
df = pd.DataFrame(boston.data,
                 columns=boston.feature_names) #引数を2つ渡している (data, column名)

#df.head()#先頭から５件のデータを取得できる

x_train, x_test, y_train, y_test = train_test_split(
df[["RM"]], boston.target, random_state= 1,
) # 引数③つ(特徴量のデータ:今回はRMという部屋の広さ, 目的変数:家賃のデータが格納されている,  seeds:)

In [17]:
x_train.shape #データの件数　(行, 列)で表される＝>(379 rows , 1 columns)

(379, 1)

In [18]:
x_train #分割したのでランダムに分けられている

Unnamed: 0,RM
502,6.120
172,5.572
80,6.727
46,5.786
318,6.382
...,...
255,5.876
72,6.065
396,6.405
235,6.086


In [21]:
df.shape 

(506, 13)

※重要）
なぜ506あるうちの379だけがx_trainにあるかというと、fold out 検証法で4分の3がtrailデータで、4分１がテストデータに分割されているから
    

In [23]:
y_test.shape

(127,)

残りの127件がテストデータに渡されている


In [24]:
379 + 127

506

In [26]:
model = LinearRegression() #これで単回帰を変数として使えるように

In [27]:
model.fit(x_train, y_train) #その変数を　.fit()することでpredictを使えるように：予測を行うためのメソッド

LinearRegression()

In [28]:
model.predict(x_test)

array([27.38730962, 26.08683899, 20.4259668 , 19.13399597, 14.748095  ,
       23.33290117, 25.52585165, 20.78295874, 19.75448196, 23.71539253,
       26.54582862, 27.59980483, 17.88452419, 18.36051344, 20.36646815,
       16.83904779, 25.68734801, 43.33294959, 21.54794147, 11.04217868,
       17.66352918, 17.00904395, 24.99036374, 23.69839292, 22.63591691,
       19.28699252, 20.98695414, 20.28996987, 33.09068085, 14.98608963,
       25.09236144, 16.81354837, 37.4595822 , 22.30442439, 21.39494492,
       19.54198676, 23.06940712, 29.92025243,  4.34432991, 21.13995068,
       23.00140865, 22.80591307, 25.42385396, 21.54794147, 21.74343706,
       27.17481442, 35.48762673, 19.21049425, 21.02945318, 23.61339483,
       28.50078448, 23.21390385, 23.82589004, 22.88241134, 12.46164663,
       24.04688505, 18.91300096, 21.20794915, 20.08597448, 39.27004133,
       23.66439368, 25.52585165, 18.02052112, 23.12890577, 15.17308541,
       28.50078448, 40.03502405, 24.76086893, 20.24747083, 18.93

分割した127件の予測値を得ることができる

In [33]:
x_test

Unnamed: 0,RM
307,6.849
343,6.696
47,6.030
67,5.878
362,5.362
...,...
41,6.770
361,6.251
289,6.565
498,6.019


In [35]:
 x_test.iloc[0, 0]

6.849

ilocについての説明している記事はこちら= >https://kojimanotech.com/2019/08/08/174/ ついでにlocとその使い分けも

In [39]:
#model.predictに1件だけのデータを与えるようにする
import numpy as np
sample_data = np.array([x_test.iloc[0, 0]])
model.predict(sample_data.reshape(-1, 1))

array([27.38730962])

これでmodelデータの完成
そしてこれで終わりではなくて、このデータがどれくらい精度が高いのか評価をしてあげなければいけない
y_test（＝答え）を用いて評価していく

In [41]:
y_test[0]

28.2

実際のと近い！
これから性能評価を行なっていく MSE(平均二乗誤差)

In [45]:
from sklearn.metrics import mean_squared_error, r2_score 

In [44]:
mean_squared_error(y_test, model.predict(x_test))

39.183640132173

MSE(平均二乗誤差)は0に近いほど精度が高いと言える
今回は39.1出ている。
決定係数r2_scoreも使っていく（これは１に近づけばいい）

In [47]:
r2_score(y_test, model.predict(x_test)) #(正しい答え,　予測結果)

0.6044392899952475

In [None]:
そこまで高くない（実務では0.8以上は求められる）

In [48]:
import joblib #学習済みモデル(fitし終えたモデル)を保存することができ、そのまま入力したデータのファイルを読み込ませてあげると予測ができる優れものらしい

In [49]:
joblib.dump(model, 'price01.pkl', compress=True) #ファイルを作成

['price01.pkl']

In [50]:
model2 = joblib.load("price01.pkl") #つくったファイルの読み込み

In [51]:
model2.predict([[6.849]]) #これでもモデルの予測ができる

array([27.38730962])