# 回帰

### データの読み込み

In [1]:
"""読み込み
"""
from sklearn.datasets import load_boston
boston = load_boston()

In [2]:
"""データの内訳
"""
print(boston)

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 1

### データ分割
訓練データ：モデルを作成するためのデータ

テストデータ：作成したモデルの性能を検証するデータ

過学習：訓練データにのみ当てはまりの良いモデルを作成してしまうこと。訓練データ・テストデータ双方に当てはまりがよくないといいモデルとは言えない

In [3]:
"""データ分割
・説明変数と目的変数を与える
・テストデータを全体の何％にするか決める
・固定にするか否か
"""
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(boston['data'], boston['target'], test_size=0.3,  random_state=0)

In [23]:
"""基本モデルの作成
リッジ回帰：SVMの回帰版・カーネル法を用いている
他にLasso回帰などがある
"""
from sklearn.linear_model import Ridge
clf = Ridge()

In [24]:
"""モデルの最適化
"""
clf.fit(X_train, y_train)

Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [25]:
"""テストデータの予測
"""
predicted = clf.predict(X_test)

In [26]:
"""予測値
"""
print(predicted)

[2.49766729e+01 2.32843316e+01 2.89093877e+01 1.20415177e+01
 2.07252633e+01 1.97166295e+01 2.02678199e+01 2.16169077e+01
 1.92065079e+01 2.00914515e+01 5.36445144e+00 1.60305836e+01
 1.75915532e+01 5.36864018e+00 3.97620466e+01 3.22308853e+01
 2.17135018e+01 3.61699665e+01 3.11663566e+01 2.33510761e+01
 2.48749527e+01 2.39890591e+01 2.04451199e+01 3.03036168e+01
 2.21933303e+01 9.54495939e+00 1.76238219e+01 1.97090782e+01
 3.52507706e+01 2.04003752e+01 1.77444317e+01 1.81536076e+01
 1.90509214e+01 2.31020741e+01 2.86223100e+01 2.01272499e+01
 1.11285171e+01 2.46523543e+01 1.72269198e+01 1.47365079e+01
 2.57390213e+01 2.06590782e+01 2.21401951e+01 1.47049513e+01
 2.29352767e+01 2.45908438e+01 1.89804171e+01 2.45205886e+01
 1.12045887e+01 2.43192446e+01 2.29602076e+01 1.81908251e+01
 2.41007868e+01 3.04495575e+01 1.36034624e+01 2.16364459e+01
 2.05122613e+01 1.50750105e+01 1.35483075e+01 2.15246005e+01
 1.75466654e+01 2.17457454e+01 3.27494951e+01 3.15007761e+01
 1.73937728e+01 3.239607

In [27]:
"""正解率の算出
乖離度　=　Σ(|予測値 - 実測値|/実測値)/N
N：データ数
"""
print(
    sum(abs(predicted-y_test)/y_test)/len(y_test)
)

0.18036192049275923


# 分類

### データの読み込み
irisデータセットという「花（アヤメ）」に関する有名なデータがあります

data：ガクの長さ・ガクの幅・花弁の長さ・花弁の幅

target：花（アヤメ）の種類

In [28]:
"""読み込み
"""
from sklearn.datasets import load_iris
iris = load_iris()

In [29]:
"""データの内訳
"""
print(iris)

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

### データ分割
訓練データ：モデルを作成するためのデータ

テストデータ：作成したモデルの性能を検証するデータ

過学習：訓練データにのみ当てはまりの良いモデルを作成してしまうこと。訓練データ・テストデータ双方に当てはまりがよくないといいモデルとは言えない

In [30]:
"""データ分割
・説明変数と目的変数を与える
・テストデータを全体の何％にするか決める
・固定にするか否か
"""
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], test_size=0.3,  random_state=0)

In [36]:
"""基本モデルの作成
"""
from sklearn.svm import SVC
clf = SVC() 

In [37]:
"""モデルの最適化
"""
clf.fit(X_train, y_train)



In [38]:
"""テストデータの予測
"""
predicted = clf.predict(X_test)

In [39]:
"""予測値
"""
print(predicted)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [40]:
"""正解率の算出
"""
print(sum(predicted==y_test)/len(y_test))

0.9777777777777777


# Ridge回帰の各種パラメータ

|パラメータ名|デフォルト|意味・使い方|取りうる値|
|:---|:---|:---|:---|
|alpha|　|正則化項のハイパーパラメータ|floatで指定|
|fit_intercept|　|切片を計算するか否か|True or False|
|normalize|False|説明変数を事前に正規化するか否か||
|copy_X|True|説明変数を上書きするか否か|Falseなら上書き|
|max_iter|　|最適解探索の最大探索階数|intで指定。"parse_cg"・"lsqr"|
|tol|　|計算停止の閾値|floatで指定|
|solver|"saga"|解探索法|"auto"・"svd"・"cholesky"・"lsqr"・"sparse_cg"・"sag"・"saga"を指定|
|random_state|None|実行ごとに結果を変化させないようにする|int|

In [56]:
"""基本モデルの作成
リッジ回帰：SVMの回帰版・カーネル法を用いている
他にLasso回帰などがある
"""
X_train, X_test, y_train, y_test = train_test_split(boston['data'], boston['target'], test_size=0.3,  random_state=0)
from sklearn.linear_model import Ridge
clf = Ridge(
    alpha=0.5,
    fit_intercept=False,
    max_iter=100
)

In [57]:
"""モデルの最適化
"""
clf.fit(X_train, y_train)

Ridge(alpha=0.5, copy_X=True, fit_intercept=False, max_iter=100,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [58]:
"""テストデータの予測
"""
predicted = clf.predict(X_test)

In [59]:
"""予測値
"""
print(predicted)

[24.21453999 22.10794285 27.98330561 11.17249355 20.75381874 19.8889488
 19.26091911 21.36104452 15.79284654 19.28796499  3.84299128 15.49414654
 18.78722317  4.0305898  40.3739747  32.07852482 21.0922988  35.64178272
 29.48389533 22.00956701 25.00843776 21.35092443 20.89878569 29.1894687
 20.2153092   2.57463658 18.53700863 18.56645524 37.34332722 20.19859927
 17.96899789 18.84628737 19.6875584  21.97072105 26.90981157 20.34425449
 12.53582093 23.09284354 15.92390955 15.07631255 23.80423181 19.42823161
 21.41556281 12.99481115 23.60546629 24.27787466 17.55560744 24.84165454
 10.64546425 25.80205914 22.10516389 18.09631926 22.13185036 35.24544207
 14.359359   20.35568517 19.52109828 15.71916635  9.32209092 21.44994589
 18.55736623 21.70313296 32.05765193 29.69127892 16.27186788 30.40024571
 20.98716989 19.70275402 19.02932814 21.93721256 21.55947114 22.93860102
 28.80861839 30.14353209 25.14690024  5.171757   38.771649   23.54893209
 26.23958818 19.27586192 27.35855588 21.80783334 16.5

In [60]:
"""正解率の算出
乖離度　=　Σ(|予測値 - 実測値|/実測値)/N
N：データ数
"""
print(
    sum(abs(predicted-y_test)/y_test)/len(y_test)
)

0.18466955665023316


# SVMの各種パラメータ

|パラメータ名|デフォルト|意味・使い方|取りうる値|
|:---|:---|:---|:---|
|C|1.0|正則化項の係数|floatで指定|
|kernel|"rbf"|使用するカーネル関数|"rbf"・"linear"・"poly"・"sigmoid"・"precomputed"を選択可能|
|degree|3|カーネル関数にpolyを使った場合の次数の指定|intで指定|
|gamma|"auto"|カーネル関数に"rbf"・"poly"・"sigmoid を使った場合の係数|floatで指定|
|coef0|0.0|カーネル関数に"poly"・"sigmoid"を使った場合の係数の指定|floatで指定|
|shrinking|True|ヒューリスティックを下げるかどうか||
|probability|False|分類結果の確立を計算するか否か||
|tol|1e-3|計算停止の閾値|floatで指定|
|cache_size|　|計算結果のキャッシュ領域の確保(MB)||
|class_weight|"balanced"|各クラスの重み|データが不均衡な際に用いる。"balanced"はちょうどよくしてくれる。辞書型で与えれる|
|verbose|False|経過を表示するか||
|max_iter|-1|最適解探索の最大探索階数|intで指定。-1は解に収束するまで|
|decision_function_shape|"ovr"|分類問題におけるクラスの扱い方|"ovr"・"ovo"|
|random_state|None|実行ごとに結果を変化させないようにする|int|

In [41]:
"""基本モデルの作成
"""
from sklearn.svm import SVC
clf = SVC(
    C=0.9,
    kernel='poly',
    degree=4
) 

In [42]:
"""モデルの最適化
"""
clf.fit(X_train, y_train)



In [43]:
"""テストデータの予測
"""
predicted = clf.predict(X_test)

In [44]:
"""予測値
"""
print(predicted)

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [45]:
"""正解率の算出
"""
print(sum(predicted==y_test)/len(y_test))

0.9777777777777777
