# ロジスティック回帰
* クラスを分離する判断に「0」、「1」ではなく、確率を用いる。  
    * イメージ
        * クラス1である確率：80%
        * クラス2である確率：20%  
* 実際のデータで確率をそのまま計算すると、-150% の確率や 1200% の確率などが求められてしまう。  
そこで、0% ～ 100% の範囲内にデータを押し込めてしまう関数「シグモイド関数」を利用する。

In [1]:
import numpy as np
x = np.arange(-5, 5, 0.1)

#  exp関数（指数関数）による出力
y = 1 / (1 + np.exp(-x))

import matplotlib.pyplot as plt
plt.plot(x, y)
plt.xlim(-5, 5)
plt.ylim(-0.1, 1.1)
plt.grid()
plt.show()

<Figure size 640x480 with 1 Axes>

In [2]:
# digits データセットの読み込み
from sklearn.datasets import load_digits
digits = load_digits()

In [3]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(digits['data'], digits['target'], test_size=0.3, random_state=0)

### scikit-learn の LogisticRegression の引数
* penalty: 正則化の種類（デフォルトは L2 ノルム正則化）  
* C: Regularization（正則化）の強さ  

### 正則化とは
モデルの「複雑さ」が過剰に増えないように「ペナルティ」を設ける手法。  
過学習にならないようにするには、正則化を行うと良いらしい。

### 過学習とは
学習データに限りなくフィットするように学習させた結果、  
逆に評価データ（未知データ）を与えたときに精度が落ちてしまう現象のこと。

In [4]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg_model = logreg.fit(x_train, y_train)

In [5]:
pred = logreg.predict(x_test)
import numpy as np
np.mean(pred == y_test)

0.9537037037037037

In [6]:
print(y_test)

[2 8 2 6 6 7 1 9 8 5 2 8 6 6 6 6 1 0 5 8 8 7 8 4 7 5 4 9 2 9 4 7 6 8 9 4 3
 1 0 1 8 6 7 7 1 0 7 6 2 1 9 6 7 9 0 0 5 1 6 3 0 2 3 4 1 9 2 6 9 1 8 3 5 1
 2 8 2 2 9 7 2 3 6 0 5 3 7 5 1 2 9 9 3 1 7 7 4 8 5 8 5 5 2 5 9 0 7 1 4 7 3
 4 8 9 7 9 8 2 6 5 2 5 8 4 8 7 0 6 1 5 9 9 9 5 9 9 5 7 5 6 2 8 6 9 6 1 5 1
 5 9 9 1 5 3 6 1 8 9 8 7 6 7 6 5 6 0 8 8 9 8 6 1 0 4 1 6 3 8 6 7 4 5 6 3 0
 3 3 3 0 7 7 5 7 8 0 7 8 9 6 4 5 0 1 4 6 4 3 3 0 9 5 9 2 1 4 2 1 6 8 9 2 4
 9 3 7 6 2 3 3 1 6 9 3 6 3 2 2 0 7 6 1 1 9 7 2 7 8 5 5 7 5 2 3 7 2 7 5 5 7
 0 9 1 6 5 9 7 4 3 8 0 3 6 4 6 3 2 6 8 8 8 4 6 7 5 2 4 5 3 2 4 6 9 4 5 4 3
 4 6 2 9 0 1 7 2 0 9 6 0 4 2 0 7 9 8 5 4 8 2 8 4 3 7 2 6 9 1 5 1 0 8 2 1 9
 5 6 8 2 7 2 1 5 1 6 4 5 0 9 4 1 1 7 0 8 9 0 5 4 3 8 8 6 5 3 4 4 4 8 8 7 0
 9 6 3 5 2 3 0 8 3 3 1 3 3 0 0 4 6 0 7 7 6 2 0 4 4 2 3 7 8 9 8 6 8 5 6 2 2
 3 1 7 7 8 0 3 3 2 1 5 5 9 1 3 7 0 0 7 0 4 5 9 3 3 4 3 1 8 9 8 3 6 2 1 6 2
 1 7 5 5 1 9 2 8 9 7 2 1 4 9 3 2 6 2 5 9 6 5 8 2 0 7 8 0 5 8 4 1 8 6 4 3 4
 2 0 4 5 8 3 9 1 8 3 4 5 

In [7]:
print(pred)

[2 8 2 6 6 7 1 9 8 5 2 8 6 6 6 6 1 0 5 8 8 7 8 4 7 5 4 9 2 9 4 7 6 8 9 4 3
 8 0 1 8 6 7 7 1 0 7 6 2 1 9 6 7 9 0 0 5 1 6 3 0 2 3 4 1 9 2 6 9 1 8 3 5 1
 2 8 2 2 9 7 2 3 6 0 5 3 7 5 1 2 9 9 3 1 4 7 4 8 5 9 5 5 2 5 9 0 7 1 4 1 3
 4 8 9 7 8 8 2 1 5 2 5 8 4 1 7 0 6 1 5 5 9 9 5 9 9 5 7 5 6 2 8 6 9 6 1 5 1
 5 9 9 1 5 3 6 1 8 9 8 7 6 7 6 5 6 0 8 8 9 8 6 1 0 4 1 6 3 8 6 7 4 1 6 3 0
 3 3 3 0 7 7 5 7 8 0 7 1 9 6 4 5 0 1 4 6 4 3 3 0 9 5 3 2 1 4 2 1 6 9 9 2 4
 9 3 7 6 2 3 3 1 6 9 3 6 3 2 2 0 7 6 1 1 9 7 2 7 8 5 5 7 5 3 3 7 2 7 5 5 7
 0 9 1 6 5 9 7 4 3 8 0 3 6 4 6 3 2 6 8 8 8 4 6 7 5 2 4 5 3 2 4 6 9 4 5 4 3
 4 6 2 9 0 6 7 2 0 9 6 0 4 2 0 7 8 8 5 4 8 2 8 4 3 7 2 6 9 1 5 1 0 8 2 8 9
 5 6 2 2 7 2 1 5 1 6 4 5 0 9 4 1 1 7 0 8 9 0 5 4 3 8 8 6 5 3 4 4 4 8 8 7 0
 9 6 3 5 2 3 0 8 2 3 1 3 3 0 0 4 6 0 7 7 6 2 0 4 4 2 3 7 1 9 8 6 8 5 6 2 2
 3 1 7 7 8 0 9 3 2 6 5 5 9 1 3 7 0 0 3 0 4 5 9 3 3 4 3 1 8 9 8 3 6 3 1 6 2
 1 7 5 5 1 9 2 8 9 7 2 8 4 9 3 2 6 2 5 9 6 5 8 2 0 7 8 0 6 8 4 1 8 6 4 3 4
 2 0 4 5 8 3 9 1 8 3 4 5 

実際と予測がどうだったのかを確認するには  
混同行列（confusion matrix）を使えば良い。

In [8]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, pred, labels=digits['target_names'])

# 0 に関しては、0と予測したものが45個、それ以外はなし
# 1 に関しては、1と予測したものが47個、6と予測したものが2個、8と予測したものが3個
# ...
# という感じで調べられる

array([[45,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0, 47,  0,  0,  0,  0,  2,  0,  3,  0],
       [ 0,  0, 51,  2,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  1, 52,  0,  0,  0,  0,  0,  1],
       [ 0,  0,  0,  0, 48,  0,  0,  0,  0,  0],
       [ 0,  1,  0,  0,  0, 55,  1,  0,  0,  0],
       [ 0,  1,  0,  0,  0,  0, 59,  0,  0,  0],
       [ 0,  1,  0,  1,  1,  0,  0, 50,  0,  0],
       [ 0,  3,  1,  0,  0,  0,  0,  0, 55,  2],
       [ 0,  0,  0,  1,  0,  1,  0,  0,  2, 53]], dtype=int64)

pandas_ml の ConfustionMatrix を使うと  
よりわかりやすくなる。

In [9]:
from pandas_ml import ConfusionMatrix

ConfusionMatrix(y_test, pred)

Predicted   0   1   2   3   4   5   6   7   8   9  __all__
Actual                                                    
0          45   0   0   0   0   0   0   0   0   0       45
1           0  47   0   0   0   0   2   0   3   0       52
2           0   0  51   2   0   0   0   0   0   0       53
3           0   0   1  52   0   0   0   0   0   1       54
4           0   0   0   0  48   0   0   0   0   0       48
5           0   1   0   0   0  55   1   0   0   0       57
6           0   1   0   0   0   0  59   0   0   0       60
7           0   1   0   1   1   0   0  50   0   0       53
8           0   3   1   0   0   0   0   0  55   2       61
9           0   0   0   1   0   1   0   0   2  53       57
__all__    45  53  53  56  49  56  62  50  60  56      540