<a href="https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/logistic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ロジスティック回帰モデル

## 分類問題(クラス分類)


ある入力(数値)からクラスに分類する問題


### 分類で扱うデータ


- 入力(各要素を説明変数または特徴量と呼ぶ)
  - m次元のベクトル(m=1の場合はスカラ)
- 出力(目的変数)
  - 0 or 1の値
- タイタニックデータ、IRISデータなど

説明変数
$$
x=(x_1,x_2,\dots,x+m)^{T} \in \mathbb{R}^{m}
$$
目的変数
$$
y \in \{0,1\}
$$

## ロジスティック線形回帰モデル

分類問題を解くための教師あり機械学習モデル(教師データから学習)
- 入力とm次元パラメータの線形結合をシグモイド関数に入力
- 出力はy=1になる確率の値になる

パラメータ
$$
w=(w_1,w_2,\dots,w_m)^{T} \in \mathbb{R}^{m}
$$
線形結合
$$
\hat{y}=w^{T}x + w_0 =\sum_{j=1}^{m}w_{j}x_{j} + w_0
$$

### シグモイド関数

- 入力は実数・出力は必ず0~1の値
- 単調増加関数

#### パラメータが変わるとシグモイド関数の形が変わる

- aを増加させると，x=0付近での曲線の勾配が増加
- aを極めて大きくすると，単位ステップ関数(x<0でf(x)=0，x>0でf(x)=1となるような関数)に近づきます
- バイアス変化は段差の位置a=0.2a=0.5a=1a= 10ロジスティック回帰モデル

$$
\sigma = \frac{1}{1+\exp(-ax)} 
$$


#### シグモイド関数の性質

- シグモイド関数の微分は、シグモイド関数自身で表現することが可能
- 尤度関数の微分を行う際にこの事実を利用すると計算が容易

$$
\frac{\partial\sigma(x)}{\partial x} = \frac{\partial}{\partial\sigma} (\frac{1}{1+\exp(-ax)}) \\
% 連鎖律
= (-1)\cdot \{1+\exp(-ax)\}^{-2} \cdot \exp(-ax) \cdot(-a)\\
= \{\frac{a \exp(-ax)}{\{1+\exp(-ax)\}^2}\} = \frac{a}{1+\exp(-ax)} \cdot \frac{1+\exp(-ax) -1}{1+\exp(-ax)} \\
= a\sigma(x)(1-\sigma(x))
$$

##### シグモイド関数の出力をY=1になる確率に対応させる

- データの線形結合を計算
- シグモイド関数に入力▶出力が確率に対応
- [表記] i番目データを与えた時のシグモイド関数の出力をi番目のデータがY=1になる確率とする

求めたい値
$$
P(Y=1|x) = \sigma(w_0 + w_1 x_1 + \dots + w_m x_m)
$$
- $P(Y=1|x)$: 説明変数の実現値が与えられた際にY=1になる確率
- $w_0 + w_1 x_1 + \dots + w_m x_m$: データのパラメーターに対する線形結合

表記
$$
p_i = \sigma(w_0 + w_1 x_{i1} + \dots + w_m x_{im})
$$

## 最尤推定

世の中には様々な確率分布が存在する
- 正規分布、t分布、ガンマ分布、一様分布、ディリクレ分布・・・
- ロジスティック回帰モデルではベルヌーイ分布を利用する



### ベルヌーイ分布

- 数学において、確率pで1、確率1 − p で0をとる、離散確率分布(例：コインを投げ)
- 「生成されるデータ」は分布のパラメータによって異なる(この場合は確率p)

ベルヌーイ分布に従う確率変数Y
$$
Y〜Be(p) \\
P(y) = p^y (1-p)^{1-y}
$$
Y=0, Y=1になる確率をまとめて表現

### 同時確率

- あるデータが得られた時、それが同時に得られる確率
- 確率変数は独立であることを仮定すると、それぞれの確率の掛け算となる

### 尤度関数

- データは固定し、パラメータを変化させる
- 尤度関数を最大化するようなパラメータを選ぶ推定方法を最尤推定という

1回の試行でy=y_1になる確率
$$
P(y)=p^{y}(1 - p)^{1-y}
$$
n回の試行でy_1~y_nが同時に起こる確率(p固定)

また
y1~y_nのデータが得られた際の尤度関数
$$
P(y_i,y_2,\dots,y_n ;p) = \prod_{i=1}^{n}p^{y_i}(1-p)^{1-y_i}
$$
- n回の試行でy_1~y_nが同時に起こる確率(p固定)
  - 既知: $p$
- y1~y_nのデータが得られた際の尤度関数
  - 既知: $y_i,y_2,\dots,y_n$
  - 未知: $p$

### ロジスティック回帰モデルの最尤推定

- 確率pはシグモイド関数となるため、推定するパラメータは重みパラメータとなる
- $(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$を生成するに至った尤もらしいパラメータを探す

$$
P(Y=y_1|x_1) = p_{1}^{y_1}(1-p_1)^{1-y_1} = \sigma(w^T x_1)^{y_1}(1- \sigma(w^T x _1))^{1-y_1} \\
P(Y=y_2|x_2) = p_{2}^{y_2}(1-p_2)^{1-y_2} = \sigma(w^T x_2)^{y_2}(1- \sigma(w^T x _2))^{1-y_2} \\
\dots \\
P(Y=y_n|x_n) = p_{n}^{y_n}(1-p_n)^{1-y_n} = \sigma(w^T x_n)^{y_n}(1- \sigma(w^T x _n))^{1-y_n}
$$
未知: $w^T$

y_1~y_nのデータが得られた際の尤度関数
$$
% 確率変数が独立を仮定▶確率の積に分解可能
P(y_1,y_2,\dots,y_n|w_0,w_1,\dots,w_m) = \prod_{i=1}^{n}p_i^{y_i}(1-p_i)^{1-y_i} \\
= \prod_{i=1}^{n}\sigma(w^Tx_i)^{y_i}(1-\sigma(w^Tx_i))^{1-y_i} \\
% 尤度関数はパラメータのみに依存する関数
= L(w)
$$
尤度関数Eを最大とするパラメータを探索

##### 尤度関数を最大とするパラメータを探す(推定)

- 対数をとると微分の計算が簡単
  - 同時確率の積が和に変換可能
  - 指数が積の演算に変換可能
- 対数尤度関数が最大になる点と尤度関数が最大になる点は同じ
  - 対数関数は単調増加(ある尤度の値がx1 < x2の時、必ずlog(x1) < log(x2)となる)
- 「尤度関数にマイナスをかけたものを最小化」し、「最小2乗法の最小化」と合わせる

$$
E(w_0,w_1,\dots,w_m)=-\log L(w_0,w_1,\dots,w_m) \\
= -\sum_{i=1}^{n}\{y_i\log p_i+(1-y_i)\log(1-p_i)\}
$$

### 勾配降下法(Gradient descent)

- 反復学習によりパラメータを逐次的に更新するアプローチの一つ
- $\eta$は学習率と呼ばれるハイパーパラメータでモデルのパラメータの収束しやすさを調整

なぜ必要か？
- [線形回帰モデル(最小2乗法)]  ▶MSEのパラメータに関する微分が0になる値を解析に求めることが可能
- [ロジスティック回帰モデル(最尤法)] ▶対数尤度関数をパラメータで微分して0になる値を求める必要があるのだが、解析的にこの値を求めることは困難である。

$$
w(k+1)=w^{k}-\eta \frac{\partial E(w)}{\partial w}
$$

対数尤度関数を係数とバイアスに関して微分
$$
% 連鎖律
\frac{\partial E(w)}{\partial w}  = \sum_{i=1}^{n}\frac{\partial E_i(w)}{\partial p_i} \frac{\partial p_i}{\partial w} \\
% 対数尤度関数のpに関する微分
= \sum_{i=1}^{n}(\frac{y_i}{p_i}-\frac{1-y_i}{1-p_i})\frac{\partial p_i}{\partial w} \\
% シグモイド関数の微分
= \sum_{i=1}^{n}(\frac{y_i}{p_i}-\frac{1-y_i}{1-p_i})p_i(1-p_i)x_i
% 式を整理
= -\sum_{i=1}^{n}(y_i(1-p_i) - p_i(1-y_i))x_i \\
= -\sum_{i=1}^{n}(y_i - p_i)x_i
$$

パラメータが更新されなくなった場合、それは勾配が0になったということ。
少なくとも反復学習で探索した範囲では最適な解がもとめられたことになる。
$$
w^(k+1)=w^k + \eta \sum_{i=1}^{n}(y_i-p_i)x_i
$$

勾配降下法では、パラメータを更新するのにN個全てのデータに対する和を求める必要がある。
- nが巨大になった時にデータをオンメモリに載せる容量が足りない、計算時間が莫大になるなどの問題がある
- 確率的勾配降下法を利用して解決

### 確率的勾配降下法(SGD)

- データを一つずつランダムに(「確率的」に)選んでパラメータを更新
- 勾配降下法でパラメータを1回更新するのと同じ計算量でパラメータをn回更新できるので効率よく最適な解を探索可能

$$
w(k+1)=w^{k}+\eta(y_i-p_i)x_i
$$

## 分類の評価方法

||結果(Positive)|結果(Positive)|
|:---|:---:|:---:|
|予測(Positive)|<font color="blue">真陽性(True Positive)<br>~正しくpositiveと判別した個数</font>|<font color="red">偽陰性(False Positive)<br>~間違えてpositiveと判別した個数</font>|
|予測(Positive)|<font color="red">偽陽性(False Negative)<br>~間違えてNegativeと判別した個数</font>|<font color="blue">真陰性(True Negative)<br>~正しくNegativeと判別した個数</font>|

- 正解した数/ 予測対象となった全データ数
- どのような問題があるか？
  - 分類したいクラスにはそれぞれ偏りがあることが多い
  - この場合、単純な正解率はあまり意味をなさないことがほとんど

$$
Accuracy = \frac{TP+TN}{TP+FN+FP+TN}
$$

- False Positive
  - 正常 -> 異常と判定
  - 確認の工数がかかかる。
- False Negative
  - 異常 -> 正常と判定
  - 本当に検知したい脅威が見えなくなる


### 再現率(Recall)

- 「本当にPositiveなもの」の中からPositiveと予測できる割合(NegativeなものをPositiveとしてしまう事象については考えていない)
- 「誤り(False Positive)が多少多くても抜け漏れは少ない」予測をしたい際に利用
$$
Recall = \frac{TP}{TP+FN}
$$

### 適合率(Precision)

- モデルが「Positiveと予測」したものの中で本当にPositiveである割合(本当にPositiveなものをNegativeとしてしまう子については考えていない)
- 見逃し(False Negative)が多くてもより正確な」予測をしたい際に利用
$$
Precision = \frac{TP}{TP+FP}
$$

### F値(F-measure)

- 理想的にはどちらも高いモデルがいいモデルだが、両者はトレードオフの関係にあり、どちらかを小さくすると、もう片方の値が大きくなってしまう。
- PrecisionとRecallの調和平均
  - RecallとPrecisionのバランスを示している。高ければ高いほどRecallとPrecisionがともに高くなる
$$
\frac{2Recall\cdot Precision}{Recall+Precision}
$$

## 演習

https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/exercises/np_logistic_regression.ipynb