# 平均・投票
## 分類問題を例に考える

In [2]:
import numpy as np


def mean_predictions(probas):
    """
    予測確率の平均を算出
    
    :param probas: (データ数, モデルごとの予測確率カラム数) の二次元配列
    :return: 予測確率の平均
    """
    return np.mean(probas, axis=1)


probas = [[0.1,0.2,0.3],[0.9,0.8,0.7],[0.5,0.4,0.9]]
mean_predictions(probas)

array([0.2, 0.8, 0.6])

In [6]:
def max_voting(preds):
    """
    最も投票されたクラスを算出
    :param preds: (データ数、モデルごとの予測値（予測クラス）カラム数)の二次元配列
    :return: 最も投票されたクラスを表す行列
    """
    idxs = np.argmax(preds, axis=1)
    print(idxs)
    # 以下２つは同じ. 行ベクトルを(データ数, 1)の行列に変換
    print(idxs[:, None])
    print(idxs[:, np.newaxis])
    return np.take_along_axis(preds, idxs[:, None], axis=1)


preds = np.array([
    [0,0,1],
    [0,1,2],
    [2,2,2]
])
max_voting(preds)

[2 2 0]
[[2]
 [2]
 [0]]
[[2]
 [2]
 [0]]


array([[1],
       [2],
       [2]])

# 予測確率の順位付け
- インプットデータについて詳しく書かれてないため実装できない

In [7]:
# from scipy import stats


# def rank_mean(probas):
#     ranked = []
#     for i in range(probas.shape[1]):
#             rank_data = stats.rankdata(probas[:, i])
#             ranked.append(rank_data)

In [10]:
np.sum([
    [0,1,2],
    [3,4,5]
], axis=1)

array([ 3, 12])

# ディリクレ分布とは（p.280）

- 参考: https://www.slideshare.net/stjunya/ss-29629644
    - 平均、分散がわかると、正規分布の確率密度関数によって確率変数 x のグラフがかけるイメージ。
    - 確率質量関数とは確率変数が離散型のときの P(X=□) のこと。**「値を指定すると【値が得られる確率】が得られる」関数**。

- 多項分布
    - 二項分布とは
        - 確率 $ p $ のベルヌーイ試行（P(A） = p となる）をn回繰り返すとき、**Aの起こる回数を確率変数X**とおく。するとXの確率質量関数は下記となり、このような確率変数Xで表される確率分布を二項分布 Bin(n,p)という。回数nを増やすと、Bin(n,p)は正規分布に近づく。
            - $ P(X=k) = {}_n \mathrm{ C }_k p^k (1-p)^{n-k} $
    - 多項分布とは
        - 例. N回投げたときのサイコロの出る目（5次元）の**出る回数($ n_1回、n_2回、...、n_5回 $)を確率変数**としたときの、下記の確率質量関数で表される分布（$ p_k $ はサイコロの出目がkである確率、 $ n_k $ はサイコロの出目がkである回数）
            - 多項係数×すべての確率の積
            - 多項係数 $ Multi(n|p, N) = \frac{\Gamma(N + 1)}{\prod_{k=1}^{K}\Gamma(n_k + 1)}$
            - すべての確率の積 $ \prod_{k=1}^{K}p_k^{n_k} $
            - ガンマ関数 $ \Gamma(m + 1) = m! $
    - 共役事前分布とは
        - ベイズ更新（連続版）とは
            - $ \pi(\theta|D) \propto f(D|\theta)\pi(\theta) $
            - 上記式は 事後分布が尤度f（モデルθのもとでのDが起こる確率）と事前分布πの積に比例することを意味する。これによりベイズ更新する。（確率密度関数の定積分が1であるように定数を定めるなどする）
        - 共役事前分布とは
            - 与えられた尤度に対して、事前分布と事後分布が同じ分布(族)に属するように定める事前分布。

In [1]:
import numpy as np


np.ones(3)

array([1., 1., 1.])

In [2]:
np.random.dirichlet(np.ones(3))

array([0.61259773, 0.17670475, 0.21069752])