# 測度論的確率論の初歩で使う内容をPythonで

In [22]:
# べき集合を作る関数
def powerset(iterable):
    iterable = list(iterable)
    L = []
    n = len(iterable)
    counter = 2**n
    for i in range(counter):
        element_i = []
        bin_i = bin(i)[2:].zfill(n)
        mapping_index = list(bin_i)
        element_i = [iterable[j] for j in range(len(mapping_index)) if int(mapping_index[j]) == 1]
        L.append(element_i)
    temp = []
    for l in L:
        l = frozenset(l)
        temp.append(l)
    result = frozenset(temp)
    return result


In [23]:
# 適当な集合 Omega と、Omegaのべき集合を作成
Omega = frozenset(["a","b","c","d","e"])
F = powerset(Omega)
F

frozenset({frozenset(),
           frozenset({'b', 'e'}),
           frozenset({'d'}),
           frozenset({'a'}),
           frozenset({'a', 'd', 'e'}),
           frozenset({'c', 'd'}),
           frozenset({'a', 'c'}),
           frozenset({'a', 'c', 'd'}),
           frozenset({'a', 'c', 'd', 'e'}),
           frozenset({'b'}),
           frozenset({'b', 'c', 'e'}),
           frozenset({'a', 'b'}),
           frozenset({'a', 'b', 'c'}),
           frozenset({'b', 'd'}),
           frozenset({'b', 'c'}),
           frozenset({'b', 'c', 'd'}),
           frozenset({'a', 'b', 'c', 'd'}),
           frozenset({'e'}),
           frozenset({'d', 'e'}),
           frozenset({'a', 'b', 'd', 'e'}),
           frozenset({'c'}),
           frozenset({'a', 'e'}),
           frozenset({'a', 'b', 'e'}),
           frozenset({'c', 'e'}),
           frozenset({'a', 'c', 'e'}),
           frozenset({'a', 'b', 'c', 'e'}),
           frozenset({'c', 'd', 'e'}),
           frozenset({'b', 'd', 'e'})

In [24]:
# シグマ加法性をチェックする関数
def check_sigma_additivity(S, F):
    "Sは集合、FはSの部分集合族。Fがシグマ加法性を満たすかどうかをチェックする"
    if S not in F:
        print("NG")
    elif frozenset() not in F:
        print("NG")
    counter = 0
    for f1 in F:
        for f2 in F:
            if f1.union(f2) not in F:
                print("NG")
                break
        else:
            counter += 1
            continue
        break
    if counter == 2**len(S):
        print("OK")

In [25]:
# べき集合はシグマ加法性を満たす
check_sigma_additivity(Omega, powerset(Omega))

OK


In [26]:
# Omega の部分集合A を含む最小のシグマ加法族を作る関数
def mim_sigma(Omega,A):
    if not A.issubset(Omega):
        print("ERROR: {0} is not subset of {1}".format(A, Omega))
    else:
        return frozenset([frozenset([]), Omega, A, Omega.difference(A)])

In [27]:
S = frozenset(["a", "b","c", "d"])
A = frozenset(["a", "c"])
mim_sigma(S, A)


frozenset({frozenset(),
           frozenset({'b', 'd'}),
           frozenset({'a', 'c'}),
           frozenset({'a', 'b', 'c', 'd'})})

In [28]:
# F上の関数が可測空間(S, F)の確率測度になっているかチェックする関数
def check_prob(S, F, P):
    epsilon = 1e-10
    if abs(P(S) - 1) >= epsilon:
        return "NG"
    if abs(P(frozenset())) >= epsilon:
        return "NG"
    counter = 0
    for f1 in F:
        for f2 in F:
            if f1.intersection(f2):
                pass
            else:
                if P(f1.union(f2)) - (P(f1) + P(f2)) <= epsilon:
                    pass
                else:
                    return "NG"
                    break
        else:
            counter += 1
            continue
        break
    if counter == 2**len(S):
        return "OK"


In [29]:
# これまでの内容でコイントスをモデリングする
Omega_coin = frozenset(["表", "裏"])
F_coin = powerset(Omega_coin)
F_coin

frozenset({frozenset(),
           frozenset({'表'}),
           frozenset({'裏'}),
           frozenset({'表', '裏'})})

In [30]:
# コイントスの確率を決める関数を作る
def prob_of_coin_flip(f):
    if f == frozenset(["表"]):
        return 99/100
    elif f == frozenset(["裏"]):
        return 1/100
    result = 0
    for i in f:
        result += prob_of_coin_flip(frozenset([i]))
    return result

In [31]:
check_prob(Omega_coin, F_coin, prob_of_coin_flip)

'OK'

In [32]:
# サイコロ投げの例
Omega_dise = frozenset(["①", "②", "③", "④", "⑤", "⑥"])
F_dise = powerset(Omega_dise)
def prob_of_throwing_dise(f):
    if f == frozenset(["①"]):
        return 1/6
    elif f == frozenset(["②"]):
        return 1/6
    elif f== frozenset(["③"]):
        return 1/6
    elif f == frozenset(["④"]):
        return 1/6
    elif f == frozenset(["⑤"]):
        return 2/9
    elif f == frozenset(["⑥"]):
        return 1/9
    result = 0
    for i in f:
        result += prob_of_throwing_dise(frozenset([i]))
    return result


In [33]:
prob_of_throwing_dise(frozenset())

0

In [34]:
# 確率変数
Omega_dise = frozenset(["①", "②", "③", "④", "⑤", "⑥"])
def X_dise(w):
    if w == "①":
        return 1 
    if w == "②":
        return 2 
    if w == "③":
        return 3 
    if w == "④":
        return 4 
    if w == "⑤":
        return 5 
    if w == "⑥":
        return 6 
X_dise("②")

2

In [35]:
# 確率変数Xに誘導される確率分布
def prob_x(B):
    result = 0
    for i in B:
        
            

SyntaxError: unexpected EOF while parsing (<ipython-input-35-418f3ab47750>, line 6)

はじめに  
動機  
技術的な書籍を読むにあたって、"確率" という概念を自分の中できちんと整理したい思うようになったこと、そしてそれをアウトプットしたいということが動機です。
確率という概念は、昨今流行のデータ分析や機械学習といった分野や、情報科学の基礎知識として多数用いられています。
私の本職はネットワークエンジニアなのですが、流行りものが好きで、よくこの手の入門書に手を出します。  
しかしその中でどうしても気になることが1つあります。
それは、多くの書籍で "確率" という概念が非常に曖昧に用いられていることです。特に、"確率変数"、"確率分布" という言葉の定義がかなり曖昧に済まされている場合が多いと感じています。  
数式を用いた論理展開を主軸にしたような書籍でも、根っ子にあたるはずの確率変数と確率分布という言葉は、かなりモヤっとした感じで定義しているものが多い印象です。  
そして、そういった曖昧な言葉を土台にしてそれ以降の内容が積み上げられているので、いつまでたってもモヤモヤした気持ちを抱えたまま文章を読んでいました。  
この状態を払拭すべく、いつか腰を据えて確率論の基礎を整理する必要があると感じてはいたのですが、これが結構難しく、中々手が進みませんでした。  
最近になって、ようやく基本的なことが頭の中で整理されてきて、自分の言葉で根本からまとめられるようになってきた気がするため、その内容を形に残そうと思うに至りました。  

構成  
この文章は次のような構成で記述するように努めます。  
・必要な概念の定義  
　ここは形式的な言葉で、出来るだけきちんと厳密に書くつもりです。  
・概念が意図する気持ち  
　ここは自分の言葉で、かなりラフに書くつもりです。  
・概念を実装するPythonコード(一部のみ)  
　書けそうな部分はPythonコードで書くことに挑戦します。数式よりもコードを見た方が理解しやすいという人もいるかもしれないという意図です。  
　

想定読者  
・技術書などに出てくる確率という概念にモヤモヤを抱えていて、スッキリさせたい方。(※3)  
・私の理解に間違いがないかを探してくれて、あれば優しく指摘してくれる奇特な優しい方。  
  
注意書き  
・この文章は長いです。  
・測度論、コーディングいずれも素人のため、拙い記述やコードがあると思います  
　ツッコミ頂けると大変うれしいです。  

※3：逆に、あまりモヤモヤを感じずに進めていける人は不要かもしれません(いたずらに混乱をきたす可能性があります)  

確率とは何か？  
確率とは何でしょうか？wikipedia で調べると次のようなことが書いてあります。  
"確率（かくりつ、英: probability）とは、偶然性を持つある現象について、その現象が起こることが期待される度合い、あるいは現れることが期待される割合のことをいう。"  
また、以下のようにも書いています。  
"日本工業規格では確率（かくりつ:probability）は、「ある試行を同じ条件の下で長く続けたとき，一定の結果が生起する相対頻度の極限値。より一般的にはランダムな事象に割り当てられている [0, 1] の範囲の実数値と定義される。一般に事象 A の確率を Pr (A)で表す。」参考として「ある事象が生じるという信念の度合いを表す主観確率という概念も存在する。」と定義している[4]。"  
要するに、中学校で習った場合の数の比(求める場合の数 ÷ 全ての場合の数)のことを言っているようです。どちらもランダム性に言及しているのがポイントです。  
ランダム性を用いた定義は、日常語として利用するには十分ですが、数学的な議論をするには扱いが難しいです。  
ランダムという概念は厳密に定義することが難しく、どうしてもモヤっとした定義にならざるを得ません。  
日常語としての確率と、数学用語としての確率とは分けて考えた方が良さそうです。  
数学用語としての確率とは何か？ということは、後程気持ちも交えて書こうと思います。  
後で書きますが、うまくランダムという概念を切り離して定式化しています。

そのための準備として、まず可測空間というものを定義します。

定義①  
$Ω$ を集合とする。$Ω$ の部分集合族 $\mathscr{A}$ が次の性質を満たすとき、$\mathscr{A}$ をシグマ加法族(※)と呼び、組 $(Ω, \mathscr{A})$ を可測空間と呼ぶ  
① $Φ ∈ \mathscr{A}$  
② $Ω ∈ \mathscr{A}$  
③ $\mathscr{A}$ の加算個の要素 $A_{1}, A_{2}, A_{3}, … $ に対して、合併 $\bigcup_{i=1}^{\infty}A_{i}$ もまた $\mathscr{A}$ の要素である。  

気持ち(※)  
いきなり "$Ω$ を集合とする" などと突き飛ばすような書き方ですが、難しく考える必要はなく、実用上は$Ω$は全ての事象のもとになる集合を表すと考えてください。  
例えばコイン投げについて考えるときには、$Ω$ は {"表が出る", "裏が出る"}といった、各事象のもととなる要素を集めた集合です。  
サイコロ投げだったら {"1が出る", "2が出る", ... ,"6が出る"} といった具合です。そして、事象そのものは $Ω$ の部分集合で表現します。  
例えば、サイコロ投げで1の目がでるという事象は {"1が出る"} というシングルトン(※)を使って表し、偶数の目が出るという事象は {"2の目が出る", "4の目が出る", "6の目が出る"} という集合で表します。  
これらの事象を集めた集合を $\mathscr{A}$ と書くことにしています(※)。  
後で確率について考えるときは、"サイコロを投げて偶数の目が出る" 確率というのは、"$\mathscr{A}$ の要素 {"2の目が出る", "4の目が出る", "6の目が出る"} の確率" について考えること、と思えばよいのです。  
性質①～③は、$\mathscr{A}$を事象の集合として考えるにあたって満たすべき最低限のルールを表しています。  
シグマ加法族は①～③を満たせばどのような集合族でも良いのですが、実際には暗黙のうちに$Ω$の冪集合を使っていると思われる場合が多いと思います。

※：この段階ではまだ確率測度が出てきていないのですが、ここでは確率論をベースとして気持ちを書きます  
※：$\mathscr{A}$の呼び方は書籍によって様々で、他にも完全加法族やシグマ代数などという表記も見かけます  
※：要素が1つだけの集合をシングルトンと呼びます  
※：記号は別に何でも良く、書籍によっては$Ω$の代わりに$S$、シグマ加法族に$\mathscr{F}$を使う例もよく見られます

定義②  
$(Ω, \mathscr{A})$ を可測空間とする。$\mathscr{A}$上の関数 $P:\mathscr{A} \to \mathbb{R}$ が次の性質を満たすとき、$P$を確率測度と呼ぶ。  
また、事象 $A∈\mathscr{A}$ に対し、$P(A)$の値を、事象$A$が起こる確率と呼ぶ  
① $P(Ω) = 1$  
② $P(Φ) = 0$  
③ どの2つも共通部分を持たないような $\mathscr{A}$ の加算個の要素 $A_{1}, A_{2}, A_{3}, … $ に対して、$P( \bigcup_{i=1}^{\infty} A_{i}) = \sum_{i=1}^{\infty} P(A_{i})$  
  
気持ち  
事象に対する確率のあたいを

確率分布の正体は、可測空間(R, B(R))上の確率測度です。  
元の可測空間(S, F)上の確立Pを、確率変数Xを用いて（R, B(R))に"橋渡しした"というイメージで捉えることができると思います。  
確率変数を用いることで、元の確率空間(S, F, P)がどのような(扱いにくい)空間だったとしても、扱いやすい確率変数(例えば(R, B(R))値確率変数)を用いることで、性質がよく調べられた扱いやすい確率空間に引きずり出して議論することができます。   
とくに、ボレロ集合族B(R^d)は様々な性質が既に調べれていて扱いやすいので、実用上は(R^d, B(R^d)))値確率変数がよく利用されます。  
  
よく確率分布は、事象が取り得る確率の値の一覧であるというように書かれていることがあります。  
これが全くの間違いというわけではないと思うので、これでスッキリ腹落ちするという場合は問題ないと思います。  
しかし私の場合は、漠然と言いたいことはわかるけどずっとモヤモヤしてました。  
B(R)上の確率測度なので、転じて一覧

In [None]:
check_prob(Omega_dise, F_dise, prob_of_throwing_dise)

数学でいう"確率"という言葉は、日常語におけるそれとは意味が異なる場合が少なくないと思います。  
数学でいう、"確率"とは、あくまで可測空間上で定められた(確率測度の条件を満たす)関数のことであり、その関数に事象Aを入力したときの出力の値を「事象Aが起こる確率」と呼んでいるにすぎません。  
そして個々の出力値が具体的にどうあるべきか？といったことは数学の世界の外の話になります。  
"コインを投げて表が出る確率"は具体的にどうあるべきか？という議論は、数学の枠内では扱いません(測度論の文脈では扱うことができない)(と思う)。  
  
ではどうするかというと、それは人間が決めるのです。過去の経験や、取得したデータから類推して決めるのです。  
え？という思う人もいるかもしれませんが、そうなのです。  
上の例でいうと、"コインを投げて表が出る確率"というのは数学が決めることではなく、人間が決めることなのです。  
同様に、"サイコロを投げて1の目が出る確率"というは、人間が決めることなのです。  
"今日日本で生まれた赤ん坊の身長が、将来180cmを超える確率"は、人間が決めるなのことです。  
もう少しちゃんと言うと "いま考えている確率変数が従う確率分布は何なのか？"という問題は、数学によって決めることではなく、過去の経験を参考にしたり、データを集めてその振舞いを調査したりした上で、適切と信じられるもの考えて、人間が決めるのです。  
  
「いやそんなことはない、コイン投げで表が出る確率は1/2だと学校で習ったじゃないか！」という意見があるかもしれません。  
しかしあれは実は、「各事象の出方は一様分布に従う」という前提が勝手に設定された世界なのです。  
教科書のどこかに「ただし、各事象の出方は同様に確からしいとする…」という文言が書いてあったのを覚えていませんか？  
あれは、とりあえず裏表が出る確率はそれぞれ等しく1/2ということにしますよ！ということを宣言していたのです。  
  
しかし、そういった前提をひとたび了解すれば、そこから先は数学を利用して様々な有用なことを知ることができるのです。  
例えば、"サイコロの各出目の確率は1/6だ"と決めてしまえば、"偶数の目が出る確率"や"4以上の目が出る確率"などは、経験や勘などではなく、数学の力で知ることができます。  
"コインの裏表の確率"を決めてしまえば、"10回連続で表が出る確率"なんかを知ることができます。  
"日本の成人男性の身長は、平均170cm、分散33の正規分布に従う"と決めてしまえば、自分の子供が将来高身長になる確率を知ることができるでしょう。  
同様に、市場や貨幣価値のトレンドがある特定の分布に従っているのだと決めてしまえば、数学の力でトレンドの波を完璧に予測でき、商品の売り上げアップや一攫千金を狙うことがきっとできるでしょう。最初に前提として決めたことが正しければ、ですが。

確率論においてボレル集合族が登場してくる気持ちとしては、実用上の理由が大きいのだと思います。  
私の想像ですが、確率測度のインプットとして "区間"という取り扱いやすいものを使いたいということが主な動機かなと思いました。  
多くの場合、集合 $Ω$ のシグマ加法族 $\mathscr{A}$ はの要素は、関数のインプットとしては扱いにくいです。
コイン投げなら $Ω$ の要素は"表"とか"裏"といったものだし、"日本人全体の集合"だったりします。これらをインプットとし、かつ系統的で扱いやすい関数を考えるのはなかなか難しい。  
一方で、区間を入力とした場合は、確率測度の表現に積分を組み込むことで容易にそれが実現できます。  
区間を要素とするような集合で、かつ確率論の文脈にあった都合の良い集合としてボレル集合族はうってつけなのだと思います。