# Probability Review

## 確率の概念

- **確率過程（random process）**：毎回異なるアウトカムが何度も繰り返されるプロセス
- **標本空間（sample space）**：確率過程で得られるすべてのアウトカムの集合
    - e.g.) ガソリン価格 $\Omega = \{p: p \ge 0\}$
    - e.g.) 12面サイコロ $\Omega = \{1, 2, \ldots, 12\}$

## 独立（independence）の定義

1. logical independence：二つのイベントが生じたが、互いに影響を与えると考える理由がない
    - 前後即因果の誤謬（post hoc ergo propter hoc）：独立であるにも関わらず、時間の前後関係から二つのイベントは影響しあっていると考えてしまうもの
1. statistical independece

## 統計的独立の二つの定義

1. $P(A|B) = P(A)$ 
    - sample with/without replacement
    - ランダムシャッフルしたトランプから一枚引いたとき、エースである（$A$）である確率は$P(A) = 4/52$
    - 一枚目のカードがエース（$B$）であり、もう一度カードを一枚引いた（w/o replacement）とき、エースである（$A$）確率は$P(A|B) = 3/51$
    - 一枚目のカードがエース（$B$）であり、そのカードを戻してもう一度カードを一枚引いた（w/ replacement）とき、エースである（$A$）確率は$P(A|B) = 4/52$
1. $P(A, B) = P(A)P(B)$
    - テキサスポーカーの例（自分にしか分からない二枚のカードと公開されている三枚のカードで役を競う）
    - 自分にしか分からないカード（pocket cards）が同じ数字（two of a kind）である確率は$4/52 \times 3/51 = 0.0045$

## イベントに関するNotation

あるイベントを$A$とし、他のイベントを$B$とする

- $A$ and $B$: Both A and B occur
- $\sim A$ and $B$: A does not occur, but B occurs
- $A$ and $\sim B$: A occurs, but B does not occur
- $\sim A$ and $\sim B$: Neither A and B occurs

## 樹形図

<img src = "https://mixtape.scunning.com/causal_inference_mixtape_files/figure-html/unnamed-chunk-6-1.png" alt = "Drawing" style = "width: 1000px;"/>

## 樹形図の特徴

あるノードから出発するすべてのブランチについて、

- あるブランチの確率を合計すると1になる
- 同時確率を合計すると出発地点のノードに達する確率と一致する（**the law of total probability**）：$P(A) = \sum_n P(A \cap B_n)$
- 筆記試験に合格したことを条件としたとき、運転試験に不合格となる確率は$P(\text{Fail}|\text{Pass}) = 0.45/0.75 = 0.6$（条件付き確率の概念）


## ベン図（Venn diagram）

<img src = "https://mixtape.scunning.com/causal_inference_mixtape_files/figure-html/unnamed-chunk-7-1.png" alt = "Drawing" style = "width: 1000px;"/>

## 集合の性質

U is the universal set of which A and B are subsets

- $A + \sim A = B + \sim B = U$
- $A = B + \sim B - \sim AandB = A + \sim A - \sim B$
- $A = A \cap B + A \cap \sim B\toA \cap \sim B = A - A \cap B$
- $A \cup B = A \cap \sim B + \sim A \cap B + A \cap B$

## テキサス大学のフットボールチームのコーチの危機(1)

Longhorns（テキサス大学のフットボールチーム）がボールゲームに招待されないと、コーチは解雇される可能性が高い。

- イベントA：Longhornsがボールゲームに招待される（$P(A)=0.6$）
- イベントB：コーチが雇用継続される（$P(B)=0.8$）
- 二つのイベントが同時に生じる確率は$P(A,B)=0.5$

このとき、Longhornがボールゲームに招待され、コーチが雇用継続されないというイベントが同時に生じる確率は$P(A, \sim B) = P(A) - P(A, B) = 0.1$

## テキサス大学のフットボールチームのコーチの危機(2)

確率はある集合を形成する部分集合が集合に占める割合で計算される

- イベントAが生じた世界でイベントBが生じる確率は$A \cap B / A = 0.5 /0.6 = 0.83$
- イベントBが生じた世界でイベントAが生じる確率は$P(A|B)=P(A,B)/P(B)=0.5/0.8=0.63$

## 分割表（Contingency tables）

| Event labels | Coach is not rehired ($∼B$) | Coach is rehired ($B$) | Total |
| :-: | :-: | :-: | :-: |
|($A$) Bowl game | $P(A,∼B)=0.1$ | $P(A,B)=0.5$ | $P(A)=0.6$ |
|($∼A$) no Bowl game | $P(∼A,∼B)=0.1$ | $P(∼A,B)=0.3$ | $P(∼A)=0.4$ |
| Total | $P(∼B)=0.2$ | $P(B)=0.8$ | $P(U)=1$ |

## 条件付き確率の定義

- $P(A|B)=P(A,B)/P(B)$ $\to$ $P(A, B) = P(A|B)P(B)$
- $P(B|A)=P(B,A)/P(A)$ $\to$ $P(B, A) = P(B|A)P(A)$

## Naive version of Bayes' rule

$$ P(A|B) = \frac{P(A)}{P(B)} P(B|A) $$

- これは$P(A|B)P(B)=P(A,B)=P(B,A)=P(B|A)P(A)$で得られる
- このテキストは原因から結果を推定するが、ベイズの法則は結果から原因に関する合理的な信念を作れることも伝えている

## Bayesian decomposition version of Bayes' rule

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|\sim A) P(\sim A)} $$

- これは$P(B) = P(A, B) + P(\sim A, B)、P(\sim A, B) = P(B, \sim A) = P(B|\sim A) P(\sim A)$で得られる
- テキサス大学のコーチが雇用継続されたならば、Longhornがボールゲームに招待される確率は
    - $P(A|B) = (0.83 \cdot 0.6)/(0.83 \cdot 0.6 + 0.75 \cdot 0.4) = 0.624$

## モンティホール・ジレンマ(1)

- 三つのドア（$D_i$, $i = 1, 2, 3$）があり、一つのドアの裏に百万ドルがあり、残りのドアの裏に羊がいる
- ホストは参加者に好きなドアを一つ選んでもらう。そのあと、ホストは羊がいるドアを一つ開き、ドアを選びなおすかどうかを尋ねる。
- 大半の参加者の反応は「ドアを変えない」（なぜなら、各ドアの裏に百万ドルがある確率は等しいはずだから）
    - この反応は正しくない。それはなぜか？

## モンティホール・ジレンマ(2)

- 参加者は最初にドア1を選んだと仮定する
- イベントAi（ドアiの裏に百万ドルがある）の確率は$P(A_i)=1/3$
    - 全確率の法則より, $P(\sim A) = 2/3$
- ホストは羊がいるドア2を開けた（イベント$B_i$）と仮定する

Q：ドア2が開けられたとき、ドア1と3の裏に百万ドルがある確率はそれぞれいくらか？

## モンティホール・ジレンマ(3)

$$ P(A_1|B) = \frac{P(B|A_1) P(A_1)}{P(B|A_1) P(A_1) + P(B|A_2) P(A_2) + P(B|A_3) P(A_3)} $$

- イベントAiの事前確率（**prior probability**, **prioir belief**, **unconditional probability**）はP(Ai)=1/3
- $P(B|A1)=1/2$（ドア2と3の裏に百万ドルはないので、ホストはどちらとも開けられるから）
- $P(B|A2)=0$（ホストは百万ドルがあるドアを絶対に開けないから）
- $P(B|A3)=1$（参加者はすでにドア1を選び、ドア3の裏に百万ドルがあるから）

## モンティホール・ジレンマ(4)

$$ P(A_1 | B) = 1/3, \quad P(A_3|B) = 2/3$$

- A3の事前確率$P(A_3)=1/3$が**updateing**とよばれる過程を通じて、事後確率（**posterior probability**, **posterior belief**）$P(A_3|B)=2/3$に上昇した

Whereas most of this book has to do with estimating effects from known causes, Bayes' rule reminds us that we can form reasonable beliefs about causes from known effects.


## Summation operator (1)

$$ \sum_{i=1}^n x_i = x_1 + x_2 + \ldots + x_n $$

基本的な性質

- $\sum_{i=1}^n c = nc$ for any constant $c$
- $\sum_{i=1}^n cx_i = c \sum_{i=1}^n x_i$ for any constant $c$
- $\sum_{i=1}^n (a x_i + b y_i) = a \sum_{i=1}^n x_i + b \sum_{i=1}^n y_i$ for any constant $a$ and $b$
- $\sum_{i=1}^n x_i/y_i \neq \sum_{i=1}^n x_i / \sum_{i=1}^n y_i$
- $\sum_{i=1}^n x_i^2 \neq (\sum_{i=1}^n x_i)^2$

## Summation operator (2)

$$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $$

基本的な性質

- $\sum_{i=1}^n (x_i - \bar{x}) = 0$
- $\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n x_i^2 - n \bar{x}^2$
- $\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) = \sum_{i=1}^n x_i y_i - n(\bar{x}\bar{y})$


## 期待値

変数Xは確率$f(x_1), f(x_2), \ldots, f(x_k)によって、x_1, x_2, \ldots, x_k$という値を取る
Xの期待値（**expected value**）は $$E(X) = \sum_{j = 1}^k x_j f(x_j)$$

基本的な性質

- $E(c)=c$ for any constant $c$
- $E(aX+b)=aE(X)+b$ for any two constants $a$ and $b$
- $E(\sum_{i=1}^n a_i X_i) = \sum_i a_i E(X_i)$ where $a_1, \ldots, a_n$ are numerous constants, and $X_1, \ldots, X_n$ are random variables
- $E(X−E(X))=0$
- $E(\cdot)$ は母集団に関する概念 (サンプルではなく、関心のあるグループ全体)

## 分散

$X$の分散は$$V(X) = \sigma^2 = E[(X - E(X))^2] = E(X^2) - E(X)^2$$

基本的な性質

- $V(c) = 0$ for any constant $c$
- $V(aX + b) = a^2 V(X)$ for any two constants $a$ and $b$
- $V(X + Y) = V(X) + V(Y) + 2(E(XY) - E(X)E(Y))$
    - If two random variables are independent, then $E(XY) = E(X)E(Y)$ and $V(X+Y) = V(X) + V(Y)$

## 不偏分散

母集団の概念である$V(X)$の不偏推定量は$$\hat{S}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$$

## 自由度：なぜ$(n-1)$で割るのか？

標本平均$\bar{x}$に分散があるから（recall 中心極限定理）

- 平均$\mu$と分散$\sigma^2$のIIDサンプル$x_i$を考える
- 標本分散は$s^2 = n^{-1} \sum_i (x_i - \bar{x})^2 = n^{-1} \sum_i (x_i - \mu)^2 - (\bar{x} - \mu)^2$
- この期待値は$E(s^2) = \sigma^2 - V(\bar{x}) = \sigma^2 (n-1)/n$
- よって、$E(S^2) = E(s^2 \cdot n/(n-1)) = \sigma^2$
- 標本が十分に大きくなると、$E(s^2)$は$\sigma^2$に収束する

## 共分散

二つのランダム変数の共分散は$$ \text{Cov}(X, Y) = E(XY) - E(X)E(Y) $$

- $V(X + Y) = V(X) + V(Y) + 2\text{Cov}(X,Y)$
    - $X$と$Y$が独立ならば, $\text{Cov}(X, Y) = 0$ (sufficiency)
- $\text{Cov}(a_1 + b_1 X, a_2 + b_2 Y) = b_1 b_2 \text{Cov}(X, Y)$



## 相関

$$ \text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sqrt{V(X)V(Y)}} = \text{Cov} \left(\frac{X - E(X)}{\sqrt{X}}, \frac{Y - E(Y)}{\sqrt{Y}} \right)$$
