## 超幾何分布

2種類$A, B$からなる$N$個のものがあり、それぞれ$M, N - M$個ある。この集団から勝手に$n$個取り出したときに、$A$が$x$個、$B$が$n - x$個であるとする。
$x$の最小値は
- $0\, (n \leq N -M)$
- $n - (N - M)\, (n > N - M)$

$x$の最大値はm
- $n\, (n < M)$
- $M\, (n \geq M)$

である。この時の確率は、組み合わせの計算により
$$
\begin{align*}
    f(x)
    &= \frac{
        {}_M C_x \cdot {}_{N - M} C_{n - x}
    }{
        {}_N C_n
    } \\[8pt]
    x
    &= {\rm Max}(0, n - (N - M))), \ldots\ldots, {\rm Min}(n, M)
\end{align*}
$$

---

対数にすることで計算を頑張る。コンビネーションは${}_n C_k$とすると
$$
\begin{align*}
    {}_n C_k
    &= \frac{n!}{k! (n - k)!} \\[8pt]
    &= \prod_{i = 1}^k \frac{n - i + 1}{i}
\end{align*}
$$
なので、$\ln$をとると
$$
\begin{align*}
    \ln {}_n C_k
    &= \ln \left(
        \prod_{i = 1}^k \frac{n - i + 1}{i}
       \right) \\
    &= \sum_{i = 1}^k \left [
        \ln (n - i + 1)
        - \ln i
       \right]
\end{align*}
$$


In [None]:
%use dataframe
%use lets-plot

In [28]:
import kotlin.math.ln
import kotlin.math.exp
import kotlin.math.min

/**
 * 二項係数の自然対数 ln(nCk)
 * Intの拡張関数とする
 */
fun Int.logCombination(k: Int): Double {
    if (k < 0 || k > this) return Double.NEGATIVE_INFINITY
    val kk = min(k, this - k) // 対称性を利用する
    return (1..k).sumOf { i ->
        ln((this - i + 1).toDouble()) - ln(i.toDouble())
    }
}

/**
 * 超幾何分布
 * N: ある湖の全ての魚（母集団）
 * M: 尻尾に赤い色の標識をつけて放流した魚（母集団の中の当たり）
 * n: 獲った魚の数（試行回数）
 * x: 標識がついた魚の数（当たりの数）
 */
fun hypergeometricProbability(
    N: Int, M: Int, n: Int, x: Int
): Double {
    // 定義域外で確率0
    if (x < 0 || x > n || x > M || n - x > N - M) {
        return 0.0
    }
    val logProb = M.logCombination(x) +
            (N - M).logCombination(n - x) -
            N.logCombination(n)

    return exp(logProb)
}

// 超幾何分布
// 母集団1000, 当たり200, 5回引いて, 1回当たる確率
val prob1 = hypergeometricProbability(1000, 200, 5, 1)
println("P(X=1) = $prob1")

val prob0 = hypergeometricProbability(1000, 200, 5, 0)
println("P(X=0) = $prob0")

// 全確率の和がほぼ1になる
var sumP = 0.0
for(i in 0..5) {
    sumP += hypergeometricProbability(1000, 200, 5, i)
}
println("Sum of probabilities = $sumP")


P(X=1) = 0.41062695331123905
P(X=0) = 0.3268590548357458
Sum of probabilities = 0.9999999999999992


In [27]:
val totalFishNumber = 1000 // 魚の数
val totalMarkerdFishNumber = 500 // totalFishNumberの中から色をつけて再び放流した魚の数
val captureedFishNumber = 100 // 捕まえた魚の数
val tries = (0..captureedFishNumber).toList()
val probabilityDistribution = tries.map { hypergeometricProbability(totalFishNumber, totalMarkerdFishNumber, captureedFishNumber, it) }

val data = mapOf(
    "tries" to tries,
    "p" to probabilityDistribution
)

// グラフを描画
letsPlot(data) +
        geomLine(color = "blue") { x = "tries"; y = "p" } +
        geomPoint(size = 2.0, color = "red") { x = "tries"; y = "p" } +
        ggtitle("Hypergeometric distribution") +
        xlab("The number of markered fish") +
        ylab("Probability p_r")
