# Hipergeométrica vs Multinomial

Diferencia núcleo: **reposiciones** y **parámetros**.

* **Hipergeométrica**: muestreo **sin reemplazo** desde población finita. Parametrización por conteos $(N,K,n)$ o, con múltiples clases, $(N;K_1,\dots,K_m;n)$.
* **Multinomial**: $n$ ensayos i.i.d. con probabilidades fijas $\mathbf p=(p_1,\dots,p_m)$. Equivalente a **con reemplazo** o población “infinita”.

**PMF**

* Hipergeométrica univariante $X\sim\mathrm{Hiper}(N,K,n)$:

$$
\Pr[X=k]=\frac{\binom{K}{k}\binom{N-K}{\,n-k\,}}{\binom{N}{n}}.
$$

* Hipergeométrica multivariante $\mathbf X\sim\mathrm{MH}(N;K_1,\dots,K_m;n)$, $\sum K_i=N$, $\sum x_i=n$:

$$
\Pr[\mathbf X=\mathbf x]=\frac{\prod_{i=1}^m \binom{K_i}{x_i}}{\binom{N}{n}}.
$$

* Multinomial $\mathbf X\sim\mathrm{Mult}(n;\mathbf p)$, $\sum x_i=n$:

$$
\Pr[\mathbf X=\mathbf x]=\frac{n!}{\prod_i x_i!}\prod_{i=1}^m p_i^{x_i}.
$$

**Momentos comparados**

* Multinomial: $\mathbb E[X_i]=np_i$, $\mathrm{Var}(X_i)=np_i(1-p_i)$, $\mathrm{Cov}(X_i,X_j)=-np_ip_j$.
* Hipergeométrica multivariante:

$$
\mathbb E[X_i]=n\frac{K_i}{N},\quad
\mathrm{Var}(X_i)=n\frac{K_i}{N}\Big(1-\frac{K_i}{N}\Big)\frac{N-n}{N-1},
$$

$$
\mathrm{Cov}(X_i,X_j)=-n\frac{K_i}{N}\frac{K_j}{N}\frac{N-n}{N-1}\ (i\neq j).
$$

La **corrección por población finita** $\frac{N-n}{N-1}$ distingue a la hipergeométrica.

**Cuándo usar**

* Usa **hipergeométrica** si extraes sin reemplazo y la fracción $n/N$ no es pequeña.
* Usa **multinomial** si hay reemplazo o ensayos i.i.d. con $p_i$ constantes. Si $n/N\le 0.1$, la multinomial aproxima bien a la hipergeométrica con $p_i=K_i/N$.

**Ejemplos**

* Hipergeométrica (multi-clase): baraja $N=52$, $(K_{\heartsuit},K_{\spadesuit},K_{\diamondsuit},K_{\clubsuit})=(13,13,13,13)$, mano $n=5$.
* Hipergeométrica (calidad): lote finito $N=1000$, defectos por tipo $(K_A,K_B,K_C)$, muestreo $n=80$ sin reposición.
* Multinomial (web): $n$ sesiones i.i.d. con outcomes $\{\text{compra},\text{carrito},\text{rebote}\}$, $\mathbf p$ fija.
* Multinomial (genérica): $n$ tiros a portería con distribución fija de resultados $\{\text{gol},\text{poste},\text{atajada}\}$.

**Límite**
Si $N\to\infty$ con proporciones $K_i/N\to p_i$ y $n/N\to 0$, entonces

$$
\mathrm{MH}(N;K_1,\dots,K_m;n)\ \Rightarrow\ \mathrm{Mult}(n;\mathbf p).
$$


La **multinomial** generaliza a la **binomial**.

**Modelo**

* **Binomial** $X\sim\mathrm{Bin}(n,p)$: 2 categorías $\{\text{éxito},\text{fallo}\}$. $n$ ensayos i.i.d., prob. de éxito $p$.

$$
\Pr[X=k]=\binom{n}{k}p^k(1-p)^{n-k}.
$$

* **Multinomial** $\mathbf X=(X_1,\dots,X_m)\sim\mathrm{Mult}\big(n;\mathbf p\big)$, $\mathbf p=(p_1,\dots,p_m)$, $\sum p_i=1$: $m$ categorías.

$$
\Pr[\mathbf X=\mathbf x]=\frac{n!}{\prod_i x_i!}\prod_{i=1}^m p_i^{x_i},\quad \sum_i x_i=n.
$$

**Relación**

* Binomial $=$ multinomial con $m=2$ y $p_1=p,\ p_2=1-p$.
* En multinomial, cualquier **marginal** $X_i\sim\mathrm{Bin}(n,p_i)$.
* Cualquier **agregación** de clases $A\subset\{1,\dots,m\}$ produce $X_A=\sum_{i\in A}X_i\sim\mathrm{Bin}(n,\sum_{i\in A}p_i)$.

**Momentos**

* Binomial: $\mathbb E[X]=np,\ \mathrm{Var}[X]=np(1-p)$.
* Multinomial: $\mathbb E[X_i]=np_i$, $\mathrm{Var}[X_i]=np_i(1-p_i)$, $\mathrm{Cov}(X_i,X_j)=-np_ip_j$ para $i\ne j$.

**Cuándo usar**

* **Binomial**: solo interesa “éxito vs no-éxito”.
  Ej.: aciertos en $n$ tiros con prob. fija $p$; “sale 6” en un dado vs “no 6”.
* **Multinomial**: interesa el **reparto** entre $m>2$ resultados.
  Ej.: conteos por cara en $n$ lanzamientos de dado $(m=6)$; clics repartidos en $m$ botones con tasas $\mathbf p$.

**Regla mental**

* Si tu variable de salida tiene 2 estados, binomial. Si tiene $m>2$ estados simultáneamente contados, multinomial.
