El 1% de una población tiene planeado votar un cierto candidato A. Se realiza una encuesta tomando n = 500
habitantes al azar. ¿Cuál es la probabilidad de que el resultado de intención de voto para A sea mayor o igual que el 2%? Dicho de otra manera, ¿cuál es la probabilidad de que la encuesta se equivoque por más del 100%?
- (a) Si el número de habitantes de la población es muchísimo mayor que n. [Rta: 0.0311]
- (b) Si hay N = 5000 habitantes en la población. [Rta: 0.0239]
- (c) ¿Cuántos habitantes N debería haber en la población para que los resultados entre (a) y (b) tuvieran una
diferencia relativa menor al 0.1%? [Rta: N≃ 1.15 × 106]

#### Solución

**a)**

Tenemos una bolsa llena de $N$ habitantes de dos tipos distintos: los que votan a $A$, y los que no $\bar{A}$. Sacamos $n$ de esos $N$ habitantes para hacer una encuesta. Nos dicen que el número de habitantes $N$ es muchísimo mayor que $n$, eso quiere decir que no nos debemos preocupar por que cambie la probabilidad de sacar a un habitante que vota a $A$ dado que ya sacamos a un habitante que vota a $A$. Para que se entienda mejor doy un ejemplo:

Supongamos que hay en total $N=3$ habitantes, uno quiere votar a $A$ y el resto no. Queremos hacer una encuesta con $n=2$ personas (muy lejos del límite que nos pide el ejercicio). Ahora supongamos que tenemos que elegir a los habitantes al azar para la encuesta. Hay $1/3$ de probabilidades de que el primer habitante que elegimos vote a $A$. Supongamos entonces que elegimos justo a ese. Ahora la probabilidad de que el segundo habitante vote a $A$ es 0! la probabilidad cambió rotundamente porque $n \approx N$.

Ahora en el caso contrario, supongamos $N=10^{100}$ y $n=10$. Supongamos que $10^{10}$ de los $N$ quieren votar a $A$ y el resto no. La probabilidad que el primer habitante que elegimos sea votante de $A$ es $\frac{10^{10}}{10^{100}}$, y la probabilidad de que el segundo que elegimos también lo sea es $\frac{10^{10} - 1}{10^{100}}$, pero estas probabilidades son prácticamente iguales.

En conclusión: **cuando $N \gt \gt n$, la probabilidad de sacar a un votante determinado es independiente de haber sacado o no un votante determinado anteriormente.**

Habiendo dicho esto, sabemos que tenemos un proceso en el cual el resultado es binario ($A$ o $\bar{A}$), y además cada suceso es independiente del anterior. Es decir, tenemos una binomial:

$$B(k \mid n, p) = {n \choose k} p^k (1-p)^{n-k},$$

donde definimos $p=0.01$ la probabilidad de votar a $A$, $n=500$ la cantidad de encuestados, y $k$ la cantidad de encuestados que votan a $A$. Queremos saber la probabilidad de que el $2\%$ o más de los encuestados voten a $A$, eso es la probabilidad de que, de los 500 encuestados, 10 ($0.02 \times 500$) o más voten a $A$, es decir

$$P(\geq 2\%) = \sum_{k=10}^{k=500} B(k \mid 500, 0.01),$$

que lo podemos calcular con python:

In [None]:
from scipy.stats import binom, hypergeom, poisson

In [None]:
N = 5000
n = 500
p = 0.01
m = int(N * p)
porcentaje_encuesta = 0.02
max_encuesta = int(porcentaje_encuesta * n)
rv = binom(n, p)
p_binom = 1 - rv.cdf(max_encuesta - 1)
print(p_binom) # Esto calcula la suma que escribí arriba

0.031102106648487893


**b)**

Ahora nos dan un $N$ explícito, entonces deja de valer que es independiente sacar a uno que vote a $A$ que uno que no lo vote. Entonces tenemos el típico problema de la hipergeométrica: tenemos un total de $N$ sujetos, $m$ de un tipo y $N-m$ del otro tipo, y queremos saber cuál es la probabilidad de sacar $k$ de uno de los tipos, dado que sacamos un grupo aleatorio de $n$ de los $N$ sujeros.

Para calcular eso contamos casos favorables sobre casos totales. La cantidad de grupos posibles que podemos hacer es ${ N \choose n }$. Sabemos que el $1\%$ de los $N$ votan a $A$, es decir $m=0.01 \times N = 50$, entonces la hipergeométrica queda

$$H(k \mid N, n, m) = \frac{ {m \choose k} {N - m \choose n - k} }{ {N \choose n} },$$

pero nosotros queremos saber la probabilidad de sacar 10 o más, es decir

$$P( \geq 2\%) = \sum_{k=10}^{k=N} H(k \mid 5000, 500, 50).$$

Lo calculamos con python:

In [None]:
rv = hypergeom(M=N, N=n, n=m)
p_hypergeom = 1 - rv.cdf(9)
print(p_hypergeom)

0.023915898992530216


**c)**


In [None]:
while abs(p_binom - p_hypergeom)/p_binom > 0.001:
    N += 1000
    m = N * 0.01
    p_hypergeom = 1 - hypergeom.cdf(k=9, M=N, N=n, n=m)
print(N)

1152000
