# Módulo: Distribuciones de Probabilidad
## Distribución de probabilidad discreta binomial
## Distribución de probabilidad discreta hipergeométrica
## Distribución de probabilidad discreta de Poisson

# Objetivos de la clase
Conocer, comprender y realizar cálculos con algunas distribuciones de probabilidad discreta específicas:
- Distribución binomial
- Distribución hipergeométrica
- Distribución de Poisson


# Distribución de probabilidad discreta binomial

## Proceso de Bernoulli

Consiste en un experimento estadístico con resultados binarios con las siguientes características:
- Consta de ensayos repetidos
- Cada ensayo produce un resultado que se puede clasificar como éxito o fracaso
- La probabilidad de un éxito permanece constante de un experimento a otro
- Los ensayos repetidos son independientes


**Ejemplo**: Un proceso de producción genera un 25% de artículos defectuosos. Se seleccionan 3 artículos al azar del proceso, se inspeccionan y se clasifican como defectuosos o no defectuosos.

Modelamos el experimento como un proceso de Bernoulli, donde un "éxito" lo definimos como un producto defectuoso. Además, definimos la variable aleatoria $X$ como el número de éxitos. 

Resultado | x
--- | ---
NNN | 0
NDN | 1
NND | 1
DNN | 1
NDD | 2
DND | 2
DDN | 2
DDD | 3

Sabiendo que los artículos se eligen de forma **independiente**, podemos calcular las probabilidades de cada valor de $X$ de la siguiente forma:

\begin{align}
    P(NDN) = P(N) P(D) P(N) = \left(\frac{3}{4}\right) \left(\frac{1}{4}\right) \left(\frac{3}{4}\right) = \frac{9}{64}
\end{align}

Realizando lo mismo para cada caso, obtenemos la siguiente distribución de probabilidad:

x | f(x)
--- | ---
0 | 27/64
1 | 27/64
2 | 9/64
3 | 1/64

## Distribución binominal

El número de éxitos de $n$ experimentos de Bernoulli se llama **variable aleatoria binominal** y la distribución de probabilidad de esta variable se llama **distribución binominal**.

Los valores de la distribución binominal se denotan como $b(x; n, p)$, donde $n$ es el número de ensayos y $p$ es la probabilidad de éxito de cada ensayo.

**Ejemplo**: Para el ejemplo de los artículos defectuosos, la probabilidad de obtener 2 artículos defectuosos de la selección de 3 artículos es:

\begin{align}
    P(X=2) = f(2) = b \left( x=2; n=3,p=\frac{1}{4} \right) = \frac{9}{64}
\end{align}

Un experimento de Bernoulli arroja un éxito con probabilidad $p$ y un fracaso con probabilidad $q=1-p$ en cada uno de $n$ ensayos independientes. Si $X$ representa el número de éxitos obtenidos, entonces su distribución de probabilidad es:

\begin{align}
    b(x; n,p) = {}_{n}C_{x} p^{x} q^{n-x} = \frac{n!}{x! (n-x)!} p^{x} q^{n-x}
\end{align}

**Ejemplo**: Para el ejemplo de los artículos defectuosos, la distribución de probabilidad de expresa como:

\begin{align}
    b\left(x;3,\frac{1}{4}\right) = \frac{3!}{x! (3-x)!} \left(\frac{1}{4}\right)^{x} \left(\frac{3}{4}\right)^{3-x}
\end{align}

Para x = 2 resulta:

\begin{align}
    b\left(2;3,\frac{1}{4}\right) = \frac{3!}{2! (3-2)!} \left(\frac{1}{4}\right)^{2} \left(\frac{3}{4}\right)^{3-2} =  \frac{9}{64}
\end{align}


## Algunas propiedades

a) Como cualquier distribución de probabilidad, se debe cumplir que:

\begin{align}
    \sum_{x=0}^{n} b(x; n,p) = 1
\end{align}

b) Las probabilidades de que la variable $X$ sea menor o igual que un valor $r$ se calcula como sigue:

\begin{align}
    P(X \leq r ) = \sum_{x=0}^{r} b(x; n,p)
\end{align}


c) La probabilidad de obtener un valor entre $a$ y $b$ se puede calcular como la diferencia de dos probabilidades de obtener un valor menor a otro de la siguiente forma:

\begin{align}
    P(a \leq X \leq b) = \sum_{x=a}^{b} b(x; n,p) = \sum_{x=0}^{b} b(x; n,p) - \sum_{x=0}^{a} b(x; n,p)
\end{align}

d) La media y la varianza de la distribución binominal $b(x; n,p)$ son respectivamente:

\begin{align}
    \mu & = np &
    \sigma^{2} & = npq
\end{align}

**Ejemplo**: La probabilidad que un paciente se recupere de una enfermedad determinada es 0.4. Si hay 15 personas con esta enfermedad, ¿cuáles son las probabilidades que sobrevivan entre 4 y 6?

Sea $X$ es el número de personas que sobreviven. Asumiendo una distribución binominal se tiene:

\begin{align}
    P(4 \leq X \leq 6) = \sum_{x=4}^{6} b(x; 15,0.4) = \sum_{x=4}^{6} \frac{15!}{x! (15-x)!} 0.4^{x} 0.6^{15-x}
\end{align}

\begin{align}
    P(4 \leq X \leq 6) = \frac{15!}{4! (15-4)!} 0.4^{4} 0.6^{15-4} + \frac{15!}{5! (15-5)!} 0.4^{5} 0.6^{15-5} + \frac{15!}{6! (15-6)!} 0.4^{6} 0.6^{15-6} = 0.519
\end{align}

\begin{align}
    P(4 \leq X \leq 6) = 0.519
\end{align}


# Distribución de probabilidad hipergeométrica

## Motivación
Tenemos un lote de artículos y nos interesa estudiar la probabilidad de escoger uno defectuoso.

<center>
    <img src="figures/lote-1.jpg" width="400"/>
</center>

La distribución de probabilidad binominal requiere que los ensayos sean independientes, por lo que no es aplicable para este caso (requiere de reemplazo).

## Experimento hipergeométrico

La probabilidad se seleccionar $x$ éxitos de los $k$ artículos considerados éxitos y $n-x$ fracasos de los $N-k$ artículos considerados fracasos cuando una muestra aleatoria de tamaño $n$ se selecciona de $N$ artículos.

**Ejemplo**: se desea calcular la probabilidad de obtener 3 cartas rojas (corazón o diamante) en 5 extracciones de cartas de una baraja de 52 cartas.

<center>
    <img src="figures/cards-4.png" width="400"/>
</center>

Estimados la probabilidad de tener $x=3$ éxitos de un total de $k=26$ posibles éxitos y $n-x=2$ fracasos de los $N-k=26$ posibles fracasos desde una muestra aleatoria $n=5$ de un total de $N=52$ opciones.

Entonces el experimento hipergeométrico tiene las siguientes propiedades:

- De un lote de $N$ artículos se selecciona una muestra aleatoria de tamaño $n$ sin reemplazo
- $k$ de los $N$ artículos se consideran éxitos y $N-k$ se consideran como fracasos.

El número $X$ de éxitos se conoce como variable aleatoria hipergeométrica y su distribución de probabilidad se denota como $h(x; N, n, k)$ ya que depende del número $k$ de éxitos en el total $N$ del cuál se seleccionan $n$ artículos.


## Distribución hipergeométrica
La distribución de probabilidad de la variable aleatoria hipergeométrica $X$, que representa el número de éxitos de una muestra aleatoria de tamaño $n$ que se selecciona de $N$ artículos en los que $k$ son éxitos y $N-k$ son fracasos, es igual a:

\begin{align}
    h(x; N, n, k) =  \frac{ {}_{k}C_{x} \cdot {}_{N-k}C_{n-x} }{ {}_{N}C_{n} }, \quad \text{max}\{0, n-(N-k) \} \leq x \leq \text{min} \{n,k\}
\end{align}

En otras palabras, se calcula como:

\begin{align}
    h(x; N, n, k) =  \frac{\text{Combinaciones de éxito} \cdot \text{Combinaciones de fracaso}}{\text{Total de combinaciones}}
\end{align}

## Algunas propiedades
a) La media de la distribución hipergeométrica $h(x; N, n, k)$ es:

\begin{align}
    \mu = \frac{nk}{N}
\end{align}

a) La varianza de la distribución hipergeométrica $h(x; N, n, k)$ es:

\begin{align}
    \sigma^{2} = \frac{nk}{N} \left( \frac{N-n}{N-1} \right) \left( 1- \frac{k}{N} \right)
\end{align}

**Ejemplo**: Entonces, ¿cuál es la probabilidad de sacar 3 cartas rojas en una mano de 5 cartas?

<center>
    <img src="figures/cards-4.png" width="400"/>
</center>

\begin{align}
    h(x=3; N=52, n=5, k=26) =  \frac{ {}_{26}C_{3} \cdot {}_{26}C_{2} }{ {}_{52}C_{5} } = 0.325
\end{align}

Y ¿cuál es la probabilidad de sacar 4 ases en una mano de 5 cartas?

\begin{align}
    h(x=4; N=52, n=5, k=4) =  \frac{ {}_{4}C_{4} \cdot {}_{48}C_{1} }{ {}_{52}C_{5} } = 0.0000185
\end{align}

# Distribución de probabilidad discreta de Poisson

## Proceso de Poisson
Consiste en un experimento estadístico caracterizado por el número de resultados que ocurren en un intervalo de tiempo o en una región del espacio específica.

**Ejemplos**:
- El número de llamadas por hora que recibe una oficina.
- El número de días al año que una escuela se cierra debido al mal tiempo.
- El número de árboles por hectárea en un bosque.

Tiene las siguientes propiedades:

- El número de resultados es independiente de lo que ocurre en otro intervalo de tiempo o región del espacio disjunto. Es decir, el proceso de Poisson "no tiene memoria".
- La probabilidad que ocurra solo un resultado en un intervalo corto o una región pequeña, es proporcional a la longitud del intervalo o tamaño de la región. Además, no depende del número de resultados fuera del intervalo o región.
- La probabilidad que ocurra más de un resultado en ese intervalo corto o región pequeña es insignificante.

El número $X$ de resultados se llama **variable de Poisson** y su distribución de probabilidad se llama **distribución de Poisson**.

## Distribución de Poisson
La distribución de probabilidad de una variable de Poisson $X$ que representa el número de resultados en un intervalo de tiempo o región del espacio denotados por $t$ viene dada por:

\begin{align}
    p(x; \lambda t) = \frac{e^{- \lambda t} (\lambda t)^x  }{x!}, & \quad  \forall x \in \{0, 1, 2, ...\}
\end{align}

, donde $\lambda$ es el número promedio de resultados por unidad de tiempo, distancia, área o volumen.

## Algunas propiedades

a) Las probabilidades de que la variable $X$ sea menor que un valor $r$ se calcula como sigue:

\begin{align}
    P(X \leq r) = \sum_{x=0}^{r} p(x; \lambda t)
\end{align}

b) Las probabilidades de que la variable $X$ esté entre $a$ y $b$ se calcula como sigue:

\begin{align}
    P(a \leq X \leq b) = \sum_{x=a}^{b} p(x; \lambda t)
\end{align}

c) La media y la varianza de la distribución Poisson $p(x; \lambda t)$ son respectivamente:

\begin{align}
    \mu & = \lambda t &
    \sigma^{2} & = \lambda t
\end{align}

c) La distribución de Poisson se vuelve cada vez más simétrica a medida que la media $\mu$ o valor $\lambda t$ se hace más grande. Ejemplo:

<br><center>
    <img src="figures/poisson-1.png" width="800"/>
</center>

**Ejemplo**: El número de autos promedio que pasa por determinado cruce cada una hora es igual a 4. ¿Cuál es la probabilidad de que pasen 6 autos por el cruce en una hora dada? ¿y de que pase solo 1 auto?

Al usar la distribución de Poisson con $x=6$ y $\lambda t = 4$ se obtiene:

\begin{align}
    P(X=6) = p(6; 4) = \frac{e^{- 4} (4)^6  }{6!} = 0.1042
\end{align}

Al usar la distribución de Poisson con $x=1$ y $\lambda t = 4$ se obtiene:

\begin{align}
    P(X=1) = p(1; 4) = \frac{e^{- 4} (4)^1  }{1!} = 0.0733
\end{align}

**Ejemplo**: El número promedio de barcos que llega a un puerto diariamente es 10. Si el puerto tiene capacidad para alojar máximo 15 barcos por día, ¿cuál es la probabilidad de que en un día determinado lleguen más de 15 barcos?

Al asumir una distribución de probabilidad de Poisson con $\lambda t = 10$ para el número de barcos $X$ se obtiene:

\begin{align}
    P(X>15) = 1 - P(X \leq 15) = 1 - \sum_{x=0}^{15} p(x; 10) = 1 - \sum_{x=0}^{15} \frac{e^{- 10} (10)^x  }{x!}
\end{align}

\begin{align}
    P(X>15) = 1 - \frac{e^{-10} (10)^0}{0!} - \frac{e^{-10} (10)^1}{1!} - ... - \frac{e^{-10} (10)^{15}}{15!} = 0.0487
\end{align}

# Sumario
- La distribución discreta binomial se puede aplicar a experimentos consistentes en ensayos independientes con resultados binarios.
- La distribución discreta hipergeométrica se puede aplicar a experimentos con muestreos aleatorios y sin reemplazo.
- La distribución discreta de Poisson se puede aplicar a experimentos consistentes en el número de resultados obtenidos en un intervalo de tiempo o región del espacio.