# *Capitulo 3 - Variables aleatorias discretas y distribuciones de probabilidad*

## 3.1 Variables aleatorias

**Definicion:** Para un espacio muestral $S$ de algun experimento, una **variable aleatoria** es cualquier regla que asocia un numero con cada resultado en $S$. En lenguaje matematico, una variable aleatoria es una funcion cuyo dominio es el espacio muestral y cuyo rango es el conjunto de los numeros reales.

![Image 1](resources/imgs_cap3/img_cap3_01.png)

$$\text{Una variable aleatoria}$$

**Definicion:** Cualquier variable aleatoria cuyos unicos valores posibles son 0 y 1 se llama **variable aleatoria de Bernoulli.**

### Dos tipos de variables aleatorias

**Definicion:** Una variable aleatoria **discreta** es una variable aleatoria cuyos valores posibles constituyen un conjunto finito o bien pueden ser puestos en lista en una secuencia infinita en la cual existe un primer elemento, un segundo elemento, y asi sucesivamente ("contablemente" infinita).  
Una variable aleatoria es **continua** si *ambas* de las siguientes condiciones se cumplen:  
1. Su conjunto de valores posibles se compone de todos los numeros que hay en un solo intervalo sobre la linea de numeracion (posiblemente de extension infinita, es decir, desde $-\infty$ hasta $\infty$) o todos los numeros en una union disjunta de dichos intervalos (por ejemplo, $[0, 10] \cup [20, 30]$).
2. Ningun valor posible de la variable tiene probabilidad positiva, esto es, $P(X = c) = 0$ con cualquier valor posible de $c$.

## 3.2 Distribuciones de probabilidad para variables aleatorias discretas

**Definicion:** La **distribucion de probabilidad** o **funcion de masa de probabilidad** (fmp) de una variable discreta se define para cada numero $x$ como $p(x) = P(X = x) = P$ (todas las $s \in S:X(s) = x$).

### Parametro de una distribucion de probabilidad

**Definicion:** Supongase que $p(x)$ depende de la cantidad que puede ser asignada a cualquiera de un numero de valores posibles, y cada valor determina una distribucion de probabilidad diferente. Tal cantidad se llama **parametro** de distribucion. El conjunto de todas las distribuciones de probabilidad para diferentes valores del parametro se llama **familia** de distribuciones de probabilidad.

### Funcion de distribucion acumulativa

**Defininicion:** La **funcion de distribucion acumulativa** (fda) $F(x)$ de una variable aleatoria discreta $X$ con funcion de masa de probabilidad $p(x)$ se define para cada numero $x$ como  

$$F(x) = P(X \le x) = \sum_{y:y \le x}p(y)$$

Para cualquier numero $x, F(x)$ es la probabilidad de que el valor observado de $X$ sera cuando mucho $x$.

Sea

\begin{equation}
    F(y) =
    \begin{cases}
        0 & y < 1 \\
        .05 & 1 \le y < 2 \\
        .15 & 2 \le y < 4 \\
        .50 & 4 \le y < 8 \\
        .90 & 8 \le y < 16 \\
        1 & 16 \le y
    \end{cases}
\end{equation}

La siguiente figura muestra una grafica de esta fda.

![Image 2](resources/imgs_cap3/img_cap3_02.png)
$$\text{Grafica de la funcion de distribucion acumulativa.}$$

**Proposicion:** Para dos numeros cualesquiera $a$ y $b$ con $a \le b$,
$$P(a \le X \le b) = F(b) - F(a-)$$
donde "a-" representa el valor posible de $X$ mas grande que es estrictamente menor que $a$. En particular, si los unicos valores posibles son enteros, y si $a$ y $b$ son enteros, entonces  

\begin{align*}
    P(a \le X \le b) &= P(X = a\ o\ a + 1\ o \ldots o\ b) \\
    &= F(b) - F(a-1)
\end{align*}  

Con $a = b$ se obtiene $P(X = a) = F(a) - F(a - 1)$ en este caso.

## 3.3 Valores esperados

### Valor esperado de $X$

**Definicion:** Sea $X$ una variable aleatoria discreta con un conjunto de valores posibles $D$ y una funcion de masa de probabilidad $p(x)$. El **valor esperado** o **valor medio** de $X$, denotado por $E(X)$ o $\mu_{X}$ o solo $\mu$, es

$$E(X) = \mu_{X} = \sum_{x \in D} x \cdot p(x)$$

### Valor esperado de una funcion

A menudo interesara poner atencion al valor esperado de alguna funcion $h(X)$ en lugar de solo en $E(X)$.

**Proposicion:** Si la variable aleatoria $X$ tiene un conjunta de posibles valores $D$ y una funcion de masa de probabilidad $p(x)$, entonces el valor esperado de cualquier funcion $h(X)$, denotada por $E[h(X)]$ o $\mu_{h(X)}$, se calcula con

$$E[h(X)] = \sum_{D} h(x) \cdot p(x)$$

### Reglas de valor esperado

**Proposicion:**  

$$E(aX + b) = a \cdot E(X) + b$$

(O, con notacion alternativa, $\mu_{aX+b} = a \cdot \mu_X + b$)

---
Dos casos especiales de proposicion producen dos reglas importantes de valor esperado.  
1. Con cualquier constante $a, E(aX) = a \cdot E(X)$ (considerese $b = 0$).
2. Con cualquier constante $b, E(X + b) = E(X) + b$ (considerese $a = 1$).

### Varianza de $X$

![Image 3](resources/imgs_cap3/img_cap3_03.png)

$$\text{Dos diferentes distribuciones de probabilidad con $\mu = 4$}$$

Aunque ambas distribuciones ilustradas en la figura tienen el mismo centro $\mu$, la distribucion de la figura de la derecha tiene una mayor dispersion o variabilidad que la figura de la izquierda. Se utilizara la varianza de $X$ para evaluar la cantidad de variabilidad en (la distribucion de) $X$, del mismo modo que se utilizo $s^{2}$ en el capitulo 1 para medir la variablidad en una muestra.

**Definicion:** Sea $p(x)$ la funcion de masa de probabilidad de $X$ y $\mu$ su valor esperado. En ese caso la **varianza** de $X$, denotada por $V(X)$ o $\sigma_{X}^{2}$, o simplemente $\sigma^{2}$, es

$$ V(X) = \sum_{D} (x - \mu)^{2} \cdot p(x) = E[(X - \mu)^{2}]$$

La **desviacion estandar** (DE) de $X$ es
$$ \sigma_{X} = \sqrt{\sigma_{x}^{2}}$$

### Formula abreviada para $\sigma^{2}$

**Proposicion:**
$$ V(X) = \sigma^{2} = \left[\sum_{D} x^{2} \cdot p(x)\right] - \mu^{2} = E(X^{2}) - [E(X)]^{2} $$

**Demostracion:** Desarrollandose $(x - \mu)^{2}$ en la definicion de $\sigma^{2}$ para obtener $x^{2} - 2 \mu x + \mu^{2}$, y luego lleve $\sum$ a cada uno de los tres terminos:

\begin{align*}
    \sigma^{2} &= \sum_{D} x^{2} \cdot p(x) - 2 \mu \cdot \sum_{D}x \cdot p(x) + \mu^{2} \sum_{D} p(x) \\
    &= E(X^{2}) - 2 \mu \cdot \mu + \mu^{2} = E(X^{2}) - \mu^{2}
\end{align*}

### Reglas de varianza

**Proposicion:**
$$ V(aX + b) = \sigma_{aX+b}^{2} = a^{2} \cdot \sigma_{X}^{2}\ \ \text{y}\ \ \sigma_{aX+b} = |a| \cdot \sigma_{X}$$

En particular,
$$ \sigma_{aX} = |a| \cdot \sigma_{X},\ \sigma_{X+b} = \sigma_{X}$$

## 3.4 Distribucion de probabilidad binomial

Existen muchos experimentos que se ajustan exacta o aproximadamente a a la siguiente lista de requerimientos.  

1. El experimento consta de una secuencia de $n$ experimentos mas pequenos llamados *ensayos*, donde $n$ se fija antes del experimento.
2. Cada ensayo puede dar por resultado uno de los mismos dos resultados posibles (ensayos dicotomicas), los cuales se denotan como exito (S) y falla (F).
3. Los ensayos son independientes, de modo que el resultado en cualquier ensayo particular no influye en el resultado de cualquier otro ensayo.
4. La probabilidad de exito $P(S)$ es constante de un ensayo a otro; esta probabilidad se denota por $p$.

**Definicion:** Un experimento para el que se satisfacen las condiciones 1-4 se llama **experimento binomial.**

---
Se utilizara la siguiente regla empirica para decidir si un experimento "sin reemplazo" puede ser tratado como un experimento binomial.  

**Regla:** Considerese muestreo sin reemplazo de una poblacion dicotomica de tamano $N$. Si el tamano de la muestra (numero de ensayos) $n$ es cuando mucho 5% del tamano de la poblacion, el experimento puede ser analizado como si fuera exactamente un experimento binomial.

### Variable y distribucion aleatoria binomial

**Definicion:** La **variable aleatoria binomial $X$** asociada con un experimento binomial que consiste en $n$ ensayos se define como  

$$X = \text{el numero de los S entre los n ensayos}$$

**Notacion:** Como la funcion de masa de probabilidad de una variable aleatoria binomial $X$ depende de los dos parametros $n$ y $p$, la funcion de masa de probabilidad se denota por $b(x;\ n,\ p)$.

**Teorema:**  

\begin{align*}
    b(x;\ n,\ p) =
    \begin{cases}
        {n \choose x} p^{x}(1 - p)^{n-x} & x = 0,\ 1,\ 2,\ldots,\ n \\
        0 & \text{de lo contrario}
    \end{cases}
\end{align*}

### La media y varianza de $X$

**Proposicion:** Si $X \sim Bin(n,\ p)$, entonces

$$E(X) = np, V(X) = np(1 - p) = npq$$
y
$$\sigma_{X} = \sqrt{npq}\ \ \text{(donde $q = 1 - p$).}$$

## 3.5 Distribuciones hipergeometrica y binomial negativa

Las distribuciones hipergeometricas y binomial negativa estan relacionadas con la distribucion binomial. La distribucion binomial es el modelo de probabilidad aproximada de muestreo sin reemplazo de una poblacion diconomica finita $(S - F)$. Si el tamano $n$ de la muestra es pequeno con respecto al tamano $N$ de la poblacion, la distribucion hipergeometrica es el modelo de probabilidad exacta del numero de exitos $(S)$ en la muestra. La variable aleatoria binomial $X$ es el numero de los $S$ cuando el numero $n$ de ensayos es fijo, mientras la distribucion binomial surge de fijar el numero de exitos deseados y de permitir que el numero de ensayos sea aleatorio.

### Distribucion hipergeometrica

Las suposiciones que conducen a la distribucion hipergeometrica son las siguientes:
1. La poblacion o conjunto que se va a muestrear se compone de $N$ individuos, objetos o elementos (una poblacion *finita*).
2. Cada individuo puede ser caracterizado como exito $(S)$ o falla $(F)$ y hay $M$ exitos en la poblacion.
3. Se selecciona una muestra de $n$ individuos sin reemplazo de tal modo que cada subconjunto de tamano $n$ tenga la misma probabilidad de ser seleccionado.  

La variable aleatoria de interes es $X$ = el numero de las $S$ en la muestra. La distribucion de probabilidad de $X$ depende de los parametros $n$, $M$, y $N$, asi que se desea obtener $P(X = x) = h(x;\ n,\ M,\ N)$.

**Proposicion:**  Si $X$ es el numero de exitos $(S)$ en una muestra completamente aleatoria de tamano $n$ extraida de la poblacion compuesta de $M$ exitos y $(N - M)$ fallas, entonces la distribucion de probabilidad de $X$, llamada **distribucion hipergeometrica**, es

\begin{align*}
    P(X = x) = h(x;\ n,\ M,\ N) = \frac{{M \choose x}{N-M \choose n-x}}{{N \choose n}}
\end{align*}

con $x$, un entero, que satisface $max(0,\ n - N + M) \le x \le min(n,\ M)$

---
Como en el caso binomial, existen expresiones simples para $E(X)$ y $V(X)$ para variables aleatorias hipergeometricas.

**Proposicion:** La media y la varianza de la variable aleatoria hipergeometrica $X$ cuya funcion de masa de probabilidad es $h(x;\ n,\ M,\ N)$ son

\begin{align*}
    E(X) &= n \cdot \frac{M}{N} & V(X) &=  \left( \frac{N-n}{N-1} \right) \cdot n \cdot \frac{M}{N} \cdot \left(1 - \frac{M}{N}\right)
\end{align*}

---
La razon $M/N$ es la proporcion de exitos en la poblacion. Si se reemplaza $M/N$ por $p$ en $E(X)$ y $V(X)$, se obtiene

\begin{align*}
    E(X) &= np \\
    V(X) &= \left( \frac{N-n}{N-1}\right) \cdot n p (1-p)
\end{align*}

La expresion anterior muestra que las medias de las variables aleatorias binomiales e hipergeometricas son iguales, en tanto que las varianzas de las dos variables aleatorias difieren por el factor $(N-n)/(N-1)$, a menudo llamado **factor de correccion de poblacion finita.** Este factor es menor que 1, asi que la variable hipergeometrica tiene una varianza mas pequena que la variable aleatoria binomial. El factor de correccion puede escribirse como $\frac{\left(1 - \frac{n}{N}\right)}{\left(1-\frac{1}{N}\right)}$, el cual es aproximadamente 1 cuando $n$ es pequeno con respecto a $N$.

### Distribucion binomial negativa

La variable aleatoria binomial y la distribucion binomial negatva se basan en un experimento que satisface las siguientes condiciones:
1. El experimento consiste en una secuencia de ensayos independientes.
2. Cada ensayo puede dar por resultado un exito $(S)$ o una falla $(F)$.
3. La probabilidad de exito es constante de un ensayo a otro, por lo tanto $P(S\ \text{en el ensayo $i$)} = p\ \text{con}\ i = 1,\ 2,\ 3,\ldots$
4. El experimento continua (se realizzan ensayos) hasta que un total de $r$ exitos hayan sido observados, donde $r$ es un entero positivo especificado.

La variable aleatoria de interes es $X =$ el numero de fallas que precen al exito *r-esimo*; $X$ se llama **variable aleatoria binomial negativa** porque, en contraste con la variable aleatoria binomial, el numero de exitos es fijo y el numero de ensayos es aleatorio.

**Proposicion:** La funcion de masa de probabilidad de la variable aleatoria binomial negativa $X$ con los parametros $r$ = numero de exitos $(S)$ y $p = P(S)$ es

\begin{align*}
    nb(x;\ r,\ p) &= {x + r -1 \choose r - 1} p^{r} (1-p)^{x} & x = 0,\ 1,\ 2,\ldots
\end{align*}

**Proposicion:** Si $X$ es una variable aleatoria binomial negativa con funcion de masa de probabilidad $nb(x;\ r,\ p)$, entonces

\begin{align*}
    E(X) &= \frac{r(1-p)}{p} & V(X) = \frac{r(1-p)}{p^{2}}
\end{align*}

## Distribucion de probabilidad de Poisson

**Definicion:** Se dice que una variable aleatoria discreta $X$ tiene una **distribucion de Poisson** con parametro $\mu\ (\mu > 0)$ si la funcion de masa de probabilidad de $X$ es

\begin{align*}
    p(x;\ \mu) &= \frac{e^{-\mu} \cdot \mu^{x}}{x!} & x = 0,\ 1,\ 2,\ 3,\ldots
\end{align*}

**Proposicion:** Suponga que en la funcion de masa de probabilidad binomial $b(x;\ n,\ p),\ n \rightarrow \infty$ y $p \rightarrow 0$ de tal modo que $np$ tienda a un valor $\mu > 0$. Entonces $b(x;\ n,\ p) \rightarrow p(x;\ \mu).$  

De acuerdo con esta proposicion, en *cualquier experimento binomial en el cual n es grande y p es pequena*, $b(x;\ n,\ p) \approx p(x;\ \mu)$, donde $\mu = np$. Como regla empirica, esta aproximacion puede ser aplicada con seguridad si $n > 50$ y $np < 5$.

![Image 4](resources/imgs_cap3/img_cap3_04.png)
$$\text{Comparacion entre una distribucion de Poisson y dos distribuciones binomiales}$$

### Media y varianza de $X$

**Proposicion:** Si $X$ tiene una distribucion de Poisson con parametro $\mu$, entonces $E(X) = V(X) = \mu$.