# Fundamentos de Probabilidad

La probabilidad es un lenguaje matemático para cuantificar la incertidumbre. En este documento presentamos conceptos básicos de probabilidad que son importantes para nuestro curso.

## Espacio Muestral y Eventos

El **espacio muestral** $\Omega$ es el conjunto de todos los posibles resultados de un experimento aleatorio. 

Los elementos $\omega \in \Omega$ se concen como **realizaciones** o resultados muestrales. 

Los subconjuntos de $\Omega$ se conocen como **eventos**.


<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Se lanza una moneda justa al aire dos veces. Solo hay dos posibles realizaciones en cada lanzamiento: $C$ ó $S$. En este caso 
    
$$\Omega = \{(C,C),(C,S),(S,C),(S,S) \}$$

</div>

## Medida de Probabilidad

Una <b>medida de probabilidad</b> es una función $\mathbb{P} : \Omega \rightarrow [0, 1]$ tal que:

1. $\mathbb{P}(A) \geq 0$, $\forall A \subseteq \Omega$
2. $\mathbb{P}(\Omega) = 1$
3. Si $A_1$, $A_2$, ... son subconjuntos disjuntos de $\Omega$, entonces 

$$\mathbb{P}\left(\bigcup^{\infty}_{i=1} A_i \right) = \sum_{i = 1}^\infty \mathbb{P}(A_i)$$


En el ejemplo anterior:

| $\omega \in \Omega$ | $\mathbb{P}(\{\omega\})$ |
| --- | --- |
| (S, S) | 1/4 |
| (S, C) | 1/4 |
| (C, S) | 1/4 |
| (C, C) | 1/4 |

## Propiedades de Probabilidad

Muchas propiedades de $\mathbb{P}$ se pueden derivar a partir de los axiomas. En particular,

1. $\mathbb{P}(\emptyset) = 0$
2. $A \subset B \Rightarrow \mathbb{P}(A) \leq \mathbb{P}(B)$
3. $0 \leq \mathbb{P}(A) \leq 1$
4. $\mathbb{P}(A^c) = 1 - \mathbb{P}(A)$

Una propiedad menos obvia está dada por el siguiente lema

<div class="alert alert-block alert-info">
<b>LEMA:</b>
<p>
    
Para todo evento $A$ y $B$, 

$$\mathbb{P}\left(A \cup B \right) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}\left(A \cap B \right)$$
</div>

## Eventos Independientes

Dos eventos $A$ y $B$ son independientes si y solo si 

$$\mathbb{P}\left(A \cap B \right) = \mathbb{P}(A) \cdot \mathbb{P}(B)$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p> 
    
¿Cuál es la probabilidad de obtener $S$ en el primer lanzamiento y $C$ en el segundo lanzamiento de una moneda justa?

$$\mathbb{P}(S \cap C) = \mathbb{P}(S) \cdot \mathbb{P}(C) = 1/2 \cdot 1/2 = 1/4$$

Los lanzamientos de una moneda justa son independientes

</div>

Observe que si $A$ y $B$ son eventos disjuntos con probabilidades positivas, estos no son independientes. Note que 

$$\mathbb{P}\left(A \cap B \right) = \mathbb{P}(\emptyset) = 0$$

$$\mathbb{P}(A) \cdot \mathbb{P}(B) > 0$$


## Probabilidad Condicional

Si $\mathbb{P}(B) > 0$ entonces la **probabilidad condicional** de $A$ dado $B$ está dada por 

$$\mathbb{P}(A | B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p> 
    
¿Cuál es la probabilidad de obtener $S$ en el segundo lanzamiento de una moneda justa dado que en el primer lanzamiento obtuve $C$?

$$\mathbb{P}(S | C) = \frac{\mathbb{P}(S , C)}{\mathbb{P}(C)} = \frac{\mathbb{P}(S) \cdot \mathbb{P}(C)}{\mathbb{P}(C)} = \frac{1/2 \cdot 1/2}{1/2} = 1/2 = P(S)$$

La realización del primer lanzamiento no ofrece información relevante para el resultado del segundo lanzamiento. Es decir, los eventos son independientes.
</div>

<div class="alert alert-block alert-info">
<b>LEMA:</b>
<p>
    
Si $A$ y $B$ son independientes, entonces $\mathbb{P}(A | B) = \mathbb{P}(A)$. 

Además, para cualquier pareja de eventos $A$ y $B$ con probabilidad positiva, se tiene que 
    
$$\mathbb{P}(A \cap B) = \mathbb{P}(A | B) \cdot \mathbb{P}(B) = \mathbb{P}(B | A) \cdot \mathbb{P}(A)$$
</div>

## Teorema de Bayes

<div class="alert alert-block alert-info">
<b>TEOREMA (Ley de Probabilidad Total):</b>
<p>
    
Sea $A_1, ..., A_k$ una partición de $\Omega$. Así, para todo evento $B$,

$$\mathbb{P}(B) = \sum_{i = 1}^k \mathbb{P}(B|A_i) \mathbb{P}(A_i)$$
</div>

<div class="alert alert-block alert-info">
<b>TEOREMA (Teorema de Bayes):</b>
<p>
    
Sea $A_1, ..., A_k$ una partición de $\Omega$ tal que $\mathbb{P}(A_i) > 0$ para todo $i$. Si $\mathbb{P}(B) > 0$, entonces para todo $i \in \{1, ..., k\}$

$$\mathbb{P}(A_i | B) = \frac{\mathbb{P}(B|A_i)\cdot \mathbb{P}(A_i)}{\sum_j \mathbb{P}(B|A_j) \mathbb{P}(A_j)}$$
</div>

## Variables Aleatorias

La econometría hace uso de datos para analizar problemas económicos. Cuál es la relación entre los espacios muestrales y los eventos y los datos? El concepto clave es el de variable aleatoria.

Una **variable aleatoria** es un mapeo que asigna un valor real $X(\omega)$ a cada realización $\omega$, es decir, 

$$X : \Omega \rightarrow \mathbb{R}$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Sea $X$ el número de veces que se obtiene $S$ al lanzar una moneda justa dos veces al aire.
</div>

Del ejemplo anterior podemos deducir que

| $\omega \in \Omega$ | $X(\omega)$ | $\mathbb{P}(\{\omega\})$ |
| --- | --- | --- |
| (S, S) | 2 | 1/4 |
| (S, C) | 1 | 1/4 |
| (C, S) | 1 | 1/4 |
| (C, C) | 0 | 1/4 |

Note que al tomar solo las dos últimas columnas obtenemos la **distribución de probabilidad** de $X$

| $x$ | $\mathbb{P}(X = x)$ |
| --- | --- |
| 2 | 1/4 |
| 1 | 1/2 |
| 0 | 1/4 |


## Funciones de Distribución

La **función de distribución acumulada** (FDA) es una función $F_X : \mathbb{R} \rightarrow [0, 1]$ que se define como 

$$F_X(x) = P(X \leq x)$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Para el ejemplo anterior, la FDA de $X$ esta dada por

\begin{equation*}
F_X(x) =
    \left\{\begin{array}{lr}
    0, & x < 0 \\
    1/4, & 0 \le x < 1 \\
    3/4, & 1 \le x < 2 \\    
    1, & x \geq 2
    \end{array}\right.
\end{equation*}

Note que esta función es continua por derecha, no-decreciente, y está definida para todo $x$ en los reales, a pesar de que la variable solo toma valores 0, 1, y 2. Es por esto que $F_X(1.4) = 3/4$
</div>

Una variable aleatoria $X$ es **discreta** si toma valores contables $\{x_1, x_2\}$. Definimos la distribución de probabilidad de $X$ como 

$$f_X(x) = P(X = x)$$

Dos propiedades de esta función son:

$$f_X(x) \geq 0, \forall x \in \mathbb{R}$$

$$\sum_i f_X(x_i) = 1$$

La FDA de $X$ se relaciona con $f_X$ así: 

$$F_X(x) = P(X \leq x) = \sum_{x_i \leq x} f_X(x_i)$$


<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Para nuesto ejemplo, la distribución de probabilidad de $X$ esta dada por

\begin{equation*}
f_X(x) =
    \left\{\begin{array}{lr}
    1/4, & x = 0 \\
    1/2, & x = 1 \\
    1/4, & x = 2 \\    
    0, & \text{otro caso}
    \end{array}\right.
\end{equation*}

</div>

Una variable $X$ es **continua** si existe una funcion $f_X$ tal que 

1. $f_X(x) \geq 0$ para todo $x \in \mathbb{R}$
2. $\int_{-\infty}^{\infty} f_X(x) dx = 1$
3. Para todo $a \leq b$ se tiene que 

$$\mathbb{P}(a\leq X \leq b) = \int_a^b f_X(x) dx$$

$f_X$ se conoce como la **función de densidad** de $X$. Note además que 

$$F_X(x) = F(X \leq x) = \int_{-\infty}^x f_X(t) dt$$

Por lo tanto, 

$$f_X(x) = F'_X(x) = \frac{\partial F_X}{\partial x}$$

<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Suponga que $X$ tiene una función de densidad dada por

\begin{equation*}
f_X(x) =
    \left\{\begin{array}{lr}
    1, & 0 \leq x \leq 1 \\
    0, & \text{otro caso}
    \end{array}\right.
\end{equation*}

Note que $f_X(x) \geq 0$ y $\int_{-\infty}^{\infty} f_X(x) dx = 1$. Finalmente observe que

\begin{equation*}
F_X(x) =
    \left\{\begin{array}{lr}
    0, & x < 0 \\
    x, & 0 \leq x \leq 1 \\
    1, & x > 1
    \end{array}\right.
\end{equation*}
</div>


## Propiedades de $F_X$

Para una variable aleatoria $X$, algunas propiedades de $F_X$ son:

$$\mathbb{P}(X = x) = F(x) - F(x^-), \text{ donde } F(x^-) = \lim_{y\uparrow x} F(y)$$

$$\mathbb{P}(x < X \leq y) = F(y) - F(x)$$

$$\mathbb{P}(X > x) = 1 - F(x)$$

Si $X$ es continua, entonces 
   
\begin{align*}
    F(b) -  F(a) & = \mathbb{P}(a < X < b) =  \mathbb{P}(a \leq X < b)\\
     & = \mathbb{P}(a < X \leq b) =  \mathbb{P}(a \leq X \leq b)
\end{align*}

## Función Inversa (o de Cuantiles) de $F_X$

La inversa de $F_X$ está definida por 

$$F^{-1}(q) = \inf \left\{x : F(x) > q \right\}$$

para todo $q \in [0, 1]$. 

Note que si $F$ es estrictamente creciente y continua, entonces $F^{-1}(q)$ es el unico valor real $x$ tal que $F(x) = q$

## Algunas Variables Discretas Importantes

**Bernoulli**. Si $X$ es una variable aleatoria que toma valores binarios tal que $\mathbb{P}(X = 1) = p$ y $\mathbb{P}(X = 0) = 1-p$, para algún $p \in [0, 1]$, decimos que $X \sim$ Bernoulli($p$). La función de distribución está dada por $f(x) = p^x (1- p)^{1-x}$ para $x \in \{0, 1\}$.


<div class="alert alert-block alert-warning"> 
<b>EJEMPLO:</b>
<p>

Definamos $X$ como sacar $S$ en el lanzamiento de una moneda justa. Entonces, $X(S) = 1$, $X(C) = 0$ y $p = 1/2$. 

Note que 

$$f(X = 1) = \mathbb{P}(S) = (1/2)^1 (1-1/2)^{1-1} = 1/2$$ 

$$f(X = 0) = \mathbb{P}(C) = (1/2)^0 (1-1/2)^{1-0} = 1/2$$
    
</div>

**Binomial**. Suponga que tenemos una moneda con probabilidad $p \in [0, 1]$ de caer en $S$. Sea $X$ la variable que cuenta el número de veces que la moneda cae en $S$ en $n$ lanzamientos. La función de distribución está dada por 

\begin{equation*}
f(x) =
    \left\{\begin{array}{lr}
    {n \choose x} p^x (1- p)^{1-x} & \text{ para } x = 0, 1, ..., n \\
    0 & \text{en cualquier otro caso}
    \end{array}\right.
\end{equation*}

En este caso decimos que $X \sim$ Binomial($n, p$). 

<div class="alert alert-block alert-info">
<b>TEOREMA:</b>
<p>
    
si $X_1 \sim$ Binomial($n_1, p$) y $X_2 \sim$ Binomial($n_2, p$), entonces 

$$X_1 + X_2 \sim \text{Binomial(} n_1 + n_2, p \text{)}.$$
</div>

**Geométrica**. $X$ tiene una distribución geométrica con parámetro $p$ si 

$$f(x) = P(X = k) = p(1-p)^{k-1}, \text{ con } k \geq 1.$$

Se puede pensar en $X$ como el número de veces que se requiren para obtener el primer $S$ cuando se lanza una moneda justa.

**Poisson**. $X$ tiene distribución poisson con parámetro $\lambda$ si 

$$f(x) = e^{-\lambda}\frac{\lambda^x}{x!}, \text{ con } x \geq 0.$$

## Algunas Variables Continuas Importantes

**Uniforme**. $X$ tiene distribución uniforme con parámetros $a < b$ si

\begin{equation*}
f(x) =
    \left\{\begin{array}{lr}
    \frac{1}{b-a} & \text{ para } x \in [a, b] \\
    0 & \text{en cualquier otro caso}
    \end{array}\right.
\end{equation*}

Decimos entonces que $X \sim U(a, b)$

**Normal (o Gausiana)**. $X$ tiene distribución normal con parámetros $\mu \in \mathbb{R}$ y $\sigma > 0$, si 

$$f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left\{ - \frac{1}{2\sigma^2} (x - \mu) \right\} , \text{ para } x \in \mathbb{R}$$

Decimos entonces que $X \sim N(\mu, \sigma^2)$.

El parámetro $\mu$ es el centro (o media) de la distribución y $\sigma$ es la disperción (o desviación estandar).

Decimos que $Z$ se distribuye **normal estandar** si $\mu = 0$ y $\sigma = 1$, en cuyo caso la distribución se denota por $\phi(z)$ y la FDA por $\Phi(z)$.

Algunas propiedades útiles para variables con distribución normal son:

Si $X \sim N(\mu, \sigma^2)$, entonces $Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$

Si $Z \sim N(0, 1)$, entonces $X = \mu + \sigma Z \sim N(\mu, \sigma^2)$

Si $X \sim N(\mu, \sigma^2)$, entonces $Y = a X + b \sim N(a \mu + b, a^2 \sigma^2)$

Si $X_i \sim N(\mu_i, \sigma_i)$, $i = 1, ..., n$ son variables independientes, entonces 

$$\sum_{i=1}^{n} X_i \sim N\left(\sum_{i=1}^{n} \mu_i, \sum_{i=1}^{n} \sigma^2_i \right)$$

Si $X \sim N(\mu, \sigma^2)$, entonces 

\begin{align*}
    \mathbb{P}(a < X < b) & = \mathbb{P} \left( \frac{a - \mu}{\sigma} < Z < \frac{b - \mu}{\sigma} \right)\\
     & = \Phi \left(\frac{b - \mu}{\sigma} \right) - \Phi \left(\frac{a - \mu}{\sigma} \right)
\end{align*}

Ciertas transformaciones de una variable normal dan como resultado otro tipo de distribuciónes. 

Decimos que $X \sim \chi_n^2$ si 

$$X = \sum_{i = 1}^n Z_i^2$$

donde $Z_i \sim N(0, 1)$ son $n$ variables aleatorias independientes$^*$ y $n$ representa los grados de libertad.

$^*$veremos el concepto de independencia más adelante

Decimos que $X \sim t_{n}$ si 

$$X = \frac{Z}{\sqrt{\frac{Y}{n}}}, \text{ donde } Y \sim \chi_n^2$$

Decimos que $X \sim F_{n_1, n_2}$ si

$$X = \frac{Y_1/n_1}{Y_2/n_2}, \text{ donde } Y_1 \sim \chi^2_{n_1} \text{ y } Y_2 \sim \chi^2_{n_2}$$


## Distribuciónes Bivariadas

Para dos variables aleatorias discretas $X$ y $Y$ la **distribución de probabilidad conjunta** está dada por $f(x, y)= \mathbb{P}(X = x, Y = y)$ 

La **distribución marginal** de $X$ está dada por 

$$\mathbb{P}(X = x) = \sum_y \mathbb{P}(X = x, Y = y)$$

Supongan que $X \in \{0, 1\}$ y $Y \in \{1, 2, 3\}$ con probabilidad conjunta dada por la siguiente tabla:

| $(X \backslash Y)$ | 1     | 2     | 3     | $\mathbb{P}(X = x)$ |
|--------------------|-------|-------|-------|-----------|
| 0                  | 1/9   | 2/9   | 0     | 3/9       |
| 1                  | 2/9   | 3/9   | 1/9   | 6/9       |
| $\mathbb{P}(Y = y)$| 3/9   | 5/9   | 1/9   | 1         |


Observe que $\mathbb{P}(X = 1, Y = 2) = 3/9$

En el caso continuo, una función $f(x, y)$ es una distribución de densidad si

(1) $f(x, y) > 0$ para todo $(x, y)$

(2) $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) dx dy= 1$

(3) para todo conjunto $A \subset \mathbb{R} \times \mathbb{R}$,

$$\mathbb{P}((X, Y) \in A) = \int\int_A f(x, y) dx dy$$

La **densidad marginal** $X$ está dada por 

$$f_X(x) = \int f(x, y) dy$$

En ambos casos definimos la distribución conjunta acumulada como $F_{X, Y}(x, y) = P(X \leq x, Y \leq y)$

## Distribución Condicional

En el caso discreto, la **distribución condicional** de $X$ dado $Y = y$ está dada por

$$\mathbb{P}(X = x| Y = y) = \frac{\mathbb{P}(X = x, Y = y)}{\mathbb{P}(Y = y)}$$

En el caso continuo, la **densidad condicional** de $X$ y $Y$ es una función $f_{X|Y}(x|y)$ tal que

$$f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}, \text{ si } f_Y(y) > 0$$ 

Además, tenemos que

$$\mathbb{P}(X \in A | Y = y) = \int_A f_{X|Y}(x|y) dx$$

## Distribuciones Multivariadas

Sean $X_1, ..., X_n$ variables aleatorias. Definimos el **vector aleatorio** $X = (X_1, ..., X_n)$, cuya distribución o **función de densidad multivariada** está dada por $f(x_1, ..., x_n)$.

Decimos que $X_1, ..., X_n$ son independientes si para todo $A_1, ..., A_n$

$$P(X_1 \in A_1, ...,  X_n \in A_n) = \prod_{n=1}^{n} P(X_i \in A_i)$$

Sin embargo, es suficiente mostrar que $f(x_1, ..., x_n) = \prod_{n=1}^{n} f_{X_i}(x_i)$. Donde $f_{X_i}(x_i)$ es la **distribución margina**l de $X_i$

Si $X_1, ..., X_n$ son independientes y cada una tiene la misma distribución marginal, entonces decimos que son iid (**independientes e identicamente distribuidas**)

## Esperanza Matemática

El **valor esperado**, **media**, o **primer momento** de una variable aleatoria $X$ se define como

\begin{equation*}
E(X) =
    \left\{\begin{array}{lr}
    \sum_x x \cdot \mathbb{P}(X = x) & \text{ si } X \text{ es discreta } \\
    \int x f(x) dx, & \text{ si } X \text{ es continua }
    \end{array}\right.
\end{equation*}

Observe que si $X$ y $Y$ son variables aleatorias, entonces para todo $a \in \mathbb{R}$ y $b \in \mathbb{R}$ se tiene que:

$$E(X + Y) = E(X) + E(Y)$$

$$E(aX + b) = aE(X) + b$$

Más aún, si $X$ y $Y$ son independientes, entonces:

$$E \left(X \cdot Y \right) = E(X) \cdot E(Y)$$

## Varianza

Para una variable $X$ con media $\mu$, su **varianza** se define como:

$$V(X) = E(X- \mu)^2 = \sigma^2$$

La **desviación estandar** de $X$ es $\sigma = \sqrt{V(X)}$

Observe que:

1. $V(X) = E(X^2) - \mu^2$

2. Si $a \in \mathbb{R}$ y $b \in \mathbb{R}$, entonces $V(aX + b) = a^2 V(X)$

3. Si $X$ y $Y$ son independientes, entonces $V(X + Y) = V(X) + V(Y)$

## Covarianza

La **covarianza** entre $X$ y $Y$ se define como

$$Cov(X, Y) = E \left((X - \mu_X) (Y - \mu_Y) \right)$$

y el **coeficiente de correlación** está dado por 

$$\rho(X, Y) = \frac{Cov(X , Y)}{\sigma_X \cdot \sigma_Y}$$

Observe que 

$$Cov(X, Y) = E(X \cdot Y) - E(X) \cdot E(Y)$$

$$-1 \leq \rho(X, Y) \leq 1$$

Finalmente, note que

$$V(X + Y) = V(X) + V(Y) + 2 \cdot Cov(X, Y)$$

$$V(X - Y) = V(X) + V(Y) - 2 \cdot Cov(X, Y)$$

## Esperanza Condicional

La **esperanza condicional** de $X$ dado $Y = y$ está dada por

\begin{equation*}
E(X | Y = y) =
    \left\{\begin{array}{lr}
    \sum_x x \cdot \mathbb{P}(X = x | Y = y) & \text{en el caso discreto} \\
    \int x f(x|y) dx, & \text{en el caso continuo}
    \end{array}\right.
\end{equation*}

<div class="alert alert-block alert-info">
<b>TEOREMA (Ley de Esperanzas Iteradas):</b>
<p>

Para dos variables aleatorias $X$ y $Y$, si existen sus esperanzas, entonces
  
$$E(E(X | Y)) = E(X)$$
</div>

**Demostración**. Usando la definición de esperanza condicional y el hecho que $f(x,y) = f(x|y) f(y)$ tenemos que

\begin{align*}
    E(E(X|Y)) & = \int E(X | Y = y) f_Y(y) dy = \int\int x f(x|y) dx f(y) dy \\
     & = \int\int x f(x|y) f(y) dy dx = \int\int x f(x,y) dy dx \\
     & = \int x \left( \int f(x, y) dy \right) dx = \int x f(x) dx = E(X)
\end{align*}