# Módulo: Distribuciones de Probabilidad
## Variables discretas y continuas
## Distribuciones de probabilidad discretas y continuas
## Distribuciones de probabilidad conjunta

# Objetivos de la clase
- Comprender los conceptos de variables aleatorias discretas y continuas.
- Definir y comprender la distribuciones de probabilidades discretas y continuas.
- Realizar cálculos con funciones de densidad de probabilidad.
- Conocer y comprender las distribuciones de probabilidad conjunta.

# Variables aleatorias discretas y continuas

## Variables aleatorias
- Una **variable aleatoria** es una función que asocia un número real con cada elemento del espacio muestral.

<center>
    <img src="figures/random-variable-1.png" width="400"/>
</center>

- En el caso que la variable aleatoria tome valores binarios (0 ó 1) se denomina variable aleatoria de **Bernoulli**.

**Ejemplo**: Se inspeccionan 3 piñones para verificar si presentan alguna falla o no. Si $N$ denota que no hay falla y $F$ denota que hay falla, entonces el espacio muestral corresponde a:

\begin{align}
    S = \{ NNN, NNF, NFF, NFN, FNN, FNF, FFF, FFN \}
\end{align}

Una variable aleatoria $X$ podría corresponder a la cantidad de piñones que presentan falla. En este caso los valores de $X$ podrían ser 0, 1, 2 ó 3.

Por ejemplo, para el siguiente evento $E$ la variable $X$ tomará el valor 2 para cada elemento:

\begin{align}
    E = \{ NFF, FNF, FFN \}
\end{align}

<center>
    <img src="figures/faults-gear-1.png" width="400"/>
</center>


## Espacio muestral discreto y continuo
Un **espacio muestral discreto** tiene un número finito de elementos, o bien un número infinito numerable de elementos.
- Ej.: el número que sale al tirar un dado representa a un espacio muestral discreto finito. En este caso: $S = \{1, 2, 3, 4, 5, 6 \}$
- Ej.: el número veces que se tira un dado hasta sacar 5 es un espacio muestral discreto infinito. En este caso: $S = \{1, 2, 3 ... 100, 101, ... \}$
    
    
Un **espacio muestral continuo** contiene un número infinito y no numerable de elementos.
- Ej.: los metros que recorren distintos modelos de autos con 5 L de combustible

## Variables discretas y continuas
- Una variable aleatoria es **discreta** si se puede contar su conjunto de resultados posibles.
- Una variable aleatoria es **continua** si puede tomar valores a escala continua.
- En muchos casos las variables aleatorias representan datos **medidos**, mientras que las variables discretas representan datos **por conteo**.

<center>
    <img src="figures/discrete-continuous-data-1.jpg" width="400"/>
</center>



# Distribuciones de probabilidad discretas

## Distribución discreta de probabilidad
- La variable aleatoria discreta toma cada uno de sus valores con una cierta probabilidad.
- Por ejemplo, al lanzar un dado el valor $x=1$ tiene una probabilidad de $P(X=1) = 1/6$, el valor $x=2$ también tiene probabilidad $P(X=2) = 1/6$, y así sucesivamente.

<br><center>
    <img src="figures/prob-distr-2.png" width="400"/>
</center>

El conjunto de pares ordenados $(x, P(X=x))$ se conoce como **función de probabilidad**, **función de masa de probabilidad**, o bien **distribución de probabilidad**.

La distribución de probabilidad en un gráfico de barras se denomina histograma de probabilidad.

<br><center>
    <img src="figures/prob-distr-3.png" width="500"/>
</center>

Formalmente, un conjunto de pares ordenados $(x, f(x))$ es una distribución de probabilidad de la variable aleatoria discreta $X$ si para cada resultado $x$ posible:

- $f(x) \geq 0$
- $\sum_{x} f(x) = 1$
- $P(X=x) = f(x)$

Esto significa que no cualquier función podría ser catalogada como una función de probabilidad

**Ejemplo**: La variable $X$ representa el número de caras obtenidas al lanzar 3 veces una moneda. Obtener la distribución de probabilidad para esta variable aleatoria discreta.

\begin{align}
    S = \{ HHH, HHT, HTT, HTH, THH, THT, TTT, TTH \}
\end{align}

Para cada elemento la variable $X$ tomaría respectivamente los valores: $X = \{ 3, 2, 1, 2, 2, 1, 0, 1 \}$

Entonces la probabilidad de cada valor de $X$ es: 

| x | f(x) |
| --- | --- |
| 0 | 1/8 |
| 1 | 3/8 |
| 2 | 3/8 |
| 3 | 1/8 |


## Función de distribución acumulativa
- En muchos problemas es deseable calcular la probabilidad con que la variable aleatoria tenga un valor menor o igual a un número fijo. 
- Para estos casos se define la **función de distribución acumulativa** $F(x)$ de una variable discreta $X$ con distribución de probabilidad $f(x)$ como:

\begin{align}
    F(x) = P(X \leq x) = \sum_{t \leq x} f(t)
\end{align}

<center>
    <img src="figures/cum-distr-1.jpg" width="300"/>
</center>

**Ejemplo**: En el mismo ejemplo de lanzar 3 monedas y siendo $X$ la cantidad de caras, obtener la función de distribución acumulativa.

Tenemos que la distribución de probabilidad es:

| x | f(x) |
| --- | --- |
| 0 | 1/8 |
| 1 | 3/8 |
| 2 | 3/8 |
| 3 | 1/8 |

Entonces para la función de distribución acumulativa se tiene:

| x | F(x) |
| --- | --- |
| 0 | 1/8 |
| 1 | 4/8 |
| 2 | 7/8 |
| 3 | 1 |

# Distribuciones de probabilidad continuas

## Distribución de probabilidad continua
- Una variable continua tiene una probabilidad 0 de adoptar *exactamente* un valor específico.
- Esto se debe a que siempre hay un número infinito de valores que la variable continua puede adoptar en cualquier rango de valores.
- Debido a esto, la distribución de probabilidad para variables continuas no se puede expresar de forma tabular, si no que mediante una fórmula $f(x)$

<center>
    <img src="figures/pdf-2.png" width="400"/>
</center>


- Esta función $f(x)$ se conoce como **función de densidad de probabilidad** o simplemente como **función de densidad** de $X$.
- Esta función tiene por objetivo cuantificar la probabilidad de que la variable continua adopte un valor dentro de un rango determinado.

<br><center>
    <img src="figures/pdf-1.jpg" width="500"/>
</center>

Formalmente, la función $f(x)$ es una función de densidad de probabilidad para la variable continua $X$ definida en $\mathbb{R}$ si:

- $f(x) \geq 0 \quad \forall x \in \mathbb{R}$
- $\int_{-\infty}^{\infty} f(x) dx = 1$
- $P(a < X < b ) = \int_{a}^{b} f(x) dx$
    
Nuevamente no cualquier función puede ser una función de densidad de probabilidad.

**Ejemplo**: Suponga que el error en una medición viene dada por la variable aleatoria continua $X$ que tiene función de densidad de probabilidad:

\begin{split}
    f(x) = \Bigg\{
    \begin{array}{ c c }
    \frac{x^2}{3},  & \quad \textrm{if } -1 < x < 2 \\
    0,                & \quad \textrm{elsewhere}
  \end{array}
\end{split}

a) Verificar que $f(x)$ es una función de densidad.
Evidentemente $f(x) \geq 0$. Además se cumple que:

\begin{align}
    \int_{-\infty}^{\infty} f(x) dx = \int_{-1}^{2} \frac{x^2}{3} dx = \frac{x^3}{9} \Big|_{-1}^{2} = \frac{8}{9} + \frac{1}{9} = 1
\end{align}

b) Calcular la probabilidad de que el error esté entre 0 y 1.

\begin{align}
    P(0 < X < 1) = \int_{0}^{1} \frac{x^2}{3} dx = \frac{x^3}{9} \Big|_{0}^{1} = \frac{1}{9}
\end{align}

## Función de distribución acumulativa
Para las variables aleatorias continuas se define la función de distribución acumulativa como sigue:

\begin{align}
    F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt
\end{align}

<center>
    <img src="figures/cdf-1.png" width="350"/>
</center>

Como consecuencia de esta definición se cumple que:

\begin{align}
    P(a < X < b) & = F(a) - F(a)
    & f(x) & = \frac{d F(x)}{dx}
\end{align}



**Ejemplo**: En el ejemplo anterior calcule $F(x)$ y use el resultado para evaluar $P(0<X<1)$

\begin{split}
    f(t) = \Bigg\{
    \begin{array}{ c c }
    \frac{t^2}{3},  & \quad \textrm{if } -1 < t < 2 \\
    0,                & \quad \textrm{elsewhere}
  \end{array}
\end{split}

Para $x \leq -1$:

\begin{align}
    F(x) = \int_{-\infty}^{x} f(t) dt = \int_{-\infty}^{-1} 0 dt = 0
\end{align}

Para $-1 < x  <2$:

\begin{align}
    F(x) = \int_{-\infty}^{x} f(t) dt = \int_{-\infty}^{-1} 0 dt +  \int_{-1}^{x} \frac{t^2}{3} dt = \frac{t^3}{9} \Big|_{-1}^{x} = \frac{x^3 + 1}{9}
\end{align}

Para $ x \geq 2$:

\begin{align}
    F(x) = \int_{-\infty}^{x} f(t) dt = \int_{-\infty}^{-1} 0 dt +  \int_{-1}^{2} \frac{t^2}{3} dt + \int_{2}^{x} 0 dt = 1
\end{align}

Por lo tanto se tiene que:

\begin{split}
    F(x) = \Bigg\{
    \begin{array}{ c c }
    0,  & \quad \textrm{if } x \leq -1 \\
    \frac{x^3 + 1}{9},  & \quad \textrm{if } -1 < x < 2 \\
    1,                & \quad \textrm{if } x \geq 2
  \end{array}
\end{split}

La probabilidad $P(0<X<1)$ se calcula como:

\begin{align}
    P(0<X<1) = F(1) - F(0) = \frac{2}{9} - \frac{1}{9} = \frac{1}{9}
\end{align}

# Distribuciones de probabilidad conjunta

## Motivación
En un experimento estadístico podríamos estar interesados en los resultados de un espacio muestral bidimensional con dos variables.

**Ejemplo**: Nos interesa conocer simultáneamente cómo se distribuyen los valores de dureza y resistencia a la tracción en la fabricación de acero laminado

<br><center>
    <img src="figures/steel-1.jpg" width="500"/>
</center>


## Definición para variables discretas
Si $X$ e $Y$ son dos variables aleatorias discretas, la **distribución de probabilidad conjunta** para sus ocurrencias simultáneas se representa con la función:

\begin{align}
    f(x,y) = P(X=x, Y=y)
\end{align}

**Ejemplo**:

| Dureza (HB) | Resistencia (MPa) | Probabilidad f(x,y) |
| --- | --- | --- |
| 100 | 560 | 0.11 |
| 120 | 510 | 0.09 |
| 110 | 580 | 0.07 |
| 135 | 550 | 0.13 |

Formalmente, la función $f(x,y)$ es una **distribución de probabilidad conjunta** para las variables discretas $X$ e $Y$ si:

\begin{align}
    f(x,y) \geq 0 \quad \forall (x,y)
\end{align}

\begin{align}
    \sum_{x} \sum_{y} f(x,y) = 1$
\end{align}

\begin{align}
    P(X=x, Y=y) = f(x,y)
\end{align}
    
Nuevamente no cualquier función puede ser una función probabilidad conjunta

## Definición para variables continuas
Si $X$ e $Y$ son variables aleatorias continuas, la **función de densidad conjunta** $f(x,y)$ es una superficie sobre el plano $XY$ y $P[(X,Y) \in A]$, donde $A$ es una región del plano $XY$, se calcula como el volumen entre la región y la superficie.

<center>
    <img src="figures/joint-prob-1.jpg" width="600"/>
</center>

Formalmente, la función $f(x,y)$ es una **función de densidad conjunta** para las variables discretas $X$ e $Y$ si:

\begin{align}
    f(x,y) \geq 0 \quad \forall (x,y)
\end{align}

\begin{align}
    \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y) dx dy = 1
\end{align}

\begin{align}
    P[(X,Y) \in A] = \int \int_{A} f(x,y) dx dy
\end{align}
    
Nuevamente no cualquier función puede ser una función probabilidad conjunta

## Distribuciones marginales
Supongamos que dado una distribución de probabilidad conjunta $f(x,y)$ para las variables discretas $X$ e $Y$, nos interesa conocer la distribución de probabilidad solamente para una de ellas.

Estas distribuciones se llaman **distribuciones marginales** y se calculan así para el caso discreto:

\begin{align}
    g(x) & = \sum_{y} f(x,y) &
    h(y) & = \sum_{x} f(x,y)
\end{align}

Y así para el caso de variables continuas $X$ e $Y$:

\begin{align}
    g(x) & = \int_{-\infty}^{\infty} f(x,y) dy &
    h(y) & = \int_{-\infty}^{\infty} f(x,y) dx
\end{align}


## Distribuciones condicionales
Supongamos que dado una distribución de probabilidad conjunta $f(x,y)$, queremos conocer la probabilidad de que el valor de $X$ esté entre $a$ y $b$ dado algún valor fijo para la variable $Y$.

Para esto se definen las distribución condicional de la variable $X$ dado que $Y=y$ como sigue:

\begin{align}
   f(x|y) = \frac{f(x,y)}{h(y)} \quad \forall h(y) > 0
\end{align}

**Ejemplo**: el la fabricación de aceros, ¿cómo calcular la probabilidad de que la dureza esté entre 100 y 125 HB dado que la resistencia a la tracción es 560 MPa?


Usando la definición de distribución condicional, se calcula la probabilidad de que $X \in [a,b]$ dado que $Y=y$ para el caso discreto como sigue:

\begin{align}
   P(a<X<b | Y=y) = \sum_{x=a}^{b} f(x|y)
\end{align}

Y para el caso continuo como sigue:

\begin{align}
   P(a<X<b | Y=y) = \int_{a}^{b} f(x|y) dx
\end{align}

Evidentemente estas ecuaciones pueden adaptarse para dejar la variable $X$ fija y calcular la probabilidad que $Y \in [a,b]$. Para esto se usaría la función marginal $g(x)$ en vez de $h(y)$

## Independencia estadística
Para el caso de variables independientes se cumple que $f(x|y) = f(x)$ y que  $f(y|x) = f(y)$. Es decir, el resultado de una variable no repercute en la otra y viceversa.

Supongamos dos variables aleatorias $X$ e $Y$ (discretas o continuas) con distribución de probabilidad conjunta $f(x,y)$ y distribuciones marginales $g(x)$ y $h(y)$, respectivamente. Ambas variables con estadísticamente independientes si y solo si:

\begin{align}
   f(x,y) = g(x) h(y)
\end{align}

# Sumario
- Las variables aleatorias se pueden dividir en discretas o continuas. Generalmente las discretas se asocian a conteos y las continuas a mediciones.
- La distribución de probabilidad representa las probabilidades con que una variable aleatoria adopta sus posibles valores.
- Dado las características de las variables continuas, sus distribuciones de probabilidades se expresan en fórmulas y se llaman función de densidad de probabilidad.
- La distribución acumulativa de probabilidad representa las probabilidades con que una variable aleatoria adopta un valor menor a un valor específico.
- Las distribuciones de probabilidad conjunta expresan cómo simultáneamente varían dos variables aleatorias.