# Distribución de Probabilidad Conjunta

El conocimiento de estas distribuciones es fundamental para aplicar en el Método de Máxima Verosimilitud e inferencia estadística, sobre una población de la cual se selecciono una muestra aleatoria.  
Para comenzar consideremos la distribución conjunta para dos v.a. discretas, luego para dos v.a. continuas y para terminar se extenderan las definiciones para más de dos v.a.

## Función de Probabilidad de Masa Conjunta

### Definición:
Sean *X* e *Y* v.a. discretas, sobre el mismo espacio muestral *S*, entonces la **Función de Probabilidad de Masa Conjunta (fpmc) de (X, Y)** es la función definida:

\begin{align}
    p(x, y) &= P[(X = x) \cap (Y = y)] & \forall x, y \in \mathbb{R}
\end{align}

### Propiedades de la fpmc:
* 
\begin{align}
    0 \le p(x,y) \le 1, && \forall x, y \in \mathbb{R}
\end{align}  


* 
\begin{align}
    P[(X, Y) \in A] = \sum_{(x,y) \in A} p(x, y), && \forall A \subseteq \mathbb{R}^{2}
\end{align}  


* 
\begin{align}
    \sum_{x}\sum_{y} p(x, y) = 1
\end{align}

**Observación:** Usando la fpmc de (X, Y) se pueden obtener las funciones de distribución de probabilidades para *X* e *Y* respectivamente. Las mismas están dadas por:  

\begin{align}
    p_{x} (x) &= \sum_{y} p(x, y) & \forall x \in \mathbb{R} \\
    p_{y} (y) &= \sum_{x} p(x, y) & \forall y \in \mathbb{R}
\end{align}

### Ejemplo I:
Se asignan aleatoriamente dos contratos diferentes entre tres empresas (A, B o C).  
Sean *X* e *Y* las v.a. definidas como el número de contratos asignados a la empresa A y B respectivamente; osea cada empresa puede recibir 0, 1 o 2 contratos.  

a) Hallar la fpmc de (X, Y).

b) Hallar las funciones de probabilidad marginal para *X* e *Y* respectivamente.

c) Calcular la esperanza y varianza de *X* e *Y*.

## Función de Densidad de Probabilidad Conjunta

### Definición:
Sean *X* e *Y* v.a. continuas, sobre el mismo espacio muestral *S*. SE llama **Función de Densidad de Probabilidad Continua (fdpc) de (X, Y)** a una función $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ no negativa y tal que:

\begin{align}
    P[(a_{1} \le X \le b_{1}) \cap (a_{2} \le Y \le b_{2}) ] = \int_{a_{1}}^{b_{1}} \int_{a_{2}}^{b_{2}} f(x, y) dy dx
\end{align}

donde $a_{i} < b_{i}$ con *i = 1, 2.*

### Propiedades de la fdpc:

* 
\begin{align}
    \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) dx dy = 1
\end{align}


* 
\begin{align}
    P[(X, Y) \in A] = \int \int_{(x,y) \in A} f(x, y) dx dy && \forall A \subseteq \mathbb{R}^{2}
\end{align}

**Observación:** Usando la fdpc de (X, Y) se pueden obtener las funciones de densidad de probabilidades para *X* e *Y* respectivamente. Las mismas estan dadas por:

\begin{align}
    f_{x} (x) &= \int_{-\infty}^{\infty} f(x, y) dy & \forall x \in \mathbb{R} \\
    f_{y} (y) &= \int_{-\infty}^{\infty} f(x, y) dx & \forall y \in \mathbb{R}
\end{align}

Estas funciones $f_{x}$ y $f_{y}$ se las denomina **función densidad de probabilidad marginal para *X* e *Y* respectivamente.**

### Ejemplo II:
Supongamos que en un peaje hay dos puestos de atención, uno para automóviles particulares y otro para colectivos. Sean *X* e *Y* la proporción de tiempo en que permanece ocupado el puesto de automóviles particulares y el de colectivos respectivamente, en una unidad especificada. Supongamos que la fdpc de (X, Y) esta dada por:

\begin{equation}
    f(x, y) =
    \begin{cases}
        k(x + y^{2}) & \text{para } 0 \le x, y \le 1 \\
        0 & \text{caso contrario}
    \end{cases}
\end{equation}

con *k* una constante positiva.

a) Determinar el valor de la constante *k* para que *f* sea fdpc.  

b) Hallar las funciones densidad de probabilidad marginal para *X* e *Y* respectivamente.  

c) Hallar la probabilidad que las proporciones de los tiempos ocupados por ambos puestos sean menores a $1/4$.  

d) Calcular $P(X > Y)$.

e) Hallar la esperanza y varianza de *X* e *Y*.

### Ejemplo III:
Dada la siguiente fdpc de (X, Y)

\begin{equation}
    f(x, y) =
    \begin{cases}
        k x y & 0 \le x, y \le 1, & x + y \le 1 \\
        0 & \text{caso contrario}
    \end{cases}
\end{equation}

con *k* una constante positiva.

a) Determinar el valor de la constante *k* para que *f* sea fdpc.  

b) Hallar las funciones de densidad de probabilidad marginal para *X* e *Y* respectivamente.

## Variables aleatorias independientes

### Definición:
Diremos que *X* e *Y* son **v.a. independientes**, sobre el mismo espacio muestral *S*, si

\begin{align}
    p(x, y) = p_{x}(x) p_{y}(y)&& \forall x, y \in \mathbb{R}\ \text{si X e Y son v.a. discretas.} \\
    f(x, y) = f_{x}(x) f_{y}(y)&& \forall x, y \in \mathbb{R}\ \text{si X e Y son v.a. continuas.}
\end{align}

---
Volver a los enunciados de los ejemplos I y IV, determinar si las variables *X* e *Y* son independientes. Justifique claramente su respuesta.  
___

Ahora vamos a extender los conceptos dados para mas de dos variables aleatorias.

### Definición:
Sean $X_{1}, X_{2},\ldots, X_{n}$ v.a., sobre el mismo espacio muestral *S*, entonces:  

a) Si ellas son discretas se define la **función de probabilidad de masa conjunta de $(X_{1}, X_{2},\ldots, X_{n})$** como:

\begin{align}
    p(x_{1}, x_{2},\ldots, x_{n}) = P\left(\cap_{i = 1}^{n} [X_{i} = x_{i}]\right) \forall x_{i} \in \mathbb{R}, i = 1,\ldots, n.
\end{align}  

b) Si ellas son continuas se llama **función densidad de probabilidad conjunta de $(X_{1}, X_{2}, \ldots, X_{n})$** a una función *f* no negativa tal que:

\begin{align}
    P([a_{1} \le X_{1} \le b_{1}] \cap \ldots \cap [a_{n} \le X_{n} \le b_{n}]) = \int_{a_{1}}^{b_{1}} \ldots \int_{a_{n}}^{b_{n}} f(x_{1},\ldots, x_{n}) dx_{n} \ldots dx_{1} \\
    \forall a_{i} < b_{i}\ \text{números reales, } i = 1,\ldots, n.
\end{align}  

c) Diremos que $X_{1}, X_{2}, \ldots, X_{n}$ son v.a. **mutuamente independientes** si cualquier subconjunto de v.a. $\{X_i\}_{i \in I}$ cumple que la fpmc o fdpc, según corresponda, es igual al producto de las marginales.

## Valores esperados, covarianza y correlación

Ahora vamos a ver como calcular el valor esperado de una v.a. que tenga en cuenta la información de dos o más variables aleatorias.  
También daremos una *medida de la asociación* entre variables aleatorias. 

### Proposición:
Sean *X* e *Y* v.a., sobre el mismo espacio muestral *S*, con fpmc o fdpc de (X, Y) en el caso discreto o continuo respectivamente. Entonces

\begin{equation}
    E(h(X, Y) =
    \begin{cases}
        \sum_{x} \sum_{y} h(x, y)\ p(x, y) & \text{caso discreto} \\
        \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} h(x, y)\ f(x, y) dx dy & \text{caso continuo}
    \end{cases}
\end{equation}

siempre que exista.  

Se puede extender este método para calcular el valor esperado de una función de *n* v.a., cambiando por una suma o integral *n* dimensional según que las v.a. sean discretas o continuas respectivamente.

### Consecuencia:
Si *X* e *Y* v.a., sobre el mismo espacio muestral *S*, con valores esperados entonces

a) $E(aX + bY) = aE(X) + bE(Y)\ \forall a, b \in \mathbb{R}$  

b) Si *X* e *Y* son v.a. independientes $E(XY) = E(X)\ E(Y)$  

Por otro lado cuando dos v.a. no son independientes entonces se puede definir una medida que cuantifique la dependencia entre ellas.

### Definición:
Sean *X* e *Y* v.a., sobre el mismo espacio muestral *S*, entonces se define la **covarianza entre X e Y** como

\begin{align}
    cov(X, Y) &= E[(X - \mu_{X}) (Y-\mu_{Y})] \\
    &= 
    \begin{cases}
        \sum_{(x, y)} (x - \mu_{X}) (y - \mu_{Y}) p(x, y) & \text{caso discreto} \\
        \int \int (x - \mu_{X}) (y - \mu_{Y}) f(x, y) dx dy & \text{caso continuo}
    \end{cases}
\end{align}

donde $\mu_{X}$ y $\mu_{Y}$ son las esperanzas de *X* e *Y* respectivamente.

---
La $cov(X, Y)$ es una medida de dependencia lineal entre *X* e *Y*, el signo sera positivo o negativo dependiendo si ellas estan positivamente o negativamente asociadas.

\begin{align}
    cov(X, Y) > 0 && \text{entonces cuando X crece Y crece} \\
    cov(X, Y) < 0 && \text{entocnes cuando X crece Y decrece} \\
    cov(X, Y) = 0 && \text{si no hay dependencia lineal entre X e Y}
\end{align}  
___

### Proposición:
Sean *X* e *Y* v.a., sobre el mismo espacio muestral *S*, entonces:

a) $cov(X, Y) = E(X\ Y) - E(X)E(Y)$  
b) Si *X* e *Y* son v.a. independientes $cov(X, Y) = 0$  
c) $cov(aX + b,\ cY + d) = a\ c\ cov(X, Y)\ \ \forall a, b, c\ y\ d \in \mathbb{R}$  
d) $V(aX + bY) = a^{2} V(X) + b^{2} V(Y) + 2\ a\ b\ cov(X, Y)\ \ \forall a, b \in \mathbb{R}$  
e) Si *X* e *Y* son v.a. independientes entonces  
$V(aX + bY) = a^{2} V(X) + b^{2} V(Y)\ \ \forall a, b \in \mathbb{R}.$

Ejercicio: Calcular las covarianzas para las v.a. *X* e *Y* definidas en los ejemplos I y IV.

**Observación:** Como ya se dijo si *X* e *Y* son v.a. independientes entonces $cov(X, Y) = 0$ pero la recíproca puede no ser cierta.

### Ejemplo IV:
Sean *X* e *Y* dos v.a. con fpmc dada por

| X / Y | -1 | 0 | 1 |
| :-: | :-: | :-: | :-: |
| **-1** | 1/8 | 1/8 | 1/8 |
| **0** | 1/8 | 0 | 1/8 |
| **1** | 1/8 | 1/8 | 1/8 |

a) Hallar las marginales para *X* y para *Y*.  

b) ¿*X* e *Y* son v.a. independientes? Justifique su respuesta.  

c) Calcular las esperanzas de *X* e *Y*.  

d) Calcular la $cov(X, Y)$.


Una desventaja que tiene la $cov(X, Y)$ es que depende de las unidades de medidas de *X* e *Y*, para salvar este problema se define el *coeficiente de correlación.*

### Definición:
Sean *X* e *Y* v.a., sobre el mismo espacio muestral *S*, entonces se define el **coeficiente de correlación entre X e Y** como  

\begin{align}
    \rho(X, Y) = corr(X, Y) = \frac{cov(X, Y)}{\sigma_{X}\ \sigma_{Y}}
\end{align}

donde $\sigma_{X}$ y $\sigma_{Y}$ son los desvíos estándar de *X* e *Y* respectivamente.

Ejercicio: Calcular las correlaciones entre las v.a. *X* e *Y* definidas en los ejemplos I y II.

### Propiedades del coeficiente de correlación:

a) $corr(aX + b, cY + d) = sg(a c)corr(X, Y)\ \ \forall\ a\ y\ c \neq 0,\ b\ y\ d \in \mathbb{R}$  

b) $-1 \le corr(X, Y) \le 1$  

c) Si *X* e *Y* son v.a. independientes entonces $corr(X, Y) = 0$.  

d) Si $a \neq 0$ y $b \in \mathbb{R}, Y = aX + b$ entonces

\begin{equation}
    corr(X, Y) =
    \begin{cases}
        1 & si\ a > 0 \\
        -1 & si\ a < 0
    \end{cases}
\end{equation}

### Algunos comentarios:
- $\rho(X, Y)$ es una medida de la dependencia lineal entre *X* e *Y*.
- Si *X* e *Y* estan perfectamente relacionadas linealmente entonces $\rho(X, Y)$ es 1 o -1, dependiendo si la relación es creciente o decreciente respectivamente.
- Si $\rho(X, Y) = 0$ no implica independencia entre *X* e *Y*!!! solo se dice que no hay una relación lineal entre ellas. Cuando esto ocurre se dice que *X* e *Y* son no correlacionadas.

Ahora se extenderan algunas de las propiedades sobre la esperanza, covarianza y varianza para una combinación de n variables aleatorias. *(ya las probamos para n = 2)*

### Proposición:
Si $X_{1}, \ldots, X_{n}$ v.a. con varianzas finitas, $a_{i} \in \mathbb{R}\ \forall\ i = 1,\ldots, n$  

a)
\begin{align}
    E\left( \sum_{i = 1}^{n} a_{i} X_{i} \right) = \sum_{i = 1}^{n} a_{i} E(X_{i})
\end{align}

b)  
Y si $Y_{1},\ldots,Y_{m}$ v.a. con varianzas finitas, $b_{j} \in \mathbb{R}\ \forall\ j = 1,\ldots, m$ entonces:

\begin{align}
    cov\left( \sum_{i = 1}^{n} a_{i} X_{i}, \sum_{j=1}^{m} b_{j} Y_{j}\right) = \sum_{1 \le i \le n, 1 \le j \le m} a_{i} b_{j} cov(X_{i}, Y_{j})
\end{align}  

c)  
\begin{align}
    V\left(\sum_{i = 1}^{n} a_{i} X_{i} \right) = \sum_{i = 1}^{n} a_{i}^{2} V(X_{i}) + 2 \sum_{1 \le i < j \le n} a_{i} a_{j} cov(X_{i}, X_{j}) 
\end{align}  

d)  
Si $X_{1},\ldots, X_{n}$ v.a. independientes entonces

\begin{align}
    V \left( \sum_{i = 1}^{n} a_{i} X_{i} \right) = \sum_{i = 1}^{n} a_{i}^{2} V(X_{i})
\end{align}  

e)  
**Importante:** Si $X_{1},\ldots, X_{n}$ v.a. independientes e idénticamente distribuidas con $E(X) = \mu$ y $V(X) = \sigma^{2}$ entonces:

\begin{align}
    E(\overline{X}) = \mu && \text{y} && V(\overline{X}) = \frac{\sigma^{2}}{n}.
\end{align}

*La variable promedio muestral es una combinación lineal donde $a_{i} = 1/n\ \ \forall\ i = 1,\ldots, n.$*  
$E(X_{i}) = \mu$ y $V(X_{i}) = \sigma^{2}\ \forall\ i = 1,\ldots, n$

### Definición:
Diremos que $X_{1},\ldots, X_{n}$ es una **muestra aleatoria** (m.a.) si son variable aleatorias independientes e idénticamente distribuidas.

Con la proposicion mencionada podemos decir cuanto vale la esperanza y varianza de una combinación lineal de n variables aleatorias pero...  
**¿Que podemos decir sobre su distribucion?**  
Una respuesta parcial a la pregunta esta dada por esta proposición.

### Proposición:
Si $X_{1},\ldots, X_{n}$ son v.a. independientes y con distribución normal, o sea que $X_{i} \sim N(\mu_{i}, \sigma_{i}^{2}),\ \forall\ i = 1,\ldots, n$. Entonces

\begin{align}
    \sum_{i = 1}^{n} a_{i} X_{i} \sim N \left( \sum_{i = 1}^{n} a_{i} \mu_{i},\ \sum_{i = 1}^{n} a_{i}^{2} \sigma_{i}^{2} \right)
\end{align}

### Consecuencia:
Si $X_{1},\ldots, X_{n}$ es una m.a. con distribución $N(\mu, \sigma^{2}$ entonces:  

\begin{align}
    \overline{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right) \Leftrightarrow \left( \frac{\overline{X}-\mu}{\sigma}\right) \sqrt{n} \sim N(0, 1)
\end{align}

#### Problema I:
Si *X* e *Y* son v.a. independientes con distribuciones exp(1). Probar que la v.a. $W = X + Y \sim \Gamma(2, 1)$. (Notar que no es una exp(2))

#### Problema II:
a) Si X_{1}, \ldots, X_{n} son v.a. independientes y con distribución $Bernoulli(p) = B(1, p)\ \forall\ i = 1,\ldots, n$. Entoncces
\begin{align}
    \sum_{i = 1}^{n} X_{i} \sim B(n, p)
\end{align}  

b) Si $X_{1}$ y $X_{2}$ son variables independientes con distribucion $B(n_{i}, p)$ con $i = 1, 2$ respectivamente, entonces
\begin{align}
    X_{1} + X_{2} \sim B(n_{1} + n_{2}, p)
\end{align}

#### Problema III:
a) Si $X_{1}$ y $X_{2}$ son variables independientes con distribución $P(\lambda_{i})$ con $i = 1, 2$ respectivamente, entonces
\begin{align}
    X_{1} + X_{2} \sim P(\lambda_{1} + \lambda_{2})
\end{align}  

b) Si $X_{1},\ldots, X_{n}$ son v.a. independientes y con distribución Poisson, o sea que $X_{i} \sim P(\lambda_{i}),\ \forall\ i = 1,\ldots, n$. Entonces
\begin{align}
    \sum_{i = 1}^{n} X_{i} \sim P \left( \sum_{i = 1}^{n} \lambda_{i}\right)
\end{align}

**Ahora ¿que se puede decir sobre la distribución de la variable $\overline{X}$ si la distribución de la m.a. no es normal?**  

Una de las respuestas posible es uno de los teoremas mas importantes dentro de la teoria de la Probabilidad y Estadística, conocido como **Teorema Central del Límite (T.C.L.)**

![Image 1](resources/imgs_chapter_v/img_1.png)
![Image 2](resources/imgs_chapter_v/img_2.png)
![Image 3](resources/imgs_chapter_v/img_3.png)
![Image 4](resources/imgs_chapter_v/img_4.png)
![Image 5](resources/imgs_chapter_v/img_5.png)

## Teorema Central del Límite (T.C.L.)
Si $X_{1},\ldots, X_{n}$ es una m.a. con $E(X_{1}) = \mu$ y $V(X_{1}) = \sigma^{2}$ entonces si *"n es suficientemente grande"* la v.a. promedio muestral tiene distribución aproximadamente normal, o sea:

\begin{align}
    \overline{X} \sim N\left( \mu, \frac{\sigma^{2}}{n}\right) \Leftrightarrow \left( \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}\right) \sim N(0, 1)
\end{align}  

O equivalentemente:
\begin{align}
    \frac{\sum_{i = 1}^{n} X_{i} - n \mu}{\sqrt{n \sigma^{2}}} \sim N(0, 1)
\end{align}

La aplicación de este resultado es que bajo las hipótesis del T.C.L.

\begin{align}
    P(\overline{X} \le x) \approx \Phi \left(\left(\frac{x-\mu}{\sigma}\right) \sqrt{n} \right)\ \forall\ x \in \mathbb{R}
\end{align}

O equivalentemente:

\begin{align}
    P\left(\sum_{i = 1}^{n} X_{i} \le x\right) \approx \Phi \left( \frac{x - n \mu}{\sqrt{n \sigma^{2}}} \right)\ \forall\ x \in \mathbb{R}
\end{align}

Pero ¿cuándo consideraremos que la aproximación es adecuada?  

El tamano de la m.a. dependera de la distribución de la misma, si ella es simétrica entonces la aproximación podría ser buena aun para *n* pequeño pero debera ser mayor si es asimétrica.  

La regla práctica que usaremos será tomar $n \ge 30$  

Una consecuencia del T.C.L. es la aproximación a la Binomial por una Normal.

### Consecuencia:
Si $X_{1},\ldots, X_{n}$ es una m.a. con $Bernoulli(p)$ entonces si *"n es suficientemente grande":*  

\begin{align}
    \overline{X} = \hat{p} \sim N \left(p, \frac{p (1 - p)}{n} \right) \Leftrightarrow \frac{\hat{p} - p} {\sqrt{\frac{p (1 - p)}{n}}} \sim N(0, 1)
\end{align}

### Aproximación a la Binomial por una Normal:
Si $X = \sum_{i = 1}^{n} X_{i} \sim B(n, p)$ entonces

\begin{align}
    P(X \le x) \sim \Phi \left( \frac{x - n p}{\sqrt{n p (1 - p)}}\right)
\end{align}  

Para esta distribución se recomienda tomar
\begin{align}
    n p \ge 10 && y && n (1 - p) \ge 10
\end{align}

### Ejemplo V:
Supongamos que una máquina produce el 10% de articulos defectuosos diariamente. Como una prueba de control de calidad, se procede a detener el funcionamiento de la maquina si por lo menos el 15% son defectuosos en una muestra aleatoria de 100 artículos de la producción diaria. ¿Cuál es la probabilidad que en un día dado deba detenerse la máquina para repararla?