# CLASE 1.5: Una introducción (generosa) al cálculo de probabilidades
---

## Introducción.
La probabilidad, en términos bien generales, se corresponde con el estudio de la incertidumbre. Puede ser pensada como la fracción de tiempo en el cual un evento determinado ocurre, o como el grado de creencia bajo el cual un evento puede ocurrir. Queremos usar la probabilidad como medida de la posibilidad en que un suceso ocurre en un experimento determinado. Esta idea es esencial en los modelos de machine learning, puesto que con frecuencia queremos entender cuánto nivel de incertidumbre hay en nuestra data o en la predicción realizada por un modelo determinado. La cuantificación de la incertidumbre requiere de objetos matemáticos especializados conocidos como **variables aleatorias**, las cuales corresponden a funciones que mapean los resultados de experimentos aleatorios sobre los conjuntos de propiedades que nos interesan. Hay funciones asociadas a las variables aleatorias que permiten medir la probabilidad de que un resultado particular (o un conjunto de resultados) ocurra(n). Tales funciones se conocen como **distribuciones de probabilidad**.

Las distribuciones de probabilidad son utilizadas como cimientos para la construcción de otros conceptos, tales como modelos probabilísticos, modelos gráficos y selección de modelos. En esta sección, presentaremos los conceptos necesarios para poder definir una probabilidad y cómo estos se relacionan para la construcción de una variable aleatoria, a fin de poder entender constructos más generales, tales como densidades y distribuciones.

## Teoría clásica de probabilidad.

### El concepto de probabilidad.
Todos estamos familiarizados con la importancia de los experimentos en ciencias e ingeniería. La experimentación es útil porque, si suponemos que llevamos a cabo ciertos experimentos bajo condiciones esencialmente idénticas (algo especialmente cierto en pruebas industriales de algún componente, por ejemplo, un sistema de medición de perfil de cascada de mineral en un molino SAG), llegaremos (o deberíamos llegar) a los mismos resultados. En estas circunstancias, estamos en condiciones de controlar el valor de las variables que afectan el resultado del experimento.

Sin embargo, en algunos experimentos, no somos capaces de controlar el valor de determinadas variables, de manera que un resultado cambiará de un experimento a otro, a pesar de que la mayoría de las condiciones sean las mismas. Estos experimentos se describen como aleatorios, porque existe una determinada (y muchas veces razonable) cantidad de incertidumbre inherente a ellos. Por ejemplo, si lanzamos un dado (no cargado y simétrico), el resultado del experimento será uno de los números del conjunto $\Omega =\left\{ 1,2,3,4,5,6\right\}$. Un ejemplo un poco más industrial es la medición de la vida útil de fusibles producidos por una compañía manufacturadora de estos artefactos eléctricos. Entonces, el resultado del experimento es el tiempo $t$ en horas que se encuentra en algún intervalo, digamos $0\leq t\leq 6500$, suponiendo que la vida útil del fusible tiene un límite técnico de 6500 horas de uso.

Un conjunto $\Omega$ que consta de todos los resultados posibles de un experimento aleatorio es llamado espacio muestral, y cada resultado se denomina punto muestral. Con frecuencia habrá más de un espacio muestral que puede describir los resultados de un experimento, pero generalmente habrá uno que provee la mayor cantidad de información.

**Ejemplo 5.1:** Consideremos el experimento de lanzar dos veces una moneda. Sea 0 el resultado que describe la obtención de un sello, y 1 el resultado que describe la obtención de una cara. El espacio muestral asociado a este experimento se ilustra en la Fig. (5.1), donde, por ejemplo, el par (0, 1) representa que, en el primer lanzamiento, obtenemos un sello, y en el segundo, una cara. ◼︎

<p style="text-align: center;"><img src="figures/fig_5_1.png" width="450"></p>
<p style="text-align: center;">Fig. (5.1): Una representación gráfica del espacio muestral relativo al experimento de lanzar una moneda (no trucada) </p>

Si un espacio muestral tiene un numero finito de puntos muestrales, como en el ejemplo (5.1), se llamará **espacio muestral finito**. Si tiene un total de $n$ puntos, con $n\in \mathbb{N}$, siendo $n$ un valor no determinado, será llamado **espacio muestral infinito numerable** o **contable**. Si tiene un número indeterminado de puntos, no necesariamente equidistantes en relación a una referencia (por ejemplo, tantos puntos como los existentes en el intervalo $[a,b]$), será llamado **espacio muestral infinito no numerable**.

Con frecuencia, si un espacio muestral $\Omega$ es finito o infinito numerable, se habla de un **espacio muestral discreto**. Por otro lado, si $\Omega$ es infinito no numerable, suele ser denominado como **espacio muestral continuo**.

Un **evento** es un subconjunto $A$ del espacio muestral $\Omega$. Es decir, un conjunto de resultados posibles. Si el resultado de un experimento es un elemento de $A$, decimos que **el evento $A$ ocurrió**. Un evento que consta de un punto sencillo de $\Omega$ se denomina, con frecuencia, un **evento simple o elemental**.

**Ejemplo 5.2:** Si lanzamos una moneda dos veces, el evento relativo a que sólo salga una cara es un subconjunto del espacio muestral y que consta únicamente de los puntos $(0, 1)$ y $(1, 0)$, tal y como se ilustra en la Fig. (5.2). ◼︎

<p style="text-align: center;"><img src="figures/fig_5_2.png" width="450"></p>
<p style="text-align: center;">Fig. (5.2): Una representación gráfica del espacio muestral relativo al experimento descrito en el ejemplo (5.2)</p>

Como eventos particulares tenemos al mismo espacio muestral $\Omega$, el cual se conoce como **evento seguro** o **cierto**, dado que un elemento de $\Omega$ debe ocurrir sí o sí. Por otro lado, el conjunto vacío $\emptyset$ se denomina **evento imposible**, debido a que no es factible que éste ocurra. Usando operaciones lógicas (que son también válidas para el álgebra de conjuntos), podemos definir otros eventos de $\Omega$. Por ejemplo, si $A$ y $B$ son eventos, entonces podemos definir:

- **(C1):** $A\cap B$ corresponde a la **conjunción** de los eventos $A$ y $B$. Denota al evento compuesto por la ocurrencia simultánea de $A$ y $B$. En lógica matemática, la conjunción se suele escribir como $A\wedge B$ y se corresponde con la operación lógica “Y” (`and` o `&` en Python).
- **(C2):** $A\cup B$ corresponde a la **disyunción** de los eventos $A$ y $B$. Denota el evento compuesto por la ocurrencia de $A$, o bien, de $B$. En lógica matemática, la disyunción se suele escribir como $A\vee B$ y se corresponde con la operación lógica “O” (`or` o `|` en Python).
- **(C3):** $\bar{A}$ s el **evento complementario** a $A$. Denota el evento que describe la no ocurrencia de $A$. En lógica matemática, el complemento se corresponde con la operación lógica de negación denotada como “NO” (`not` o `~` en Python). También suele denotarse como $\sim A$.
- **(C4):** $A-B=A\cap \bar{B}$ describe la **diferencia simétrica** de los eventos $A$ y $B$. Describe al evento que consiste en la ocurrencia de $A$ y la no ocurrencia de $B$. En particular, observamos que $\bar{A}=\Omega -A$, donde $\Omega$ es el espacio muestral.

Si los conjuntos que describen a $A$ y $B$ son **disjuntos** (es decir, $A\cap B=\emptyset$), decimos que los eventos $A$ y $B$ son **mutuamente excluyentes**. En la práctica, esto significa que no pueden ocurrir simultáneamente. Una colección $A_{1},...,A_{n}$ de eventos es mutuamente excluyente si cada par $(A_{i},A_{j})$ de la colección (para $i\neq j$) es mutuamente excluyente.

En cualquier experimento aleatorio, hay siempre incertidumbre sobre si ocurrirá un evento en particular. Como una medida de la probabilidad con que esperamos que ocurra cierto evento, es conveniente asignar un número entre 0 y 1. Si estamos seguros de que tal evento ocurrirá, decimos que la **probabilidad** de dicho evento es 1 (o, equivalentemente, del 100%). Si estamos seguros de que tal evento no ocurrirá, la probabilidad de dicho evento es 0 (o del 0%).

La probabilidad así definida permite además definir la **probabilidad del complemento** de un evento. De esta manera, si un evento tiene una probabilidad de $\frac{1}{4}$ (o del 25%), entonces la diferencia $1-\frac{1}{4}=\frac{3}{4}$ (o 75%) será la probabilidad del complemento de dicho evento (es decir, la probabilidad de que no ocurra). Existen varias formas, en la teoría clásica, de definir una probabilidad. En primera instancia, tenemos un **enfoque clásico**, que establece que si un evento puede ocurrir de $k$ formas diferentes de un total de $n$, todas igualmente posibles (es decir, **equiprobables**), entonces la probabilidad del evento es igual a $\frac{k}{n}$. Si $A$ es tal evento, entonces escribimos $P(A)=\frac{k}{n}$.

Existe también un **enfoque frecuentista** que permite definir la probabilidad en un contexto más empírico. De esta manera, si después de $n$ repeticiones de un experimento, donde $n$ es un número muy grande, se observa que un evento ocurre $k$ veces, entonces la probabilidad de dicho evento es igual a $\frac{k}{n}$. Al respecto, una probabilidad definida de esta manera suele denominarse **probabilidad empírica** del evento.

Ambos enfoques presentan serios inconvenientes. El clásico debido a que la frase “igualmente probable” es una situación que se describe vagamente; y el frecuentista, porque un “número grande” es igualmente vago. Debido a estas dificultades, la definición de probabilidad se hace en base a ciertos enunciados conocidos formalmente como **axiomas de probabilidad**.

**<font color='blue'>Definición 5.1 – Probabilidad:</font>** Supongamos que tenemos un espacio muestral $\Omega$. Si $\Omega$ es discreto, todos los subconjuntos corresponden a eventos y viceversa, pero si $\Omega$ no es discreto, sólo los subconjuntos *medibles* corresponden a eventos. Para cada evento $A$ en la clase $C$ de eventos (siendo $C$ un subconjunto como el descrito previamente), asociamos un número $P(A)\in \mathbb{R}$. Entonces $P$ se denomina **función de probabilidad** y $P(A)$ la probabilidad asociada al evento $A$, si se cumplen los siguientes axiomas:

- **(A1):** Para cada evento $A$ en la clase $C$, se tiene que $P(A)\geq 0$.
- **(A2):** Para el evento seguro $\Omega$ en la clase $C$, se tiene que $P(\Omega)=1$.
- **(A3):** Para cualquier número de eventos mutuamente excluyentes, digamos $A_{1},...,A_{n}$, en la clase $C$, se tiene que $P\left( \bigcup^{n}_{k=1} A_{k}\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)$.

A partir de los axiomas de probabilidad, es posible agrupar una serie de resultados importantes e inmediatos relativos a la definición de probabilidad. Todos estos resultados los agrupamos en términos del siguiente teorema.

**<font color='crimson'>Teorema 5.1:</font>** *Sea $\Omega$ un espacio muestral y $\left\{ A_{k}\right\}^{n}_{k=1}$ una colección de eventos de $\Omega$. Entonces tenemos que:*

- **(T1):** *Si $A_{i}\subset A_{j}$, entonces $P(A_{i})\leq P(A_{j})$ y $P(A_{j}-A_{i})=P(A_{j})-P(A_{i})$.*
- **(T2):** *Para todo evento $A_{k}\subset \Omega$, se tiene que $0\leq P(A_{k})\leq 1$. Es decir, la probabilidad de un evento tiene un valor entre 0 y 1.*
- **(T3):** $P(\emptyset)=0$. *Es decir, el evento imposible tiene probabilidad nula.*
- **(T4):** *Si $\bar{A}$ es el complemento de $A$, entonces se tiene que $P(\bar{A})=1-P(A)$.*
- **(T5):** *Si $A=\bigcup^{n}_{k=1} A_{k}$, donde $A_{1},...,A_{n}$ son eventos mutuamente excluyentes, entonces $P\left( A\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)$. En particular, si $A=\Omega$, entonces $P(\Omega)=1$.*
- **(T6):** *Si $A$ y $B$ son dos eventos cualesquiera, entonces $P(A\cup B)=P(A)+P(B)-P(A\cap B)$. De forma más general, para la colección $\left\{ A_{k}\right\}^{n}_{k=1}$, si los eventos de dicha colección son todos arbitrarios, se tiene que*

$$P\left( \bigcup^{n}_{k=1} A_{k}\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)  -\sum_{i,j:1\leq i\leq j\leq n} P\left( A_{i}\cap A_{j}\right)  +\sum_{i,j,k:1\leq i\leq j\leq k\leq n} P\left( A_{i}\cap A_{j}\cap A_{k}\right)$$
<p style="text-align: right;">$(5.1)$</p>

- **(T7):** *Para cualesquiera eventos $A$ y $B$, se tiene que $P(A)=P(A\cap B)+P(A\cap \bar{B})$*.
- **(T8):** *Si un evento $A$ debe dar como resultado la ocurrencia de uno de los eventos mutuamente excluyentes $A_{1},...,A_{n}$, entonces tenemos que*

$$P\left( A_{k}\right)  =\sum^{n}_{k=1} P\left( A\cap A_{k}\right)$$
<p style="text-align: right;">$(5.2)$</p>
◆

### Asignación de probabilidades.
Si un espacio muestral $\Omega$ consta de un número finito de resultados $a_{1},...,a_{n}$, entonces, conforme **(T5)**, tenemos que $P(A_{1})+\cdots +P(A_{n})=1$, donde $A_{1},...,A_{n}$ es una colección de eventos elementales tales que $A_{i}=\left\{ a_{i}\right\}$. Entonces podemos escoger arbitrariamente cualquier número no negativo para las probabilidades de esos eventos sencillos siempre y cuando se satisfaga la ecuación (5.2). En particular, si suponemos que hay probabilidades iguales para todos esos eventos sencillos, entonces se tendrá que

$$P\left( A_{k}\right)  =\frac{1}{k} \  ;\  k=1,...,n$$
<p style="text-align: right;">$(5.3)$</p>

Si $A$ es un conjunto conformado por $h$ eventos sencillos, entonces se tendrá que

$$P\left( A\right)  =\frac{h}{n}$$
<p style="text-align: right;">$(5.4)$</p>

que equivale a la fórmula clásica de probabilidad vista al inicio de esta sección.

**Ejemplo 5.3:** Supongamos que se lanza un dado no cargado y simétrico una sola vez. Calcularemos la probabilidad de obtener un 2 o un 5 en dicho lanzamiento. En efecto, el espacio muestral de este experimento corresponde al conjunto finito $\Omega =\left\{ 1,2,3,4,5,6\right\}$. Si asignamos probabilidades iguales a cada uno de los puntos muestrales (lo que desde luego es válido, puesto que hemos supuesto que el dado no está cargado y es completamente simétrico), entonces

$$P\left( 1\right)  =P\left( 2\right)  =\cdots =P\left( 6\right)  =\frac{1}{6}$$
<p style="text-align: right;">$(5.5)$</p>

Por lo tanto, la probabilidad buscada es $P(2\cup 5)=P(2)+P(5)=1/3$. ◼

### Probabilidad condicional.
Sean $A$ y $B$ dos eventos ilustrados en el diagrama de Venn de la Fig. (5.3), tales que $P(A)>0$. Denotemos por $P(B|A)$ la probabilidad de ocurrencia del evento $B$, condicionada a la ocurrencia previa del evento $A$. Puesto que sabemos que ocurrió $A$, es claro que dicho evento se convierte en el espacio muestral del evento $A|B$. Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.2 – Probabilidad condicional:</font>** Sean $A$ y $B$ dos eventos tales que $P(A)>0$. Definimos la **probabilidad condicional** de ocurrencia de $B$, dado que previamente ocurrió $A$, denotada como $P(B|A)$, como

$$P\left( B|A\right)  :=\frac{P\left( A\cap B\right)  }{P\left( A\right)}$$
<p style="text-align: right;">$(5.6)$</p>

<p style="text-align: center;"><img src="figures/fig_5_3.png" width="350"></p>
<p style="text-align: center;">Fig. (5.3): Diagrama de Venn que muestra los subconjuntos $A$ y $B$ de un espacio muestral $\Omega$, remarcando su intersección</p>

**Ejemplo 5.4:** Supongamos nuevamente que lanzamos un dado no cargado y simétrico. Vamos a determinar la probabilidad de que el resultado sea un número menor que 4, dado que previamente el mismo dado, tras lanzarlo, entregó un número impar.

En efecto, sea $A$ el evento condicional relativo a que, al lanzar el dado, el resultado sea un número impar. Luego $P(A)=\frac{1}{2}$. Por lo tanto, aplicando la fórmula de probabilidad condicional (5.6), obtenemos

$$P\left( B|A\right)  =\frac{P\left( A\cap B\right)  }{P\left( B\right)  } =\frac{1/3}{1/2} =\frac{2}{3}$$
<p style="text-align: right;">$(5.7)$</p>

Por lo tanto, la información empírica relativa a saber que nuestro dado previamente resultó en un número impar eleva las probabilidades de obtener un número menor que 4 a 2/3 (originalmente, sin ese conocimiento previo, dicha probabilidad era de 1/2). ︎◼︎

La definición de probabilidad condicional permite enunciar los siguientes teoremas.

**<font color='crimson'>Teorema 5.2:</font>** *Sean $A_{1},A_{2}$ y $A_{3}$ tres eventos arbitrarios. Entonces tenemos que*

$$P\left( A_{1}\cap A_{2}\cap A_{3}\right)  =P\left( A_{1}\right)  P\left( A_{2}|A_{1}\right)  P\left( A_{3}|A_{1}\cap A_{2}\right)$$
<p style="text-align: right;">$(5.8)$</p>
◆

**<font color='crimson'>Teorema 5.3 – Regla de la suma:</font>** *Si un evento $A$ debe originar uno de los eventos mutuamente excluyentes $A_{1},...,A_{n}$, entonces tenemos que*

$$P\left( A\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)  P\left( A|A_{k}\right)$$
<p style="text-align: right;">$(5.9)$</p>
◆

**<font color='blue'>Definición 5.3 – Eventos independientes:</font>** Sean $A$ y $B$ dos eventos con probabilidades de ocurrencia $P(A)$ y $P(B)$, respectivamente. Diremos que $A$ y $B$ son **eventos independientes** si se cumple que $P(B|A)=P(B)$. Esto equivale a decir que $P(A\cap B)=P(A)P(B)$. Más aun, la colección de eventos $A_{1},...,A_{n}$ será llamada **colección de eventos independientes** si cada una de las parejas $(A_{i},A_{j})$ es independiente (para $i\neq j$). En este caso, se tiene que

$$P\left( \bigcap^{n}_{k=1} A_{k}\right)  =\prod^{n}_{k=1} P\left( A_{k}\right)$$
<p style="text-align: right;">$(5.10)$</p>

Los resultados anteriores nos permiten formular el siguiente teorema, el cual es un resultado importante de la teoría de probabilidad.

**<font color='crimson'>Teorema 5.4 – Regla del producto:</font>** *Sea $A_{1},...,A_{n}$ una colección de eventos mutuamente excluyentes cuya unión es el espacio muestral $\Omega$ (es decir, al menos uno de los eventos de la colección tiene probabilidad no nula). Entonces, si $A$ es un evento arbitrario, se tiene que*

$$P\left( A_{k}|A\right)  =\frac{P\left( A_{k}\right)  P\left( A|A_{k}\right)  }{\sum\nolimits^{n}_{j=1} P\left( A_{j}\right)  P\left( A|A_{j}\right)  } \  ;\  1\leq k\leq n$$
<p style="text-align: right;">$(5.11)$</p>
◆

En términos más generales y menos matemáticos, el teorema de Bayes es de enorme relevancia puesto que vincula la probabilidad de $A$ dado $B$ con la probabilidad de $B$ dado $A$. Es decir, por ejemplo, que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza. Este sencillo ejemplo permite ilustrar la alta relevancia del teorema (5.4) en cuestión para la ciencia en todas sus ramas, puesto que tiene vinculación íntima con la comprensión de la probabilidad de aspectos causales dados los efectos observados. Es decir, mientras tengamos **evidencia empírica** de la ocurrencia de un fenómeno, siempre podemos tener un cierto nivel de certidumbre en relación a la ocurrencia de otros fenómenos que, experimentalmente, sabemos que están relacionados con el primero.

El teorema (5.4) es válido en todas las aplicaciones de la teoría de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea. En esencia, los seguidores de la estadística tradicional solo admiten probabilidades basadas en **experimentos repetibles** y que tengan una **confirmación empírica** mientras que los llamados **estadísticos Bayesianos** permiten **probabilidades subjetivas**. El teorema (5.4) puede servir entonces para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando recibimos información adicional de un experimento. La **estadística Bayesiana** está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica es lo que está abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los **clasificadores Bayesianos** que son frecuentemente usados en implementaciones de filtros de correo basura o spam, que se adaptan con el uso. Otra aplicación se encuentra en la fusión de datos, combinando información expresada en términos de densidad de probabilidad proveniente de distintos sensores. Es decir, la estadística Bayesiana resulta esencial en la base de muchos procesos de inteligencia artificial que son comunes en los algoritmos de machine learning.

**Ejemplo 5.5:** Consideremos una caja (que llamaremos $\Omega_{1}$) que contiene 3 bolitas rojas y 2 bolitas azules. Otra caja (la caja $\Omega_{2}$) contiene 2 bolitas rojas y 8 bolitas azules. Se define el siguiente experimento: Se lanza una moneda no trucada (es decir, cuyos resultados son equiprobables) y, si sale cara, se saca una bolita de la caja $\Omega_{1}$ y, si se obtiene sello, se saca una bolita de la caja $\Omega_{2}$. Vamos a resolver dos interrogantes:

- **(I1):** Determinaremos la probabilidad de obtener una bolita roja.
- **(I2):** Suponiendo que quien lanza la moneda no revela si obtiene cara o sello (de manera que no sabemos tampoco de qué caja se saca la bolita respectiva), y afirma que obtuvo una bolita roja, determinaremos la probabilidad de que haya escogido la caja $\Omega_{1}$.

En efecto, sea $R$ el evento definido por la obtención de una bolita roja, mientras que $\Omega_{1}$ y $\Omega_{2}$ describen los eventos que se escojan las cajas correspondientes. Dado que podemos obtener una bolita roja en ambas cajas, podemos aplicar la fórmula de probabilidad condicional de manera directa, obteniendo

$$P\left( R\right)  =P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  +P\left( \Omega_{2} \right)  P\left( R|\Omega_{2} \right)  =\frac{1}{2} \left( \frac{3}{3+2} \right)  +\frac{1}{2} \left( \frac{2}{2+8} \right)  =\frac{2}{5}$$
<p style="text-align: right;">$(5.12)$</p>

Para la pregunta **(I2)**, basta con aplicar el teorema de Bayes, lo que nos da

$$P\left( \Omega_{1} |R\right)  =\frac{P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  }{P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  +P\left( \Omega_{2} \right)  P\left( R|\Omega_{2} \right)  } =\frac{\frac{1}{2} \left( \frac{3}{3+2} \right)  }{\frac{1}{2} \left( \frac{3}{3+2} \right)  +\frac{1}{2} \left( \frac{2}{2+8} \right)  } =\frac{3}{4}$$
<p style="text-align: right;">$(5.13)$</p>
◼︎

## Teoría moderna de probabilidad.

### Funciones de conjunto con aditividad finita.
El área de una región en el plano $XY$, la longitud de una curva, o la masa de un sistema de partículas son números que miden la magnitud o contenido de un conjunto. Todas esas medidas tienen ciertas propiedades en común. Establecidas de forma abstracta, conducen a un concepto general llamado **función de conjunto con aditividad finita**. Más adelante redefiniremos la probabilidad como otro ejemplo de función de este tipo. Para preparar el camino, primero discutiremos algunas propiedades comunes para este tipo de funciones.

Una función $f:\mathcal{A}\longrightarrow \mathbb{R}$ cuyo dominio es una colección $\mathcal{A}$ de conjuntos y cuyos valores son números reales, se llama **función de conjunto**. Si $A$ es un conjunto de la colección $\mathcal{A}$, el valor de la función $f$ en $A$ se representa como $f(A)$. Tiene sentido por tanto la siguiente definición.

**<font color='blue'>Definición 5.4 – Función de conjunto con aditividad finita:</font>** Una función de conjunto $f:\mathcal{A}\longrightarrow \mathbb{R}$ se dice que es de **aditividad finita** si se cumple que

$$f(A\cup B)=f(A)+f(B)$$
<p style="text-align: right;">$(5.14)$</p>

Siempre que $A$ y $B$ sean conjuntos disjuntos de $\mathcal{A}$, tales que $A\cup B\in \mathcal{A}$.

El área, la longitud y la masa son ejemplos de este tipo de funciones. A continuación, discutiremos algunas consecuencias de la ecuación (5.14). En las aplicaciones corrientes, los conjuntos de $\mathcal{A}$ son subconjuntos de un conjunto dado $\Omega$, llamado **conjunto universal**. Es común tener que efectuar las operaciones de unión, intersección y complementación sobre los conjuntos de $\mathcal{A}$. Para garantizar que $\mathcal{A}$ es cerrado con respecto a estas operaciones impondremos una condición: $\mathcal{A}$ debe ser un **álgebra Booleana**, la cual se define a continuación.

**<font color='blue'>Definición 5.5 – Álgebra Booleana de conjuntos:</font>** Una clase no vacía $\mathcal{A}$ de subconjuntos de un conjunto universal $\Omega$ es llamada **álgebra Booleana** si, para todo par $A$ y $B$ de conjuntos de $\mathcal{A}$, se tiene que

$$A\cup B\in \mathcal{A} \wedge \bar{A} \in \mathcal{A}$$
<p style="text-align: right;">$(5.15)$</p>

Donde, como antes, $\bar{A}$ denota al complemento de $A$ con respecto a $\Omega$. Un álgebra Booleana también es cerrada para las intersecciones y diferencias simétricas, ya que $A\cap B=\overline{\left( \bar{A} \cup \bar{B} \right)}$ y $A-B=A\cap \bar{B}$. Esto implica que el conjunto vacío $\emptyset$ también pertenece a $\mathcal{A}$, ya que $\emptyset=A-A$ para algún $A$ de $\mathcal{A}$. También el conjunto universal $\Omega$ pertenece a $\mathcal{A}$, puesto que $\Omega=\bar{\emptyset}$.

A partir de los subconjuntos de un conjunto universal dado $\Omega$ es posible construir un gran número de álgebras Booleanas. La menor de esas álgebras es la clase $\mathcal{A}_{0} =\left\{ \emptyset ,\Omega \right\}$ que consta únicamente de los conjuntos *triviales* $\emptyset$ y $\Omega$. En el otro extremo está la clase $\mathcal{A}_{1}$, que consta de *todos* los subconjuntos de $\Omega$. Toda álgebra Boleana construida con subconjuntos de $\Omega$ satisface las **relaciones de inclusión** $\mathcal{A}_{0} \subseteq \mathcal{A} \subseteq \mathcal{A}_{1}$.

La propiedad de aditividad finita de las funciones de conjunto en la ecuación (5.14) exige que $A$ y $B$ sean conjuntos disjuntos. De esta exigencia se desprende el siguiente teorema.

**<font color='crimson'>Teorema 5.5:</font>** *Si $f:\mathcal{A}\longrightarrow \mathbb{R}$ es una función de conjunto con aditividad finita sobre un álgebra Booleana $\mathcal{A}$ de conjuntos, entonces, para todo par de conjuntos $A$ y $B$ de $\mathcal{A}$, tenemos que*

$$f\left( A\cap B\right)  =f\left( A\right)  +f\left( B-A\right)  \wedge f\left( A\cup B\right)  =f\left( A\right)  +f\left( B\right)  -f\left( A\cap B\right)$$
<p style="text-align: right;">$(5.16)$</p>

### Medidas con aditividad finita.
Las funciones de conjunto que representan áreas, longitudes y masas poseen propiedades comunes. Por ejemplo, todas estas funciones son no negativas; es decir, $f(A)\geq 0$ para cada conjunto $A$ de la clase $\mathcal{A}$ que se considera. Esto motiva la siguiente definición.

**<font color='blue'>Definición 5.6 – Medida con aditividad finita:</font>** Una función de conjunto no negativa $f:\mathcal{A}\longrightarrow \mathbb{R}$ que es con aditividad finita es llamada **medida con aditividad finita** o, simplemente, una medida.

Aplicando el teorema (5.5) a la definición (5.6), obtenemos inmediatamente las siguientes propiedades, descritas en el teorema (5.6).

**<font color='crimson'>Teorema 5.6:</font>** *Sea $f:\mathcal{A}\longrightarrow \mathbb{R}$ una medida con aditividad finita definida sobre un álgebra Booleana $\mathcal{A}$. Para cualquier par de conjuntos $A$ y $B$ de $\mathcal{A}$, se cumplen las siguientes propiedades:*

- **(P1):** $f\left( A\cup B\right)  \leq f\left( A\right)  +f\left( B\right)$.
- **(P2):** $f\left( B-A\right)  =f\left( B\right)  -f\left( A\right)  \Longleftrightarrow A\subseteq B$.
- **(P3):** $f\left( A\right)  \leq f\left( B\right)  \Longleftrightarrow A\subseteq B$.
- **(P4):** $f\left( \emptyset \right)  =0$.
◆

**Ejemplo 5.6 – Número de elementos en un conjunto finito:** Sea $\Omega =\left\{ a_{1},...,a_{n}\right\}$ un conjunto que consta de $n$ elementos distintos y sea $\mathcal{A}$ la clase de todos los subconjuntos de $\Omega$. Para cada $A$ de $\mathcal{A}$, representemos por $\nu (A)$ el número de elementos distintos de $A$. Es sencillo verificar que esta función es de aditividad finita en $\mathcal{A}$. En efecto, si $A$ tiene $k$ elementos y $B$ tiene $m$ elementos, entonces $\nu (A)=k$ y $\nu (B)=m$. Si $A$ y $B$ son disjuntos es evidente que $A\cup B$ es un subconjunto de $\Omega$ con $(k+m)$ elementos, así que $\nu (A\cup B)=k+m=\nu (A) +\nu (B)$. La función $\nu$ es no negativa, por lo que, además, se trata de una medida. ◼︎

### Definición de probabilidad.
En el lenguaje de las funciones de conjunto, la probabilidad es un tipo especial de medida (denotada por $P$) definida sobre una particular álgebra Booleana $\mathcal{B}$ de subconjuntos. Los elementos de $\mathcal{B}$ son subconjuntos de un conjunto universal $\Omega$. Como bien sabemos, este conjunto $\Omega$ es llamado **espacio muestral**. Primero comentaremos la definición de probabilidad para espacios muestrales finitos y luego lo haremos para aquellos que son infinitos.

**<font color='blue'>Definición 5.7 – Probabilidad para espacios muestrales finitos:</font>** Sea $\mathcal{B}$ un álgebra Booleana cuyos elementos son subconjuntos de un conjunto finito dado $\Omega$. Una función de conjunto $P:\mathcal{B}\longrightarrow \mathbb{R}$ se llama **medida de probabilidad** si satisface las siguientes condiciones:

- **(C1):** $P$ es de aditividad finita.
- **(C2):** $P$ es no negativa.
- **(C3):** $P(\Omega)=1$.

Dicho de otro modo, para los espacios muestrales finitos, la probabilidad es simplemente una medida que asigna el valor 1 al espacio completo.

Es importante darnos de que, para una descripción completa de la medida de probabilidad, deben precisarse tres ideas: El espacio muestral $\Omega$, el álgebra Booleana $\mathcal{B}$ construida con ciertos subconjuntos de $\Omega$, y la función de conjunto $P$. La tripleta $(\Omega, \mathcal{B}, P)$ se denomina, con frecuencia, **espacio de probabilidad**. En la mayoría de las aplicaciones elementales, el álgebra Booleana $\mathcal{B}$ es la colección de todos los subconjuntos de $\Omega$.

**Ejemplo 5.7:** El juego de *"cara o sello"* es un ejemplo típico de aplicación de la teoría de la probabilidad. Como espacio muestral $\Omega$ tomamos el conjunto de todos los resultados posibles en el juego. Cada resultado es "cara" o "sello", que representamos con los símbolos $h$ y $t$, respectivamente. Dicho espacio muestral es pues $\Omega =\left\{ h,t\right\}$. Como álgebra Booleana consideraremos la colección de todos los subconjuntos de $\Omega$, que son cuatro: $\emptyset, \Omega, H$ y $T$, donde $H=\left\{ h\right\}$ y $T=\left\{ t\right\}$. Ahora asignaremos probabilidades a cada uno de estos subconjuntos. Para $\emptyset$ y $\Omega$ estos valores no son eligibles, ya que por **(C3)**, $P(\Omega)=1$ y $P(\emptyset)=0$. En cambio, tenemos libertad en la asignación a los otros dos subconjuntos, $H$ y $T$. Ya que $H$ y $T$ son conjuntos disjuntos cuya reunión es $\Omega$, la propiedad aditiva exige que

$$P\left( H\right)  +P\left( T\right)  =P\left( \Omega \right)  =1$$
<p style="text-align: right;">$(5.17)$</p>

Como valores de $P(H)$ y $P(T)$ podemos tomar cualquier valor no negativo con tal de que su suma sea igual a 1. Si tenemos en cuenta que la moneda no está trucada, de modo que no existe razón a priori para preferir cara o sello, parece natural asignar los valores

$$P\left( H\right)  =P\left( T\right)  =\frac{1}{2}$$
<p style="text-align: right;">$(5.18)$</p>

Si, en cambio, la moneda no es geométricamente perfecta, podemos asignar valores diferentes a estas dos probabilidades. Por ejemplo, $P(H)=1/3$ y $P(T)=2/3$ son tan aceptables como $P\left( H\right)  =P\left( T\right)=1/2$. En efecto, para todo $p\in \mathbb{R}$ tal que $0\leq p\leq 1$, podemos definir $P(H)=p$ y $P(T)=1-p$, y la función resultante $P$ satisfará todas las condiciones que se exigen a una medida de probabilidad.

Para una moneda determinada, no existe un método matemático para precisar cuál es la probabilidad $p$ “real”. Si escogemos $p=1/2$, podemos deducir consecuencias lógicas de la hipótesis de que la moneda no está trucada y, por extensión, no presenta sesgos de ningún tipo. La teoría desarrollada para el estudio de las probabilidades en monedas correctas puede utilizarse como test comprobatorio de su carencia de sesgo, efectuando un gran número de experimentos con ella y comparando los resultados experimentales con las predicciones teóricas. El poner de acuerdo la teoría y la evidencia empírica pertenece a la rama de la teoría de la probabilidad llamada **inferencia estadística**, y no la expondremos en estos apuntes. ◼︎

El ejemplo anterior es una típica aplicación del llamado **cálculo de probabilidades**. Las cuestiones probabilísticas se presentan a menudo en situaciones llamadas experimentos. No intentaremos definir un experimento (ya hicimos un acercamiento, más bien vago, a esta cuestión al inicio de esta sección); en cambio, mencionaremos tan sólo algunos ejemplos corrientes: Lanzar una o varias monedas, lanzar un par de dados, repartir una mano de cartas, sacar una bola de una urna, recuento de las mujeres que estudian en la Facultad de Ingeniería de la Universidad de Santiago de Chile, selección de un número en una guía telefónica, registro de la radiación en un contador Geiger, etc.

Para discutir las cuestiones de probabilidad que surgen en tales experimentos, nuestro primer trabajo es la construcción de un espacio muestral Ω que pueda utilizarse para mostrar todos los resultados posibles del experimento, como hicimos en el juego de lanzar una moneda. Cada elemento de $\Omega$ representará un resultado del experimento y cada resultado corresponderá a uno y sólo un elemento de $\Omega$. A continuación, elegimos un álgebra de Boole $\mathcal{B}$ de subconjuntos de $\Omega$ (casi siempre, todos los subconjuntos de $\Omega$) y entonces se define una medida de probabilidad $P$ sobre $\mathcal{B}$. La elección de $\Omega$, $\mathcal{B}$ y $P$ dependerá de la información que se posea acerca de los detalles del experimento y del problema que nos vamos a plantear. El objeto del cálculo de probabilidades no es discutir si el espacio de probabilidad $(\Omega,\mathcal{B},P)$ ha sido elegido correctamente. Esto pertenece a la ciencia o juego del que el experimento ha surgido, y tan solo la experiencia puede darnos idea de si la elección fue bien hecha o no. El cálculo de probabilidad es el estudio de las consecuencias lógicas que pueden deducirse una vez dado un espacio de probabilidad. La elección de un buen espacio de probabilidad no es teoría de probabilidad –ni siquiera es matemáticas–; es en cambio el arte de aplicar la teoría probabilística al mundo real.

Si $\Omega =\left\{ a_{1},...,a_{n}\right\}$ y si $\mathcal{B}$ consta de todos los subconjuntos de $\Omega$, la función de probabilidad $P$ está completamente determinada si conocemos sus valores para los conjuntos de un solo elemento,

$$P\left( \left\{ a_{1}\right\}  \right)  ,P\left( \left\{ a_{2}\right\}  \right)  ,...,P\left( \left\{ a_{n}\right\}  \right)$$
<p style="text-align: right;">$(5.19)$</p>

En efecto, todo subconjunto de $A$ de $\Omega$ es una reunión disjunta de los conjuntos anteriores, y $P(A)$ está determinada por la propiedad aditiva. Por ejemplo, cuando

$$A=\bigcup^{n}_{k=1} \left\{ a_{k}\right\}$$
<p style="text-align: right;">$(5.20)$</p>

la propiedad aditiva exige que

$$P\left( A\right)  =\sum^{n}_{k=1} P\left( \left\{ a_{k}\right\}  \right)$$
<p style="text-align: right;">$(5.21)$</p>

Debido a que el método probabilístico se usa en cuestiones prácticas, es conveniente imaginarse que cada espacio de probabilidad $(\Omega,\mathcal{B},P)$ está asociado a un experimento real o ideal. El conjunto universal $\Omega$ puede entonces concebirse como la colección de todos los resultados imaginables del experimento, como en el ejemplo (5.7). Cada elemento de $\Omega$ se llama **resultado** o **muestra** y los subconjuntos de $\Omega$ que se presentan en el álgebra de Boole $\mathcal{B}$ se denominan **sucesos**. Los motivos de esta terminología se pondrán en evidencia al tratar algunos ejemplos.

Dos sucesos $A$ y $B$ son **igualmente probables** (o **equiprobables**) si $P(A)=P(B)$. El suceso $A$ es **más probable** que $B$ si $P(A)>P(B)$ y **por lo menos tan probable** como $B$ si $P(A)\geq P(B)$. La Tabla (5.1) nos muestra una lista de locuciones del lenguaje habitual en las discusiones de la teoría de probabilidad. Las letras $A$ y $B$ representan sucesos, y $x$ es el resultado de un experimento asociado al espacio muestral $\Omega$. Cada fila de la columna de la izquierda es una afirmación relativa a los sucesos $A$ y $B$, y en la misma fila en la columna de la derecha se expresa la misma afirmación en el lenguaje de la teoría de conjuntos.

<p style="text-align: center;">Tabla (5.1): Proposiciones usadas en la teoría de probabilidad y su significado en la teoría de conjuntos</p>

| Proposiciones                                     | Significado en la teoría de conjuntos    |
| :------------------------------------------------ | :--------------------------------------- |
| Por lo menos uno de los sucesos $A$ o $B$ ocurre. | $x\in A\cup B$                           |
| Ambos sucesos, $A$ y $B$, ocurren.                | $x\in A\cap B$                           |
| Ni $A$ ni $B$ ocurren.                            | $x\in \bar{A}\cap \bar{B}$               |
| $A$ ocurre, pero $B$ no.                          | $x\in A\cap \bar{B}$                     |
| Exactamente ocurre uno de los sucesos, $A$ o $B$. | $x\in (A\cap \bar{B})\cup (\bar \cap B)$ |
| No más de uno de los sucesos, $A$ o $B$, ocurre.  | $x\in (\overline{A\cap B})$              |
| Si $A$ ocurre, también $B$ ($A$ implica $B$).     | $A\subseteq B$                           |
| $A$ y $B$ son mutuamente excluyentes.             | $A\cap B =\emptyset$                     |
| Suceso $A$ o suceso $B$.                          | $A\cup B$                                |
| Suceso $A$ y suceso $B$.                          | $A\cap B$                                |

**Ejemplo 5.8:** Consideremos el experimento consistente en tomar dos naipes de cada una de las dos barajas que constituyen un juego de cartas inglés. Vamos a determinar la probabilidad de que por lo menos uno de estos naipes sea el as de corazones.

Sean $a$ y $b$ cada naipe a sacar, uno de cada baraja. Representaremos un resultado mediante el par ordenado $(a,b)$ el número de resultados posibles; esto es, el número total de pares distintos $(a,b)$ del espacio muestral de $\Omega$ se deduce mediante una sencilla aplicación del principio multiplicativo. Así, dado que cada baraja tiene 52 naipes en total, se tendrá que el número de elementos de $\Omega$ es $52\times 52=52^{2}$. Asignamos a cada uno de estos pares la probabilidad $1/52^{2}$. El suceso en el que estamos interesados es el conjunto $A$ de pares $(a,b)$ en los que $a$ o $b$ pueden ser el as de corazones. En $A$ hay $52+51$ elementos (ya que no hemos establecido que el primer naipe se devuelve a la baraja una vez sacado). Por lo tanto, en esta hipótesis, deducimos que

$$P\left( A\right)  =\frac{52+51}{52^{2}} =\frac{1}{26} -\frac{1}{52^{2}}$$
<p style="text-align: right;">$(5.22)$</p>

## Experimentos o pruebas compuestas.
Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise Pascal y Pierre de Fermat, a la creación del cálculo de probabilidades. Antoine Gombaud, caballero de Méré, noble francés interesado en cuestiones de juegos y apuestas, llamó la atención a Pascal respecto a una aparente contradicción en un popular juego de dados. El juego consistía en lanzar 24 veces un par de dados; y el problema en decidir si era lo mismo apostar la misma cantidad a favor o en contra de la aparición por lo menos de un «doble seis» en las 24 tiradas. Una regla del juego aparentemente bien establecida condujo a de Méré a creer que apostar por un doble seis en 24 tiradas era ventajoso, pero sus propios cálculos indicaban justamente lo contrario. Este problema, consecuentemente, fue conocido como el *problema de Méré*.

Para resolver este problema, consideremos el experimento de lanzar un par de dados una sola vez. El resultado de este juego puede representarse mediante pares ordenados $(a,b)$ en los que $a$ y $b$ recorren los valores 1, 2, 3, 4, 5, y 6. El espacio muestral $\Omega$ consta de 36 de esos pares. Si asumimos que los dados no están cargados (son geométricamente perfectos, lo que implica que cada cara tiene igual probabilidad de salir), asignamos a cada par la probabilidad 1/36.

Supongamos que lanzamos los dados 𝑛 veces. La sucesión de las $n$ pruebas es una prueba compuesta que queremos describir matemáticamente. Por ello, necesitamos un nuevo espacio muestral y una correspondiente medida de probabilidad. Consideremos los resultados del nuevo juego como vectores en $\mathbb{R}^{n}$ del tipo $(x_{1},...,x_{n})$, donde cada elemento $x_{i}$ es uno de los resultados del espacio muestral original $\Omega$. Es decir, el espacio muestral para la prueba compuesta es el producto cartesiano $\Omega\times \cdots \times \Omega=\Omega^{n}$. De esta manera, $\Omega^{n}$ tiene un total de $36^{n}$ elementos, y asignamos la probabilidad $1/36^{n}$ a cada uno de ellos. Nos interesa el suceso “por lo menos un doble 6 en $n$ tiradas”. Designemos tal suceso por $A$. En este caso, es más sencillo calcular la probabilidad del suceso complementario $\bar{A}$, que significa “ningún doble 6 en $n$ tiradas”. Cada elemento de $\bar{A}$ es un vector en $\mathbb{R}^{n}$ cuyas componentes pueden ser cualquier elemento de $\Omega$ excepto $(6, 6)$. Por consiguiente, existen 35 valores para cada componente y por lo tanto $35^{n}$ vectores en total en $\bar{A}$. Puesto que cada elemento de $\bar{A}$ tiene probabilidad $(1/36)^{n}$, la suma de todas las probabilidades puntuales en $\bar{A}$ es igual a $(35/36)^{n}$. Esto nos da

$$P\left( A\right)  =1-P\left( \bar{A} \right)  =1-\left( \frac{35}{36} \right)^{n}$$
<p style="text-align: right;">$(5.23)$</p>

Para contestar a la pregunta de Méré, tenemos que decidir si $P(A)$ es mayor o menor que 1/2 cuando $n=24$. La desigualdad $P(A)\geq 1/2$ es equivalente a decir que $1-\left( \frac{35}{36} \right)^{n}  \geq \frac{1}{2}$ o $\left( \frac{35}{36} \right)^{n}  \leq \frac{1}{2}$. Tomando logaritmos, encontramos que

$$n\log \left( 35\right)  -n\log \left( 36\right)  \leq -\log \left( 2\right)  \  \vee \  n\geq \frac{\log \left( 2\right)  }{\log \left( 36\right)  -\log \left( 35\right)  } =24.6$$
<p style="text-align: right;">$(5.24)$</p>

Por consiguiente, $P(A)<1/2$ cuando $n=24$ y $P>1/2$ cuando $n\geq 25$. No es ventajosa una apuesta de una cantidad al suceso de que por lo menos se presente un doble 6 en 24 tiradas, frente a la apuesta de la misma cantidad al suceso contrario.

Esta discusión sugiere un método general para tratar los experimentos sucesivos. Si una prueba se repite dos o más veces, el resultado puede considerarse como una prueba compuesta. Más general, una prueba compuesta puede ser el resultado de ejecutar dos o más pruebas distintas sucesivamente. Cada una de las pruebas individuales puede estar relacionada con cada una de las otras o pueden ser estocásticamente independientes, en el sentido de que la probabilidad del resultado de cada una de ellas no depende de los resultados de las otras.

Por simplicidad, discutiremos cómo se pueden combinar dos pruebas independientes en una prueba compuesta. La generalización a más de dos experiencias será evidente.

Para asociar el espacio de probabilidad natural a una prueba o experiencia compuesta, debemos definir el nuevo espacio muestral $\Omega$, el álgebra Booleana $\mathcal{B}$ de subconjuntos de $\Omega$ y la medida de probabilidad $P$ sobre $\mathcal{B}$. Sean $(\Omega_{1},\mathcal{B}_{1},P_{1})$ y $(\Omega_{2},\mathcal{B},P_{2})$  dos espacios de probabilidad asociados a dos experiencias 𝐸_1 y 𝐸_2. Con 𝐸 representamos la experiencia o prueba compuesta para las que el espacio muestral $\Omega$ es el producto cartesiano $\Omega_{1}\times \Omega_{2}$. Un resultado de $E$ es el par $(x,y)$ de $\Omega$, donde la primera componente $x$ es un resultado de $E_{1}$ y el segundo 𝑦 es un resultado de $E_{2}$. Si $\Omega_{1}$ tiene $n$ elementos y $\Omega_{2}$ tiene $m$ elementos, el producto $\Omega_{1}\times \Omega_{2}$ tendrá $nm$ elementos.

Como nueva álgebra Booleana $\mathcal{B}$ tomamos la colección de todos los subconjuntos de $\Omega$. A continuación definimos la probabilidad $P$. Ya que $\Omega$ es finito, podemos definir $P(x,y)$ para cada punto $(x,y)$ de $\Omega$ y utilizar la aditividad al definir $P$ para los subconjuntos de $\Omega$. Las probabilidades $P(x,y)$ pueden asignarse de varias maneras. Sin embargo, si dos pruebas $E_{1}$ y $E_{2}$ son estocásticamente independientes, definimos $P$ mediante la ecuación

$$P\left( x,y\right)  =P_{1}\left( x\right)  P_{2}\left( y\right)  ;\forall \left( x,y\right)  \in \Omega$$
<p style="text-align: right;">$(5.25)$</p>

Esta afirmación se justifica como sigue: Consideremos dos sucesos particulares $A$ y $B$ del nuevo espacio $\Omega$, definidos como

$$\begin{array}{l}A=\left\{ \left( x_{1},y_{i}\right)  \right\}^{m}_{i=1}  =\left\{ \left( x_{1},y_{1}\right)  ,...,\left( x_{1},y_{m}\right)  \right\}  \\ B=\left\{ \left( x_{i},y_{1}\right)  \right\}^{n}_{i=1}  =\left\{ \left( x_{1},y_{1}\right)  ,...,\left( x_{n},y_{1}\right)  \right\}  \end{array}$$
<p style="text-align: right;">$(5.26)$</p>

Esto es, $A$ es el conjunto de todos los pares de $\Omega_{1}\times \Omega_{2}$ cuyo primer elemento es $x_{1}$, y $B$ es el conjunto de todos los pares de $\Omega_{1}\times \Omega_{2}$ cuyo segundo elemento es $y_{1}$. La intersección de los dos conjuntos $A$ y $B$ es el conjunto de un solo elemento $\left\{ \left( x_{1},y_{1}\right)  \right\}$. Si presentimos que el primer resultado $x_{1}$ no debe influir en el resultado $y_{1}$, parece razonable exigir que los sucesos $A$ y $B$ sean independientes. Esto significa que habrá que definir la nueva función de probabilidad $P$ de manera que

$$P\left( A\cap B\right)  =P\left( A\right)  P\left( B\right)$$
<p style="text-align: right;">$(5.27)$</p>

Si decidimos la forma de asignar las probabilidades $P(A)$ y $P(B)$, la ecuación (5.27) nos dirá como asignar la probabilidad $P(A\cap B)$. Esto es, la probabilidad $P(x_{1},y_{1})$. Se presenta el suceso $A$ si y sólo si el resultado de la primera prueba es $x_{1}$. Puesto que $P_{1}(x_{1})$ es su probabilidad, parece natural asignar el valor $P_{1}(x_{1})$ también a $P(A)$. Análogamente, asignamos a $P(B)$ el valor $P_{2}(y_{1})$. La ecuación (5.28) nos da entonces

$$P\left( x_{1},y_{1}\right)  =P_{1}\left( x_{1}\right)  P_{2}\left( y_{1}\right)$$
<p style="text-align: right;">$(5.28)$</p>

Todo esto es, naturalmente, tan solo una justificación para la asignación de probabilidades de la ecuación (5.25). El único camino para decidir si la ecuación (5.25) es o no una asignación de probabilidades puntuales aceptable es ver si se cumplen las propiedades fundamentales de las medidas de probabilidad. Cada número $P(x,y)$ es no negativo, y la suma de todas las probabilidades puntuales es igual a 1, pues que tenemos

$$\sum_{\left( x,y\right)  \in S} P\left( x,y\right)  =\sum_{x\in S_{1}} P_{1}\left( x\right)  \sum_{y\in S_{2}} P_{2}\left( y\right)  =1\cdot 1=1$$
<p style="text-align: right;">$(5.29)$</p>

Cuando decimos que una prueba compuesta $E$ está determinada por dos pruebas $E_{1}$ y $E_{2}$ estocásticamente independientes, queremos decir que el espacio de probabilidad $(\Omega,\mathcal{B},P)$ está definido como acabamos de explicar, tal “independencia” queda reflejada en el hecho de que $P(x,y)$ es igual al producto $P_{1}(x)P_{2}(y)$. Puede demostrarse que la asignación de probabilidades (5.25) implica la igualdad

$$P\left( U\times V\right)  =P_{1}\left( U\right)  P_{2}\left( V\right)$$
<p style="text-align: right;">$(5.30)$</p>

para todo par de subconjuntos $U$ de $\mathcal{B}_{1}$ y $V$ de $\mathcal{B}_{2}$. De esta forma, deduciremos algunas consecuencias importantes.

Sea $A$ un suceso (de la prueba compuesta $E$) de la forma

$$A=C_{1}\times \Omega_{2}$$
<p style="text-align: right;">$(5.31)$</p>

donde $C_{1}\in \mathbb{B}_{1}$. Cada resultado de $A$ es un par ordenado $(x,y)$, siendo $x$ un resultado de $C_{1}$ (en la primera prueba $E_{1}$), mientras que $y$ puede ser cualquier resultado de $\Omega_{2}$ (en la segunda prueba $E_{2}$). Si aplicamos la ecuación (5.30), encontramos que

$$P\left( A\right)  =P\left( C_{1}\times \Omega_{2} \right)  =P_{1}\left( C_{1}\right)  P_{2}\left( \Omega_{2} \right)  =P_{1}\left( C_{1}\right)$$
<p style="text-align: right;">$(5.32)$</p>

ya que $P_{2}(\Omega_{2})=1$. De este modo, la definición de $P$ aisgna la misma probabilidad $A$ que la asignada por $P_{1}$ a $C_{1}$. Por esa razón, se dice que un tal suceso $A$ **está determinado mediante la primera prueba** $E_{1}$. Análogamente, si $B$ es un suceso de $E$ de la forma

$$B=\Omega_{1}\times C_{2}$$
<p style="text-align: right;">$(5.33)$</p>

teniendo $C_{2}\in \mathcal{B}_{2}$, llegamos a

$$P\left( B\right)  =P\left( \Omega_{1} \times C_{2}\right)  =P_{1}\left( \Omega_{1} \right)  P_{2}\left( C_{2}\right)  =P_{2}\left( C_{2}\right)$$
<p style="text-align: right;">$(5.34)$</p>

y se dice que $B$ **está determinado por la segunda prueba** $E_{2}$. Demostraremos ahora, utilizando la ecuación (5.30), que tales sucesos $A$ y $B$ son independientes. Esto es, tenemos

$$P(A\cap B)=P(A)P(B)$$
<p style="text-align: right;">$(5.35)$</p>

En efecto,

$$\begin{array}{lll}A\cap B&=&\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :\left( x,y\right)  \in C_{1}\times \Omega_{2} \wedge \left( x,y\right)  \in \Omega_{1} \times C_{2}\right\}  \\ &=&\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :x\in C_{1}\wedge y\in C_{2}\right\}  \\ &=&C_{1}\times C_{2}\end{array}$$
<p style="text-align: right;">$(5.36)$</p>

Luego tenemos

$$P(A\cap B)=P(C_{1}\times C_{2})=P_{1}(C_{1})P_{2}(C_{2})$$
<p style="text-align: right;">$(5.37)$</p>

Puesto que $P_{1}(C_{1})=P(A)$ y $P_{2}(C_{2})=P(B)$, obtenemos la ecuación (5.35). Observemos que la la ecuación (5.37) también demuestra que podemos calcular la probabilidad $P(A\cap B)$ como producto de las probabilidades en cada uno de los espacios muestrales $\Omega_{1}$ y $\Omega_{2}$. Por lo tanto, no son precisos los cálculos con probabilidades en las pruebas compuestas.

La generalización a experimentos con $n$ pruebas $E_{1},...,E_{n}$ se deduce de la misma forma. Los puntos en el nuevo espacio muestral son vectores en $\mathbb{R}^{n}$ del tipo $\mathbf{x}=(x_{1},...,x_{2})$ y las probabilidades se definen como producto de las probabilidades particulares. Es decir,

$$P\left( \mathbf{x} \right)  =P\left( x_{1},...,x_{n}\right)  =\prod^{n}_{k=1} P_{k}\left( x_{k}\right)$$
<p style="text-align: right;">$(5.38)$</p>

Cuando se adopta esta definición de $P$, decimos que $E$ **está determinado por $n$ pruebas independientes** $E_{1},...,E_{n}$. En el caso particular en el que todas las pruebas están asociadas al mismo espacio de probabilidad, la prueba compuesta 𝐸 es un ejemplo de pruebas independientes repetidas bajo idénticas condiciones. Un ejemplo de esto corresponde a las pruebas de Bernoulli, que caracterizaremos a continuación.

### Pruebas de Bernoulli.
Un ejemplo importante de prueba compuesta lo estudió Jakob Bernoulli y lo conocemos por el nombre de **sucesión de pruebas de Bernoulli**. Se trata de una sucesión de pruebas repetidas ejecutadas en las mismas condiciones, siendo cada resultado estocásticamente independiente de las demás. Cada prueba tiene exactamente dos resultados posibles, corrientemente llamados **“éxito”** y **“fallo”**; la probabilidad del éxito se representa por $p$ y la del fallo con $q$. Naturalmente, $q=1-p$. El teorema principal relacionado con las sucesiones de Bernoulli es el siguiente.

**<font color='crimson'>Teorema 5.7 – Fórmula de Bernoulli:</font>** *Sea $\Omega=\left\{ 0,1\right\}$ el espacio muestral de un experimento particular que será repetido un número particular de veces, donde designamos al éxito de la prueba con el valor $x=1$ y al fallo con un valor $x=0$. La probabilidad de $k$ éxitos en $n$ pruebas de Bernoulli, que designamos como $P(x=1)$, se define como*

$$P\left( x=1\right)  =\binom{n}{k} p^{k}q^{n-k}\  ;\  \binom{n}{k} =\frac{n!}{\left( n-k\right)  !k!}$$
<p style="text-align: right;">$(5.39)$</p>
◆

**Ejemplo 5.9:** Se lanza 50 veces una moneda. Vamos a calcular la probabilidad de que salgan, exactamente, 50 caras. En efecto, interpretemos este juego como una sucesión de 50 pruebas de Bernoulli, en las que "éxito" significa cara, y "fallo" significa sello. Si suponemos que la moneda no presenta sesgos de ningún tipo (y, por lo tanto, cada resultado es equiprobable), asignamos las probabilidades $p=q=1/2$ y la fórmula (5.39) nos da

$$P\left( x=1\right)  =\binom{50}{k} \left( \frac{1}{2} \right)^{50}$$
<p style="text-align: right;">$(5.40)$</p>

En particular, para $k=25$, obtenemos

$$P\left( x=1\right)  =\binom{50}{25} \left( \frac{1}{2} \right)^{50}  =\frac{50!}{25!\cdot 25!} \left( \frac{1}{2} \right)^{50}  \approx 0.112$$
<p style="text-align: right;">$(5.41)$</p>
◼

### Número más probable de éxitos en $n$ pruebas de Bernoulli.
Un par de dados no cargados es lanzado 28 veces ¿Cuál es el número más probable de sietes? Para resolver este problema, designemos por $f(k)$ la probabilidad de obtener exactamente $k$ sietes en 28 tiradas. La probabilidad de conseguir un siete en una tirada es 1/6. La fórmula de Bernoulli (teorema (5.7)) nos dice que

$$f\left( k\right)  =\binom{28}{k} \left( \frac{1}{6} \right)^{k}  \left( \frac{5}{6} \right)^{28-k}$$
<p style="text-align: right;">$(5.42)$</p>

Queremos determinar qué valor (o valores) de $k$ entre los valores $k=0,1,2,...,28$ hacen máximo a $f(k)$. El siguiente teorema resuelve este problema para cualquier sucesión de pruebas de Bernoulli.

**<font color='crimson'>Teorema 5.8:</font>** *Dados un entero $n\geq 1$ y un número real $p$ tal que $0<p<1$, consideremos el conjunto de números*

$$f\left( k\right)  =\binom{n}{k} p^{k}\left( 1-p\right)^{n-k}  \  ;\  k\in \mathbb{N} +\left\{ 0\right\}$$
<p style="text-align: right;">$(5.43)$</p>

- **(T1)**: *Si $(n+1)p\notin \mathbb{Z}$, el máximo de $f(k)$ se presenta exactamente para un valor de $k$:*

$$k=\left[ \left( n+1\right)  p\right]$$
<p style="text-align: right;">$(5.44)$</p>

*donde $\left[ \  \cdot \  \right]$ es la función parte entera.*

- **(T2)**: *Si $(n+1)p\in \mathbb{Z}$, el máximo de $f(k)$ se presenta exactamente para dos valores de $k$:*

$$k_{1}=\left( n+1\right)  p\wedge k_{2}=\left( n+1\right)  p-1$$
<p style="text-align: right;">$(5.45)$</p>
◆

**Ejemplo 5.10:** Vamos a determinar el número más probable de sietes cuando un par de dados se lanza 28 veces. En efecto, aplicamos el teorema (5.8) con $n=28$, $p=1/6$ y $(n+1)p=29/6$. Como $29/6$ no es un número entero, el valor máximo de $f(k)$ se presenta para $k=[29/6]=4$. ◼

## Conjuntos numerables y no numerables.
Hasta aquí sólo hemos considerado el concepto de probabilidad para espacios muestrales finitos. Queremos ahora extender la teoría a **espacios muestrales infinitos**. Para ello es necesario distinguir dos tipos de conjuntos infinitos, los **numerables** y los **no numerables**. En esta sección se estudian ambos.

Para contar los elementos de un conjunto finito se pone en correspondencia el conjunto, elemento a elemento, con el conjunto de los números naturales $\mathbb{N}$. La comparación de los "tamaños" de dos conjuntos mediante la correspondencia entre ellos elemento a elemento sustituye el recuento de los elementos cuando se trata de conjuntos infinitos. A este proceso se le puede dar una clara formulación matemática empleando el concepto de función.

**<font color='blue'>Definición 5.8 – Correspondencia uno a uno de conjuntos:</font>** Se dice que dos conjuntos $A$ y $B$ están en **correspondencia uno a uno** si existe una función $f$ con la siguientes propiedades:

- **(P1):** $f$ es tal que $f:A\longrightarrow B$.
- **(P2):** Si $x$ e $y$ son elementos distintos de $A$, entonces $f(x)$ y $f(y)$ son elementos distintos de $B$. Esto es, para todo par de elementos $x,y\in A$, se tiene que

$$x\neq y\Longrightarrow f(x)\neq f(y)$$
<p style="text-align: right;">$(5.46)$</p>

Una función $f$ que cumple con **(P2)** se dice inyectiva sobre $A$. Dos conjuntos $A$ y $B$ en correspondencia uno a uno se llaman también equivalentes, e indicamos esto poniendo $A\sim B$. Resulta claro pues que todo conjunto $A$ es equivalente a sí mismo, ya que $x=f(x)$ para todo $x$ en $A$.

Un conjunto puede ser equivalente a un subconjunto de sí mismo. Por ejemplo, el conjunto $P=\left\{ 1,2,3,...\right\}$ compuesto por todos los números naturales es equivalente a su subconjunto $Q=\left\{ 2,4,6,...\right\}$ compuesto por todos los números pares positivos. En este caso, la función inyectiva que los hace equivalentes es $f(x)=2x$ para todo $x\in P$.

Si $A\sim B$, es fácil demostrar que $B\sim A$. Si $f$ es inyectiva en $A$ y si $\mathrm{Rec}(f)=B$, entonces, para cada $b\in B$ existe exactamente un $a$ en $A$ tal que $f(a)=b$. De ahí que podemos definir una función inversa $g$ en $B$ del modo siguiente: Si $b\in B$, $g(b)=a$, donde $a$ es el único elemento de $A$ tal que $f(s)=b$. La función $g$ así definida es inyectiva en $B$ y su recorrido es $A$; luego $B\sim A$. Esta propiedad de equivalencia se llama **simetría**:

$$A\sim B\Longrightarrow B\sim A$$
<p style="text-align: right;">$(5.47)$</p>

También resulta sencillo demostrar que la equivalencia tiene la siguiente propiedad, llamada **transitividad**:

$$A\sim B\wedge B\sim C\Longrightarrow A\sim C$$
<p style="text-align: right;">$(5.48)$</p>

Un conjunto $\Omega$ se denomina **finito** y se dice que contiene $n$ elementos si $\Omega \sim \left\{ 1,2,...,n\right\}$. El conjunto vacío también se considera finito. A los conjuntos que no son finitos se les llama **infinitos**. Un conjunto $\Omega$ se llama **infinito numerable (o contable)** si es equivalente al conjunto de todos los números naturales, esto es, si $\Omega \sim \mathbb{N}$. En este caso, existe una función $f$ que establece una correspondencia uno a uno entre el conjunto $\mathbb{N}$ y los elementos de $\Omega$; luego el conjunto $\Omega$ puede expresarse como $\Omega =\left\{ f\left( 1\right)  ,f\left( 2\right)  ,...\right\}  $.

A menudo utilizamos subíndices y representamos $f(k)$ con $a_{k}$ (o con una notación parecida) y escribimos $\Omega=\left\{ a_{1},a_{2},...\right\}$. La idea importante es que la correspondencia $\Omega \sim \mathbb{N}$ nos permite utilizar los números naturales como “marcas” de los elementos de $\Omega$. Un conjunto se dice que es **numerable en sentido amplio** si es finito o infinito numerable. Un conjunto que no es numerable se llama **no numerable**. Muchas operaciones con conjuntos efectuadas sobre conjuntos numerables producen conjuntos numerables. Por ejemplo, tenemos las propiedades siguientes:

- **(P1):** Todo subconjunto de un conjunto numerable es numerable.
- **(P2):** La intersección de toda colección de conjuntos numerables es numerable.
- **(P3):** La reunión de una colección numerable de conjuntos numerables es numerable.
- **(P4):** El producto cartesiano de un número finito de conjuntos numerables es numerable.

**Ejemplo 5.11:** El conjunto $\mathbb{Z}$ es numerable. En efecto, si $n\in \mathbb{Z}$, sea $f(n)=2n$ si $n$ es positivo, y $f(n)=2|n|+1$ si $n$ es negativo o cero. El dominio de $f$ es $\mathbb{Z}$ y su recorrido es el conjunto $\mathbb{N}+\left\{ 0\right\}$. Puesto que $f$ es inyectiva en $\mathbb{Z}$, deducimos que $\mathbb{Z}$ es numerable. ◼

**Ejemplo 5.12:** El conjunto $\mathbb{Q}$ de los números racionales es numerable. En efecto, para cada entero $n\geq 1$ fijo, sea $\Omega_{n}$ el conjunto de números racionales de la forma $x/n$, donde $x\in \mathbb{Z}$. Cada $\Omega_{n}$ es equivalente a $\mathbb{Z}$ (tómese $f(t)=nt$ si $t\in \Omega_{n}$) y, por consiguiente, cada $\Omega_{n}$ es numerable. Puesto que $\mathbb{Q}$ es la reunión de todos los $\Omega_{n}$, en virtud de **(P3)**, $\mathbb{Q}$ resulta ser numerable. ◼

**Ejemplo 5.13:** El conjunto de todos los números reales $x$ que satisfacen $0<x<1$ es no numerable. En efecto, supongamos que el conjunto es numerable. De ser así, podemos disponer de sus elementos así: $\left\{ x_{1},x_{2},...\right\}$. Construiremos ahora un número real $y$ que cumpla con $0<y<1$ y que no estará en esta lista. Para ello, escribimos cada elemento en forma decimal. Es decir, $x_{n}=0.a_(n,1)a_(n,2)a_(n,3)...$, donde cada $a_(n,i)$ es uno de los enteros del conjunto $\left\{ 0,1,2,...,9\right\}$. Sea $y$ el número real cuyo desarrollo decimal es $0.y_{1}y_{2}y_{3}...$. Aquí,

$$y_{n}=\begin{cases}1&;\  \mathrm{si} \  a_{\left( n,n\right)  }\neq 1\\ 2&;\  \mathrm{si} \  a_{\left( n,n\right)  }=1\end{cases}$$
<p style="text-align: right;">$(5.49)$</p>

De este modo, ningún elemento del conjunto $\left\{ x_{1},x_{2},...\right\}$ puede ser igual a $y$, puesto que $y$ difiere de $x_{1}$ en la primera cifra decimal, de $x_{2}$ en la segunda, y en general, difiere de $x_{k}$ en la $k$-ésima cifra decimal. Por lo tanto, $y$ satisface $0<y<1$, lo cual es una contradicción, lo que prueba que el conjunto $(0,1)\subset \mathbb{R}$ es no numerable. ◼

### Definición de probabilidad para espacios muestrales infinitos numerables.
Ahora procederemos a extender la definición de probabilidad a espacios muestrales infinitos numerables. Sean $\Omega$ un conjunto infinito numerable y $\mathcal{B}$ un álgebra Booleana de subconjuntos de $\Omega$. Definimos una medida de probabilidad $P$ en $\mathcal{B}$ como se hizo en el caso finito, excepto que exigiremos la aditividad numerable además de la finita. Esto es, para toda colección infinita numerable $\left\{ A_{1},A_{2},\ldots \right\}$ de elementos de $\mathcal{B}$, exigimos que

$$P\left( \bigcup^{+\infty }_{k=1} A_{k}\right)  =\sum^{+\infty }_{k=1} P\left( A_{k}\right)  \Longleftrightarrow A_{i}\cap A_{j}=\emptyset \  ;\  \forall i\neq j$$
<p style="text-align: right;">$(5.50)$</p>

Las funciones de conjunto con aditividad finita que satisfacen la ecuación (5.50) se llaman **funciones de aditividad numerable** (o *completamente aditivas*). Naturalmente, esta propiedad también exige suponer que la reunión numerable $\bigcup^{+\infty }_{k=1} A_{k}$ pertenece a $\mathcal{B}$ cuando cada $A_{k}$ pertenezca también a $\mathcal{B}$. No todas las álgebras de Boole presentan esta propiedad. Las que sí la tienen son llamadas **$\sigma$-álgebras**. Un ejemplo es el álgebra Booleana de todos los subconjuntos del espacio muestral $\Omega$. Precisemos, pues, esta definición.

**<font color='blue'>Definición 5.9 – $\sigma$-álgebra:</font>** Una familia de subconjuntos de $\Omega$, representada por $\mathcal{B}$, es una **$\sigma$-álgebra** sobre $\Omega$ cuando se cumplen las siguientes propiedades:

- **(P1)**: El conjunto vacío está en $\mathcal{B}$.
- **(P2)**: Si $A\in \mathcal{B}$, entonces $\bar{A} \in \mathcal{B}$.
- **(P3)**: Si $A_{1},A_{2},...$ es una sucesión de elementos de $\mathcal{B}$, entonces la unión (numerable) $\bigcup^{+\infty }_{k=1} A_{k}$ también está en $\mathcal{B}$.

Ahora ya estamos listos para construir la definición de probabilidad para espacios muestrales infinitos numerables.

**<font color='blue'>Definición 5.10 – Probabilidad para espacios muestrales infinitos numerables:</font>** Sea $\mathcal{B}$ una $\sigma$-álgebra cuyos elementos son subconjuntos de un conjunto infinito $\Omega$ numerable dado. Una función de conjunto $P$ se llama **medida de probabilidad** en $\mathcal{B}$ si es no negativa, de aditividad numerable, y satisface $P(\Omega)=1$.

Cuando $\mathcal{B}$ es la $\sigma$-álgebra de todos los subconjuntos de $\Omega$, una función de probabilidad queda completamente determinada mediante sus valores para los subconjuntos de un solo elemento (tales valores se llaman **probabilidades puntuales**). Todo subconjunto $A$ de $\Omega$ es finito o infinito numerable, y la probabilidad de $A$ se calcula **sumando las probabilidades puntuales** para todos los elementos de $A$:

$$P\left( A\right)  =\sum_{x\in A} P\left( x\right)$$
<p style="text-align: right;">$(5.51)$</p>

La suma del lado derecho de la ecuación (5.51) tiene un número finito de sumandos, o bien, se trata de una serie absolutamente convergente.

**Ejemplo 5.14:** Se lanza una moneda repetidamente hasta que el primer resultado vuelve a aparecer por segunda vez; entonces termina el juego. Como espacio muestral, tomamos la colección de todos los posibles juegos que pueden hacerse. Este conjunto puede expresarse como la reunión de los conjuntos infinitos numerables $A$ y $B$, definidos como

$$A=\left\{ TT,THT,THHT,THHHT,...\right\}  \wedge B=\left\{ HH,HTH,HTTH,HTTTH,...\right\}$$
<p style="text-align: right;">$(5.52)$</p>

Donde $H$ representa una cara y $T$ representa un sello. Designemos los elementos del conjunto $A$ (en el orden en que se citan en la lista anterior) con $a_{0},a_{1},...$ y los de $B$ con $b_{0},b_{1},...$. Podemos asignar arbitrariamente probabilidades puntuales no negativas $P(a_{n})$ y $P(b_{n})$ tales que

$$\sum^{+\infty }_{n=0} P\left( a_{n}\right)  +\sum^{+\infty }_{n=0} P\left( b_{n}\right)  =1$$
<p style="text-align: right;">$(5.53)$</p>

Por ejemplo, supongamos que la moneda tiene una probabilidad $p$ de mostrar cara. Es decir, $P(H)=p$ y $P(T)=1-p$, con $0<p<1$. Entonces resulta natural la asignación de las probabilidades puntuales

$$P\left( a_{n}\right)  =\left( 1-p\right)^{2}  p^{n}\wedge P\left( b_{n}\right)  =p^{2}\left( 1-p\right)^{n}$$
<p style="text-align: right;">$(5.54)$</p>

Tal asignación es aceptable, porque tenemos, para $q=1-p$,

$$\sum^{+\infty }_{n=0} P\left( a_{n}\right)  +\sum^{+\infty }_{n=0} P\left( b_{n}\right)  =q^{2}\sum^{+\infty }_{n=0} p^{n}+p^{2}\sum^{+\infty }_{n=0} q^{n}=\frac{q^{2}}{1-p} +\frac{p^{2}}{1-q} =\frac{\left( 1-q\right)  q^{2}+\left( 1-p\right)  p^{2}}{\left( 1-p\right)  \left( 1-q\right)  } =q+p=1$$
<p style="text-align: right;">$(5.55)$</p>

Supongamos ahora que queremos saber la probabilidad de que el juego termine después de exactamente $n+2$ lanzamientos. Este es el suceso $\left\{ a_{n}\right\}  \cap \left\{ b_{n}\right\}$, y su probabilidad es

$$\sum^{n}_{k=0} P\left( a_{k}\right)  +\sum^{n}_{k=0} P\left( b_{k}\right)  =q^{2}\left( \frac{1-p^{n+1}}{1-p} \right)  +p^{2}\left( \frac{1-q^{n+1}}{1-q} \right)  =1-qp^{n+1}-pq^{n+1}$$
<p style="text-align: right;">$(5.56)$</p>
◼

### Definición de probabilidad para espacios muestrales infinitos no numerables.
Un segmento rectilíneo se descompone en dos partes, con el punto de subdivisión elegido al azar. ¿Cuál es la probabilidad de que los dos fragmentos tengan la misma longitud? ¿Cuál es la probabilidad de que el mayor tenga exactamente el doble de la longitud del pequeño? ¿Cuál es la probabilidad de que el mayor tenga una longitud por lo menos de 10 unidades menos con respecto al doble de la longitud del menor? Éstos son ejemplos de problemas de probabilidad en los que el espacio muestral es no numerable ya que consta de todos los puntos del segmento. Nos preocuparemos pues de extender la definición de probabilidad, incluyendo los espacios muestrales no numerables.

Si siguiéramos el mismo proceso que establecimos para el caso de espacios muestrales numerables, tendríamos que partir de un conjunto no numerable arbitrario $\Omega$ y una $\sigma$-álgebra $\mathcal{B}$ de subconjuntos de $\Omega$, y definir una medida de probabilidad que fuera una función de conjunto $P$ no negativa, completamente aditiva y definida sobre $\mathcal{B}$, siendo $P(\Omega)=1$. Esto origina ciertas dificultades técnicas que no se presentan cuando $\Omega$ es numerable, y no nos alcanzarían estos apuntes para poder listarlas. Evitaremos, por tanto, estas dificultades, imponiendo restricciones iniciales al conjunto $\Omega$ y a la $\sigma$-álgebra $\mathcal{B}$.

En primer lugar, restringiremos $\Omega$ a ser un subconjunto de $\mathbb{R}$ o $\mathbb{R}^{n}$, según sea el caso (ya desglosaremos ambos y explicaremos esta distinción). Para el caso de la $\sigma$-álgebra $\mathcal{B}$, empleamos subconjuntos especiales de $\Omega$ que, en el lenguaje de la teoría moderna de integración (que –seamos honestos– no es *tan* común verla en cursos básicos de una carrera de ingeniería), son llamados **conjuntos medibles**. Para entender este concepto a plenitud, estableceremos la siguiente definición.

**<font color='blue'>Definición 5.11 – Medida de Borel:</font>** Sea $\Omega$ un conjunto que designaremos como *espacio de Hausdorff localmente compacto* (en palabras menos rimbombantes, un conjunto de puntos tales que puntos distintos tienen siempre entornos disjuntos, y estos admiten además una frontera), y sea $\mathcal{B}$ la mínima $\sigma$-álgebra que contiene a todos los subconjuntos abiertos de $\Omega$ (la que se conoce como **$\sigma$-álgebra de conjuntos de Borel**). Una **medida de Borel** es una medida $\mu$ definida sobre $\mathcal{B}$ que es localmente finita. Es decir, $\mu(C)<\infty$ para cada conjunto (compacto) $C\subset \Omega$. El espacio $\Omega$ es llamado, por tanto, un **conjunto medible conforme la medida de Borel** (o, más sencillo, simplemente **conjunto medible**).

Si un conjunto medible es subconjunto de $\mathbb{R}$, entonces cumplirá con las siguientes propiedades:

- **(P1):** Si $A$ es medible, entonces lo es también la diferencia simétrica $\mathbb{R}-A$ (es decir, el complemento de $A$.
- **(P2):** Si $\left\{ A_{1},A_{2},...\right\}$ es una colección numerable de conjuntos medibles, entonces la reunión $\bigcup^{n}_{k=1} A_{k}$ también es medible.
- **(P3):** Todo intervalo (abierto, cerrado, semiabierto, finito o infinito) es medible.

Por lo tanto, los conjuntos medibles de $\mathbb{R}$ forman una $\sigma$-álgebra Booleana que contiene a todos los psoibles intervalos de $\mathbb{R}$. Existe una $\sigma$-álgebra mínima (en el sentido de la inclusión) que tiene esa propiedad, cuyos elementos son los mencionados conjuntos de Borel. Análogamente, en $\mathbb{R}^{2}$, existe una $\sigma$-álgebra mínima que contiene todos los productos cartesianos de pares de intervalos (sus elementos son, naturalmente, conjuntos de Borel). Finalmente, para el caso de $\mathbb{R}^{n}$, existe una $\sigma$-álgebra mínima de todos los productos cartesianos de los intervalos posibles de construir con respecto a los elementos de la base canónica de $\mathbb{R}^{n}$ (por ejemplo, $(a_{1},b_{1})\times (a_{2},b_{2})\times (a_{3},b_{3})$ es el producto cartesiano de tres intervalos abiertos, cada uno relativo a los ejes $X, Y$ y $Z$, respectivamente, y que, en $\mathbb{R}^{3}$, se representa por medio de una figura similar a una caja rectangular de dimensiones $(b_{1}-a_{1})\times (b_{2}-a_{2})\times (b_{3}-a_{3})$, llamada *celda ortoédrica abierta*), y cuyos elementos son conjuntos de Borel.

De ahora en adelante, siempre que usemos un conjunto $\Omega$ de números reales como espacio muestral, o, más general, siempre que se use un conjunto $\Omega \subset \mathbb{R}^{n}$ como espacio muestral, supondremos que éste conjunto es siempre un conjunto de Borel. Los subconjuntos de Borel de $\Omega$ forman asimismo una $\sigma$-álgebra de Boole; supondremos que nuestras medidas de probabilidad están definidas sobre estas $\sigma$-álgebras. Éstas son lo bastante amplias para incluir los sucesos que se presenten en las aplicaciones naturales de la teoría de probabilidades. Por lo tanto, tiene sentido la siguiente definición.

**<font color='blue'>Definición 5.12 – Probabilidad para espacios muestrales no numerables:</font>** Sea $\Omega$ un subconjunto de $\mathbb{R}^{n}$ y $\mathcal{B}$ una $\sigma$-álgebra de subconjuntos de $\Omega$ que, a su vez, son conjuntos de Borel. Una función de conjunto $P:\mathcal{B}\longrightarrow \mathbb{R}$ no negativa, completamente aditiva y tal que $P(\Omega)=1$, es llamada **medida de probabilidad**. La tripleta $(\Omega, \mathcal{B}, P)$ es asimismo llamada **espacio de probabilidad**.

### Numerabilidad de un conjunto de puntos con probabilidad positiva.
Para espacios muestrales numerables la probabilidad de un suceso $A$ se calcula a menudo sumando las probabilidades puntuales $P(x)$ para todo $x$ de $A$. Este método es aplicable para espacios muestrales no numerables porque, como el siguiente teorema pone de manifiesto, la mayor parte de las probabilidades puntuales son nulas.

**<font color='crimson'>Teorema 5.9:</font>** *Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y sea $T$ el conjunto de los puntos $x\in \Omega$ tales que $P(x)>0$. Entonces $T$ es numerable.* ◆

El teorema (5.9) nos dice que pueden asignarse probabilidades positivas a lo sumo a un subconjunto numerable de $\Omega$. Los restantes puntos de $\Omega$ tendrán una probabilidad igual a cero. En particular, si todos los resultados de $\Omega$ son igualmente probables, entonces todo punto de $\Omega$ debe tener asignada probabilidad cero. Puesto que la mayor parte de (si no todas) las probabilidades puntuales para un espacio muestral no numerable serán iguales a cero, no basta conocer las probabilidades puntuales para calcular las probabilidades de sucesos arbitrarios. Se necesita más información; la descripción es mejor utilizando dos conceptos nuevos, las **variables aleatorias** y las **funciones de distribución**, a las que nos vamos a referir a continuación. Dichos conceptos permiten hacer uso del cálculo integral en muchos problemas con espacios muestrales no numerables. La integración, en este caso, sustituye a la sumación en el cálculo de probabilidades.

## Variables aleatorias.
En muchos experimentos nos interesan números asociados a los resultados del experimento. Por ejemplo, $n$ monedas se lanzan simultáneamente y preguntamos por el número de caras. Un par de dados ruedan y nos interesa la suma de los puntos conseguidos. Se lanza una flecha hacia un blanco circular y queremos saber la distancia desde el punto en que cayó con respecto al centro. Siempre que asociamos un número real a cada resultado de un experimento estamos tratando con una función cuyo dominio es el conjunto de resultados posibles y cuyo recorrido es el conjunto de los números reales en cuestión. Una función de estas características se llama **variable aleatoria**. Formalizaremos pues su definición a continuación.

**<font color='blue'>Definición 5.13 – Variable aleatoria:</font>** Sea $\Omega$ un espacio muestral arbitrario. Una función $X:\Omega \longrightarrow \mathbb{R}$ es llamada **variable aleatoria unidimensional**. En términos más generales, una función vectorial del tipo $\mathbf{X}:\Omega \longrightarrow \mathbb{R}^{n}$ es llamada **variable aleatoria $n$-dimensional** (o, en términos más prácticos, **vector aleatorio $n$-dimensional**).

Así pues, una variable aleatoria no es más que una función (real o vectorial) definida en un conjunto determinado. La palabra “aleatoria” tan solo se utiliza para recordar que el conjunto en cuestión es un espacio muestral $\Omega$ (en ningún caso significa, necesariamente, que los elementos de $\Omega$ se escojan al azar para construir la variable aleatoria respectiva).

A causa de la generalidad de la anterior definición, es posible tener distintas variables aleatorias asociadas a un mismo experimento. En cada caso particular nosotros, como experimentadores (o, a un grado ya más subjetivo, **generalistas** o **conocedores del negocio**), debemos decidir cuáles son las variables aleatorias que nos interesan. Generalmente, procuramos trabajar con las variables aleatorias cuyas funciones reflejan, **con la máxima simplicidad posible**, las propiedades de los resultados del experimento que son realmente esenciales. **Esto no es trivial y, con frecuencia, se va haciendo más fácil con la experiencia**.

En términos de notación, solemos emplear letras mayúsculas regulares para la designación de variables aleatorias unidimensionales. Por ejemplo, $X,Y, Z$. El resultado de un experimento suele ser representado mediante letras griegas (es muy común el uso de la letra griega $\omega$, sobretodo en textos más clásicos). De esta manera, $X(\omega)$ representa aquel número real que, para el caso de la variable aleatoria $X$, está asociado el resultado $\omega$.

A continuación, vamos a ejemplificar este concepto a fin de despejar las dudas (razonables) que podamos tener al respecto.

**Ejemplo 5.15:** Un experimento consiste en lanzar un dado y leer el número de puntos conseguido. Si el dado no está cargado, resulta útil definir una variable aleatoria $X$ que describa los resultados posibles de tal experimento. Es decir,

$$X\left( \omega \right)  =\omega \  \wedge\  \omega =\left\{ 1,2,3,4,5,6\right\}$$
<p style="text-align: right;">$(5.57)$</p>

En este caso, decimos que **la variable aleatoria $X$ es discreta**, debido a que los resultados posibles del experimento son finitos (una variable aleatoria también será discreta si el espacio muestral es infinito numerable). No obstante, no es la única variable aleatoria que podríamos considerar. Si estamos interesados en saber si el número de puntos es par o impar, debemos considerar otra variable aleatoria $Y$ que, para este caso, puede definirse como

$$Y\left( \omega \right)  =\begin{cases}0&;\  \mathrm{si} \  \omega \  \mathrm{es\  par} \\ 1&;\  \mathrm{si} \  \omega \  \mathrm{es\  impar} \end{cases}$$
<p style="text-align: right;">$(5.58)$</p>

Los valores 0 y 1 no son esenciales. Podría utilizarse cualquier par de números para describir los resultados de este experimento. Sin embargo, es usual que utilicemos estos valores, ya que en las ciencias computacionales, el par $\left\{ 0,1\right\}$ suele asociar los valores *“falso”* y *“verdadero”* respectivamente a cualquier prueba lógica cuyos resultados sean esencialmente dos (que, naturalmente, sean de nuestro interés). Por consiguiente, $Y$ es una **variable aleatoria binaria**. ◼︎

**Ejemplo 5.16:** Se lanza una flecha hacia un blanco circular. El conjunto de todos los resultados posibles es el que consta de todos los puntos $\omega$ del blanco. Si imaginamos un sistema de coordenadas cartesianas colocado en el blanco y cuyo origen coincide con su centro, podemos asignar diversas variables aleatorias a este experimentos. Una de ellas es la variable aleatoria bidimensional que asigna al punto $\omega$ sus coordenadas $(x,y)$. Otra es el par de coordenadas polares $(r,\theta)$ del punto $\omega$. Como ejemplos de variables unidimensionales tenemos a aquellas que asignan a cada $\omega$ su coordenada horizontal $x$ o su coordenada radial $r$, dependiendo del sistema de coordenadas empleado. Con frecuencia, en un experimento de este tipo, deseamos conocer la probabilidad de que la flecha toque en una determinada región del blanco, por ejemplo, en el primer cuadrante. Este suceso se puede describir de la manera más simple mediante la variable aleatoria que asigna a cada punto $\omega$ su coordenada transversal $\theta$, con lo cual $X(\omega)=\theta$; el suceso *“la flecha da en el primer cuadrante”* es el conjunto de valores de $\omega$ tales que $0\leq X(\omega)\leq \pi/2$. Así pues, $X$ es un ejemplo de variable aleatoria continua. ◼︎

Vamos a detenernos un poco en el tema de las notaciones. Evitaremos generar una notación engorrosa (siempre que se pueda) empleando notaciones breves para describir ciertos tipos de sucesos y sus probabilidades. Por ejemplo, si $t\in \mathbb{R}$, el conjunto de todos los valores de $\omega$ del espacio muestral tales que $X(\omega)=t$ se representará brevemente poniendo $X=t$. La probabilidad de este suceso se denota como $P(X=t)$ en lugar de poner $P\left( \left\{ \omega |X\left( \omega \right)  =t\right\}  \right)$. Los símbolos tales como $P\left( X=a\vee X=b\right)$ y $P(a<X\leq b)$ se definen de modo parecido. Así pues, el suceso $X=a\vee X=b$ es la unión de los sucesos $X=a$ y $X=b$; el símbolo $P\left( X=a\vee X=b\right)$ representa la probabilidad de esta unión. El suceso $a<X\leq b$ es el conjunto de todos los puntos $\omega$ tales que $X(\omega)$ pertenece al intervalo semiabierto $(a,b]$, y el símbolo $P(a<X\leq b)$ representa la probabilidad de este suceso.

## Funciones de distribución.
Volvamos de nuevo al problema del cálculo de probabilidades de un suceso asociado a una cierta variable aleatoria. Sea $X$ una variable aleatoria unidimensional definida en un espacio muestral $\Omega$, siendo $\Omega$ un conjunto de Borel en $\mathbb{R}^{n}$ para $n\geq 1$. Sea $P$ una medida de probabilidad definida en los subconjuntos de Borel de $\Omega$. Para cada $\omega$ de $\Omega$, $X(\omega)$ es un número real, y cuando $\omega$ recorre los elementos de $\Omega$, los números $X(\omega)$ recorren un conjunto de números reales (el recorrido de $X$). Este conjunto puede ser finito, infinito numerable o infinito no numerable. Para cada número real $t$ consideramos el siguiente subconjunto de $\Omega$:

$$A\left( t\right)  =\left\{ \omega |X\left( \omega \right)  \leq t\right\}$$
<p style="text-align: right;">$(5.59)$</p>

Si $t$ es menor que todos los números del recorrido de $X$, el conjunto $A(t)$ será vacío. De lo contrario, $A(t)$ será un conjunto no vacío. Suponemos que, para cada $t$, el conjunto $A(t)$ es un suceso (esto es, un conjunto de Borel). Conforme nuestra notación, representaremos este suceso con el símbolo $X\leq t$.

Suponemos conocida la probabilidad $P(X\leq t)$ para todo $t\in \mathbb{R}$. Este conocimiento nos permitirá calcular las probabilidades de otros muchos sucesos de interés. Para lograrlo, se usan las probabilidades $P(X\leq t)$ como base para la construcción de una nueva función $F$, llamada **función de distribución** de $X$, que se define a continuación.

**<font color='blue'>Definición 5.14 – Función de distribución (caso undimensional):</font>** Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y $X:\Omega \longrightarrow \mathbb{R}$ una variable aleatoria unidimensional. La función $F:\mathbb{R} \longrightarrow [0,1]$ definida como

$$F\left( t\right)  =P\left( X\leq t\right)$$
<p style="text-align: right;">$(5.60)$</p>

es llamada **función de distribución acumulada** de la variable aleatoria $X$.

Es importante darse cuenta de que la función de distribución $F$ está definida para todo $\mathbb{R}$, aun cuando el recorrido de $X$ puede ser sólo una porción acotada de $\mathbb{R}$. En efecto, si todos los números $X(\omega)$ están en un cierto intervalo finito $[a,b]$, entonces, para $t<a$, la probabilidad $P(X\leq t)$ es cero (ya que, para $t<a$ el conjunto $X\leq t$ es vacío) y para $t\geq b$ la probabilidad $P(X\leq t)$ es 1 (debido a que, en ese caso, el conjunto $X\leq t$ es el espacio muestral completo). Esto significa que, para variables aleatorias $X$ acotadas cuyo recorrido está dentro de un intervalo $[a,b]$, tenemos que $F(t)=0$ para todo $t<a$ y $F(t)=1$ para todo $t\geq b$.

Mediante el siguiente teorema, estableceremos las propiedades fundamentales de las funciones de distribución.

**<font color='crimson'>Teorema 5.10:</font>** *Sea $(\Omega,\mathcal{B},P)$ un espacio de probabilidad y $X:\Omega \longrightarrow \mathbb{R}$ una variable aleatoria. Si $F$ es una función de distribución de $X$, entonces se tiene que:*

- **(P1):** $0\leq F(t)\leq 1$ *para todo $t$*.
- **(P2):** $P(a<X\leq b)=F(b)-F(a)$ *siempre que $a<b$.*
- **(P3):** $F(a)\leq F(b)$ *si* $a<b$.
◆

**Ejemplo 5.17 – Visualización del recorrido de una función de distribución:** La función $U$ definida como

$$U\left( t\right)  =\begin{cases}0&;\  \mathrm{si} \  t<0\\ t&;\  \mathrm{si} \  0\leq t<1\\ 1&;\  \mathrm{si} \  t\geq 1\end{cases}$$
<p style="text-align: right;">$(5.61)$</p>

es llamada **función de distribución uniforme**. Se trata de una función propia de una variable aleatoria acotada que es tal que $X(t)=t$ para $0\leq t<1$. Podemos recurrir a la librería **<font color='MediumOrchid'>Matplotlib:</font>** para visualizar el rango completo de valores que esta función toma para todos los valores posibles de $t$. En efecto, importamos dicha librería (más otras que usaremos un poco más adelante):

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [2]:
# Setting de parámetros por defecto para nuestras figuras.
plt.rcParams["figure.dpi"] = 100
sns.set()
plt.style.use("bmh")

In [3]:
%matplotlib notebook

Y definimos la función $U$ de manera sencilla como sigue:

In [4]:
# Definición de la función de distribución uniforme.
def U(t):
    Y = np.zeros(t.shape)
    
    for j in range(len(t)):
        if t[j] < 1 and t[j] >= 0:
            Y[j] = t[j]
        elif t[j] < 0:
            Y[j] = 0
        else:
            Y[j] = 1
    
    return Y

Graficar esta función resulta sencillo. Por ejemplo, para $-1\leq t\leq 2$, tenemos:

In [5]:
# Creamos la figura y los ejes que la componen.
fig, ax = plt.subplots(figsize=(10, 5))

# Definimos el arreglo de valores de t.
t = np.linspace(start=-1, stop=2, num=100)

# Llenamos la figura.
ax.plot(t, U(t), color="navy", lw=3)
ax.set_xlabel(r"$t$", fontsize=12, labelpad=10)
ax.set_ylabel(r"$U(t)$", fontsize=12, labelpad=20, rotation=0)
ax.set_title(r"Distribución uniforme, para $-1\leq t\leq 2$", fontsize=14, fontweight="bold", pad=10);

<IPython.core.display.Javascript object>

La función de distribución uniforme es un caso típico de **distribución no acotada**. Naturalmente, no todas las funciones de distribución son de este tipo. La función $S$, definida como

$$S\left( t\right)  =\frac{1}{1+\exp \left( -t\right)  }$$
<p style="text-align: right;">$(5.62)$</p>

es llamada **distribución logística**, y se trata de una **función de distribución no acotada**. Esta distribución tiene una gráfica bien conocida en el campo de la estadística y en machine learning, y cuya forma es parecida a la de la letra "S":

In [6]:
# Definimos la función de distribución logística.
def S(t):
    return 1 / (1 + np.exp(-t))

In [7]:
# Creamos la figura y los ejes que la componen.
fig, ax = plt.subplots(figsize=(10, 5))

# Definimos el arreglo de valores de t.
t = np.linspace(start=-5, stop=5, num=100)

# Llenamos la figura.
ax.plot(t, S(t), color="indianred", lw=3)
ax.set_xlabel(r"$t$", fontsize=12, labelpad=10)
ax.set_ylabel(r"$S(t)$", fontsize=12, labelpad=20, rotation=0)
ax.set_title(r"Distribución logística, para $-5\leq t\leq 5$", fontsize=14, fontweight="bold", pad=10);

<IPython.core.display.Javascript object>

En general, resulta conveniente reconocer las propiedades geométricas de las funciones de distribución, ya que éstas permiten agruparlas en **familias de distribuciones**. Si bien profundizaremos más adelante en aquello, por el momento, nos conformaremos con reconocer que las variables aleatorias inherentes a estas distribuciones son ciertamente diferentes: Una *variable aleatoria uniforme* es evidentemente discreta, mientras que una *variable aleatoria logística* es de tipo continua. En un momento formalizaremos esta distinción haciendo uso, precisamente, de las distribuciones de probabilidad. ◼︎

El teorema (5.10) indica cómo calcular (en función de la correspondiente función de distribución acumulada $F$) la probabilidad de que una variable aleatoria $X$ pertenezca a un intervalo semiabierto de la forma $(a,b]$. El siguiente teorema permite extender el concepto a otros tipos de intervalos.

**<font color='crimson'>Teorema 5.11:</font>** *Sea $X$ una variable aleatoria unidimensional y $F$ una función de distribución para $X$. Entonces, si $a<b$, tenemos que:*

- **(P1):** $P\left( a\leq X\leq b\right)  =F\left( b\right)  -F\left( a\right)  +P\left( X=a\right)$.
- **(P2):** $P\left( a<X<b\right)  =F\left( b\right)  -F\left( a\right)  -P\left( X=b\right)$.
- **(P3):** $P\left( a\leq X<b\right)  =F\left( b\right)  -F\left( a\right)  +P\left( X=a\right)  -P\left( X=b\right)$.
- **(P4):** $\displaystyle \lim_{t\rightarrow -\infty } F\left( t\right)  =0\wedge \displaystyle \lim_{t\rightarrow +\infty } F\left( t\right)  =1$.
◆

El tipo más general de distribución es cualquier función $F:\mathbb{R} \longrightarrow [0, 1]$ que cumpla con las siguientes propiedades:

- **(T1):** $F$ es una función monótona creciente en el intervalo cerrado $[0,1]$.
- **(T2):** $F$ es continua a la derecha en cada punto (es decir, pueden existir discontinuidades de salto en $F$ siempre que sean por la izquierda).
- **(T3):** $\displaystyle \lim_{t\rightarrow -\infty } F\left( t\right)  =0\wedge \displaystyle \lim_{t\rightarrow +\infty } F\left( t\right)  =1$.

En efecto, es posible demostrar que, para cada una de estas funciones $F$, existe una correspondiente función de conjunto $P$, definida sobre los conjuntos de Borel de $\mathbb{R}$, tal que $P$ es una medida de probabilidad que asigna el valor $F(b)-F(a)$ a cada intervalo semiabierto $(a,b]$.

Existen dos tipos especiales de distribuciones, llamadas **discretas** y **continuas**, que en la práctica tienen particular importancia. En el caso discreto toda la *masa* de puntos con probabilidades no nulas está concentrada en un número de puntos finito o infinito numerable, mientras que en el caso continuo, dichas probabilidades están esparcidas, con espesor uniforme o variado, a lo largo de todo el eje real, a modo de una densidad de infinitos puntos. A continuación, trataremos con cierto detalle esos dos tipos de distribuciones.

### Distribuciones discretas.
Sea $X$ una variable aleatoria unidimensional y consideremos una nueva función $p$, llamada **función de masa de probabilidad** de $X$ (que suele abreviarse como *fmp*, *pmf*, del inglés *probability mass function*). Sus valores están definidos para todo el rango de valores de $X$, digamos $k\in \mathbb{R}$, mediante la ecuación $p(k)=P(X=k)$. Es decir, $p(k)$ es la probabilidad de $X$ tome el valor $k$. Cuando deseamos poner de manifiesto que $p$ está asociada a $X$, solemos escribir $p_{X}$ en lugar de sólo $p$, $p_{X}(k)$ en lugar de simplemente $p(k)$.

El conjunto de números reales $k$ para los cuales $p(k)>0$ es finito o infinito numerable. Si llamamos $T$ a dicho conjunto, podemos expresarlo como $T=\left\{ k\in \mathbb{R} :p\left( k\right)  >0\right\}$. Al respecto, diremos que la variable aleatoria $X$ es **discreta** si se cumple que

$$\sum_{k\in T} p\left( k\right)  =1$$
<p style="text-align: right;">$(5.63)$</p>

Dicho de otro modo, $X$ es discreta si una unidad de masa de probabilidad está distribuida sobre el eje real concentrándose una masa positiva $p(k)$ en cada punto $k$ de un cierto conjunto $T$ finito o infinito numerable y, en los restantes puntos, no hay masa. Consecuentemente, los puntos de $T$ son llamados **puntos de masa** de $X$.

Para variables aleatorias discretas, el conocimiento de la función de masa de probabilidad nos permite calcular la probabilidad de sucesos arbitrarios. Tenemos, efectivamente, el siguiente teorema.

**<font color='crimson'>Teorema 5.12:</font>** *Si $A$ es un subconjunto de Borel de $\mathbb{R}$, y si designamos con $P(X\in A)$ a la probabilidad de que $X(\omega)=A$, entonces*

$$P\left( X\in A\right)  =\sum_{x\in A\cap T} p\left( x\right)$$
<p style="text-align: right;">$(5.64)$</p>

*Donde $T$ es el conjunto de puntos de masa de $X$.* ◆

Cuando $A$ es el intervalo $(-\infty, k]$, la sumatoria (5.64) da el valor de la función de distribución $F(k)$. Así pues, tenemos que

$$F\left( k\right)  =P\left( X\leq k\right)  =\sum_{x\leq k} p\left( x\right)$$
<p style="text-align: right;">$(5.65)$</p>

Si una variable aleatoria es discreta, **la función de distribución correspondiente $F$ también es discreta**.

**Ejemplo 5.18 – La distribución binomial:** Sea $p$ un número real que satisface $0\leq p\leq 1$ y sea $q=1-p$. Supongamos que una variable aleatoria toma los valores $0,1,2,...,n$, con $n\in \mathbb{N}\cup \left\{ 0\right\}$, y admitamos que la probabilidad $P(X=k)$ viene dada por la fórmula

$$P(X=k)=\binom{n}{k} p^{k}q^{n-k}\  ;\  k\in \mathbb{N} \cup \left\{ 0\right\}$$
<p style="text-align: right;">$(5.66)$</p>

Esta asignación de probabilidades es legítima, porque la suma de todas ellas es

$$\sum^{n}_{k=0} P\left( X=k\right)  =\sum^{n}_{k=0} \binom{n}{k} p^{k}q^{n-k}=\left( p+q\right)^{n}  =1$$
<p style="text-align: right;">$(5.67)$</p>

ya que $p+q=1$. La correspondiente función de distribución $F(k)$ se denomina **distribución binomial**, de parámetros $n$ y $p$. Sus valores pueden calcularse mediante la siguiente expresión:

$$F\left( k\right)  =P\left( X\leq k\right)  =\sum^{k}_{j=0} \binom{n}{j} p^{j}q^{n-j}$$
<p style="text-align: right;">$(5.68)$</p>

La distribución binomial se presenta de manera natural en el caso de una sucesión de pruebas de Bernoulli, donde $p$ es la probabilidad del suceso. Efectivamente, cuando la variable aleatoria $X$ cuenta el número de veces en que se presenta el suceso en $n$ pruebas, $P(X=k)$ es precisamente igual a $\binom{n}{k} p^{k}q^{n-k}$ en virtud del teorema (5.7).

Crear una variable aleatoria de este tipo es relativamente sencillo en Python, si usamos la librería **<font color='mediumorchid'>Scipy:</font>**. Puntualmente, estamos interesados en hacer uso del módulo `scipy.stats`, el cual se especializa en la realización de análisis estadísticos de gran complejidad:

In [8]:
from scipy import stats

Para crear una variable aleatoria binomial, basta con usar la clase `stats.binom()`, inicializándola con el número total $n$ de repeticiones del experimento en cuestión y la probabilidad $p$ de obtener éxito. En los siguientes bloques de código, crearemos tres variables aleatorias binomiales para distintas combinaciones de $n$ y $p$, a fin de visualizar tales cambios en sus correspondientes funciones de masa y de distribución:

In [9]:
# Inicializamos la figura.
fig, ax = plt.subplots(figsize=(10, 10), nrows=2, sharex=True)

# Creamos el rango de valores para evaluar las funciones de masa y de distribución.
k = np.linspace(start=0, stop=20, num=21)

# Mediante un loop, creamos las variables aleatorias y las graficamos.
for n_j, p_j, color_j in zip([20, 20, 40], [0.5, 0.7, 0.5], ["orange", "purple", "skyblue"]):
    X_j = stats.binom(n_j, p_j) # Creamos la variable aleatoria.
    ax[0].scatter(
        k, X_j.pmf(k), marker="o", ec="gray", color=color_j, label=r"$n=$"+f"{n_j}, " + r"$p=$" + f"{p_j}"
    )
    ax[0].legend(loc="upper left", frameon=True, fontsize=12)
    ax[0].set_ylabel(r"$p(k)$", fontsize=14, labelpad=20, rotation=0)
    ax[1].scatter(
        k, X_j.cdf(k), marker="o", ec="gray", color=color_j, label=r"$n=$"+f"{n_j}, " + r"$p=$" + f"{p_j}"
    )
    ax[1].legend(loc="best", frameon=True, fontsize=12)
    ax[1].set_ylabel(r"$F(k)$", fontsize=14, labelpad=20, rotation=0)

ax[0].set_title("Función de masa binomial", pad=10, fontweight="bold", fontsize=15)
ax[1].set_title("Función de distribución binomial", pad=10, fontweight="bold", fontsize=15)
ax[1].set_xlabel(r"$k$", fontsize=14, labelpad=10);

<IPython.core.display.Javascript object>

Notemos pues que estas elecciones difieren, en términos geométricos, en la **forma** y la **localización** de cada una de las curvas resultantes de unir estos puntos discretos. ◼︎

**Ejemplo 5.19 – La distribución de Poisson:** Sea $\lambda >0$ y $X$ una variable aleatoria que toma valores enteros no negativos. Si la función de masa de probabilidad asociada a $X$ está definida como

$$p\left( k\right)  =P\left( X=k\right)  =\frac{\exp \left( -\lambda \right)  \lambda^{k} }{k!}$$
<p style="text-align: right;">$(5.69)$</p>

para $k\in \mathbb{N} \cup \left\{ 0\right\}$, entonces decimos que $X$ es una **variable aleatoria de Poisson**. La función de distribución resultante se denomina **distribución de Poisson** de parámetro $\lambda$. Tal asignación de probabilidades es válida, porque

$$\sum^{+\infty }_{k=0} p\left( k\right)  =\exp \left( -\lambda \right)  \sum^{+\infty }_{k=0} \frac{\lambda^{k} }{k!} =\exp \left( -\lambda \right)  \exp \left( \lambda \right)  =1$$
<p style="text-align: right;">$(5.70)$</p>

La distribución de Poisson es popular porque modela el número de veces que ocurre un evento en un intervalo de tiempo. De esta manera, a partir de una frecuencia de ocurrencia media (o tasa de éxitos), permite modelar la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos “raros”. El parámetro $\lambda>0$ representa el número de veces que se espera que ocurra dicho suceso en un intervalo dado. Por ejemplo, si es suceso estudiado tiene lugar en promedio 4 veces por minuto, y estamos interesados en la probabilidad de que ocurra $k$ veces en un intervalo de 10 minutos, sería razonable utilizar un modelo de distribución de Poisson con $\lambda =10\times 4=40$.

Es, por tanto, aplicable a diversos problemas relativos a sucesos aleatorios que se presentan en el transcurso del tiempo, tales como accidentes de tráfico, conexiones equivocadas en una central telefónica, e intercambios de cromosomas en las células provocados por rayos X. En minería, puntualmente en minería subterránea en ambientes de altos esfuerzos, resulta ser una elección popular para modelar la tasa de ocurrencia de eventos sísmicos de gran magnitud inducidos por la minería, los que pueden traducirse, en caso de ocurrir en zonas cercanas a niveles de producción y tener potencial de detener las operaciones de extracción, en **estallidos de rocas**, asignándose un número denominado *peligro sísmico* (o *seismic hazard*).

Como en el caso de la distribución binomial, visualizar una distribución de Poisson es sencillo si nos referimos al uso del módulo `scipy.stats`. En esta oportunidad, usamos la clase `stats.poisson()`, seteando el parámetro $\lambda$ en distintos valores, a fin de observar los efectos en las funciones de masa y de distribución:

In [10]:
# Inicializamos la figura.
fig, ax = plt.subplots(figsize=(10, 10), nrows=2, sharex=True)

# Creamos el rango de valores para evaluar las funciones de masa y de distribución.
k = np.linspace(start=0, stop=20, num=21)

# Mediante un loop, creamos las variables aleatorias y las graficamos.
for lambda_j, color_j in zip([1, 4, 10], ["orange", "purple", "skyblue"]):
    X_j = stats.poisson(lambda_j)
    ax[0].plot(
        k, X_j.pmf(k), marker="o", color="gray", 
        markerfacecolor=color_j, ms=7, label=r"$\lambda=$"+f"{lambda_j}"
    )
    ax[0].legend(loc="best", frameon=True, fontsize=12)
    ax[0].set_ylabel(r"$p(k)$", fontsize=14, labelpad=20, rotation=0)
    ax[1].plot(
        k, X_j.cdf(k), marker="o", color="gray", 
        markerfacecolor=color_j, ms=7, label=r"$\lambda=$"+f"{lambda_j}"
    )
    ax[1].legend(loc="best", frameon=True, fontsize=12)
    ax[1].set_ylabel(r"$F(k)$", fontsize=14, labelpad=20, rotation=0)

ax[0].set_title("Función de densidad de Poisson", pad=10, fontweight="bold", fontsize=15)
ax[1].set_title("Función de distribución de Poisson", pad=10, fontweight="bold", fontsize=15)
ax[1].set_xlabel(r"$k$", fontsize=14, labelpad=10);

<IPython.core.display.Javascript object>

◼︎

**Ejemplo 5.20:** En un procesamiento de recirculación de agua industrial en una planta concentradora, se observa que el número de bombas que fallan en el tren completo, antes de 100 días de funcionamiento, es en promedio de 8. Vamos a determinar:

1. La probabilidad de que una bomba falle en 25 días.
2. La probabilidad de que no más de dos bombas fallen en 50 días.
3. La probabilidad de que fallen al menos 10 bombas en 125 días.

En efecto, consideremos la variable aleatoria $X$ que representa el número de bombas que fallan antes de cumplir los 100 días requeridos de funcionamiento. Dado que la tasa de fallos es fija (y baja), dicha variable puede admitirse como una variable aleatoria de Poisson con parámetro $\lambda =8$.

Para responder la pregunta (1), vamos a suponer que existe un cierto nivel de regularidad en el proceso relativo a la falla de las bombas y, por lo tanto, la frecuencia de fallas en un cuarto de tiempo del intervalo definido de 100 días es también un cuarto de la original. De esta manera, si $Y$ es la variable aleatoria que determina el número de bombas que falla antes de cumplir 25 días, entonces $Y$ es una variable aleatoria de Poisson con parámetro $\lambda =8/4=2$. Así pues, la probabilidad de que exactamente una bomba falle en 25 días puede calcularse como

In [11]:
# Seteamos nuestra variable aleatoria.
Y = stats.poisson(2)

In [12]:
# Calculamos la probabilidad requerida (p(Y = 1)).
Y.pmf(1)

0.2706705664732254

Por lo tanto, la probabilidad de que una única bomba falle en 25 días es del 27.07%. Si seguimos el mismo razonamiento, podemos construir una nueva variable aleatoria de Poisson $Z$ para el caso (2), donde el parámetro $\lambda$ es igual a 4 (ya que estamos interesados en saber lo que ocurre en la mitad del tiempo definido para la variable aleatoria original $X$). Por lo tanto,

In [13]:
# Seteamos nuestra variable aleatoria.
Z = stats.poisson(4)

Así que debemos calcular la probabilidad $P(Z\leq 2)$. Usando la función de distribución, obtenemos:

In [14]:
# Calculamos la probabilidad requerida.
Z.cdf(2)

0.23810330555354436

Por lo tanto, la probabilidad de que no más de dos bombas fallen en 50 días es de un 23.81%. Finalmente, para el caso (3), bastará con definir una nueva variable aleatoria de Poisson $U$ con parámetro $\lambda=10$, ya que hemos excedido los 100 días del intervalo respectivo. Considerando la propiedad que tiene toda función de distribución $F(k)=P(X\leq k)$, para la cual $P(X\geq k)=1-P(X<k)$, obtenemos el siguiente resultado:

In [15]:
# Seteamos nuestra variable aleatoria.
U = stats.poisson(10)

In [16]:
# Calculamos la probabilidad requerida.
1 - U.cdf(10)

0.41696024980701485

Así que la probabilidad de que fallen al menos 10 bombas en 125 días es de un 41.7%. Un valor preocupantemente alto y que ameritaría discutir ciertos planes de prevención con el área de mantenimiento. ◼︎

### Distribuciones continuas.
Sea $X$ una variable aleatoria unidimensional y $F$ sy función de distribución, de modo que $F(t)=P(X\leq t)$ para todo $t\in \mathbb{R}$. Si la probabilidad $P(X=t)$ es cero para todo $t$, entonces, en virtud del teorema (5.11), $F$ es una función continua en todo $\mathbb{R}$. En este caso, decimos que $F$ es una **distribución continua de probabilidad** y $X$ es, por extensión, una **variable aleatoria continua**. Si $F$ es de clase $C^{1}$ para todo $t$ en el intervalo $[a,t]$, podemos hacer uso del teorema fundamental del cálculo y escribir

$$F\left( t\right)  -F\left( a\right)  =\int^{t}_{a} f\left( u\right)  du$$
<p style="text-align: right;">$(5.71)$</p>

Donde $f$ es la derivada de $F$. La diferencia $F(t)-F(a)$ es, naturalmente, la probabilidad $P(a< X\leq t)$, y la ecuación (5.71) permite expresar tal probabilidad por medio de una integral.

En algunas ocasiones la función de distribución $F$ puede expresarse como una integral de la forma (5.71), en la que la función $f$ es integrable pero no necesariamente continua. Siempre que una igualdad como (5.71) sea válida para todos los intervalos $[a,t]$, el integrando $f$ se llama **función de densidad de probabilidad** de la variable aleatoria $X$ (o de la distribución $F$) con tal que $f$ sea no negativa. Dicho de otro modo, tenemos la siguiente definición.

**<font color='blue'>Definición 5.15 – Función de densidad (caso undimensional):</font>** Sea $X$ una variable aleatoria continua con función de distribución $F$. Una función $f$ no negativa se denomina **función de densidad de probabilidad** de $X$ (asociada a $F$) si es integrable en el intervalo $[a,b]$, y si

$$F(b)-F(a)=P(a\leq X\leq b)=\int^{b}_{a} f\left( x\right)  dx$$
<p style="text-align: right;">$(5.72)$</p>

Si en la ecuación (5.72) hacemos que $a\rightarrow \infty$, se tendrá que $F(a)\rightarrow 0$, obteniéndose la importante relación:

$$P\left( X\leq b\right)  =\int^{b}_{-\infty } f\left( x\right)  dx$$
<p style="text-align: right;">$(5.73)$</p>

y que es válida para todo $x\in \mathbb{R}$. Si ahora hacemos que $b\rightarrow +\infty$, entonces $F(b)\rightarrow 1$ y, por tanto, obtenemos

$$\int^{+\infty }_{-\infty } f\left( x\right)  dx=1$$
<p style="text-align: right;">$(5.74)$</p>

Para las variables aleatorias discretas, la suma de todas las probabilidades $P(X=k)$ es igual a 1. La fórmula (5.74) es la versión de la misma propiedad adaptada a las variables aleatorias continuas. También existe una estrecha analogía entre las fórmulas (5.64) y (5.73). La función de densidad $f$ desempeña, para las distribuciones continuas, el mismo papel de la función que la función de masa de probabilidad $p$ para distribuciones discretas; la integración reemplaza a la suma en el cálculo de las probabilidades. Sin embargo, existe una diferencia importante. En el caso discreto, $p(k)$ es la probabilidad de que $X=k$, pero en el caso continuo, $f(x)$ no es la probabilidad de que $X=x$. En efecto, esta probabilidad es cero debido a que $f$ es continua para todo $x$, lo que equivale a que, para una distribución continua, tengamos que

$$P\left( a\leq X\leq b\right)  =P\left( a<X<b\right)  =P\left( a<X\leq b\right)  =P\left( a\leq X<b\right)$$
<p style="text-align: right;">$(5.75)$</p>

Si $F$ tiene una función de densidad $f$, cada una de las probabilidades anteriores es igual a la integral $\int^{b}_{a} f\left( x\right)  dx$. Cuando queremos poner de manifiesto que $f$ es una función de densidad asociada a la variable aleatoria $X$, escribimos $f_{X}$ en lugar de $f$.

Dado que la función de densidad $f$ es no negativa, es posible interpretar geométricamente la ecuación (5.72) como el área bajo el gráfico de $f$ entre las rectas $x=a$ y $x=b$. Para visualizar esto de manera concreta, podemos hacer uso nuevamente del módulo `scipy.stats`, a fin de poder visualizar la variable aleatoria $X$ cuya función de densidad es

$$\phi \left( x\right)  =\frac{1}{\sigma \sqrt{2\pi } } \exp \left( -\frac{1}{2} \left( \frac{x-\mu }{\sigma } \right)^{2}  \right)$$
<p style="text-align: right;">$(5.76)$</p>

La variable $X$ es llamada **variable aleatoria normal** y, por extensión, $\phi$ es llamada **función de densidad normal** de parámetros $\mu$ y $\sigma$. No entraremos en detalles aún en lo que respecta a esta función particular, salvo por el hecho de que es extremadamente importante en el campo de la estadística y del aprendizaje automatizado, y de seguro que, si somos alumnos o profesionales de la ingeniería, habremos escuchado de ella una gran cantidad de veces. Cualquiera sea el caso, es posible crear rápidamente una variable aleatoria normal en **<font color='mediumorchid'>Scipy</font>** mediante el uso de la clase `stats.norm()`:

In [17]:
# Creamos la variable normal en cuestión.
X = stats.norm()

La variable aleatoria `X` creada de esta forma tiene una función de densidad $\phi$ con parámetros $\mu=0$ y $\sigma=1$. Tal función se denomina **función de densidad normal estándar**.

Vamos a obtener el gráfico de esta función de densidad en el intervalo $[-3, 3]$, y encerraremos el área entre las rectas $x=-1$ y $x=1$:

In [18]:
# Creamos el rango de valores sobre los cuales graficaremos la función.
x = np.linspace(start=-3, stop=3, num=100)

In [19]:
# Obtenemos los valores de la función de densidad sobre el intervalo anterior.
phi = X.pdf(x)

In [20]:
# Creamos el gráfico.
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(x, phi, color="navy", label=r"$\phi(x)$", linewidth=2)
ax.axvline(x=-1, color="k", linestyle="-.", label=r"$x=-1$")
ax.axvline(x=1, color="k", linestyle="--", label=r"$x=1$"),
ax.fill_between(
    x, phi, 0, where=(x >= -1) & (x <= 1), color="turquoise", alpha=0.6,
    label=r"$P\ \left( -1\leq X\leq 1\right)$"
)
ax.set_title(r"Función de densidad normal estándar", fontsize=15, pad=10, fontweight="bold")
ax.set_xlabel(r"$x$", fontsize=14, labelpad=10)
ax.set_ylabel(r"$\phi(x)$", fontsize=14, labelpad=20, rotation=0)
ax.legend(loc="best", fontsize=11, frameon=True)
plt.tight_layout();

<IPython.core.display.Javascript object>

Podemos observar pues que, en el gráfico anterior, el área sombreada bajo $\phi(x)$ representa la probabilidad $P(-1\leq X\leq 1)$.

## Valor esperado de una variable aleatoria.
Vamos a dar un paso más en la caracterización de las variables aleatorias y añadiremos algunos elementos que son dependientes de sus respectivas funciones de masa o densidad (ya sea que la variable aleatoria respectiva sea discreta o continua, respectivamente). El primero de estos elementos corresponde a la **esperanza matemática** o **valor esperado** de la variable aleatoria respectiva, y que corresponde a una **medida de tendencia central** cuyo objetivo es, mediante un único número (o un rango de ellos), representar una distribución de probabilidad en términos de sus valores más probables. Es pues una generalización del concepto de media de un conjunto de datos discretos, y que definiremos en detalle a continuación.

**<font color='blue'>Definición 5.16 – Valor esperado de una variable aleatoria discreta:</font>** Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y $X:\Omega \longrightarrow I\subseteq \mathbb{R}$ una variable aleatoria unidimensional. Si $I$ es un conjunto finito o infinito numerable de $\mathbb{R}$ y, por extensión, $X$ es una variable aleatoria discreta con función de masa de probabilidad $p(x)$ para todo $x\in \mathbb{R}$, definiremos la **esperanza** o **valor esperado** de $X$, denotado como $\mathrm{E}[X]$, a la suma

$$\mathrm{E} \left[ X\right]  =\sum^{n}_{k=1} x_{k}p\left( x_{k}\right)$$
<p style="text-align: right;">$(5.77)$</p>

Donde $x_{1},...,x_{n}$ son los valores que toma la variable aleatoria $X$ en caso de que $I$ sea un conjunto finito de puntos. Si $I$ es infinito numerable, la fórmula para el valor esperado de $X$ toma la forma

$$\mathrm{E} \left[ X\right]  =\sum^{+\infty}_{k=1} x_{k}p\left( x_{k}\right)$$
<p style="text-align: right;">$(5.78)$</p>

siendo la serie en (5.78) absolutamente convergente en todo $\mathbb{R}$.

**Ejemplo 5.21 – La esperanza de una variable aleatoria binomial:** Consideremos la variable aleatoria binomial $X$, cuya función de masa de probabilidad, como sabemos, se define como

$$p\left( k\right)  =\binom{n}{k} p^{k}\left( 1-p\right)^{n-k}$$
<p style="text-align: right;">$(5.79)$</p>

Aplicaremos la fórmula (5.77) para determinar el valor esperado de $X$. En efecto, tenemos

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=&\displaystyle \sum^{n}_{i=1} k_{i}p\left( x_{i}\right)  \\ &=&\displaystyle \sum^{n}_{i=1} x_{i}\binom{n}{k_{i}} p^{k_{i}}\left( 1-p\right)^{n-k_{i}}  \\ &=&np\end{array}$$
<p style="text-align: right;">$(5.80)$</p>

Observamos pues que la esperanza de $X$, en el caso de que $X$ es una variable aleatoria binomial, depende únicamente del número $n$ de veces en el que se repite el correspondiente experimento y de la probabilidad $p$ del resultado de dicho experimento, y no de los valores que toma $X$. Este es un comportamiento general de la función valor esperado para toda variable aleatoria. De hecho, es común, en la literatura especializada, que las funciones de masa o de densidad de probabilidad se definan junto con sus respectivos valores esperados. Más adelante, cuando estudiemos en profundidad algunas funciones de densidad especialmente importantes en el campo del aprendizaje automátizado, haremos mención a sus correspondientes valores esperados. ◼︎

**Ejemplo 5.22 – La esperanza de una variable aleatoria de Poisson:** Vamos a repetir el ejercicio anterior para el caso en que $X$ es una variable aleatoria de Poisson. Debido a que los procesos caracterizados por este tipo de variables (llamados procesos de Poisson) son de interés por cuanto las probabilidades de ocurrencia de los sucesos a estudiar son muy pequeñas, es común que los espacios muestrales involucrados sean infinitos numerables. Por lo tanto, podemos definir el valor esperado de $X$ como sigue

$$\mathrm{E} \left[ X\right]  =\sum^{+\infty }_{i=1} x_{i}p\left( x_{i}\right)  =\sum^{+\infty }_{i=1} x_{i}\frac{\exp \left( -\lambda \right)  \lambda^{x_{i}} }{x_{i}!}$$
<p style="text-align: right;">$(5.81)$</p>

Luego, considerando la serie de Taylor de la función $g(x)=\exp(x)$ en torno a $x_{0}=0$, definida como $\exp \left( x\right)  =\sum^{+\infty }_{n=0} \frac{x^{n}}{n!}$, obtenemos

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=&\displaystyle \sum^{+\infty }_{i=1} x_{i}\displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{i}} }{x_{i}!} \\ &=&\exp \left( -\lambda \right)  \displaystyle \sum^{+\infty }_{i=1} x_{i}\displaystyle \frac{\lambda^{x_{i}} }{x_{i}!} \\ &=&\lambda \exp \left( -\lambda \right)  \exp \left( \lambda \right)  =\lambda \end{array} $$
<p style="text-align: right;">$(5.82)$</p>

Por lo tanto, el valor esperado de $X$ es simplemente igual a $\lambda$. ◼︎

Consideremos ahora el caso en el que $X$ es una variable aleatoria continua. Ahora $X$ tiene asociada una función de densidad de probabilidad denotada como $f$, definida para todo valor $x\in \mathbb{R}$. Tenemos por tanto la siguiente definición.

**<font color='blue'>Definición 5.17 – Valor esperado de una variable aleatoria continua:</font>** Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y $X:\Omega \longrightarrow I\subseteq \mathbb{R}$ una variable aleatoria unidimensional. Si $I$ es un conjunto infinito no numerable en $\mathbb{R}$ y, por extensión, $X$ es una variable aleatoria continua con función de densidad de probabilidad $f(x)$ para todo $x$ en $\mathbb{R}$, definimos la **esperanza** o **valor esperado** de $X$, denotado como $\mathrm{E}[X]$, a la integral

$$\mathrm{E} \left[ X\right]  =\int^{+\infty }_{-\infty } xf\left( x\right)  dx$$
<p style="text-align: right;">$(5.83)$</p>

Una formulación más general y matemáticamente precisa del valor esperado requiere del uso de funciones de conjunto definidas sobre dominios que son subconjuntos de Borel y, por lo tanto, la integral en la ecuación (5.83) no es simplemente una integral de Riemann clásica (de las típicas que que aprendimos en el curso de Cálculo), sino que es un caso más general conocido como **integral de Lebesgue**. No profundizaremos en este concepto; sin embargo, muchas funciones de densidad asociadas a distribuciones de probabilidad comunes en muchos fenómenos o procesos son seccionalmente continuas (es decir, presentan un número finito de puntos en los cuales tales funciones de densidad no son continuas). Por lo tanto, la teoría de probabilidad suele restringirse a los intervalos donde las funciones de densidad son, en efecto, continuas. En tales casos, es suficiente considerar la ecuación (5.83) para la cual la integral es simplemente la clásica integral de Riemann.

Un ejemplo de lo anterior es la **función de densidad de Cauchy**: Una variable aleatoria $X$ sigue una **distribución de Cauchy** si su función de densidad de probabilidad es $f(x)=(x^{2}+\pi^{2})^{-1}$. Si aplicamos la fórmula (5.83) para el caso $a\leq X\leq b$, obtenemos

$$\int^{b}_{a} xf\left( x\right)  dx=\int^{b}_{a} \frac{x\  dx}{x^{2}+\pi^{2} } =\frac{1}{2} \ln \left( \frac{b^{2}+\pi^{2} }{a^{2}+\pi^{2} } \right)$$
<p style="text-align: right;">$(5.84)$</p>

El límite del lado derecho de la expresión (5.84) cuando $a\rightarrow -\infty \wedge b\rightarrow +\infty$ no existe. Si tomamos límite tal que $a=-b$, entonces dicho límite es cero, mientras que, si tomamos $2a=-b$, entonces el límite respectivo es igual a $\ln(2)$. Este tipo de funciones no tienen, por tanto, un valor esperado definido. A fin de evitar estas ambigüedades, es común añadir el requerimiento de que la integral (5.84) converja absolutamente, no estando definido el valor esperado $\mathrm{E}[X]$ en aquellos puntos donde esta condición no se cumpla.

El valor esperado de una variable aleatoria cumple con las siguientes **propiedades**:

- **(P1) No negatividad:** Si $X\geq 0$, entonces $\mathrm{E}[X]\geq 0$.
- **(P2) Linealidad:** El operador valor esperado, denotado como $\mathrm{E} \left[ \  \cdot \  \right]$ corresponde a una aplicación lineal. De esta manera, si $X$ e $Y$ son variables aleatorias arbitrarias y $a,b\in \mathbb{R}$, entonces se tiene que $\mathrm{E}[aX+bY]=a \mathrm{E}[X] +b \mathrm{E}[Y]$, siempre que los valores esperados individuales estén bien definidos. Por inducción, esto significa que el valor esperado de la suma de un número finito de variables aleatorias es igual a la suma de los valores esperados de cada variable aleatoria individual, y que el valor esperado escala linealmente con respecto a cualquier escalar que también escale los valores de $X$.
- **(P3) Monotonía:** Si $X\leq Y$, entonces $\mathrm{E}[X] \leq \mathrm{E}[Y]$.
- **(P4) No degeneración:** Si $\mathrm{E}[X]=0$, entonces $X=0$.
- **(P5):** Si $X=Y$, entonces $\mathrm{E}[X]=\mathrm{E}[Y]$. En otras palabras, si $X$ e $Y$ son variables aleatorias que toman diferentes valores con probabilidad cero, entonces el valor esperado de $X$ es igual al valor esperado de $Y$.
- **(P6):** Si $X=c$ para algún $c\in \mathbb{R}$, entonces $\mathrm{E}[X]=c$. En particular, para una variable aleatoria $X$ con valor esperado bien definido, $\mathrm{E} \left[ \mathrm{E} \left[ X\right]  \right]  =\mathrm{E} \left[ X\right]$.
- **(P7) El valor esperado no es multiplicativo:** En general, no es común que $\mathrm{E}[XY]=\mathrm{E}[X] \mathrm{E}[Y]$. Esta condición sí se cumple cuando $X$ e $Y$ son variables aleatorias independientes.

**Ejemplo 5.23:** Consideremos una variable aleatoria continua $X$ con función de densidad

$$f\left( x\right)  =\begin{cases}2\exp \left( -2x\right)  &;\  \mathrm{si} \  x>0\\ 0&;\  \mathrm{si} \  x\leq 0\end{cases}$$
<p style="text-align: right;">$(5.85)$</p>

Vamos a determinar el valor esperado de $X$.

En efecto, aplicando la definición de valor esperado, tenemos que

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=\displaystyle \int^{+\infty }_{-\infty } xf\left( x\right)  dx\\ &=\displaystyle \int^{+\infty }_{0} 2x\exp \left( -2x\right)  dx\\ &=2\left[ x\left( \displaystyle \frac{\exp \left( -2x\right)  }{-2} \right)  -1\cdot \left( \displaystyle \frac{\exp \left( -2x\right)  }{a} \right)  \right]^{x\rightarrow +\infty }_{x=0}  \\ &=\displaystyle \frac{1}{2} \end{array} $$
<p style="text-align: right;">$(5.86)$</p>
◼︎

## Varianza de una variable aleatoria.
El segundo de los elementos clave de una distribución de probabilidad, a nivel descriptivo (y de representatividad) corresponde a la **varianza**, la cual corresponde a una **medida de dispersión**, lo que significa que mide qué tan lejos se dispersan los valores de un variable aleatoria con respecto a su valor esperado. De la misma forma que éste último, resulta esencial para describir la geometría de una función de masa o densidad de probabilidad, y por lo tanto, decimos igualmente que la varianza es un valor representativo de dicha función.

**<font color='blue'>Definición 5.18 – Varianza:</font>** Sea $X$ una variable aleatoria con valor esperado $\mathrm{E}[X]$, y que designaremos con la letra griega $\mu$. Definimos la **varianza** de $X$, denotada como $\mathrm{Var}(X)$ (o bien, $\sigma^{2}$), mediante la fórmula

$$\mathrm{Var} =\mathrm{E} \left[ \left( X-\, \mu \right)^{2}  \right]$$
<p style="text-align: right;">$(5.87)$</p>

Es posible desarrollar la expresión definida por la ecuación (5.87) a fin de explicitar una fórmula para la varianza que dependa únicamente de $X$. En efecto, aplicando un poco de álgebra, podemos redefinir la varianza de $X$ como

$$\mathrm{Var} =\mathrm{E} \left[ X^{2}\right]  -\mathrm{E}^{2} \left[ X\right]$$
<p style="text-align: right;">$(5.88)$</p>

Donde $\mathrm{E}^{2} \left[ X\right]  =\left( E\left[ X\right]  \right)^{2}$. La ecuación (5.91) permite, naturalmente, definir la varianza de $X$ en términos de su función de masa o densidad de probabilidad, ya sea si $X$ es una variable aleatoria discreta o continua, respectivamente. Para el caso discreto, si $p(k)=P(X=k)$ es la correspondiente función de masa de probabilidad, se tendrá entonces que

$$\mathrm{Var} \left( X\right)  =\sum^{n}_{i=1} \left( k_{i}-\mu \right)^{2}  p\left( k_{i}\right)$$
<p style="text-align: right;">$(5.89)$</p>

Para el caso continuo, si $f(x)$ es la función de densidad de $X$, se tendrá asimismo que

$$\mathrm{Var} \left( X\right)  =\int^{+\infty }_{-\infty } \left( x-\mu \right)^{2}  f\left( x\right)  dx$$
<p style="text-align: right;">$(5.90)$</p>

**Ejemplo 5.24:** Consideremos la variable aleatoria $X$ cuya función de densidad de probabilidad es $f\left( x\right)  =\lambda \exp \left( -\lambda x\right)$ para $x\geq 0$. Tal variable aleatoria se conoce como **variable aleatoria exponencial** y, por extensión, la función $f$ es una **función de densidad de probabilidad exponencial**. Vamos a calcular el valor esperado y la varianza de $X$.

En efecto, aplicando la definición de valor esperado, obtenemos

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=&\displaystyle \int^{+\infty }_{0} xf\left( x\right)  dx\\ &=&\displaystyle \int^{+\infty }_{0} \lambda x\exp \left( -\lambda x\right)  dx\\ &=&\left[ -\displaystyle \frac{\left( \lambda x+1\right)  \exp \left( -\lambda x\right)  }{\lambda } \right]^{x\rightarrow +\infty }_{x=0}  \\ &=&\displaystyle \frac{1}{\lambda } \end{array}$$
<p style="text-align: right;">$(5.91)$</p>

Vamos a aplicar la ecuación (5.88) para obtener la varianza de $X$. Para ello, primero calculamos el valor esperado de $X^{2}$ como sigue,

$$\begin{array}{lll}\mathrm{E} \left[ X^{2}\right]  &=&\displaystyle \int^{+\infty }_{0} \lambda x^{2}\exp \left( -\lambda x\right)  dx\\ &=&\left[ -x^{2}\exp \left( -\lambda x\right)  \right]^{x\rightarrow +\infty }_{x=0}  +\displaystyle \int^{+\infty }_{0} 2x\exp \left( -\lambda x\right)  dx\\ &=&0+\displaystyle \frac{2}{\lambda } \mathrm{E} \left[ X\right]  \\ &=&\displaystyle \frac{2}{\lambda^{2} } \end{array} $$
<p style="text-align: right;">$(5.92)$</p>

Por lo tanto,

$$\mathrm{Var} \left( X\right)  =\mathrm{E} \left[ X^{2}\right]  -\mathrm{E}^{2} \left[ X\right]  =\frac{2}{\lambda^{2} } -\left( \frac{1}{\lambda } \right)^{2}  =\frac{1}{\lambda^{2} }$$
<p style="text-align: right;">$(5.93)$</p>
◼︎

La varianza cumple con las siguientes propiedades:

- **(P1):** $\mathrm{Var}(X)\geq 0$.
- **(P2):** $\mathrm{Var}(a)=0$, para cualquier $a\in \mathbb{R}$.
- **(P3):** $\mathrm{Var}(aX)=a^{2} \mathrm{Var}(X)$, para cualquier $a\in \mathbb{R}$.
- **(P4):** Si $X$ e $Y$ son variables aleatorias independientes, se tiene que $\mathrm{Var}(X+Y)= \mathrm{Var}(X) +\mathrm{Var}(Y)$. En cualquier otro caso, $\mathrm{Var}(X+Y)= \mathrm{Var}(X) +\mathrm{Var}(Y)+2\mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])]$. La cantidad $\mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])]$ es llamada **covarianza** de las variables aleatorias $X$ e $Y$, y se denota como $\mathrm{Cov}[X,Y]$. Nos ocuparemos de este concepto en detalle cuando extendamos los conceptos de función de densidad y de distribución a las variables aleatorias multidimensionales.

La definición de varianza establecida en la ecuación (5.88) permite establecer que $\mathrm{E} \left[ X^{2}\right]  =\int^{+\infty }_{-\infty } x^{2}f\left( x\right)  dx$ para una variable aleatoria $X$ con función de densidad $f$. Esta es la aplicación directa de un concepto conocido en el análisis funcional como **momento asociado a una función real**, siendo tal función en nuestro caso más acotado, la función de densidad $f$. En general, podemos definir el **momento de orden $n$ centrado en $c\in \mathbb{R}$** para una función arbitraria $f:\mathbb{R}\longrightarrow \mathbb{R}$ como

$$\mu^{n} =\int^{+\infty }_{-\infty } \left( x-c\right)^{n}  f\left( x\right)  dx$$
<p style="text-align: right;">$(5.94)$</p>

El momento de orden $n$ centrado en 0 de una función de densidad de probabilidad $f$ de una variable aleatoria $X$ es igual al valor esperado de $X^{n}$ y, en la práctica, se conoce como **momento crudo** o simplemente **momento**. Por otro lado, los momentos centrados en el valor esperado de $X$ son conocidos como **momentos centrales**. Así, en términos generales, podemos definir el momento de orden $n$ de $X$ como

$$\mu^{n} =\mathrm{E} \left[ X^{n}\right]  =\int^{+\infty }_{-\infty } x^{n}f\left( x\right)  dx$$
<p style="text-align: right;">$(5.95)$</p>

Luego, es posible verificar, usando esta importante relación, que el valor esperado de una variable aleatoria $X$ corresponde a su momento (centrado en 0) de primer orden, mientras que su varianza corresponde a su momento central de segundo orden.

La varianza es un elemento que permite construir **estandarizaciones** de cualquier variable aleatoria, lo que implica que podemos expresar todos sus valores en términos de qué tanto nos alejamos de su valor esperado en las mismas unidades que las de la variable original. Para ello, si $X$ es tal variable aleatoria, consideramos la raíz cuadrada de su varianza, llamada **desviación estándar** de $X$, y que se suele denotar como

$$\sigma =\sqrt{\mathrm{Var} \left( X\right)  }$$
<p style="text-align: right;">$(5.96)$</p>

Si denotamos el valor esperado de $X$ como $\mu$, podemos, por tanto, definir el **momento central normalizado de orden $n$** de $X$ como

$$\mathrm{std}_{n} \left( X\right)  =\frac{\mu_{n} }{\sigma^{n} } =\frac{\mathrm{E} \left[ \left( X-\mu \right)^{n}  \right]  }{\sigma^{n} } =\frac{\mathrm{E} \left[ \left( X-\mu \right)^{n}  \right]  }{\mathrm{E} \left[ \left( X-\mu \right)^{2}  \right]^{n/2}  }$$
<p style="text-align: right;">$(5.97)$</p>

Notemos que, de la expresión anterior, el primer momento central estandarizado (MCE) de $X$ corresponde simplemente a la razón entre su valor esperado y su desviación estándar. El inverso de esta cantidad, denotado como $\mathrm{CV}(X)=\sigma /\mu$, se conoce como **coeficiente de variación** asociado a $X$. Esta fórmula expresa la desviación estándar de $X$ como porcentaje de su valor esperado, mostrando una interpretación relativa del **grado de variabilidad**, independiente de la escala de la variable, a diferencia de la desviación estándar (que es sensible a la escala de los valores de $X$). Por otro lado, presenta ciertos problemas, ya que, a diferencia de la desviación estándar, este coeficiente es fuertemente sensible ante cambios de origen en la variable. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor **heterogeneidad** de los valores de la variable; y a menor coeficiente de variación, mayor **homogeneidad** en los valores de la variable.

Hay más momentos centrales estandarizados que son de nuestro interés. Para una variable aleatoria $X$, el MCE de tercer orden se denomina **coeficiente de asimetría** de la función de densidad de probabilidad de $X$. Como su nombre lo indica, su utilidad radica en la descripción de la geometría de la función de densidad $f$ en términos de si sus valores más frecuentes (o más probables, incluyendo el valor esperado de la misma) están más desplazados hacia un lado u otro de la gráfica de la correspondiente función de densidad. Esto se ilustra en la Fig. (5.4). Por lo tanto, si denotamos al coeficiente de asimetría como $\gamma_{1}(X)$, tendremos que

- **(T1):** Si $\gamma_{1}(X)>0$, la función de densidad $f$ presenta un **sesgo** (asimetría) **hacia la derecha (positivo)** de los valores más probables de $X$ (Fig. (5.4a)).
- **(T2):** Si $\gamma_{1}(X)<0$, la función de densidad $f$ presenta un **sesgo** (asimetría) **hacia la izquierda (negativo)** de los valores más probables de $X$ (Fig. (5.4b)).

<p style="text-align: center;"><img src="figures/fig_5_4.png" width="550"></p>
<p style="text-align: center;">Fig. (5.4): Un esquema sencillo que ilustra el efecto del coeficiente asimetría en la geometría de una función de densidad</p>

Si la función de densidad es simétrica con respecto a la media, entonces necesariamente $\gamma_{1}(X)=0$. No obstante, el recíproco no es cierto. Suele ser común asegurar erróneamente que, si $\gamma_{1}(X)=0$, entonces la función de densidad $f$ asociada a $X$ es simétrica, lo que no siempre se cumple.

Otro MCE de interés es el de cuarto orden, conocido como **curtosis**. Para una variable aleatoria $X$ con función de densidad $f$, la curtosis se denota como $\beta_{2}(X)$ y se define como

$$\beta_{2} \left( X\right)  =\frac{\mu_{4} }{\sigma^{4} }$$
<p style="text-align: right;">$(5.98)$</p>

Según su concepción clásica, una curtosis de gran magnitud implica una mayor concentración de valores de la variable tanto muy cerca de la media de la distribución (**peak**) como muy lejos de ella (**colas**), al tiempo que existe una relativamente menor frecuencia de valores intermedios. Esto explica una forma de la distribución de probabilidad con colas más gruesas, con un centro más apuntado y una menor proporción de valores intermedios entre el peak y las colas.

**Una mayor curtosis no implica una mayor varianza, ni viceversa**. Su significado geométrico se ilustra en la Fig. (5.5), donde se grafican distintas funciones de distribución con media 0 y varianza 1, y distintos coeficientes de curtosis.

<p style="text-align: center;"><img src="figures/fig_5_5.png" width="400"></p>
<p style="text-align: center;">Fig. (5.5): Distintas funciones de densidad con media 0 y varianza 1, pero distintos coeficientes de curtosis</p>

## Distribuciones multivariables.
Dadas dos variables aleatorias definidas en el mismo espacio de probabilidad, decimos que la **distribución de probabilidad conjunta** de ambas variables aleatorias (o distribución bidimensional) corresponde a la distribución de probabilidad relativa a todos los pares posibles de resultados para ambas variables aleatorias. Este es un ejemplo de función de **distribución multivariable**, debido a que sus valores dependen de dos variables aleatorias (no necesariamente independientes).

**Ejemplo 5.25:** Supongamos que dos tómbolas contienen el doble de bolitas rojas que azules (y no de otro color), y que sacamos al azar una bolita de cada una, siendo ambas elecciones independientes la una de la otra. Sean $A$ y $B$ variables aleatorias discretas asociadas a las elecciones resultantes en cada tómbola. La probabilidad de obtener una bolita roja es igual a 2/3, mientras que la de obtener una bolita azul, 1/3. La distribución conjunta de probabilidad se esquematiza pues en la Tabla (5.2).

<p style="text-align: center;">Tabla (5.2): Valores de la función de distribución conjunta para el ejemplo (5.25)</p>

|                   | $A=\mathrm{rojo}$ | $A=\mathrm{azul}$ | $P(B)$ |
| :---------------- | :---------------: | :---------------: | :----: |
| $B=\mathrm{rojo}$ | $\displaystyle \frac{2}{3} \cdot \displaystyle \frac{2}{3} =\displaystyle \frac{4}{9}$ | $\displaystyle \frac{1}{3} \cdot \displaystyle \frac{2}{3} =\displaystyle \frac{2}{9}$ | $\displaystyle \frac{4}{9} +\displaystyle \frac{2}{9} =\displaystyle \frac{2}{3} $ |
| $B=\mathrm{azul}$ | $\displaystyle \frac{2}{3} \cdot \displaystyle \frac{1}{3} =\displaystyle \frac{2}{9}$ | $\displaystyle \frac{1}{3} \cdot \displaystyle \frac{1}{3} =\displaystyle \frac{1}{9}$ | $\displaystyle \frac{2}{9} +\displaystyle \frac{1}{9} =\displaystyle \frac{1}{3} $ |
| $P(A)$            | $\displaystyle \frac{4}{9} +\displaystyle \frac{2}{9} =\displaystyle \frac{2}{3} $ | $\displaystyle \frac{2}{9} +\displaystyle \frac{1}{9} =\displaystyle \frac{1}{3} $ |  |

Cada una de las cuatro celdas interiores muestra la probabilidad de una combinación particular de resultados de estas elecciones; estas probabilidades conforman la **distribución conjunta** del experimento completo. En cualquier celda la probabilidad de una determinada combinación es, ya que las elecciones son independientes, igual al producto del resultado especificado por $A$ y la probabilidad del resultado especificado por $B$. La suma de las probabilidades en estas celdas es igual a 1, lo que es esperable para cualquier función de densidad de probabilidad (independiente de la dimensión de la variable aleatoria subyacente).

Además, la columna y fila finales nos entregan las **distribuciones marginales** de $A$ y $B$, respectivamente, las que se corresponden con la consideración única de los sucesos definidos por $A$ y $B$. ◼︎

**Ejemplo 5.26:** Consideremos otro experimento consistente en el lanzamiento de un dado no cargado, y sea $A$ una variable aleatoria binaria que se define como $A=1$ cuando el resultado del lanzamiento es par, y $A=0$ cuando el resultado del lanzamiento es impar. Consideremos, además, otra variable aleatoria binaria $B$, tal que $B=1$ cuando el resultado del lanzamiento es un número primo, y $B=0$ en cualquier otro caso. Los valores que toman estas variables en este experimento se tabulan, para el espacio muestral completo, en la Tabla (5.3). Entonces, la **función de masa de probabilidad conjunta** de $A$ y $B$ toma cuatro valores, los que son

$$\begin{array}{lll}P\left( A=0,B=0\right)  =P\left\{ 1\right\}  =\displaystyle \frac{1}{6} &;&P\left( A=1,B=0\right)  =P\left\{ 4,6\right\}  =\displaystyle \frac{2}{6} \\ P\left( A=0,B=1\right)  =P\left\{ 3,5\right\}  =\displaystyle \frac{2}{6} &;&P\left( A=1,B=1\right)  =P\left\{ 2\right\}  =\displaystyle \frac{1}{6} \end{array} $$
<p style="text-align: right;">$(5.99)$</p>

Estas probabilidades necesariamente suman 1, ya que es el requisito esencial que hemos impuesto par< cualquier función de masa de probabilidad, independiente de la dimensión de su dominio. ◼︎

<p style="text-align: center;">Tabla (5.3): Valores de las variables aleatorias $A$ y $B$ para el ejemplo (5.26)</p>

|      | 1  | 2  | 3  | 4  | 5  | 6  |
| :--- | :- | :- | :- | :- | :- | :- |
| $A$  | 0  | 1  | 0  | 1  | 0  | 1  |
| $B$  | 0  | 1  | 1  | 0  | 1  | 0  |

Los ejemplos anteriores dan sentido a la siguiente definición.

**<font color='blue'>Definición 5.19 – Función de densidad conjunta de probabilidad (bivariante, caso continuo):</font>** Sean $X_{1}$ e $X_{2}$ variables aleatorias continuas que describen ciertos resultados de un determinado experimento aleatorio. Diremos que la función no negativa $f:\mathbb{R}^{2} \longrightarrow \mathbb{R}$ tal que, para cualquier conjunto $A\subset \mathbb{R}^{2}$ y que cumple con la condición

$$P\left( \mathbf{X} \in A\right)  =\iint\limits_{A} f\left( x,y\right)  dA$$
<p style="text-align: right;">$(5.100)$</p>

será llamada **función de densidad conjunta de probabilidad** para el **vector aleatorio** $\mathbf{X}=(X_{1},X_{2})$. El recorrido de tal función, por tanto, es el conjunto $\mathrm{Rec} \left( f\right)  =\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :f\left( x,y\right)  \geq 0\right\}$. Las variables aleatorias $X_{1}$ y $X_{2}$ son llamadas, por consiguiente, conjuntamente continuas en $A$.

El concepto de función de densidad conjunta de probabilidad puede extenderse fácilmente al caso de vectories aleatorios continuos de dimensión $n$, del tipo $\mathbf{X}=(X_{1},...,X_{n})$. Las componentes de $\mathbf{X}$ son conjuntamente continuas en un conjunto $U\subset \mathbb{R}^{n}$ si existe una función $f:\mathbb{R}^{n} \longrightarrow \mathbb{R}$ tal que

$$P\left( \mathbf{X} \in U\right)  =\int_{U} f\left( \mathbf{x} \right)  dU$$
<p style="text-align: right;">$(5.101)$</p>

donde la integral anterior es también $n$-dimensional, y $\mathbf{x}\in \mathrm{Rec}(\mathbf{X})$. La función $F(\mathbf{x})=P(\mathbf{X}\in U)$ será llamada, por consiguiente, **función de distribución conjunta** del vector aleatorio $\mathbf{X}$.

La integral definida en la ecuación (5.101) existe para todos los conjuntos $U$ que se presenten en la práctica. SI escogemos $U=\mathbb{R}^{n}$, entonces, por extensión (de la misma forma que ocurre para el caso de las funciones de densidad unidimensionales), se debe tener que la probabilidad $P(\mathbf{X}\in U)$ debe ser igual a 1. Por lo tanto, en términos matemáticos, se tiene que

$$\int_{\mathbb{R}^{n} } f\left( \mathbf{x} \right)  d\mathbf{x} =1$$
<p style="text-align: right;">$(5.102)$</p>

En particular, para el caso bivariante, la integral anterior puede expresarse como

$$\int_{\mathbb{R}^{2} } f\left( \mathbf{x} \right)  d\mathbf{x} =\int^{+\infty }_{-\infty } \int^{+\infty }_{-\infty } f\left( x,y\right)  dxdy=1$$
<p style="text-align: right;">$(5.103)$</p>

Como suele ocurrir en el caso unidimensional, las funciones de densidad multivariantes pueden denotarse haciendo mención a sus correspondientes variables aleatorias. De esta manera, si $\mathbf{X}=(X,Y)$ es un vector aleatorio bidimensional con función de densidad conjunta $f$, podemos hacer uso del símbolo $f_{XY}$, a fin de poder distinguir dicha función de densidad conjunta de las funciones marginales de densidad $f_{X}$ y $f_{Y}$. Esta es una convención que es usada ampliamente en la literatura especializada, y es la que adoptaremos de ahora en adelante en estos apuntes.

**Ejemplo 5.27:** Sean $X$ e $Y$ dos variables aleatorias cuya función de densidad conjunta se define como

$$f_{XY}\left( x,y\right)  =\begin{cases}x+cy^{2}&;\  \mathrm{si} \  0\leq x\leq 1\wedge 0\leq y\leq 1\\ 0&;\  \mathrm{en\  cualquier\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.104)$</p>

para algún $c\in \mathbb{R}$. Vamos a determinar el valor de la constante $c$ y la probabilidad $P\left( 0\leq X\leq \frac{1}{2} ,0\leq Y\leq \frac{1}{2} \right)$. En efecto, usando la ecuación (5.103), obtenemos

$$\begin{array}{lll}1&=&\displaystyle \int^{+\infty }_{-\infty } \displaystyle \int^{+\infty }_{-\infty } f_{XY}\left( x,y\right)  dxdy\\ &=&\displaystyle \int^{1}_{0} \displaystyle \int^{1}_{0} \left( x+cy^{2}\right)  dxdy\\ &=&\displaystyle \int^{1}_{0} \left[ \displaystyle \frac{1}{2} x^{2}+cxy^{2}\right]^{x=1}_{x=0}  \\ &=&\displaystyle \int^{1}_{0} \left( \displaystyle \frac{1}{2} +cy^{2}\right)  dy\\ &=&\left[ \displaystyle \frac{1}{2} y+\displaystyle \frac{1}{3} cy^{3}\right]^{y=1}_{y=0}  \\ &=&\displaystyle \frac{1}{2} +\displaystyle \frac{1}{3} c\end{array}$$
<p style="text-align: right;">$(5.105)$</p>

Así que $c=3/2$. Para determinar $P\left( 0\leq X\leq \frac{1}{2} ,0\leq Y\leq \frac{1}{2} \right)$, aplicamos directamente la ecuación (5.100) para obtener

$$\begin{array}{lll}P\left( 0\leq X\leq \displaystyle \frac{1}{2} ,0\leq Y\leq \displaystyle \frac{1}{2} \right)  &=&\displaystyle \int^{\displaystyle \frac{1}{2} }_{0} \displaystyle \int^{\displaystyle \frac{1}{2} }_{0} \left( x+\displaystyle \frac{3}{2} y\right)  dxdy\\ &=&\displaystyle \int^{\displaystyle \frac{1}{2} }_{0} \left[ \displaystyle \frac{1}{2} x^{2}+\displaystyle \frac{3}{2} xy^{2}\right]^{x=\displaystyle \frac{1}{2} }_{x=0}  dy\\ &=&\displaystyle \int^{\displaystyle \frac{1}{2} }_{0} \left( \displaystyle \frac{1}{8} +\displaystyle \frac{3}{4} y^{2}\right)  dy=\displaystyle \frac{3}{32} \end{array}$$
<p style="text-align: right;">$(5.106)$</p>
◼︎

Si se define más de una variable aleatoria en un experimento, agrupadas todas en un vector aleatorio $\mathbf{X}=(X_{1},...,X_{n})$, es importante distinguir entre la función de densidad conjunta de probabilidad y las funciones de densidad para cada una de las $n$ variables aleatorias individuales $X_{1},...,X_{n}$. Estas últimas son llamadas **funciones marginales de densidad** para cada $X_{k}$, $k=1,...,n$.

Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.20 – Función de densidad marginal:</font>** Sea $\mathbf{X}$ un vector aleatorio compuesto por las variables aleatorias $X_{1},...,X_{n}$ y sea $f_{\mathbf{X}}$ la función de densidad conjunta de probabilidad asociada a $\mathbf{X}$. Se define la **función de densidad marginal** de la variable aleatoria $X_{k}$, para $1\leq k\leq n$, como

$$f_{X_{k}}\left( x_{k}\right)  =\int^{+\infty }_{-\infty } f_{\mathbf{X} }\left( \mathbf{x} \right)  dx_{k}\  ;\  \forall x_{k}\in \mathbb{R}$$
<p style="text-align: right;">$(5.107)$</p>

Donde $x_{k}\in \mathrm{Rec}(X_{k})$ corresponde a cualquier resultado asociado a la variable aleatoria $X_{k}$. Por tanto, la función de densidad marginal de cualquier variable aleatoria $X_{k}$ asociada al vector $\mathbf{X}=(X_{1},...,X_{n})$ puede calcularse a partir de la función de densidad conjunta $f_{\mathbf{X}}$, simplemente integrando dicha función únicamente con respecto a la variable $x_{k}$ correspondiente con el recorrido de $X_{k}$, tratando a las demás variables como constantes.

Notemos que el concepto de función de densidad conjunta de probabilidad es fácilmente extensible a las **variables aleatorias discretas**. Si $\mathbf{X}=(X_{1},...,X_{n})$ es un vector aleatorio compuesto por las variables aleatorias discretas $X_{1},...,X_{n}$, definimos la **función de masa conjunta de probabilidad** de $\mathbf{X}$ como

$$p_{\mathbf{X} }\left( \mathbf{x} \right)  =P\left( X_{1}=x_{1}\wedge \cdots \wedge X_{n}=x_{n}\right)$$
<p style="text-align: right;">$(5.108)$</p>

O bien, escrita en términos de **probabilidades condicionales**,

$$p_{\mathbf{X} }\left( \mathbf{x} \right)  =P\left( X_{1}=x_{1}\right)  P\left( X_{2}=x_{2}|X_{1}=x_{1}\right)  P\left( X_{3}=x_{3}|X_{1}=x_{1},X_{2}=x_{2}\right)  \cdots P\left( X_{n}=x_{n}|X_{1}=x_{1},...,X_{n-1}=x_{n-1}\right)$$
<p style="text-align: right;">$(5.109)$</p>

La fórmula anterior es una extensión a variables aleatorias discretas de la **regla del producto** (teorema (5.4)). Profundizaremos en esto un poco más adelante. Primero, ejercitaremos un poco los conceptos recientemente definidos.

**Ejemplo 5.28:** Supongamos que las variables aleatorias $X$ e $Y$ tienen una función de densidad conjunta de probabilidad definida como

$$f_{XY}\left( x,y\right)  =\begin{cases}c\left( 2xy+y\right)  &;\  \mathrm{si} \  2<x<6\wedge 0<y<5\\ 0&;\  \mathrm{en\  cualquier\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.110)$</p>

- **(a)** Determinaremos la constante $c$.
- **(b)** Determinaremos las funciones de densidad y de distribución marginales para $X$ e $Y$.
- **(c)** Determinaremos las probabilidades $P(3<X<4,Y>2)$ y $P(X>3)$.
- **(d)** Determinaremos la función de distribución conjunta $F_{XY}$.
- **(e)** Determinaremos si las variables aleatorias $X$ e $Y$ son independientes.

En efecto, para el caso de **(a)**, notemos que la función de densidad conjunta debe cumplir con la condición de tener un volumen igual a 1 bajo la superficie descrita por la gráfica de $f(x,y)=c(2x+y)$. De esta manera, tenemos que

$$\begin{array}{lll}1&=&\displaystyle \iint_{\mathbb{R}^{2} } f_{XY}\left( x,y\right)  dxdy=\displaystyle \int^{6}_{2} \displaystyle \int^{5}_{0} c\left( 2x+y\right)  dxdy\\ &=&\displaystyle \int^{6}_{2} c\left[ 2xy+\frac{y^{2}}{2} \right]^{y=5}_{y=0}  dx\\ &=&\displaystyle \int^{6}_{2} c\left( 10x+\frac{25}{2} \right)  dx=210c\end{array}$$
<p style="text-align: right;">$(5.111)$</p>

Por lo tanto, $c=1/210$. Por otro lado, la función de distribución marginal para $X$ se define como

$$\begin{array}{lll}F_{X}\left( x\right)  =P\left( X\leq x\right)  &=&\displaystyle \int^{x}_{-\infty } \displaystyle \int^{+\infty }_{-\infty } f\left( s,t\right)  dsdt\\ &=&\displaystyle \begin{cases}\displaystyle \int^{x}_{-\infty } \displaystyle \int^{+\infty }_{-\infty } 0\  dsdt&;\  \mathrm{si} \  x<2\\ \displaystyle \int^{x}_{2} \displaystyle \int^{5}_{0} \left( \frac{2s+t}{210} \right)  dsdt=\frac{2x^{2}+5x-18}{84} &;\  \mathrm{si} \  2\leq x<6\\ \displaystyle \int^{6}_{2} \displaystyle \int^{5}_{0} \left( \frac{2s+t}{210} \right)  dsdt=1&;\  \mathrm{si} \  x\geq 6\end{cases} \end{array}$$
<p style="text-align: right;">$(5.112)$</p>

El cálculo de la función de distribución marginal $F_{X}$ se realiza conforme la separación de la función de densidad conjunta en ramas, considerando los mismos sub-dominios de $f_{XY}$. 

Luego, repitiendo este procedimiento para el caso de la función de distribución marginal $F_{Y}$, obtenemos

$$\begin{array}{lll}F_{Y}\left( y\right)  =P\left( Y\leq y\right)  &=&\displaystyle \int^{+\infty }_{-\infty } \displaystyle \int^{y}_{-\infty } f\left( s,t\right)  dsdt\\ &=&\begin{cases}\displaystyle \int^{+\infty }_{-\infty } \displaystyle \int^{y}_{-\infty } 0\  dsdt&;\  \mathrm{si} \  y<0\\ \displaystyle \int^{6}_{2} \displaystyle \int^{y}_{0} \left( \frac{2s+t}{210} \right)  dsdt=\frac{y^{2}+16y}{105} &;\  \mathrm{si} \  0\leq y<5\\ \displaystyle \int^{6}_{2} \displaystyle \int^{5}_{0} \left( \frac{2s+t}{210} \right)  dsdt=1&;\  \mathrm{si} \  y\geq 5\end{cases} \end{array}$$
<p style="text-align: right;">$(5.113)$</p>

Notemos que, considerando la ecuación (5.72), es posible calcular la función de densidad de probabilidad de cualquier variable aleatoria mediante la aplicación del teorema fundamental del cálculo. Es decir, $f_{X}\left( x\right)  =dF_{X}\left( x\right)  /dx$. De esta manera,

$$f_{X}\left( x\right)  =\frac{dF_{X}\left( x\right)  }{dx} =\begin{cases}\displaystyle \frac{4x+5}{84} &;\  \mathrm{si} \  2<x<6\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.114)$</p>

Repitiendo este procedimiento para el caso de la función de densidad $f_{Y}$, obtenemos

$$f_{Y}\left( y\right)  =\frac{dF_{Y}\left( y\right)  }{dy} =\begin{cases}\displaystyle \frac{2y+16}{105} &;\  \mathrm{si} \  0<y<5\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases} $$
<p style="text-align: right;">$(5.115)$</p>

Lo que resuelve **(b)**. Para resolver **(c)**, aplicamos directamente las funciones previamente calculadas. De este modo,

$$\begin{array}{rcl}P\left( 3<X<4,Y>2\right)  &=&\displaystyle \frac{1}{210} \displaystyle \int^{4}_{3} \int^{5}_{2} \left( 2x+y\right)  dxdy=\displaystyle \frac{3}{20} \\ P\left( X>3\right)  &=&\displaystyle \frac{1}{210} \displaystyle \int^{6}_{3} \int^{5}_{0} \left( 2x+y\right)  dxdy=\frac{23}{28} \end{array} $$
<p style="text-align: right;">$(5.116)$</p>

Para resolver **(d)**, recordemos que, por definición, la función de distribución conjunta $F_{XY}$ puede calcularse como

$$F_{XY}\left( x,y\right)  =P\left( X\leq x,Y\leq y\right)  =\int^{x}_{-\infty } \int^{y}_{-\infty } f_{XY}\left( s,t\right)  dsdt$$
<p style="text-align: right;">$(5.117)$</p>

La región de integración corresponde a la intersección del rectángulo abierto $\mathcal{R} =\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :2<x<6,0<y<5\right\}$ con la región no acotada $\mathcal{S} =\left\{ \left( s,t\right)  \in \mathbb{R}^{2} :s\leq x,t\leq y\right\}$ en el plano $(s,t)$. En la Fig. (5.6) se ilustran los distintos valores que toma la distribución conjunta $F_{XY}$, dependiendo de si estamos fuera de $\mathcal{R}$ o no, conforme la integral (5.117).

<p style="text-align: center;"><img src="figures/fig_5_6.png" width="700"></p>
<p style="text-align: center;">Fig. (5.6): Valores que toma la función de distribución conjunta $F_{XY}$ del ejemplo (5.28)</p>

Finalmente, para demostrar la independencia de las variables aleatorias $X$ e $Y$, basta con verificar si el producto de sus funciones marginales de densidad es igual al de su función de densidad conjunta para todo $(x,y)\in \mathbb{R}^{2}$. De este modo,

$$\begin{array}{lll}f_{X}\left( x\right)  f_{Y}\left( y\right)  &=&\frac{1}{84} \cdot \displaystyle \frac{1}{105} \left( 4x+5\right)  \left( 2y+16\right)  \\ &=&\displaystyle \frac{1}{8820} \left( 8xy+64x+10y+80\right)  \\ &=&\displaystyle \frac{4xy+32x+5y+40}{4410} \\ &\neq &f_{XY}\left( x,y\right)  \end{array}$$
<p style="text-align: right;">$(5.118)$</p>

Luego, como $f_{X}(x)f_{Y}(y)\neq f_{XY}(x,y)$, entonces las variables aleatorias $X$ e $Y$ no son independientes. ◼︎

## Distribuciones condicionales.
Durante prácticamente la totalidad de esta sección, hemos considerado que la teoría de la probabilidad es simplemente una aplicación de la teoría de funciones de conjunto y, por extensión, una forma lógica, a nivel matemático, de formular cuestiones de incertidumbre en problemas determinados. Después de haber introducido la definición de probabilidad, hemos aplicado el cálculo integral para definir los conceptos de función de densidad y función de distribución. Las únicas reglas fundamentales que restringen la aplicación de estos conceptos corresponden a las **reglas de la suma y el producto**.

Recordemos que $F_{XY}(x,y)$ denota la función de distribución conjunta de probabilidad para las variables aleatorias $X$ e $Y$, mientras que las distribuciones $F_{X}(x)$ y $F_{Y}(y)$ son, correspondientemente, las distribuciones marginales de $X$ e $Y$. Queremos ahora construir la **función de distribución condicional de probabilidad** $F_{X|Y}(x,y)$, la cual nos permite calcular la probabilidad de ocurrencia de un resultado descrito por $X$, dada la ocurrencia de un conjunto determinado de resultados descritos por $Y$. Para ello, necesitamos primero definir la respectiva función condicional de densidad para los casos en los cuales $X$ e $Y$ son variables aleatorias discretas o continuas. Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.21 – Función condicional de masa de probabilidad (caso bivariante):</font>** Sean $X$ e $Y$ dos variables aleatorias discretas con función de masa conjunta $p_{XY}(x,y)$. Diremos que la **función condicional de masa de probabilidad** de $X$, dado que $Y=y$, denotada como $p_{X|Y}(x,y)$, se define como

$$p_{X|Y}\left( x,y\right)  =\frac{P\left( \left\{ X=x\right\}  \cap \left\{ Y=y\right\}  \right)  }{P\left( Y=y\right)  } =\frac{p_{XY}\left( x,y\right)  }{p_{Y}\left( y\right)  } \  ;\  \mathrm{siempre\  que} \  p_{Y}\left( y\right)  \neq 0$$
<p style="text-align: right;">$(5.119)$</p>

Donde $p_{Y}(y)$ es la función de masa marginal de $Y$.

Similarmente, la función condicional de masa de probabilidad de $Y$, dado que $X=x$, y denotada como $p_{Y|X}(x,y)$, está dada por la fórmula

$$p_{Y|X}\left( x,y\right)  =\frac{P\left( \left\{ Y=y\right\}  \cap \left\{ X=x\right\}  \right)  }{P\left( X=x\right)  } =\frac{p_{XY}\left( x,y\right)  }{p_{X}\left( x\right)  } \  ;\  \mathrm{siempre\  que} \  p_{X}\left( x\right)  \neq 0$$
<p style="text-align: right;">$(5.120)$</p>

Donde $p_{X}(x)$ es la función de masa marginal de $X$.

**Ejemplo 5.29:** Supongamos que estamos interesados en la relación que existe entre el color de pelo de una persona y su color de ojos. Basados en una muestra aleatoria proveniente de algunos estudiantes de la Universidad de Santiago de Chile, se ha construido la Tabla (5.4), que detalla los valores que toma la función de masa conjunta y marginales para las variables aleatorias $X$ e $Y$, y que describen los resultados de este experimento, digamos, $X=\mathrm{color\ de\ pelo}$, e $Y=\mathrm{color\ de\ ojos}$.

<p style="text-align: center;">Tabla (5.4): Valores de las funciones de densidad conjunta y marginales para el ejemplo (5.29)</p>

| **Valor de $p_{XY}(x,y)$**       |           |             | **Color de pelo** |           |                     |
| :------------------ | :-------- | :---------- | :------------ | :-------- | :------------------ |
| **Color de ojos ($Y$)** | **Rubio (1)** | **Colorín (2)** | **Café (3)** | **Negro (4)** | **Valor de $p_{Y}(y)$** |
| **Azul (1)**            | 0.12      | 0.05        | 0.12          | 0.01      | 0.30                |
| **Verde (2)**           | 0.12      | 0.07        | 0.09          | 0.00      | 0.28                |
| **Café (3)**            | 0.16      | 0.07        | 0.16          | 0.03      | 0.42                |
| **Valor de $p_{X}(x)$** | 0.40      | 0.19        | 0.37          | 0.04      | 1.00                |

Las probabilidades remarcadas en lila en la última fila y columna, respectivamente, corresponden a los resultados relativos a las funciones de masa marginales de $X$ e $Y$, mientras que las probabilidades en las celdas interiores corresponden a los resultados que toma la función conjunta de masa $p_{XY}(x,y)$ para los pares $(X,Y)$. Por ejemplo, $p_{XY}(X=3,Y=2)=0.09$ indica que la probabilidad conjunta de que un estudiante de la USACH, elegido al azar, tenga cabello de color café ($X=3$) y ojos verdes ($Y=2$) es de un 9%. $p_{X}(X=3)=0.37$ indica que la probabilidad (marginal) de que un estudiante de la USACH, elegido al azar, tenga cabello de color café es de un 37%, y así sucesivamente.

Dada esta tabla de probabilidades, podemos calcular los valores de la función condicional de masa relativa a la dependencia de $X$ o de $Y$. Por ejemplo, si queremos calcular $p_{X|Y}(X=2|Y=1)$, tendremos

$$p_{X|Y}\left( X=2|Y=1\right)  =\frac{p_{XY}\left( X=2,Y=1\right)  }{p_{Y}\left( Y=1\right)  } =\frac{0.05}{0.3} =\frac{5}{100} \cdot \frac{10}{3} =\frac{1}{6}$$
<p style="text-align: right;">$(5.121)$</p>

Notemos que el resultado anterior nos indica la probabilidad de que un individuo de la sub-población de individuos con ojos azules tenga cabello colorín. Específicamente, encontramos que 1/6 (aproximadamente, el 16.7%) de los estudiantes presentan esta combinación de características.

Ahora revirtamos el orden de $X$ y de $Y$ y calculemos $p_{Y|X}(Y=2|X=1)$,

$$p_{Y|X}\left( Y=2|X=1\right)  =\frac{p_{XY}\left( X=1,Y=2\right)  }{p_{X}\left( X=1\right)  } =\frac{0.12}{0.4} =\frac{12}{100} \cdot \frac{100}{4} =\frac{3}{10}$$
<p style="text-align: right;">$(5.122)$</p>

Ahora la sub-población es de individuos con cabello rubio; por lo tanto, hemos determinado que la probabilidad de que un individuo en esta sub-población tenga ojos verdes, la que corresponde a 3/10; es decir, un 30%. ◼︎

Las funciones condicionales de masa cumplen con varias propiedades heredadas de las funciones de masa comunes, y que mencionamos a continuación.

- **(P1):** La función condicional de masa de probabilidad está acotada: $0\leq p_{X|Y}\left( x,y\right)  \leq 1\wedge 0\leq p_{Y|X}\left( x,y\right)  \leq 1$.
- **(P2):** La función condicional de masa siempre tiene una suma igual a 1: $\sum_{k} p_{X|Y}\left( x_{k},y\right)  =1$.
- **(P3):** En general, la condicionalidad no es simétrica: $p_{X|Y}\left( x,y\right)  \neq p_{Y|X}\left( x,y\right)$.
- **(P4):** Si $X$ e $Y$ son variables aleatorias independientes, entonces se tendrá que $p_{X|Y}(x,y)=p_{X}(x)$ y $p_{Y|X}(x,y)=p_{Y}(y)$.

La definición de función de masa condicional es fácilmente extensible a las variables aleatorias continuas. Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.22 – Función condicional de densidad de probabilidad (caso bivariante):</font>** Sean $X$ e $Y$ dos variables aleatorias definidas sobre el mismo espacio de probabilidad $(\Omega,\mathcal{B},P)$. Si $f_{XY}$ es la función de densidad conjunta de probabilidad de ambas variables, entonces definimos la **función condicional de densidad para $X$ dado $Y$**, denotada como $f_{X|Y}(x,y)$, como

$$f_{X|Y}\left( x,y\right)  =\frac{f_{XY}\left( x,y\right)  }{f_{Y}\left( y\right)  }$$
<p style="text-align: right;">$(5.123)$</p>

Similarmente, **la función condicional de densidad para $Y$ dado $X$**, denotada como $f_{Y|X}(x,y)$, como

$$f_{Y|X}\left( x,y\right)  =\frac{f_{XY}\left( x,y\right)  }{f_{X}\left( x\right)  }$$
<p style="text-align: right;">$(5.124)$</p>

Como cabría esperar, las funciones condicionales de densidad cumplen las mismas probabilidades que las funciones condicionales de masa (caso discreto), con la única salvedad que las sumas discretas son remplazadas por integrales. De esta manera, tenemos que:

- **(P1):** Para todo par de variables aleatorias $X$ e $Y$, tenemos que

$$\begin{array}{lll}0\leq f_{X|Y}\left( x,y\right)  \leq 1&\wedge &\displaystyle \int^{+\infty }_{-\infty } f_{X|Y}\left( x,y\right)  dx=1\\ 0\leq f_{Y|X}\left( x,y\right)  \leq 1&\wedge &\displaystyle \int^{+\infty }_{-\infty } f_{Y|X}\left( x,y\right)  dy=1\end{array} $$
<p style="text-align: right;">$(5.125)$</p>

- **(P2):** En general, la condicionalidad en las funciones de densidad no es simétrica. Es decir, es normal esperar que $f_{X|Y}(x,y)\neq f_{Y|X}(x,y)$.
- **(P3):** Si $X$ e $Y$ son variables aleatorias independientes, entonces $f_{X|Y}(x,y)=f_{X}(x)$ y $f_{Y|X}(x,y)=f_{Y}(y)$.

**Ejemplo 5.30:** En una petrolera que abastece de combustible a todos los vehículos menores de una faena minera explotada a cielo abierto, el combustible diésel se almacena cada semana en un tanque refrigerado. Sea $X$ la variable aleatoria que denota la proporción relativa del tanque que es utilizada como almacenamiento de combustible cada semana, y sea $Y$ la proporción relativa del mismo tanque que se utiliza para cargar diésel a los vehículos cada semana. Notemos que la petrolera no puede cargar más combustible del que es capaz de almacenar en una semana dada, lo que implica que el valor de $Y$ no puede exceder el valor de $X$. Una posible función de densidad conjunta para el par $(X,Y)$ está dada por

$$f_{XY}\left( x,y\right)  =\begin{cases}3x&;\  \mathrm{si} \  0\leq y\leq x\leq 1\\ 0&;\  \mathrm{en\  cualquier\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.126)$</p>

Notemos que la función de densidad conjunta $f_{XY}$ es no nula únicamente en la región triangular $\mathcal{R} =\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :0\leq y\leq x\leq 1\right\}$ que se ilustra en la Fig. (5.7). Por ejemplo, si calculamos el valor de la función de distribución conjunta $F_{XY}$ en el punto $\left( \frac{1}{2} ,\frac{1}{3} \right)$, obtenemos

$$\begin{array}{lll}F_{XY}\left( \displaystyle \frac{1}{2} ,\displaystyle \frac{1}{3} \right)  &=&P\left( X\leq \displaystyle \frac{1}{2} ,Y\leq \displaystyle \frac{1}{3} \right)  \\ &=&\displaystyle \int^{\frac{1}{3} }_{0} \int^{\frac{1}{2} }_{y} 3x\  dxdy\\ &=&\displaystyle \int^{\frac{1}{3} }_{0} \left[ \frac{3}{2} x^{2}\right]^{x=\frac{1}{2} }_{x=y}  =\int^{\frac{1}{3} }_{0} \left( \frac{3}{8} -\frac{3}{2} y^{2}\right)  dy\\ &=&\left[ \displaystyle \frac{3}{8} y-\frac{1}{2} y^{3}\right]^{y=\frac{1}{3} }_{y=0}  =\displaystyle \frac{1}{8} -\frac{1}{54} \approx 0.1065\end{array}$$
<p style="text-align: right;">$(5.127)$</p>

<p style="text-align: center;"><img src="figures/fig_5_7.png" width="500"></p>
<p style="text-align: center;">Fig. (5.7): Región $\mathcal{R}$ donde $f_{XY}$ es no nula</p>

De esta manera, existe una probabilidad del 10.65% de que se almacene menos de la mitad de la capacidad del tanque y que, al mismo se tiempo, se cargue menos de un tercio de dicho combustible en una semana dada. Notemos además que la interpretación gráfica para el cálculo anterior es sencilla: Buscamos los valores de la función de distribución conjunta $F_{XY}$ para los cuales $f_{XY}$ es no negativa y, además, $X\leq \frac{1}{2}$ e $Y\leq \frac{1}{3}$, lo que equivale a la intersección de la región $\mathcal{R}$ definida previamente y $\mathcal{P} =\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :0\leq x\leq \frac{1}{2} \wedge 0\leq y\leq \frac{1}{3} \right\}$. Esta intersección se ilustra en la Fig. (5.8), y corresponde al área sombreada en color morado.

<p style="text-align: center;"><img src="figures/fig_5_8.png" width="500"></p>
<p style="text-align: center;">Fig. (5.8): Intersección de las regiones $\mathcal{P}$ y $\mathcal{R}$</p>

Hagamos otro ejercicio y revisemos cuál es la probabilidad de que la cantidad de combustible cargada en los vehículos menores sea menor que la mitad del diésel almacenado en el tanque. En otras palabras, buscamos la probabilidad $P(Y< \frac{X}{2})$. Este es un ejemplo de **función de probabilidad compuesta**, donde existe una dependencia explícita de una de las variables con respecto a la otra. En este caso, la región de integración corresponde a la intersección entre $\mathcal{R}$ y el gráfico $y= \frac{x}{2}$. Dicha intersección se ilustra en la Fig. (5.9).

<p style="text-align: center;"><img src="figures/fig_5_9.png" width="500"></p>
<p style="text-align: center;">Fig. (5.9): Intersección de la región $\mathcal{R}$ y la recta $y= \frac{x}{2}$</p>

El cálculo de la probabilidad $P(Y< \frac{X}{2})$ se realiza como sigue,

$$\begin{array}{lll}P\left( Y<\displaystyle \frac{X}{2} \right)  &=&\displaystyle \int^{1}_{0} \int^{\frac{1}{2} x}_{0} 3x\  dxdy\\ &=&\displaystyle \int^{1}_{0} \left[ 3xy\right]^{y=\frac{1}{2} x}_{y=0}  dx\\ &=&\displaystyle \int^{1}_{0} \left( \frac{3}{2} x^{2}-0\right)  dx\\ &=&\displaystyle \frac{1}{2} \end{array} $$
<p style="text-align: right;">$(5.128)$</p>

Luego hay una probabilidad del 50% de que la cantidad de combustible cargado en los vehículos menores sea menos de la mitad del diésel almacenado en el tanque, en una semana dada. ◼︎

## Fórmula de Bayes.
Habíamos comentado que, una vez definidos los conceptos de función de densidad y función de distribución, sólo existen dos reglas fundamentales para caracterizar en su totalidad un experimento aleatorio. A continuación, describiremos tales reglas.

Consideremos entonces dos variables aleatorias discretas $X$ e $Y$, siendo $f_{XY}(x,y)$ su función de densidad conjunta, con $f_{X}(x)$ y $f_{Y}(y)$ las correspondientes funciones marginales de densidad. Sea $f_{Y|X}(x,y)$ la función condicional de densidad que describe las probabilidades de ocurrencia de $Y$ dado $X$. Si $X$ e $Y$ son variables discretas, las funciones de masa conjunta, marginales y condicional, se denotan como $p_{XY}(x,y), p_{X}(x), p_{Y}(y)$ y $p_{Y|X}(x,y)$. La **regla de la suma** extendida a las variables aleatorias establece que

$$\underbrace{f_{X}\left( x\right)  }_{p_{X}\left( x\right)  \  \mathrm{en\  el\  caso\  discreto} } =\begin{cases}\displaystyle \sum_{y\in \Omega_{Y} } p_{XY}\left( x,y\right)  &;\  \mathrm{si} \  Y\  \mathrm{es\  discreta} \\ \displaystyle \int_{\Omega_{Y} } f_{XY}\left( x,y\right)  dy&:\  \mathrm{si} \  Y\  \mathrm{es\  continua} \end{cases}$$
<p style="text-align: right;">$(5.129)$</p>

Donde $\Omega_{Y}$ es el conjunto de los estados posibles que puede tomar la variable aleatoria $Y$.

La regla de la suma es conocida en la práctica como **propiedad de marginalización**. Permite relacionar una función de densidad conjunta con una función marginal de densidad. En general, cuando la función de densidad conjunta contiene más de dos variables aleatorias, la regla de la suma puede aplicarse a cualquier subconjunto de variables, lo que resulta en una función marginal de densidad que, potencialmente, puede depender de más de una variable. En términos más concretos, si $\mathbf{x} \in \mathbb{R}^{n}$, entonces dicha función marginal de densidad será

$$f_{X_{i}}\left( x_{i}\right)  =\int_{\Omega_{X\setminus i} } f_{\mathbf{X} }\left( x_{1},...,x_{n}\right)  d\mathbf{x}_{\setminus i}$$
<p style="text-align: right;">$(5.130)$</p>

habiendo aplicado repetidamente la regla de la suma, y donde la integral (o suma, en el caso discreto) se aplica con respecto a todas las variables con excepción de $x_{i}$, lo que se indica como $d\mathbf{x}_{\setminus i}$ en el factor integrador (y que se lee “respecto de todo, menos de $x_{i}$”).

Muchos de los desafíos computacionales relativos al modelamiento de fenómenos a nivel probabilístico se deben a la aplicación de la regla de la suma. Cuando hay muchas variables (continuas o discretas) que pueden tomar un número relativamente grande de estados, la regla de la suma exige la resolución de sumas con muchos términos interiores o de integrales sobre hipersuperficies de enorme dimensión. Estas operacionales son extremadamente costosas en términos computacionales, en el sentido de que no existe un algoritmo que permita, en un tiempo polinómico, calcular tales sumas o integrales de manera exacta.

La segunda regla fundamental, que corresponde a la **regla del producto** extendida a las variables aleatorias, relaciona la función de densidad conjunta de las variables aleatorias $X$ e $Y$ con su distribución condicional como sigue

$$f_{XY}\left( x,y\right)  =f_{Y|X}\left( x,y\right)  f_{X}\left( x\right)$$
<p style="text-align: right;">$(5.131)$</p>

La regla del producto puede interpretarse como sigue: Cada función de densidad conjunta de dos variables puede ser factorizada (es decir, escribirse como un producto) por otras dos funciones de densidad. Tales factores son la función marginal de densidad de la primera variable aleatoria ($f_{X}(x)$) y la función condicional de densidad de la segunda variable dada la primera ($f_{Y|X}(x,y)$). Dado que el orden de las variables en las funciones de densidad es irrelevante (es decir, $f_{XY}(x,y)=f_{YX}(x,y)$), la regla del producto también implica que $f_{XY}(x,y)=f_{X|Y}(x,y)f_{Y}(y)$.

En los campos de los algoritmos de aprendizaje y la estadística Bayesiana, con frecuencia, estamos interesados en hacer **inferencias** en relación a variables aleatorias **no observadas (latentes)**, dado el hecho de que hemos observado otras variables aleatorias. Asumamos que tenemos algún **conocimiento previo (empírico o experimental)** $f_{\mathbf{X} }\left( \mathbf{x} \right)$ con respecto a algún vector aleatorio $\mathbf{X}$, y alguna relación $f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)$ entre $\mathbf{X}$ y una segunda variable aleatoria $\mathbf{Y}$, la cual podemos observar en la realidad. En estas condiciones, podemos utilizar el teorema de Bayes (teorema (5.4)) para formular algunas conclusiones relativas a $\mathbf{X}$ dados los valores observados de $\mathbf{Y}$. De esta manera, podemos establecer que la fórmula de Bayes:

$$\underbrace{f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  }_{\mathrm{a\  posteriori} } =\frac{\overbrace{f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  }^{\mathrm{verosimilitud} } \  \overbrace{f_{\mathbf{X} }\left( \mathbf{x} \right)  }^{\mathrm{a\  priori} } }{\underbrace{f_{\mathbf{Y} }\left( \mathbf{y} \right)  }_{\, \mathrm{evidencia} } }$$
<p style="text-align: right;">$(5.132)$</p>

es una consecuencia directa de la regla del producto, ya que

$$f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{Y} }\left( \mathbf{y} \right)  \wedge f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{X} }\left( \mathbf{x} \right)$$
<p style="text-align: right;">$(5.133)$</p>

Por lo tanto,

$$f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{Y} }\left( \mathbf{y} \right)  =f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{X} }\left( \mathbf{x} \right)  \Longleftrightarrow f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =\frac{f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{X} }\left( \mathbf{x} \right)  }{f_{\mathbf{Y} }\left( \mathbf{y} \right)  }$$
<p style="text-align: right;">$(5.134)$</p>

En la ecuación (5.132), la función de densidad $f_{\mathbf{X} }\left( \mathbf{x} \right)$ es la **probabilidad a priori**, la cual engloba todo nuestro conocimiento subjetivo respecto de una variable desconocida (latente) 𝐱 antes de observar cualquier otra data. Podemos escoger cualquier probabilidad a priori que queramos o que nos haga sentido, pero debemos asegurarnos que la función de densidad $f_{\mathbf{X} }\left( \mathbf{x} \right)$ sea distinto de cero durante todo su recorrido (es decir, $f_{\mathbf{X} }\left( \mathbf{x} \right)\neq 0$ para todo los $\mathbf{x}$ plausibles, incluso aunque sean *raros*).

La **función de verosimilitud** $f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)$ describe como se relacionan $\mathbf{x}$ e $\mathbf{y}$, y en el caso de distribuciones discretas de probabilidad, corresponde a la probabilidad asociada a la data representada por $\mathbf{y}$ si conociéramos la variable latente $\mathbf{x}$. Notemos que la función de verosimilitud no es una distribución en $\mathbf{x}$, sino que sólo en $\mathbf{y}$. La función $f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)$ suele denominarse como función de verosimilitud de $\mathbf{x}$ (dado $\mathbf{y}$) o probabilidad de $\mathbf{y}$ dado $\mathbf{x}$, pero nunca como función de verosimilitud (únicamente) de $\mathbf{y}$.

La **probabilidad a posteriori** $f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)$ es la cantidad de interés por antonomasia en la estadística Bayesiana, debido a que expresa exactamente lo que queremos: Lo que sabemos de $\mathbf{x}$ una vez que hemos observado $\mathbf{y}$.

La cantidad

$$f_{\mathbf{Y} }\left( \mathbf{y} \right)  :=\int_{\mathbb{R}^{n} } f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  f_{\mathbf{X} }\left( \mathbf{x} \right)  d\mathbf{x} =\mathrm{E}_{\mathbf{X} } \left[ f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  \right]$$
<p style="text-align: right;">$(5.135)$</p>

Es llamada **evidencia**. El lado derecho de la ecuación (5.135) hace uso de un operador que hemos escrito como $\mathrm{E}_{\mathbf{X} } \left[ \  \cdot \  \right]$ y que es llamado **operador de esperanza condicional** con respecto a la variable aleatoria $\mathbf{X}$. Podemos definir dicho operador, tanto para variables aleatorias discretas como continuas, de la siguiente manera.

**<font color='blue'>Definición 5.23 – Esperanza condicional:</font>** Sea $A$ un evento en $\Omega$ con probabilidad no nula y sea $X$ una variable aleatoria discreta. Sea define la **esperanza condicional** de $X$ dado el evento $A$ como

$$\begin{array}{lll}\mathrm{E}_{A} \left[ X\right]  &=&\mathrm{E} \left[ X|A\right]  \\ &=&\displaystyle \sum_{x} xP\left( X=x|A\right)  \\ &=&\displaystyle \sum_{x} x\displaystyle \frac{P\left( \left\{ X=x\right\}  \cap A\right)  }{P\left( A\right)  } \end{array}$$
<p style="text-align: right;">$(5.136)$</p>

Donde la suma se toma sobre todos los posibles resultados de $X$ (y donde cada uno de ellos se denota como $x$). Notemos que la fórmula anterior es válida incluso para vectores aleatorios discretos $\mathbf{X}$, siempre que tomemos tantos índices en la suma como componentes tenga dicho vector. 

Por otro lado si $X$ e $Y$ son variables aleatorias discretas, entonces la **esperanza condicional de $X$ dado $Y$** se define como

$$\begin{array}{lll}\mathrm{E}_{Y} \left[ X\right]  &=&\mathrm{E} \left[ X|Y=y\right]  \\ &=&\displaystyle \sum_{x} xP\left( X=y|Y=y\right)  \\ &=&\displaystyle \sum_{x} x\displaystyle \frac{P\left( X=x,Y=y\right)  }{P\left( Y=y\right)  } \\ &=&\displaystyle \sum_{x} x\displaystyle \frac{p_{XY}\left( x,y\right)  }{p_{Y}\left( y\right)  } \end{array} $$
<p style="text-align: right;">$(5.137)$</p>

Donde $p_{XY}(x,y)$ es la función de masa conjunta de probabilidad para el vector aleatorio $(X,Y)$. Notemos que, como antes, si las variables involucradas son multidimensionales, la fórmula anterior no cambia, pero sí deben considerarse más índices en la sumatoria. 

Finalmente, si $X$ e $Y$ son variables aleatorias continuas con función de densidad conjunta $f_{XY}(x,y)$, función de densidad para $Y$ denotada como $f_{Y}(y)$ y función de densidad condicional $f_{X|Y}(x,y)$, entonces la **esperanza condicional de $X$ dado $Y$** se define como

$$\begin{array}{lll}\mathrm{E}_{Y} \left[ X\right]  &=&\mathrm{E} \left[ X|Y=y\right]  \\ &=&\displaystyle \int^{+\infty }_{-\infty } xf_{X|Y}\left( x,y\right)  dx\\ &=&\displaystyle \frac{1}{f_{Y}\left( y\right)  } \int^{+\infty }_{-\infty } xf_{XY}\left( x,y\right)  dx\end{array} $$
<p style="text-align: right;">$(5.138)$</p>

Para dos variables aleatorias multidimensionales $\mathbf{X}$ e $\mathbf{Y}$ con $m$ componentes cada una, la fórmula anterior se extiende fácilmente como sigue,

$$\begin{array}{lll}\mathrm{E}_{\mathbf{Y} } \left[ \mathbf{X} \right]  &=&\mathrm{E} \left[ \mathbf{X} |\mathbf{Y} =\mathbf{y} \right]  \\ &=&\displaystyle \int_{\mathbb{R}^{n} } \mathbf{x} f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  d\mathbf{x} \\ &=&\displaystyle \frac{1}{f_{\mathbf{Y} }\left( \mathbf{y} \right)  } \int_{\mathbb{R}^{n} } \mathbf{x} f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  d\mathbf{x} \end{array} $$
<p style="text-align: right;">$(5.139)$</p>

Por definición, la evidencia integra el numerador en la ecuación (5.132) con respecto a la variable latente $\mathbf{x}$. Por lo tanto, la evidencia es independiente de $\mathbf{x}$ y, de este modo, garantiza que la función de densidad a posteriori $f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)$ esté **normalizada**; es decir, que su rango de valores tenga media nula y desviación estándar unitaria. La evidencia juega un papel fundamental en la selección de modelos con enfoque Bayesiano, como discutiremos en secciones posteriores. Por supuesto, la integral en la ecuación (5.135) implica que, con frecuencia, **la evidencia es computacionalmente costosa de calcular**.

## Esperanza y varianza para variables aleatorias multidimensionales.
Con frecuencia estamos interesados en resumir información representativa de conjuntos de variables aleatorias, o bien, comparar dos variables aleatorias. Un **estadígrafo** referido a una variable aleatoria corresponde a una función determinística de esa variable aleatoria. Los **estadígrafos de resumen** (conocidos también como **métricas representativas**) de una distribución de probabilidad nos proveen de información valiosa en relación al comportamiento de la(s) variable(s) aleatoria(s) subyacente(s), ya que permiten, mediante números sencillos, resumir y caracterizar una distribución. El **valor esperado** (esperanza) y la **varianza** son dos métricas representativas que ya desarrollamos previamente para el caso de variables aleatorias unidimensionales. En esta subsección, extenderemos tales conceptos a variables aleatorias multidimensionales aprovechando las herramientas que desarrollamos en nuestro estudio del álgebra lineal, y luego construiremos una forma de comparar dos variables aleatorias.

La **media** y la **varianza** son útiles, como vimos previamente, para describir ciertas propiedades de interés de las distribuciones de probabilidad (valores esperados y dispersión). Más adelante veremos que existe una familia útil de distribuciones (llamada **familia exponencial**), donde los estadígrafos de cualquier variable aleatoria inherente a las mismas capturan prácticamente toda la información de nuestro interés. El concepto de valor esperado es fundamental en machine learning. Por esa razón, es importante entenderlo muy bien y desarrollarlo desde sus bases más elementales. Motivamos así la siguiente definición, equivalente a las definiciones (5.16) y (5.17), para el valor esperado, pero desde una perspectiva más estadística.

**<font color='blue'>Definición 5.24 – Valor esperado (como métrica representativa):</font>** Sea $X$ una variable aleatoria continua con función de densidad $f_{X}(x)$, siendo $x\in \mathrm{Rec}(X)$. El **valor esperado de una función** $g:\mathbb{R} \longrightarrow \mathbb{R}$ de $X$ se define como

$$\mathrm{E}_{X} \left[ g\left( x\right)  \right]  =\int_{\Omega_{X} } g\left( x\right)  f_{X}\left( x\right)  dx$$
<p style="text-align: right;">$(5.140)$</p>

Donde la integral se toma sobre todos los valores posibles de $X$, representados por el conjunto $\Omega_{X}$. Correspondientemente, para el caso de una variable aleatoria discreta $X$ con función de masa de probabilidad $p_{X}(x)$, el valor esperado de la función $g$ se define como

$$\mathrm{E}_{X} \left[ g\left( x\right)  \right]  =\sum_{x\in \Omega_{X} } g\left( x\right)  f_{X}\left( x\right)  dx$$
<p style="text-align: right;">$(5.141)$</p>

En esta subsección, consideraremos variables aleatorias tales que sus resultados sean siempre numéricos. Dicho de otro modo, la función $g$ tendrá siempre como dominio un subconjunto de $\mathbb{R}$. Además, consideraremos que las variables aleatorias multidimensionales, de la misma forma que los vectores en $\mathbb{R}^{n}$, corresponden a arreglos matriciales del tipo $\mathbf{X}=(X_{1},...,X_{n})^{\top}$. De este modo, para el caso de un vector aleatorio $\mathbf{X}$ de este tipo, definimos el valor esperado de la función $g:\mathbb{R}^{n} \longrightarrow \mathbb{R}$ como el vector $\mathrm{E}_{\mathbf{X} } \left[ g\left( \mathbf{x} \right)  \right]  \in \mathbb{R}^{n}$ tal que

$$\mathrm{E}_{\mathbf{X} } \left[ g\left( \mathbf{x} \right)  \right]  =\left( \begin{array}{c}\mathrm{E}_{X_{1}} \left[ g\left( x_{1}\right)  \right]  \\ \vdots \\ \mathrm{E}_{X_{n}} \left[ g\left( x_{n}\right)  \right]  \end{array} \right)  \in \mathbb{R}^{n}$$
<p style="text-align: right;">$(5.142)$</p>

Donde $\mathrm{E}_{X_{j}}$ es el operador de esperanza matemática (de la función $g:\mathbb{R} \longrightarrow \mathbb{R}$) tomado sobre la $j$-ésima componente del vector aleatorio $\mathbf{X}$. Las definiciones (5.16) y (5.17) sugieren tomar el operador $\mathrm{E}_{X_{j}}$ de forma tal que las integrales resultantes se tomen siempre con respecto a la función de densidad de probabilidad respectiva (para vectores continuos), o a la suma de todos los estados posibles (para variables discretas). La media es un caso particular del valor esperado, donde $g$ corresponde a la función identidad (es decir, $g(\mathbf{x})=\mathbf{x}$, para todo $\mathbf{x}\in \mathbb{R}^{n}$). Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.25 – Media (de un vector aleatorio):</font>** Sea $\mathbf{X}=(X_{1},...,X_{n})$ un vector aleatorio cuyos estados (resultados) se representan por medio del vector $\mathbf{x}\in \mathbb{R}^{n}$. Definimos la media del vector $\mathbf{X}$ como

$$\mathrm{E}_{\mathbf{X} } \left[ \mathbf{x} \right]  =\left( \begin{array}{c}\mathrm{E}_{X_{1}} \left[ x_{1}\right]  \\ \vdots \\ \mathrm{E}_{X_{n}} \left[ x_{n}\right]  \end{array} \right)  \in \mathbb{R}^{n}$$
<p style="text-align: right;">$(5.143)$</p>

Donde,

$$\mathrm{E}_{X_{j}} \left[ x_{j}\right]  :=\begin{cases}\displaystyle \int_{\Omega_{\mathbf{X}} } x_{j}f_{X_{j}}\left( x_{j}\right)  dx_{j}&;\  \mathrm{si} \  \mathbf{X} \  \mathrm{es\  un\  vector\  aleatorio\  continuo} \\ \displaystyle \sum_{x_{i}\in \Omega_{\mathbf{X}} } x_{i}P\left( x_{j}=x_{i}\right)  &;\  \mathrm{si} \  \mathbf{X} \  \mathrm{es\  un\  vector\  aleatorio\  discreto} \end{cases} $$
<p style="text-align: right;">$(5.144)$</p>

para $j=1,...,n$, donde el subíndice $j$ indica la correspondiente dimensión de $\mathbf{x}$. Tanto la integral como la suma (dependiendo si $\mathbf{X}$ es un vector aleatorio continuo o discreto) se toman sobre el conjunto de estados posibles de $\mathbf{X}$, que denotamos como $\Omega_{\mathbf{X}}$. La media suele denotarse como $\mathbf{\mu}$.

Para el caso de dos variables aleatorias, con frecuencia, queremos caracterizar la **correspondencia** que pueda existir entre ellas. Para ello, resulta útil el concepto de **covarianza**, la cual, de forma intuitiva, representa la noción de qué tan dependientes son dos variables aleatorias la una de la otra. Para el caso de variables aleatorias univariantes, tiene sentido la siguiente definición.

**<font color='blue'>Definición 5.26 – Covarianza (caso univariante):</font>** Sean $X$ e $Y$ variables aleatorias con rangos de resultados $\Omega_{X}$ y $\Omega_{Y}$, respectivamente (en $\mathbb{R}$), tales que $x\in \Omega_{X}$ e $y\in \Omega_{Y}$. La **covarianza** entre $X$ e $Y$, que denotamos como $\mathrm{Cov}(X,Y)$, se define como el **producto esperado** de sus desviaciones con respecto a sus correspondientes medias. Es decir,

$$\mathrm{Cov} \left( X,Y\right)  :=\mathrm{E}_{X,Y} \left[ \left( x-\mathrm{E}_{X} \left[ x\right]  \right)  \left( y-\mathrm{E}_{Y} \left[ y\right]  \right)  \right]$$
<p style="text-align: right;">$(5.145)$</p>

Es decir, tomando la definición de valor esperado,

$$\mathrm{Cov} \left( X,Y\right)  :=\mathrm{E}_{X,Y} \left[ \left( x-\int_{\Omega_{X} } xf_{X}\left( x\right)  dx\right)  \left( y-\int_{\Omega_{Y} } yf_{Y}\left( y\right)  dy\right)  \right]$$
<p style="text-align: right;">$(5.146)$</p>

Cuando la variable aleatoria asociada con la esperanza o la covarianza de nuestro interés es clara en sus argumentos (en términos de su(s) dependencia(s)), el subíndice asociado a los correspondientes operadores suele suprimirse (por ejemplo, $\mathrm{E}_{X}[x]$ puede escribirse como $\mathrm{E}[x]$). Si aplicamos la propiedad propiedad de linealidad del operador de esperanza matemática a la definición de covarianza, podemos desarrollar la ecuación (1.45) como

$$\begin{array}{rcl}\mathrm{Cov} \left( X,Y\right)  &=&\mathrm{E}_{X,Y} \left[ \left( x-\mathrm{E}_{X} \left[ x\right]  \right)  \left( y-\mathrm{E}_{Y} \left[ y\right]  \right)  \right]  \\ &=&\mathrm{E}_{X,Y} \left[ xy-x\mathrm{E}_{Y} \left[ y\right]  -y\mathrm{E}_{X} \left[ x\right]  +\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  \right]  \\ &=&\mathrm{E}_{X,Y} \left[ xy\right]  -\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  \underbrace{-\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  +\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  }_{=0} \\ &=&\mathrm{E}_{X,Y} \left[ xy\right]  -\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  \\ &\overbrace{=}^{\mathrm{suprimimos\  indices} } &\mathrm{E} \left[ xy\right]  -\mathrm{E} \left[ x\right]  \mathrm{E} \left[ y\right]  \end{array}$$
<p style="text-align: right;">$(5.147)$</p>

El **cambio de notación** es simplemente para dejar en claro que los cálculos subyacentes a la esperanza y covarianza se realizan en función de los estados de las variables aleatorias (por eso ahora hemos escrito, por ejemplo, $\mathrm{E}[x]$ en vez de $\mathrm{E}[X]$, a diferencia de cuando recién definimos el operador de esperanza matemática).

La covarianza de una variable aleatoria con respecto a sí misma (es decir, $\mathrm{Cov}(X,X)$) corresponde a la varianza de la misma (la que establecimos en la definición (5.18)). Como en el caso de la esperanza matemática y la covarianza, vamos a referenciar la varianza igualmente con respecto a los estados de las correspondientes variables aleatorias de interés (es decir, escribiremos $\mathrm{Var}(x)$ en vez de $\mathrm{Var}(X)$). Por lo tanto, la desviación estándar será escrita igualmente como $\sigma(x)$. Y la covarianza entre dos variables aleatorias $X$ e $Y$ se escribirá asimismo como $\mathrm{Cov}(x,y)$

A continuación, generalizaremos el concepto de covarianza a vectores aleatorios.

**<font color='blue'>Definición 5.27 – Covarianza (caso multivariante):</font>** Sean $\mathbf{X}$ e $\mathbf{Y}$ dos vectores aleatorios con estados $\mathbf{x}\in \mathbb{R}^{n}$ e $\mathbf{y}\in \mathbb{R}^{d}$. Definimos la **covarianza entre ambos vectores aleatorios** como la matriz

$$\mathrm{Cov} \left( \mathbf{x} ,\mathbf{y} \right)  =\mathrm{E} \left[ \mathbf{x} \mathbf{y}^{\top } \right]  -\mathrm{E} \left[ \mathbf{x} \right]  \mathrm{E} \left[ \mathbf{y} \right]^{\top }  =\mathrm{Cov} \left( \mathbf{y} ,\mathbf{x} \right)^{\top }  \in \mathbb{R}^{n\times d}$$
<p style="text-align: right;">$(5.148)$</p>

La definición (5.27) puede aplicarse mediante la misma variable aleatoria multidimensional en ambos argumentos, lo que resulta en un medida de la “dispersión” entre cada una de las componentes de dicha variable por medio de la varianza obtenida de esta manera. Por lo tanto, la varianza nos entrega una descripción de la relación entre las dimensiones individuales de un vector aleatorio determinado. Esto motiva la siguiente definición.

**<font color='blue'>Definición 5.28 – Varianza de un vector aleatorio:</font>** Sea $\mathbf{X}$ un vector aleatorio de dimensión $n$ con estados $\mathbf{x}\in \mathbb{R}^{n}$. Si $\mathbf{\mu}\in \mathbb{R}^{n}$ es la media $\mathbf{X}$, definimos su **varianza** como

$$\begin{array}{lll}\mathrm{Var} \left( \mathbf{x} \right)  &=&\mathrm{Cov} \left( \mathbf{x} ,\mathbf{x} \right)  \\ &=&\mathrm{E}_{\mathbf{X} } \left[ \left( \mathbf{x} -\mathbf{\mu } \right)  \left( \mathbf{x} -\mathbf{\mu } \right)^{\top }  \right]  =\mathrm{E}_{\mathbf{X} } \left[ \mathbf{x} \mathbf{x}^{\top } \right]  -\mathrm{E}_{\mathbf{X} } \left[ \mathbf{x} \right]  \left( \mathrm{E}_{\mathbf{X} } \left[ \mathbf{x} \right]  \right)^{\top }  \\ &=&\left( \begin{array}{cccc}\mathrm{Cov} \left( x_{1},x_{1}\right)  &\mathrm{Cov} \left( x_{1},x_{2}\right)  &\cdots &\mathrm{Cov} \left( x_{1},x_{n}\right)  \\ \mathrm{Cov} \left( x_{2},x_{1}\right)  &\mathrm{Cov} \left( x_{2},x_{2}\right)  &\cdots &\mathrm{Cov} \left( x_{2},x_{n}\right)  \\ \vdots &\vdots &\ddots &\vdots \\ \mathrm{Cov} \left( x_{n},x_{1}\right)  &\mathrm{Cov} \left( x_{n},x_{2}\right)  &\cdots &\mathrm{Cov} \left( x_{n},x_{n}\right)  \end{array} \right)  \\ &=&\left(\displaystyle \begin{array}{cccc}\mathrm{Var} \left( x_{1}\right)  &\mathrm{Cov} \left( x_{1},x_{2}\right)  &\cdots &\mathrm{Cov} \left( x_{1},x_{n}\right)  \\ \mathrm{Cov} \left( x_{2},x_{1}\right)  &\mathrm{Var} \left( x_{2}\right)  &\cdots &\mathrm{Cov} \left( x_{2},x_{n}\right)  \\ \vdots &\vdots &\ddots &\vdots \\ \mathrm{Cov} \left( x_{n},x_{1}\right)  &\mathrm{Cov} \left( x_{n},x_{2}\right)  &\cdots &\mathrm{Var} \left( x_{n}\right)  \end{array} \right)  \end{array} $$
<p style="text-align: right;">$(5.149)$</p>

La matriz anterior suele denominarse como **matriz de covarianza** del vector $\mathbf{X}$, y suele además denotarse como $\mathbf{\Sigma}$. Dicha matriz es **simétrica** y **semidefinida positiva** y, como comentamos previamente, nos entrega información valiosa con respecto a la dispersión de las componentes del vector $\mathbf{X}$, las unas con las otras. La diagonal principal de la matriz de covarianza $\mathbf{\Sigma}$ nos entrega información de las varianzas relativas a las componentes de $\mathbf{X}$, las que naturalmente se corresponden con las varianzas asociadas a sus densidades marginales.

**Ejemplo 5.31:** Vamos a ejercitar los conceptos que hemos desarrollado en esta subsección. En primer lugar, consideraremos las variables aleatorias continuas $X$ e $Y$ cuya función de densidad conjunta de probabilidad se define como

$$f_{XY}\left( x,y\right)  =3x\  ;\  0\leq y\leq x\leq 1$$
<p style="text-align: right;">$(5.150)$</p>

y cero en cualquier otro caso. Vamos a calcular la covarianza entre ambas variables aleatorias. Para ello, calculamos primeramente las funciones marginales de densidad de cada una de las variables aleatorias. De esta manera, tenemos

$$\begin{array}{l}f_{X}\left( x\right)  =\displaystyle \int^{+\infty }_{-\infty } f_{XY}\left( x,y\right)  dy=\int^{x}_{0} 3x\  dy=3x^{2}\  ;\  0\leq x\leq 1\\ f_{Y}\left( y\right)  =\displaystyle \int^{+\infty }_{-\infty } f_{XY}\left( x,y\right)  dx=\int^{1}_{y} 3x\  dx=\left[ \frac{3}{2} x^{2}\right]^{x=1}_{x=y}  =\frac{3}{2} \left( 1-y^{2}\right)  \  ;\  0\leq y\leq 1\end{array} $$
<p style="text-align: right;">$(5.151)$</p>

Por lo tanto, calculamos los valores esperados de cada una de estas variables como sigue

$$\begin{array}{l}\mathrm{E}_{X} \left[ x\right]  =\displaystyle \int^{+\infty }_{-\infty } xf_{X}\left( x\right)  dx=\int^{1}_{0} x\cdot 3x^{2}dx=\left[ \frac{3}{2} x^{4}\right]^{x=1}_{x=0}  =\frac{3}{4} \\ \mathrm{E}_{Y} \left[ y\right]  =\displaystyle \int^{+\infty }_{-\infty } yf_{Y}\left( y\right)  dy=\int^{1}_{0} y\cdot \frac{3}{2} \left( 1-y^{2}\right)  dy=\left[ \frac{3}{2} \left( \frac{y^{2}}{2} -\frac{y^{4}}{4} \right)  \right]^{y=1}_{y=0}  =\frac{3}{2} \left( \frac{1}{2} -\frac{1}{4} \right)  =\frac{3}{8} \end{array}$$
<p style="text-align: right;">$(5.152)$</p>

Luego calculamos las varianzas. Primero, para $X$:

$$\begin{array}{ll}&\mathrm{E}_{X} \left[ x^{2}\right]  =\displaystyle \int^{+\infty }_{-\infty } x^{2}f_{X}\left( x\right)  dx=\int^{1}_{0} x^{2}\cdot 3x^{2}dx=\left[ \frac{3}{5} x^{5}\right]^{x=1}_{x=0}  =\frac{3}{5} \\ \Longrightarrow &\mathrm{Var} \left( x\right)  =\mathrm{E}_{X} \left[ x^{2}\right]  -\mathrm{E}^{2}_{X} \left[ x\right]  =\displaystyle \frac{3}{5} -\left( \frac{3}{4} \right)^{2}  =\frac{3}{80} \end{array} $$
<p style="text-align: right;">$(5.153)$</p>

Y ahora, para $Y$:

$$\begin{array}{ll}&\mathrm{E}_{Y} \left[ y^{2}\right]  =\displaystyle \int^{+\infty }_{-\infty } y^{2}\cdot \frac{3}{2} \left( 1-y^{2}\right)  dy=\left[ \frac{3}{2} \left( \frac{y^{2}}{2} -\frac{y^{4}}{4} \right)  \right]^{y=1}_{y=0}  =\frac{3}{2} \left( \frac{1}{3} -\frac{1}{5} \right)  =\frac{1}{5} \\ \Longrightarrow &\mathrm{Var} \left( y\right)  =\mathrm{E}_{Y} \left[ y^{2}\right]  -\mathrm{E}^{2}_{Y} \left[ y\right]  =\displaystyle \frac{1}{5} -\left( \frac{3}{8} \right)^{2}  =\frac{19}{320} \end{array}$$
<p style="text-align: right;">$(5.154)$</p>

Conforme la definición de covarianza, sólo nos resta calcular $\mathrm{E}_{X,Y}[xy]$. En efecto,

$$\begin{array}{lll}\mathrm{E}_{X,Y} \left[ xy\right]  &=&\displaystyle \int^{+\infty }_{-\infty } \displaystyle \int^{+\infty }_{-\infty } xyf_{XY}\left( x,y\right)  dxdy\\ &=&\displaystyle \int^{1}_{0} \displaystyle \int^{x}_{0} xy\cdot 3x\  dx\\ &=&\displaystyle \int^{1}_{0} \left[ \displaystyle \int^{x}_{0} y\  dy\right]  3x^{2}dx\\ &=&\displaystyle \int^{1}_{0} \left[ \frac{y^{2}}{2} \right]^{y=x}_{y=0}  3x\  dx\\ &=&\displaystyle \int^{1}_{0} \displaystyle \frac{x^{2}}{2} \cdot 3x^{2}dx\\ &=&\displaystyle \frac{3}{2} \left[ \frac{x^{5}}{5} \right]^{x=1}_{x=0}  \\ &=&\displaystyle \frac{3}{10} \end{array} $$
<p style="text-align: right;">$(5.155)$</p>

Por lo tanto,

$$\begin{array}{lll}\mathrm{Cov} \left( x,y\right)  &=&\mathrm{E}_{X,Y} \left[ xy\right]  -\mathrm{E}_{X} \left[ x\right]  \mathrm{E}_{Y} \left[ y\right]  \\ &=&\displaystyle \frac{3}{10} -\frac{3}{4} \cdot \frac{3}{8} =\frac{3}{160} \end{array} $$
<p style="text-align: right;">$(5.156)$</p>
◼︎

**Ejemplo 5.32:** Sean $X$ e $Y$ variables aleatorias tales que $\mathrm{E}_{X} \left[ x\right]  =1$, $\mathrm{E}_{X} \left[ x^{2}\right]  =3$, $\mathrm{E}_{X,Y} \left[ xy\right]  =-4$ y $\mathrm{E}_{Y} \left[ y\right]  =2$. Vamos a determinar el valor de $\mathrm{Cov} \left( x,2x+y\right)$. En efecto, usando la definición de covarianza y la linealidad del operador de esperanza matemática, tenemos que

$$\begin{array}{lll}\mathrm{Cov} \left( x,2x+y\right)  &=&\mathrm{E} \left[ x\left( 2x+y\right)  \right]  -\mathrm{E} \left[ x\right]  \mathrm{E} \left[ 2x+y\right]  \\ &=&2\mathrm{E} \left[ x^{2}\right]  +\mathrm{E} \left[ xy\right]  +\mathrm{E} \left[ x\right]  \left( 2\mathrm{E} \left[ x\right]  +\mathrm{E} \left[ y\right]  \right)  \\ &=&2\cdot 3+\left( -4\right)  -1\left( 2\cdot 1+2\right)  \\ &=&-2\end{array}$$
<p style="text-align: right;">$(5.157)$</p>
◼︎

Cuando queremos comparar las covarianzas entre distintos pares de variables aleatorias, la varianza individual (marginal) de cada una de ellas afecta el valor de tales covarianzas. Por supuesto, es normal que las unidades de medición que caracterizan los valores que toma un resultado para cualquier variable aleatorias alteren igualmente el valor de la covarianza (es decir, la covarianza es sensible al escalamiento de tales valores). Es natural preguntarnos, por tanto, si podemos disponer de una **versión normalizada de la covarianza** que sea **invariante frente a los cambios de escala**. Y resulta que, en efecto, sí existe, y es llamada **correlación entre variables aleatorias**. Tiene sentido pues la siguiente definición.

**<font color='blue'>Definición 5.29 – Correlación:</font>** Sean $X$ e $Y$ variables aleatorias. La **correlación** entre ambas se define como

$$\rho \left( x,y\right)  =\frac{\mathrm{Cov} \left( x,y\right)  }{\sqrt{\mathrm{Var} \left( x\right)  \mathrm{Var} \left( y\right)  } } =\frac{\mathrm{Cov} \left( x,y\right)  }{\sigma \left( x\right)  \sigma \left( y\right)  }$$
<p style="text-align: right;">$(5.158)$</p>

La correlación entre las variables aleatorias que conforman un vector aleatorio de dimensión $d$ resulta, al igual que en el caso de la covarianza, en una **matriz de correlación** de dimensión $d\times d$. Esta matriz de correlación, de la misma forma que en el caso bidimensional presentado en la definición (5.29), no es más que una **versión estandarizada de la matriz de covarianza**; es decir, para un vector aleatorio $\mathbf{X}=(X_{1},...,X_{d})\in \mathbb{R}^{d}$, la matriz de correlación $\rho(\mathbf{X})$ equivale a la matriz de covarianza $\mathrm{Cov}_{\mathbf{Z}}(\mathbf{z},\mathbf{z})$, donde $\mathbf{Z}$ es el vector aleatorio estandarizado con estados $z_{i}=x_{i}/\sigma(x_{i})$, para $i=1,...,d$.

La correlación entre dos variables aleatorias puede **interpretarse en términos de su signo**. Debido a que corresponde a una versión estandarizada de la covarianza, es claro que $-1\leq \rho(x,y)\leq 1$ para todo par de variables aleatorias $X$ e $Y$ (con estados $x,y\in \mathbb{R}$). Luego:

- $\rho(x,y)>0$: Ambas variables son tales que, cuando 𝑋 crece, 𝑌 también tiende a hacerlo (**correlación positiva**).
- $\rho(x,y)<0$: Ambas variables son tales que, cuando 𝑋 crece, 𝑌 tiende a decrecer, y viceversa (**correlación negativa**).
- $\rho(x,y)=0$: Ambas variables **no están correlacionadas**.

Las situaciones definidas para los casos de correlación positiva y negativa se ilustran en la Fig. (5.10).

<p style="text-align: center;"><img src="figures/fig_5_10.png" width="850"></p>
<p style="text-align: center;">Fig. (5.10): Ejemplos de variables aleatorias positiva y negativamente correlacionadas. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

**Ejemplo 5.33:** Las variables aleatorias $X_{1}$ y $X_{2}$ representan dos observaciones de una señal que están distorsionadas por un nivel significativo de **ruido**. Tienen la misma media $\mu$ y varianza $\sigma^{2}$. La proporción de señal a ruido (*signal-to-noise ratio*, SNR) de la observación $X_{1}$ o $X_{2}$ se define como el inverso del cuadrado del **coeficiente de variación** de las mismas (media sobre la desviación estándar):

$$\mathrm{SNR} =\frac{\mu^{2} }{\sigma^{2} }$$
<p style="text-align: right;">$(5.159)$</p>

Un diseñador de sistemas opta por definir una estrategia descriptiva de estas observaciones mediante la construcción de una nueva variable aleatoria $S=(X_{1}+X_{2})/2$. Conforme a aquello,

1) Mostraremos que la SNR de $S$ es el doble de la SNR de $X_{1}$ o $X_{2}$ si ambas variables aleatorias no están correlacionadas.
2) Supondremos que el diseñador del sistema se da cuenta que la estrategia de promedios está dando $\mathrm{SNR}_{S}=\frac{3}{2} \mathrm{SNR}_{X}$. El diseñador asume correctamente que las observaciones $X_{1}$ y $X_{2}$ están correlacionadas. Determinaremos pues la correlación entre ambas variables aleatorias y, además, bajo qué condición sobre dicha correlación la estrategia de promedios puede resultar en un SNR para $S$ arbitrariamente grande.

Para resolver (1), notemos que, en general, para $S=(X_{1}+X_{2})/2$, se tiene que

$$\begin{array}{l}\mathrm{E} \left[ s\right]  =\mu_{S} =\mathrm{E} \left[ \displaystyle \frac{x_{1}+x_{2}}{2} \right]  =\mu \\ \sigma^{2} \left( s\right)  =\displaystyle \frac{\mathrm{Var} \left( x_{1}+x_{2}\right)  }{4} =\displaystyle \frac{2\sigma^{2} +2\  \mathrm{Cov} \left( x_{1},x_{2}\right)  }{4} =\displaystyle \frac{\sigma^{2} +\mathrm{Cov} \left( x_{1},x_{2}\right)  }{2} \\ \mathrm{SNR}_{S} =\displaystyle \frac{2\mu^{2} }{\sigma^{2} +\mathrm{Cov} \left( x_{1},x_{2}\right)  } \end{array} $$
<p style="text-align: right;">$(5.160)$</p>

En el cálculo de la varianza $\sigma^{2}(s)$, hemos utilizado el hecho de que $\mathrm{Var} \left( x+y\right)  =\mathrm{Var} \left( x\right)  +\mathrm{Var} \left( y\right)  +2\  \mathrm{Cov} \left( x,y\right)$. Por lo tanto, si $X_{1}$ y $X_{2}$ no están correlacionadas (lo que implica que su covarianza es nula), entonces $\mathrm{SNR}_{S} =2\mu^{2} /\sigma^{2} =2\  \mathrm{SNR}_{X}$, tal como queríamos demostrar.

Para el caso de (2), dado que $\mathrm{Cov} \left( x_{1},x_{2}\right)  =\sigma^{2} \rho \left( x_{1},x_{2}\right)$, la fórmula para $\mathrm{SNR}_{S}$ toma la forma

$$\mathrm{SNR}_{S} =\frac{2\mu^{2} }{\sigma^{2} \left( 1+\rho \left( x_{1},x_{2}\right)  \right)  }$$
<p style="text-align: right;">$(5.161)$</p>

Poniendo $\mathrm{SNR}_{S} =\frac{3}{2} \mathrm{SNR}_{X} =\frac{3\mu^{2} }{2\sigma^{2} }$, obtenemos que $\rho(x_{1},x_{2})=\frac{1}{3}$.

Finalmente, tenemos que

$$\lim_{\rho \left( x_{1},x_{2}\right)  \rightarrow -1} \left( \frac{2\mu^{2} }{\sigma^{2} \left( 1+\rho \left( x_{1},x_{2}\right)  \right)  } \right)  \rightarrow +\infty$$
<p style="text-align: right;">$(5.162)$</p>

Luego, para que $\mathrm{SNR}_{S} \rightarrow +\infty$, debe cumplirse que $\rho \left( x_{1},x_{2}\right)  \rightarrow -1$. ◼︎

### Estadígrafos empíricos.
Las definiciones de esperanza y covarianza revisadas en la subsección anterior son, con frecuencia, referidas como **estadígrafos poblacionales**, porque son válidos para poblaciones completas de datos. En machine learning, necesitamos aprender a partir de datos empíricos (obtenidos a partir de observaciones). Consideremos pues una variable aleatoria $X$; hay dos pasos conceptuales que nos permiten transitar desde estadígrafos poblacionales a la realización de estadígrafos empíricos. Primero, usaremos el hecho de que disponemos de un conjunto de datos finito (de tamaño $n$) para construir un estadígrafo empírico que es función de un número finito de variables aleatorias idénticas, $X_{1},...,X_{n}$. Luego, **observamos la data**; esto es, fijamos nuestra atención en las realizaciones (estados) $x_{1},...,x_{n}$ de cada una de las variables aleatorias y, a partir de tales realizaciones, estimaremos los estadígrafos respectivos. Esto motiva la siguiente definición.

**<font color='blue'>Definición 5.30 – Media y covarianza empíricas:</font>** Sea $\mathbf{X}$ un vector aleatorio con realización $\mathbf{x}\in \mathbb{R}^{d}$. Se define la **media empírica (o muestral)** de tal realización como la media aritmética de las observaciones de cada una de las componentes de $\mathbf{X}$. Es decir,

$$\bar{\mathbf{x} } :=\frac{1}{n} \sum^{n}_{j=1} \mathbf{x}_{j}$$
<p style="text-align: right;">$(5.163)$</p>

Por otro lado, definimos la **covarianza empírica (o muestral)** como

$$\mathbf{\Sigma } :=\frac{1}{n} \sum^{n}_{j=1} \left( \mathbf{x}_{j} -\bar{\mathbf{x} } \right)  \left( \mathbf{x}_{j} -\bar{\mathbf{x} } \right)^{\top }  \in \mathbb{R}^{d\times d}$$
<p style="text-align: right;">$(5.164)$</p>

## Transformaciones de variables aleatorias.
En general, estamos interesados en modelar fenómenos que, con frecuencia, no pueden ser explicados mediante distribuciones de probabilidad *de libro* (aunque estudiaremos algunas de ellas un poco más adelante). Por lo tanto, se hace necesario saber operar con variables aleatorias y considerar incluso funciones de combinaciones entre ellas. Un ejemplo de esto es la extensión de las propiedades de la esperanza y (co)varianza a vectores aleatorios. Sean pues $\mathbf{X}$ e $\mathbf{Y}$ vectores aleatorios con estados $\mathbf{x},\mathbf{y}\in \mathbb{R}^{d}$. Luego tenemos:

- **(P1):** $\mathrm{E} \left[ \mathbf{x} \pm \mathbf{y} \right]  =\mathrm{E} \left[ \mathbf{x} \right]  \pm \mathrm{E} \left[ \mathbf{y} \right]$.
- **(P2):** $\mathrm{Var} \left( \mathbf{x} \pm \mathbf{y} \right)  =\mathrm{Var} \left( \mathbf{x} \right)  +\mathrm{Var} \left( \mathbf{y} \right)  \pm \mathrm{Cov} \left( \mathbf{x} ,\mathbf{y} \right)  \pm \mathrm{Cov} \left( \mathbf{y} ,\mathbf{x} \right) $.

La media y la (co)varianza exhiben algunas propiedades útiles cuando trabajamos con transformaciones afines entre variables aleatorias. Consideremos una variable aleatoria $\mathbf{X}$ con estados $\mathbf{x}\in \mathbb{R}^{d}$, y con media $\mathbf{\mu}$ y matriz de covarianza $\mathbf{\Sigma}$. Consideremos además una transformación afín $\mathbf{y} =\mathbf{Ax}+\mathbf{b}$ de $\mathbf{x}$. Entonces $\mathbf{y}$ es también la realización de una variable aleatoria cuyo vector de medias y matriz de covarianza se expresan como

$$\begin{array}{l}\mathrm{E}_{\mathbf{Y} } \left[ \mathbf{y} \right]  =\mathrm{E}_{\mathbf{X} } \left[ \mathbf{A} \mathbf{x} +\mathbf{b} \right]  =\mathbf{A} \mathrm{E}_{\mathbf{X} } \left[ \mathbf{x} \right]  +\mathbf{b} =\mathbf{A} \mathbf{\mu } +\mathbf{b} \\ \mathrm{Var} \left( \mathbf{y} \right)  =\mathrm{Var} \left( \mathbf{A} \mathbf{x} +\mathbf{b} \right)  =\mathrm{Var} \left( \mathbf{A} \mathbf{x} \right)  =\mathbf{A} \mathrm{Var} \left( \mathbf{x} \right)  \mathbf{A}^{\top } =\mathbf{A} \mathbf{\Sigma } \mathbf{A}^{\top } \end{array}$$
<p style="text-align: right;">$(5.165)$</p>

Además, se tiene que

$$\begin{array}{lcl}\mathrm{Cov} \left( \mathbf{x} ,\mathbf{y} \right)  &=&\mathrm{E} \left[ \mathbf{x} \left( \mathbf{A} \mathbf{x} +\mathbf{b} \right)^{\top }  \right]  \\ &=&\mathrm{E} \left[ \mathbf{x} \right]  \mathbf{b}^{\top } +\mathrm{E} \left[ \mathbf{x} \mathbf{x}^{\top } \right]  \mathbf{A}^{\top } -\mathbf{\mu } \mathbf{b}^{\top } -\mathbf{\mu } \mathbf{\mu }^{\top } \mathbf{A}^{\top } \\ &=&\mathbf{\mu } \mathbf{b}^{\top } -\mathbf{\mu } \mathbf{b}^{\top } +\left( \mathrm{E} \left[ \mathbf{x} \mathbf{x}^{\top } \right]  -\mathbf{\mu } \mathbf{\mu }^{\top } \right)  \mathbf{A}^{\top } \\ &\underbrace{=}_{\mathrm{Ec.} \  \left( 5.149\right)  } &\mathbf{\Sigma } \mathbf{A}^{\top } \end{array}$$
<p style="text-align: right;">$(5.166)$</p>

Donde $\mathbf{\Sigma } =\mathrm{E} \left[ \mathbf{x} \mathbf{x}^{\top } \right]  -\mathbf{\mu } \mathbf{\mu }^{\top }$ es la covarianza de $\mathbf{X}$.

Con los desarrollos anteriores, podemos darle sentido a la siguiente definición.

**<font color='blue'>Definición 5.31 – Independencia:</font>** Sean $\mathbf{X}$ e $\mathbf{Y}$ dos variables aleatorias con estados $\mathbf{x},\mathbf{y}\in \mathbb{R}^{d}$. Diremos que $\mathbf{X}$ e $\mathbf{Y}$ son **estadísticamente independientes** si y sólo si

$$f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =f_{\mathbf{X} }\left( \mathbf{x} \right)  f_{\mathbf{Y} }\left( \mathbf{y} \right)  $$
<p style="text-align: right;">$(5.167)$</p>

Intuitivamente, dos variables aleatorias $\mathbf{X}$ e $\mathbf{X}$ son independientes si el valor de $\mathbf{y}$ (que normalmente conocemos) no añade ninguna información adicional respecto de $\mathbf{x}$ (y viceversa). Si $\mathbf{X}$ e $\mathbf{Y}$ son estadísticamente independientes, entonces se cumplen las siguientes condiciones:

- **(C1):** $f_{\mathbf{Y} |\mathbf{X} }\left( \mathbf{x} ,\mathbf{y} \right)  =f_{\mathbf{Y} }\left( \mathbf{y} \right)$.
- **(C2):** $f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =f_{\mathbf{X} }\left( \mathbf{x} \right)$.
- **(C3):** $\mathrm{Var} \left( \mathbf{x} +\mathbf{y} \right)  =\mathrm{Var} \left( \mathbf{x} \right)  +\mathrm{Var} \left( \mathbf{y} \right)$.
- **(C4):** $\mathrm{Cov} \left( \mathbf{x} ,\mathbf{y} \right)  =0$.

La condición **(C4)** es tal que su recíproco no siempre es cierto. De esta manera, dos variables aleatorias pueden tener covarianza nula y ser estadísticamente dependientes. Para entender esto, debemos recordar que la covarianza es una medida de dependencia lineal. Por lo tanto, variables aleatorias que no sean linealmente dependientes tendrán covarianza cero, pero pueden ser no linealmente dependientes. Esto, por supuesto, ha motivado el desarrollo de otros indicadores de correlación que intentan explotar estas dependencias no lineales.

**Ejemplo 5.34:** Supongamos que intentamos estimar una variable aleatoria $Y$ mediante el uso de un modelo lineal del tipo $L(X_{1},X_{2})= a+bX_{1}+cX_{2}$. Las variables aleatorias $X_{1}$ y $X_{2}$ tienen media nula y son independientes. Vamos a determinar los valores de $a$, $b$ y $c$ que minimizan el error cuadrático medio de dicha estimación, definido como

$$\mathrm{MSE}=\mathrm{E}\left[ \left( y-\left( a+bx_{1}+c_{2}\right)  \right)^{2}  \right]$$
<p style="text-align: right;">$(5.168)$</p>

Donde $x_{1}\in \mathrm{Rec}(X_{1})$ y $x_{2}\in \mathrm{Rec}(X_{2})$. Expresaremos nuestra respuesta en términos de $\mathrm{E}[y]$ (donde $y\in \mathrm{Rec}(Y)$), las varianzas $\mathrm{Var}(x_{1})$ y $\mathrm{Var}(x_{2})$, y las covarianzas $\mathrm{Cov}(y,x_{1})$ y $\mathrm{Cov}(y,x_{2})$.

En efecto, manipulando la ecuación (5.168), podemos reescribir el error cuadrático medio como $\mathrm{MSE} =\mathrm{E} \left[ \left( \left( y-bx_{1}-cx_{2}\right)  -a\right)^{2}  \right]$, que es equivalente al error cuadrático medio asociado a la estimación de $Y-bX_{1}-cX_{2}$ por medio de la constante $a$. La elección óptima de $a$ es $\mathrm{E} \left[ y-bx_{1}-cx_{2}\right]  =\mathrm{E} \left[ y\right]$. Sustituyendo $a=\mathrm{E} \left[ y\right]$, el error cuadrático medio satisface

$$\begin{array}{lll}\mathrm{MSE} &=&\mathrm{Var} \left( y-bx_{1}-cx_{2}\right)  \\ &=&\mathrm{Cov} \left( y-bx_{1}-cx_{2},y-bx_{1}-cx_{2}\right)  \\ &=&\mathrm{Cov} \left( y,y\right)  +b^{2}\  \mathrm{Cov} \left( x_{1},x_{1}\right)  -2b\  \mathrm{Cov} \left( y,x_{1}\right)  +c^{2}\  \mathrm{Cov} \left( x_{2},x_{2}\right)  -2c\  \mathrm{Cov} \left( y,x_{2}\right)  \\ &=&\mathrm{Var} \left( y\right)  +\left( b^{2}\  \mathrm{Var} \left( x_{1}\right)  -2b\  \mathrm{Cov} \left( y,x_{1}\right)  \right)  +\left( c^{2}\  \mathrm{Var} \left( x_{2}\right)  -2c\  \mathrm{Cov} \left( y,x_{2}\right)  \right)  \end{array}$$
<p style="text-align: right;">$(5.169)$</p>

Ahora buscamos los puntos críticos que minimizan el error cuadrático medio con respecto a los parámetros $b$ y $c$, calculando las correspondientes derivadas parciales. En este caso,

$$\begin{array}{lrcl}&\displaystyle \frac{\partial }{\partial b} \left( \mathrm{MSE} \left( b,c\right)  \right)  &=&2b\  \mathrm{Var} \left( x_{1}\right)  -2\  \mathrm{Cov} \left( y,x_{1}\right)  \\ \Longrightarrow &\displaystyle \frac{\partial }{\partial b} \left( \mathrm{MSE} \left( b,c\right)  \right)  =0&\Longleftrightarrow &b=\displaystyle \frac{\mathrm{Cov} \left( y,x_{1}\right)  }{\mathrm{Var} \left( x_{1}\right)  } \end{array} \  \wedge \  \begin{array}{lrcl}&\displaystyle \frac{\partial }{\partial c} \left( \mathrm{MSE} \left( b,c\right)  \right)  &=&2c\  \mathrm{Var} \left( x_{2}\right)  -2\  \mathrm{Cov} \left( y,x_{2}\right)  \\ \Longrightarrow &\displaystyle \frac{\partial }{\partial c} \left( \mathrm{MSE} \left( b,c\right)  \right)  =0&\Longleftrightarrow &c=\displaystyle \frac{\mathrm{Cov} \left( y,x_{2}\right)  }{\mathrm{Var} \left( x_{2}\right)  } \end{array}$$
<p style="text-align: right;">$(5.170)$</p>

Por lo tanto,

$$L\left( X_{1},X_{2}\right)  =\mathrm{E} \left[ y\right]  -\frac{\mathrm{Cov} \left( y,x_{1}\right)  }{\mathrm{Var} \left( x_{1}\right)  } X_{1}-\frac{\mathrm{Cov} \left( y,x_{2}\right)  }{\mathrm{Var} \left( x_{2}\right)  } X_{2}$$
<p style="text-align: right;">$(5.171)$</p>
◼︎

En machine learning, con frecuencia, consideramos problemas que pueden ser modelados bajo el supuesto general de que las variables (aleatorias) inherentes al mismo son **independientes e idénticamente distribuidas (iid)**, digamos $X_{1},...,X_{n}$. Para más de dos variables aleatorias, la palabra *“independiente”* usualmente se refiere a variables aleatorias que son mutuamente independientes, mientras que la frase *“idénticamente distribuidas”* significa que todas las variables aleatorias $X_{1},...,X_{n}$ tienen la misma distribución.

Otro concepto importante en machine learning es el de **independencia condicional**, el que definimos a continuación.

**<font color='blue'>Definición 5.32 – Independencia condicional:</font>** Sean $\mathbf{X}$ e $\mathbf{Y}$ dos variables aleatorias multidimensionales con estados $\mathbf{x},\mathbf{y} \in \mathbb{R}^{d}$. Diremos que $\mathbf{X}$ e $\mathbf{Y}$ son **condicionalmente independientes** dada la variable aleatoria $\mathbf{Z}$, si y sólo si

$$f_{\mathbf{X} ,\mathbf{Y} |\mathbf{Z} }\left( \mathbf{x} ,\mathbf{y} ,\mathbf{z} \right)  =f_{\mathbf{X} |\mathbf{Z} }\left( \mathbf{x} ,\mathbf{z} \right)  f_{\mathbf{Y} |\mathbf{Z} }\left( \mathbf{y} ,\mathbf{z} \right)  \  ;\  \forall \mathbf{z} \in \Omega_{\mathbf{Z} }$$
<p style="text-align: right;">$(5.172)$</p>

Donde $\Omega_{\mathbf{Z}}$ es el conjunto de todos los estados posibles de $\mathbf{Z}$. Escribimos $\mathbf{X}\vDash  \mathbf{Y}|\mathbf{Z}$ para denotar que $\mathbf{X}$ es condicionalmente independiente de $\mathbf{Y}$ dado $\mathbf{Z}$.

## Producto interno de variables aleatorias.
Recordemos la definición de producto interno vista en la [clase 1.2](https://github.com/rquezadac/udd_data_science_lectures/blob/main/PARTE%20I%20-%20Fundamentos%20matem%C3%A1ticos%20elementales/clase_1_2.ipynb) (definición (2.2)). Es posible definir un **producto interno entre variables aleatorias**, el cual describiremos brevemente a continuación. Si tenemos dos variables aleatorias no correlacionadas (sin pérdida de generalidad, ejemplificaremos este concepto con variables aleatorias unidimensionales) $X$ e $Y$, entonces

$$\mathrm{Var} \left( x+y\right)  =\mathrm{Var} \left( x\right)  +\mathrm{Var} \left( y\right)$$
<p style="text-align: right;">$(5.173)$</p>

Donde $x,y\in \mathbb{R}$ son las realizaciones de ambas variables aleatorias. Dado que las varianzas siempre se miden en las unidades al cuadrado relativas a las variables aleatorias inherentes a las mismas, podemos observar que la ecuación (5.173) se parece *un poco* al teorema de Pitágoras (a saber, en cualquier triángulo rectángulo cuyos catetos tienen longitudes $b$ y $c$, y una hipotenusa de longitud $a$, se cumple que $a^{2}=b^{2}+c^{2}$).

Las variables aleatorias pueden ser consideradas como *vectores* en un espacio vectorial. Por lo tanto, podemos construir productos internos para obtener propiedades geométricas de las ,ismas (Eaton, 2007). Si definimos

$$\left< X,Y\right>  :=\mathrm{Cov} \left( x,y\right)  $$
<p style="text-align: right;">$(5.174)$</p>

para variables aleatorias $X$, $Y$ con media nula, obtenemos un **producto interno**. Si consideramos además que la covarianza es una matriz simétrica, definida positiva y lineal en cada uno de sus argumentos, este producto interno induce una **norma** y, por lo tanto, la *longitud* de una variable aleatoria puede definirse como

$$\left\Vert X\right\Vert  =\sqrt{\mathrm{Cov} \left( x,x\right)  } =\sqrt{\mathrm{Var} \left( x\right)  } =\sigma \left( x\right)$$
<p style="text-align: right;">$(5.175)$</p>

Es decir, corresponde a su desviación estándar. Mientras más *“larga”* sea una variable aleatoria, más incierta resulta; por otro lado, una variable aleatoria con longitud nula es totalmente determinística (o bien, no es aleatoria).

Si cálculamos el *ángulo* $\theta$ entre dos variables aleatorias $X$ e $Y$, obtenemos

$$\cos \left( \theta \right)  =\frac{\left< X,Y\right>  }{\left\Vert X\right\Vert  \left\Vert Y\right\Vert  } =\frac{\mathrm{Cov} \left( x,y\right)  }{\sigma \left( x\right)  \sigma \left( y\right)  }$$
<p style="text-align: right;">$(5.176)$</p>

Luego tenemos que $\cos(\theta)=\rho(x,y)$. Esto significa que podemos pensar en la correlación como el coseno del ángulo entre dos variables aleatorias cuando consideramos a dichas variables aleatorias como objetos geométricos. Sabemos además que, de la definición (2.5) ([clase 1.2](https://github.com/rquezadac/udd_data_science_lectures/blob/main/PARTE%20I%20-%20Fundamentos%20matem%C3%A1ticos%20elementales/clase_1_2.ipynb)), $X\bot Y\Longleftrightarrow \left< X,Y\right>  =0$. En nuestro caso, esto significa que $X$ e $Y$ son ortogonales si y sólo si su covarianza es nula. O dicho de otra forma, dos variables aleatorias son ortogonales si éstas no están correlacionadas. La Fig. (5.11) ilustra esta relación.

<p style="text-align: center;"><img src="figures/fig_5_11.png" width="450"></p>
<p style="text-align: center;">Fig. (5.11): Interpretación geométrica de las variables aleatorias. Si las variables aleatorias $X$ e $Y$ no están correlacionadas, pueden interpretarse como vectores ortogonales en un espacio vectorial. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

Si bien podríamos vernos tentados a utilizar normas Euclidianas (y, por extensión, distancias Euclidianas) construidas a partir del producto interno definido previamente a fin de comparar distribuciones de probabilidad, desafortunadamente no es la mejor opción para obtener *métricas* entre distribuciones. Recordemos que una función de densidad (o de masa) de probabilidad es siempre positiva y con un área total bajo su gráfica igual a 1. Estas restricciones significan que las distribuciones de probabilidad viven sobre objetos geométricos mucho más generales que espacios Euclídeos, y que de hecho se conocen como **variedades**. El estudio de estas variedades (que, insistimos, son objetos geométricos que resultan de un profunda abstracción de los conceptos propios de la geometría diferencial y el álgebra lineal) se conoce como **geometría de la información**. El cálculo de distancias entre distribuciones, con frecuencia, se realiza mediante el uso pseudo-métricas (que suelen violar alguno de los postulados de las métricas estrictas, muy comúnmente el que sean definidas positivas), tales como la **divergencia de Kullback-Leibler**, y que es propia de la famosa **teoría matemática de la información de Shannon**, aunque, por el momento, no nos adentraremos en dicho terreno.

# La distribución normal.
La **distribución normal (o distribución Gaussiana)** corresponde a la distribución de probabilidad más estudiada a lo largo de la historia, y sin duda la más famosa y utilizada en todo el ámbito de la ciencia. Su importancia radica en el hecho de que tiene muchas propiedades que resultan computacionalmente convenientes, y que serán las que discutiremos a continuación. En particular, la utilizaremos para definir elementos importantes, tales como la **función de verosimilitud** y de **probabilidad a priori** para el **modelo de regresión lineal** (en secciones posteriores), y consideraremos una **mezcla o mixtura de distribuciones Gaussianas** para la estimación de funciones de densidad (que también veremos en secciones posteriores).

Hay muchas otras áreas en machine learning que se benefician de la existencia de la distribución normal. Por ejemplo, procesos Gaussianos, inferencia variacional y aprendizaje por reforzamiento. También se utiliza ampliamente en otras áreas, tales como el procesamiento de señales, pruebas de hipótesis e incluso en ciencias sociales.

**<font color='blue'>Definición 5.33 – Distribución normal:</font>** Para una variable aleatoria unidimensional, digamos $X$, con realización $x\in \mathbb{R}$, diremos que $X$ está **normalmente distribuida** si su función de densidad $f_{X}$ tiene la forma

$$f\left( x|\mu ,\sigma \right)  =\frac{1}{\sigma \sqrt{2\pi } } \exp \left( -\frac{\left( x-\mu \right)^{2}  }{2\sigma^{2} } \right)$$
<p style="text-align: right;">$(5.177)$</p>

y que es llamada **función de densidad normal o Gaussiana**.

Para un vector aleatorio $\mathbf{X}$ con estados $\mathbf{x} \in \mathbb{R}^{n}$, diremos que éste sigue una **distribución normal multivariante** si su función de densidad puede expresarse en términos de los parámetros $\mathbf{\mu}$ y $\mathbf{\Sigma}$ como

$$f\left( \mathbf{x} |\mathbf{\mu } ,\mathbf{\Sigma } \right)  =\left( 2\pi \right)^{-n/2}  \sqrt{\det \left( \mathbf{\Sigma } \right)  } \exp \left( -\frac{1}{2} \left( \mathbf{x} -\mathbf{\mu } \right)^{\top }  \mathbf{\Sigma }^{-1} \left( \mathbf{x} -\mathbf{\mu } \right)  \right)$$
<p style="text-align: right;">$(5.178)$</p>

Escribimos $X \sim \mathcal{N}(\mu, \sigma^{2})$ o $\mathbf{X} \sim \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma})$ para denotar que la variable aleatoria $X$ (o el vector aleatorio $\mathbf{X}$) sigue una distribución normal. Decimos pues que $X$ está normalmente distribuida con parámetros $\mu$ y $\sigma^{2}$ (en el caso unidimensional); o bien, que $\mathbf{X}$ está normalmente distribuida con parámetros $\mathbf{\mu}$ y $\mathbf{\Sigma}$ (en el caso multivariante).

<p style="text-align: center;"><img src="figures/fig_5_12.png" width="850"></p>
<p style="text-align: center;">Fig. (5.12): Ejemplos de distribuciones Gaussianas muestreadas para un total de 100 puntos; (a) Distribución Gaussiana unidimensional, para la cual la cruz de color rojo denota la media y la línea de color rojo ilustra la extensión de la varianza; (b) Distribución Gaussiana bidimensional. Como en el caso anterior, la cruz de color rojo muestra las coordenadas de la media $\mathbf{\mu}$, mientras que las curvas de contorno nos permiten esquematizar la densidad de puntos muestreados. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

La Fig. (5.12) muestra los casos univariante y bivariante de la distribución Gaussiana con el correspondiente conjunto de puntos muestreados a partir de tales distribuciones. Por otro lado, la Fig. (5.13) muestra las superficies en $\mathbb{R}^{3}$ que describen varias distribuciones Gaussianas bivariantes.

<p style="text-align: center;"><img src="figures/fig_5_13.png" width="800"></p>
<p style="text-align: center;">Fig. (5.13): Tres distribuciones Gaussianas bivariantes con la misma media pero distinta covarianza. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

La distribución normal, como se observa en las ecuaciones (5.177) y (5.178), queda completamente determinada por los parámetros $\mu$ y $\sigma^{2}$ en el caso univariante, y por los parámetros $\mathbf{\mu} \in \mathbb{R}^{n}$ y $\mathbf{\Sigma} \in \mathbb{R}^{n\times n}$ en el caso multivariante (para un vector aleatorio con $n$ componentes). El caso particular cuando $\mathbf{\mu}= \mathbf{0}$ y $\mathbf{\Sigma} =\mathbf{I}_{n}$, donde $\mathbf{I}_{n}$ es la matriz identidad en $\mathbb{R}^{n\times n}$, es referido como **distribución normal estándar o canónica**.

A continuación, vamos a estudiar brevemente la marginalización y condicionamiento de variables aleatorias normales. Sean pues $\mathbf{X}$ e $\mathbf{Y}$ dos variables aleatorias multidimensionales con estados $\mathbf{x}, \mathbf{y} \in \mathbb{R}^{n}$, las que pueden tener un número diferente de componentes. Para considerar el efecto de aplicar la regla de la suma y el condicionamiento (conforme la fórmula de Bayes), escribimos la distribución Gaussiana explícitamente en términos de los **estados concatenados** $(\mathbf{x}^{\top}, \mathbf{y}^{\top})$. Es decir,

$$f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =\mathcal{N} \left( \left( \begin{matrix}\mathbf{\mu }_{\mathbf{x} } \\ \mathbf{\mu }_{\mathbf{y} } \end{matrix} \right)  ,\left( \begin{matrix}\mathbf{\Sigma }_{\mathbf{x} \mathbf{x} } &\mathbf{\Sigma }_{\mathbf{x} \mathbf{y} } \\ \mathbf{\Sigma }_{\mathbf{y} \mathbf{x} } &\mathbf{\Sigma }_{\mathbf{y} \mathbf{y} } \end{matrix} \right)  \right)$$
<p style="text-align: right;">$(5.179)$</p>

donde $\mathbf{\Sigma }_{\mathbf{x} \mathbf{x} } =\mathrm{Cov} \left( \mathbf{x} ,\mathbf{x} \right)$ y $\mathbf{\Sigma }_{\mathbf{y} \mathbf{y} } =\mathrm{Cov} \left( \mathbf{y} ,\mathbf{y} \right)$ son las matrices de covarianza (marginales) de $\mathbf{x}$ e $\mathbf{y}$, respectivamente, mientras que $\mathbf{\Sigma }_{\mathbf{x} \mathbf{y} } =\mathrm{Cov} \left( \mathbf{x} ,\mathbf{y} \right)$ es la matriz de covarianza entre $\mathbf{x}$ e $\mathbf{y}$.

**La distribución condicional $f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)$ es también Gaussiana**, y está determinada por ([Bishop, 2006](https://link.springer.com/book/9780387310732)),

$$\begin{array}{l}f_{\mathbf{X} |\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =\mathcal{N} \left( \mathbf{\mu }_{\mathbf{x} |\mathbf{y} } ,\mathbf{\Sigma }_{\mathbf{x} |\mathbf{y} } \right)  \\ \mathbf{\mu }_{\mathbf{x} |\mathbf{y} } =\mathbf{\mu }_{\mathbf{x} } +\mathbf{\Sigma }_{\mathbf{x} \mathbf{y} } \mathbf{\Sigma }^{-1}_{\mathbf{y} \mathbf{y} } \left( \mathbf{y} -\mathbf{\mu }_{\mathbf{y} } \right)  \\ \mathbf{\Sigma }_{\mathbf{x} |\mathbf{y} } =\mathbf{\Sigma }_{\mathbf{x} \mathbf{x} } -\mathbf{\Sigma }_{\mathbf{x} \mathbf{y} } \mathbf{\Sigma }^{-1}_{\mathbf{y} \mathbf{y} } \mathbf{\Sigma }_{\mathbf{y} \mathbf{x} } \end{array}$$
<p style="text-align: right;">$(5.180)$</p>

Notemos que, en el cálculo de la media $\mathbf{\mu }_{\mathbf{x} |\mathbf{y} }$ en la ecuación (5.180), el valor de $\mathbf{y}$ es empírico (observado) y, por lo tanto, la media no es un valor aleatorio.

La distribución marginal $f_{\mathbf{X}}(\mathbf{x})$ de una distribución Gaussiana conjunta $f_{\mathbf{X}\mathbf{Y}}(\mathbf{x},\mathbf{y})$ es también Gaussiana, y es posible calcularla rápidamente empleando la regla de la suma (ecuación (5.129)), con lo cual obtenemos

$$f_{\mathbf{X} }\left( \mathbf{x} \right)  =\int_{\Omega_{\mathbf{X} \mathbf{Y} } } f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  d\mathbf{y} =\mathcal{N} \left( \mathbf{x} |\mathbf{\mu }_{\mathbf{x} } ,\mathbf{\Sigma }_{\mathbf{x} \mathbf{x} } \right)$$
<p style="text-align: right;">$(5.181)$</p>

donde $\Omega_{\mathbf{X} \mathbf{Y} }$ es el conjunto de todos los estados de $f_{\mathbf{X} \mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)$. Para $f_{\mathbf{Y}}(\mathbf{y})$, el procedimiento es completamente análogo y, en términos menos matemáticos, su obtención involucra que, a partir de la distribución conjunta (5.179) ignoremos (es decir, integramos) todo lo que no nos interesa. Esto se ilustra en el gráfico (b) de la Fig. (5.14).

**Ejemplo 5.35:** Consideremos la distribución Gaussiana bivariante (ilustrada en el gráfico (a) la Fig. (5.14)) definida como

$$f_{X_{1}X_{2}}\left( x_{1},x_{2}\right)  =\mathcal{N} \left( \left( \begin{matrix}0\\ 2\end{matrix} \right)  ,\left( \begin{matrix}0.3&-1\\ -1&5\end{matrix} \right)  \right)$$
<p style="text-align: right;">$(5.182)$</p>

Podemos calcular los parámetros de la distribución Gaussiana univariante, condicionada en $x_{2}=-1$, aplicando las ecuaciones para la media y la covarianza presentadas en (5.180). De esta manera, tenemos que

$$\begin{array}{lll}\mu_{x_{1}|x_{1}=-1} &=&0+\left( -1\right)  \cdot 0.2\cdot \left( -1-2\right)  =0.6\\ \sigma^{2}_{x_{1}|x_{1}=-1} &=&0.3-\left( -1\right)  \cdot 0.2\cdot \left( -1\right)  =0.1\end{array}$$
<p style="text-align: right;">$(5.183)$</p>

Por lo tanto, la distribución Gaussiana condicional respectiva tiene la siguiente función de densidad

$$f_{X_{1}|X_{2}=-1}\left( x_{1},x_{2}\right)  =\mathcal{N} \left( 0.6,0.1\right)$$
<p style="text-align: right;">$(5.184)$</p>

En contraste, la distribución marginal $f_{X_{1}}(x_{1})$ puede ser obtenida aplicando la ecuación (5.181), lo que implica, en esencia, usar la media y la varianza referidas a la variable aleatoria $X_{1}$, lo que nos da

$$f_{X_{1}}\left( x_{1}\right)  =\mathcal{N} \left( 0,0.3\right)$$
<p style="text-align: right;">$(5.185)$</p>
◼︎

<p style="text-align: center;"><img src="figures/fig_5_14.png" width="700"></p>
<p style="text-align: center;">Fig. (5.14): (a) Distribución Gaussiana bidimensional; (b) La función de densidad marginal de cualquier componente para una distribución Gaussiana multivariante de dimensión arbitraria es también Gaussiana; (c) La función de densidad condicional para dos variables aleatorias Gaussianas es también Gaussiana. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

### Producto de distribuciones Gaussianas.
Para la construcción de un modelo de regresión lineal (lo que estudiaremos en profundidad más adelante), necesitamos calcular una función de verosimilitud Gaussiana. Más aún, puede darse el caso de que queramos tomar como supuesto que la información de la cual disponemos de manera previa (a priori) es, en efecto, también Gaussiana. Aplicamos pues el teorema de Bayes para obtener la distribución a posteriori, lo que resulta en una multiplicación de la función de verosimilitud con la función de densidad a priori; esto es, la multiplicación de dos funciones de densidad Gaussianas. El producto de dos densidades Gaussianas, digamos $\mathcal{N} \left( \mathbf{x} |\mathbf{a} ,\mathbf{A} \right)  \mathcal{N} \left( \mathbf{x} |\mathbf{b} ,\mathbf{B} \right)$, para $\mathbf{x}\in \mathbb{R}^{n}$, es también una densidad Gaussiana escalada por un valor $c\in \mathbb{R}$, que podemos escribir como $c\mathcal{N} \left( \mathbf{x} |\mathbf{c} ,\mathbf{C} \right)$, donde,

$$\begin{array}{lll}\mathbf{C} &=&\left( \mathbf{A}^{-1} +\mathbf{B}^{-1} \right)^{-1}  \\ \mathbf{c} &=&\mathbf{C} \left( \mathbf{A}^{-1} \mathbf{a} +\mathbf{B}^{-1} \mathbf{b} \right)  \\ c&=&\left( 2\pi \right)^{-n/2}  \sqrt{\det \left( \mathbf{A} +\mathbf{B} \right)  } \exp \left( -\displaystyle \frac{1}{2} \left( \mathbf{a} -\mathbf{b} \right)^{\top }  \left( \mathbf{A} +\mathbf{B} \right)^{-1}  \left( \mathbf{a} -\mathbf{b} \right)  \right)  \end{array}$$
<p style="text-align: right;">$(5.186)$</p>

La constante de escalamiento $c$ propiamente tal puede ser escrita en forma de una función de densidad Gaussiana, ya sea en términos de $\mathbf{a}$ o de $\mathbf{b}$ con una matriz de covarianza “inflada” $\mathbf{A}+\mathbf{B}$; es decir, $c=\mathcal{N} \left( \mathbf{a} |\mathbf{b} ,\mathbf{A} +\mathbf{B} \right)  =\mathcal{N} \left( \mathbf{b} |\mathbf{a} ,\mathbf{A} +\mathbf{B} \right)$. Por un tema de notación y para mayor comodidad, a veces usaremos $\mathcal{N} \left( \mathbf{x} |\mathbf{m} ,\mathbf{S} \right)$ para describir la forma funcional de una densidad Gaussiana, incluso si $\mathbf{x}$ no es una variable aleatoria. De hecho, ya hicimos esto previamente cuando escribimos

$$c=\mathcal{N} \left( \mathbf{a} |\mathbf{b} ,\mathbf{A} +\mathbf{B} \right)  =\mathcal{N} \left( \mathbf{b} |\mathbf{a} ,\mathbf{A} +\mathbf{B} \right)$$
<p style="text-align: right;">$(5.187)$</p>

Aquí, ni $\mathbf{a}$ ni $\mathbf{b}$ son variables aleatorias. Sin embargo, escribir $c$ de esta manera resulta en una expresión mucho más compacta.

### Transformaciones lineales entre variables aleatorias Gaussianas.
Si las variables aleatorias $\mathbf{X}$ e $\mathbf{Y}$ son independientes y normalmente distribuidas (es decir, su función de densidad conjunta se escribe como $f_{\mathbf{X}\mathbf{Y}}(\mathbf{x},\mathbf{y})=f_{\mathbf{X}}(\mathbf{x})f_{\mathbf{Y}}(\mathbf{y})$), con $f_{\mathbf{X} }\left( \mathbf{x} \right)  =\mathcal{N} \left( \mathbf{x} |\mathbf{\mu }_{\mathbf{x} } ,\mathbf{\Sigma }_{\mathbf{x} } \right)  \wedge f_{\mathbf{Y} }\left( \mathbf{y} \right)  =\mathcal{N} \left( \mathbf{y} |\mathbf{\mu }_{\mathbf{y} } ,\mathbf{\Sigma }_{\mathbf{y} } \right)$, entonces **la suma de las variables aleatorias $\mathbf{X}+\mathbf{Y}$, con estados $\mathbf{x}+\mathbf{y}$, también es Gaussiana**, y su función de densidad se escribe como

$$f_{\mathbf{X} +\mathbf{Y} }\left( \mathbf{x} ,\mathbf{y} \right)  =\mathcal{N} \left( \mathbf{\mu }_{\mathbf{x} } +\mathbf{\mu }_{\mathbf{y} } ,\mathbf{\Sigma }_{\mathbf{x} } +\mathbf{\Sigma }_{\mathbf{y} } \right)$$
<p style="text-align: right;">$(5.188)$</p>

Sabiendo que $f_{\mathbf{X}+\mathbf{Y}}$ es Gaussiana, entonces podemos determinar la media y covarianza respectivas usando las propiedades de los operadores de esperanza y varianza que vimos con anterioridad. Esta propiedad será importante cuando trabajemos con señales conocidas como **ruido Gaussiano de tipo IID** (independiente e idénticamente distribuido) sobre variables aleatorias, y también cuando estudiemos ciertos aspectos relativos a los modelos de regresión lineal, más adelante.

En resumen, dado que la esperanza es un operador lineal, podemos escribir la suma ponderada (combinación lineal) de variables aleatorias Gaussianas como

$$f\left( a\mathbf{x} +b\mathbf{y} \right)  =\mathcal{N} \left( a\mathbf{\mu }_{\mathbf{x} } +b\mathbf{\mu }_{\mathbf{y} } ,a^{2}\mathbf{\Sigma }_{\mathbf{x} } +b^{2}\mathbf{\Sigma }_{\mathbf{y} } \right)  \  ;\  \forall a,b\in \mathbb{R}$$
<p style="text-align: right;">$(5.189)$</p>

Un caso que abordaremos en detalle más adelante, cuando estudiemos modelos de aprendizaje no supervisado, corresponde a la **combinación lineal de densidades Gaussianas** (que no es lo mismo que la combinación lineal de variables aleatorias Gaussianas, que es lo que vimos previamente).

Vamos a establecer un importante teorema previo a continuar, en el cual, la variable de interés $x\in \mathbb{R}$ corresponde a una muestra de una densidad que, a su vez, corresponde a la mixtura de dos densidades $f_{1}(x)$ y $f_{2}(x)$, ponderadas por un escalar $\alpha$. Este teorema puede generalizarse al caso de vectores aleatorios, dada la linealidad del operador de esperanza matemática. Sin embargo, la idea de una *“variable aleatoria al cuadrado”* debe corregirse, reemplazándose en este caso por la expresión $\mathbf{x}\mathbf{x}^{\top}$.

**<font color='crimson'>Teorema 5.13 – Preservación en mixturas Gaussianas:</font>** *Consideremos una **mixtura** de dos densidad Gaussianas unidimensionales del tipo*

$$f\left( x\right)  =\alpha f_{1}\left( x\right)  +\left( 1-\alpha \right)  f_{2}\left( x\right)$$
<p style="text-align: right;">$(5.190)$</p>

*donde $\alpha$, tal que $0<\alpha<1$, es el **ponderador** de la mixtura, y $f_{1}$ y $f_{2}$ son densidades Gaussianas univariantes del tipo expuesto en la ecuación (5.177) con sus respectivos parámetros (es decir, $(\mu_{1},\sigma_{1}^{2})\neq (\mu_{2},\sigma_{2}^{2})$). Entonces la media relativa a la función de densidad de la mixtura, que denotamos como $f(x)$, está dada por la suma ponderada de las medias de cada variable aleatoria:*

$$\mathrm{E} \left[ x\right]  =\alpha \mu_{1} +\left( 1-\alpha \right)  \mu_{2}$$
<p style="text-align: right;">$(5.191)$</p>

*La varianza relativa a la densidad de la mixtura está, a su vez, dada por*

$$\mathrm{Var} \left( x\right)  =\left( \alpha \sigma^{2}_{1} +\left( 1-\alpha \right)  \sigma^{2}_{2} \right)  +\left( \alpha \mu^{2}_{1} +\left( 1-\alpha \mu^{2}_{2} \right)  -\left( \alpha \mu_{1} +\left( 1-\alpha \right)  \mu_{2} \right)^{2}  \right)$$
<p style="text-align: right;">$(5.192)$</p>
◆

Vamos a demostrar el teorema (5.13) a fin de entender cómo llegamos a estos resultados. La media de la función de densidad de la mixtura $f(x)$ está dada por la suma ponderada de las medias de cada variable aleatoria. Aplicamos por tanto la definición de la media (definición (5.25)) y construimos la mixtura, con lo que obtenemos

$$\begin{array}{lll}\mathrm{E} \left[ x\right]  &=&\displaystyle \int^{+\infty }_{-\infty } xf\left( x\right)  dx\\ &=&\displaystyle \int^{+\infty }_{-\infty } \left( \alpha xf_{1}\left( x\right)  +\left( 1-\alpha \right)  xf_{2}\left( x\right)  \right)  dx\\ &=&\alpha \displaystyle \int^{+\infty }_{-\infty } xf_{1}\left( x\right)  dx+\left( 1-\alpha \right)  \int^{+\infty }_{-\infty } xf_{2}\left( x\right)  dx\\ &=&\alpha \mu_{1} +\left( 1-\alpha \right)  \mu_{2} \end{array} $$
<p style="text-align: right;">$(5.193)$</p>

Para calcular la varianza, podemosa usar la ecuación (5.88), la que requiere de una expresión para $\mathrm{E}[x^{2}]$. Luego,

$$\begin{array}{lll}\mathrm{E} \left[ x^{2}\right]  &=&\displaystyle \int^{+\infty }_{-\infty } x^{2}f\left( x\right)  dx\\ &=&\displaystyle \int^{+\infty }_{-\infty } \left( \alpha x^{2}f_{1}\left( x\right)  +\left( 1-\alpha \right)  x^{2}f_{2}\left( x\right)  \right)  dx\\ &=&\alpha \displaystyle \int^{+\infty }_{-\infty } x^{2}f_{1}\left( x\right)  dx+\left( 1-\alpha \right)  \int^{+\infty }_{-\infty } x^{2}f_{2}\left( x\right)  dx\\ &=&\alpha \left( \mu^{2}_{1} +\sigma^{2}_{1} \right)  +\left( 1-\alpha \right)  \left( \mu^{2}_{2} +\sigma^{2}_{2} \right)  \end{array}$$
<p style="text-align: right;">$(5.194)$</p>

Donde, en la última igualdad, hemos vuelto a utilizar la ecuación (5.88), lo que nos da $\sigma^{2}=\mathrm{E}[x^{2}]-\mu^{2}$. Esto lo reordenamos, de manera tal que la esperanza de una variable aleatoria al cuadrado sea igual a la suma del cuadrado de su valor esperado y su varianza.

Restando las últimas dos igualdades, obtenemos la varianza que estamos buscando:

$$\begin{array}{lll}\mathrm{Var} \left( x\right)  &=&\mathrm{E} \left[ x^{2}\right]  -\left( \mathrm{E} \left[ x\right]  \right)^{2}  \\ &=&\alpha \left( \mu^{2}_{1} +\sigma^{2}_{1} \right)  +\left( 1-\alpha \right)  \left( \mu^{2}_{2} +\sigma^{2}_{2} \right)  -\left( \alpha \mu_{1} +\left( 1-\alpha \right)  \mu_{2} \right)^{2}  \\ &=&\left( \alpha \sigma^{2}_{1} +\left( 1-\alpha \right)  \sigma^{2}_{2} \right)  +\left( \left( \alpha \mu^{2}_{1} +\left( 1-\alpha \right)  \mu^{2}_{2} \right)  -\left( \alpha \mu_{1} +\left( 1-\alpha \right)  \mu_{2} \right)^{2}  \right)  \end{array}$$
<p style="text-align: right;">$(5.195)$</p>

Lo que concluye la demostración.

Por cierto, el resultado establecido por el teorema (5.13) es extensible para cualquier función de densidad, pero dado que la distribución Gaussiana queda completamente determinada por su media y su varianza, podemos determinar la densidad de la mixtura mediante una fórmula cerrada.

Para una función de densidad referida a una mixtura (en adelante, **densidad de mixtura**), las componentes individuales pueden ser consideradas como distribuciones condicionales. La última igualdad en la ecuación (5.195) es un ejemplo de fórmula de varianza condicional, y que se conoce en la literatura especializada como **ley de varianza total**, la que, en general, establece que, para variables aleatorias unidimensionales $X,Y$ con estados $x,y\in \mathbb{R}$, se tiene que

$$\mathrm{Var}_{X} \left( x\right)  =\mathrm{E}_{Y} \left[ \mathrm{Var}_{X} \left( x|y\right)  \right]  +\mathrm{Var}_{Y} \left( \mathrm{E} \left[ x|y\right]  \right)$$
<p style="text-align: right;">$(5.196)$</p>

Es decir, la varianza (total) de $X$ es la varianza esperada condicional más la varianza de un valor esperado condicional.

Más adelante, cuando estudiemos el cambio de variables aleatorias, consideraremos un ejemplo de variable aleatoria Gaussiana estándar bidimensional $\mathbf{X}$, aplicando una transformación lineal del tipo $\mathbf{A}\mathbf{x}$ sobre ella. El resultado de esta operación es una variable aleatoria Gaussiana con media cero y covarianza igual a $\mathbf{A}\mathbf{A}^{\top}$. Observemos que la adición de un vector constante modificará la media de la respectiva distribución, sin afectar su varianza; esto es, nuestra variable aleatoria $\mathbf{X}$, con realización, $\mathbf{x}+\mathbf{\mu}$ es Gaussiana con media $\mathbf{\mu}$ y covarianza identidad (es decir, equivale a la matriz identidad en su respectiva dimensión). Por lo tanto, **cualquier transformación lineal de una variable aleatoria Gaussiana es también Gaussiana**.

Consideremos una variable aleatoria Gaussiana $\mathbf{X}\sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma})$. Para una matriz $\mathbf{A}$ de dimensión apropiada, sea $\mathbf{Y}$ una variable aleatoria tal que su realización puede escribirse como $\mathbf{y}=\mathbf{A}\mathbf{x}$ (es decir, $\mathbf{Y}$ es una versión transformada de $\mathbf{X}$). Podemos calcular la media de $\mathbf{Y}$ aprovechando la linealidad del operador de esperanza matemática como

$$\mathrm{E} \left[ \mathbf{y} \right]  =\mathrm{E} \left[ \mathbf{A} \mathbf{x} \right]  =\mathbf{A} \mathrm{E} \left[ \mathbf{x} \right]  =\mathbf{A} \mathbf{\mu }$$
<p style="text-align: right;">$(5.197)$</p>

De manera similar, para la varianza, tenemos que

$$\mathrm{Var} \left( \mathbf{y} \right)  =\mathrm{Var} \left( \mathbf{A} \mathbf{x} \right)  =\mathbf{A} \mathrm{Var} \left( \mathbf{x} \right)  \mathbf{A}^{\top } =\mathbf{A} \mathbf{\Sigma } \mathbf{A}^{\top }$$
<p style="text-align: right;">$(5.198)$</p>

Luego, la variable aleatoria $\mathbf{Y}$ tiene una distribución definida como

$$f_{\mathbf{Y} }\left( \mathbf{y} \right)  =\mathcal{N} \left( \mathbf{y} |\mathbf{A} \mathbf{\mu } ,\mathbf{A} \mathbf{\Sigma } \mathbf{A}^{\top } \right)$$
<p style="text-align: right;">$(5.199)$</p>

Consideremos ahora la transformación inversa: Cuando sabemos que una variable aleatoria tiene una media que es igual a una transformación lineal respecto de otra variable aleatoria. Para una matriz de rango completo dada, digamos $\mathbf{A}\in \mathbb{R}^{m\times n}$, donde $m\geq n$, sea $\mathbf{y}\in \mathbb{R}^{m}$ la realización de una variable aleatoria Gaussiana con media $\mathbf{A}\mathbf{x}$. Es decir,

$$f_{\mathbf{Y} }\left( \mathbf{y} \right)  =\mathcal{N} \left( \mathbf{y} |\mathbf{A} \mathbf{x} ,\mathbf{\Sigma } \right)$$
<p style="text-align: right;">$(5.200)$</p>

Cabe preguntarse pues: ¿Cuál es la correspondiente función de densidad $f_{\mathbf{X}}(\mathbf{x})$. Si $\mathbf{A}$ es invertible, entonces podemos escribir $\mathbf{x}=\mathbf{A}^{-1}\mathbf{y}$ y aplicar la transformación respectiva. Sin embargo, en general, $\mathbf{A}$ no es invertible, por lo que en este caso aplicamos el concepto de **pseudo-inversa**. De esta manera, multiplicamos ambos lados de la expresión anterior por $\mathbf{A}^{\top}$, y luego invertimos la matriz $\mathbf{A}^{\top}\mathbf{A}$, que es simétrica y definida positiva, lo que nos da

$$\mathbf{y} =\mathbf{A} \mathbf{x} \Longleftrightarrow \left( \mathbf{A}^{\top } \mathbf{A} \right)^{-1}  \mathbf{A}^{\top } \mathbf{y} =\mathbf{x}$$
<p style="text-align: right;">$(5.201)$</p>

Por lo tanto, $\mathbf{X}$ es una transformación lineal de $\mathbf{y}$, con lo que obtenemos

$$f_{\mathbf{X} }\left( \mathbf{x} \right)  =\mathcal{N} \left( \mathbf{x} |\left( \mathbf{A}^{\top } \mathbf{A} \right)^{-1}  \mathbf{A}^{\top } \mathbf{y} ,\left( \mathbf{A}^{\top } \mathbf{A} \right)^{-1}  \mathbf{\Sigma } \left( \mathbf{A}^{\top } \mathbf{A} \right)^{-1}  \mathbf{A}^{\top } \right)$$
<p style="text-align: right;">$(5.202)$</p>

### Muestreo desde distribuciones Gaussianas multivariantes.
Este es un tópico un tanto más avanzado y que no revisaremos desde sus bases fundacionales, ya que escapa un tanto del alcance de estos apuntes, pero lo describiremos superficialmente. En el caso de una distribución Gaussiana multivariante, el proceso de muestreo consiste de tres etapas: Primero, necesitamos un conjunto de números pseudoaleatorios que nos provean de una muestra uniforme de valores en el intervalo $[0, 1]$; luego, hacemos uso de una transformación no lineal, conocida en la práctica como **transformación de Box-Müller** (Devroye, 1986), para obtener una muestra de una distribución Gaussiana univariante; finalmente, cotejamos un vector de estas muestras para obtener una muestra de una distribución Gaussiana multivariante estándar $\mathcal{N}(\mathbf{0},\mathbf{I})$.

Para una distribución Gaussiana general (esto es, cuya media no es necesariamente nula, y cuya covarianza no es necesariamente la matriz identidad), usamos la propiedad que estudiamos previamente de este tipo de variables aleatorias referida a la preservación de su tipo de densidad bajo transformaciones lineales. Asumamos pues que estamos interesados en generar muestras $\left\{ \mathbf{x}_{i} \right\}^{n}_{i=1}$ de una distribución Gaussiana multivariante con media $\mathbf{\mu}$ y covarianza $\mathbf{\Sigma}$. Nos gustaría construir esta muestra a partir de un objeto matemático denominado **muestreador** (o *sampler*), el cual nos provee de muestras a partir de una distribución Gaussiana estándar $\mathcal{N}(\mathbf{0},\mathbf{I})$.

Para obtener muestras desde una distribución Gaussiana multivariante $\mathcal{N}(\mathbf{\mu},\mathbf{\Sigma})$, procedemos como sigue: Si $\mathbf{X}\sim \mathcal{N}(\mathbf{0},\mathbf{I})$, entonces $\mathbf{y}=\mathbf{A}\mathbf{x}+\mathbf{\mu}$, donde $\mathbf{A}\mathbf{A}^{\top}=\mathbf{\Sigma}$, siendo $\mathbf{y}$ la realización de una variable aleatoria multidimensional que se distribuye normalmente con media $\mathbf{\mu}$ y matriz de covarianza $\mathbf{\Sigma}$. Podemos usar la **factorización de Cholesky** para trabajar con $\mathbf{A}$, ya que de esta manera el proceso de cálculo resultará computacionalmente menos costoso (ya que $\mathbf{A}$ es una matriz triangular).

## La familia exponencial.
Muchas de las distribuciones de probabilidad *“con nombre propio”* que podemos encontrar en la literatura especializada fueron descubiertas para modelar ciertos tipos de fenómenos. Por ejemplo, ya estudiamos en profundidad la distribución Gaussiana, la cual está asociada a una gran cantidad de fenómenos físicos, biológicos y sociales. Por supuesto, elegir una determinada distribución para empezar a trabajar en la descripción de un determinado proceso o fenómeno no es, en absoluto, un asunto trivial.

En la subsección previa, vimos que muchas de las operaciones requeridas para poder inferir cierta información importante pueden ser convenientemente desarrolladas cuando la distribución subyacente es Gaussiana. Vale la pena recordar, en este punto, la razón por la cual queremos manipular distribuciones de probabilidad en el contexto de los algoritmos de aprendizaje:

- Existe alguna “propiedad de clausura” cuando aplicamos las reglas de probabilidad (por ejemplo, el teorema de Bayes). Por “clausura” nos referimos que, al aplicar una operación en particular, ésta nos retorna un objeto del mismo tipo.
- A medida que coleccionamos más datos, no necesitamos más parámetros para describir la distribución respectiva.

Dado que estamos interesados en aprender a partir de los datos, queremos que la correspondiente estimación de parámetros se comporte de buena manera (ya definiremos dicha *buena manera*).

Resulta que la clase de distribuciones de probabilidad que se agrupan en la llamada **familia exponencial** nos provee de un correcto balance entre generalidad, al mismo tiempo que se preservan ciertas propiedades relativas a la facilidad de ciertos cálculos e inferencia estadística. Antes que introduzcamos a esta familia de distribuciones, veamos un poco más detalle algunos ejemplos de las distribuciones *“con nombre propio”*: Bernoulli, binomial y beta.

**Ejemplo 5.36:** La **distribución de Bernoulli** es una distribución para una única variable aleatoria binaria $X$ con realización $x=\left\{ 0,1\right\}$. Como vimos en el ejemplo (5.18), esta distribución está gobernada por un único parámetro continuo $p$, tal que $0\leq p\leq 1$, que representa la probabilidad $P(X=1)$. La variable aleatoria $X$ se dice, por tanto, que sigue una distribución de Bernoulli, lo que escribimos como $X\sim \mathcal{B}(p)$. De lo anterior, la distribución queda definida por las siguientes ecuaciones (usando la notación que hemos desarrollado en estas últimas subsecciones):

$$\begin{array}{l}p_{X}\left( x|p\right)  =p^{x}\left( 1-p\right)^{1-x}  \  ;\  x\in \left\{ 0,1\right\}  \\ \mathrm{E} \left[ x\right]  =p\\ \mathrm{Var} \left( x\right)  =p\left( 1-p\right)  \end{array}$$
<p style="text-align: right;">$(5.203)$</p>

Como vimos en ejemplos anteriores (y al estudiar los experimentos compuestos), la distribución de Bernoulli es típicamente utilizada para modelar fenómenos donde la variable aleatoria subyacente puede tomar uno de dos estados (que solemos llamar éxito o fracaso, respectivamente). Ejemplos de estos fenómenos son el lanzamiento único de una moneda o de un dado no cargado. ◼︎

**Ejemplo 5.37:** La **distribución binomial**, como vimos igualmente en el ejemplo (5.17), corresponde a una generalización de la distribución de Bernoulli a variables aleatorias enteras. En particular, la distribución binomial puede ser utilizada para describir la probabilidad de observar $m$ ocurrencias de $X=1$ en un conjunto de $N$ muestras de una distribución de Bernoulli, donde $P(X=1)=p$, para $0\leq p\leq 1$. La distribución binomial se denota como $\mathcal{Bi}(N,p)$ se define como

$$\begin{array}{l}p\left( m|N,p\right)  =\displaystyle \left( \begin{matrix}N\\ m\end{matrix} \right)  p^{m}\left( 1-p\right)^{N-m}  \\ \mathrm{E} \left[ m\right]  =Np\\ \mathrm{Var} \left( m\right)  =Np\left( 1-p\right)  \end{array}$$
<p style="text-align: right;">$(5.204)$</p>

Cualquier experimento o prueba compuesta caracterizada por una variable aleatoria de Bernoulli puede modelarse conforme una distribución binomial. Un ejemplo de ello es la descripción de la probabilidad de observar un total de $m$ caras en un total de $N$ lanzamientos de una moneda no trucada, suponiendo que la probabilidad de obtener una cara en un único lanzamiento es igual a $p$. ◼︎

<p style="text-align: center;"><img src="figures/fig_5_15.png" width="700"></p>
<p style="text-align: center;">Fig. (5.15): Ejemplos de distribuciones binomiales para $\mu \in \left\{ 0.1,0.4,0.75\right\}$ y $N=15$. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

**Ejemplo 5.38:** Podríamos querer extender el modelo binomial a una variable aleatoria continua $\mu= [0,1]$. La **distribución Beta** es utilizada para representar la probabilidad de algún evento de tipo binario (por ejemplo, el parámetro que gobierna la distribución de Bernoulli). La distribución Beta, cuya función de densidad se denota como $\mathrm{B}(\mu |\alpha, \beta)$, y que se ilustra en la Fig. (5.16), está gobernada por dos parámetros $\alpha>0$ y $\beta>0$, se define como

$$\begin{array}{l}\mathrm{B} \left( \mu |\alpha ,\beta \right)  =\displaystyle \frac{\Gamma \left( \alpha +\beta \right)  }{\Gamma \left( \alpha \right)  \Gamma \left( \beta \right)  } \mu^{\alpha -1} \left( 1-\mu \right)^{\beta -1}  \\ \mathrm{E} \left[ \mu \right]  =\displaystyle \frac{\alpha }{\alpha +\beta } \\ \mathrm{Var} \left( \mu \right)  =\displaystyle \frac{\alpha \beta }{\left( \alpha +\beta \right)^{2}  \left( \alpha +\beta +1\right)  } \end{array}$$
<p style="text-align: right;">$(5.205)$</p>

Donde $\Gamma(z)$ es la **función Gamma de Euler**, definida para $z\in \mathbb{C}$ como

$$\Gamma \left( z\right)  :=\int^{+\infty }_{0} t^{z-1}\exp \left( -t\right)  dt\  ;\  z>0$$
<p style="text-align: right;">$(5.206)$</p>

La función gamma es conocida en el análisis funcional por ser una extensión de la función factorial a todos los números complejos, con excepción de los enteros no positivos). Esta función también puede definirse mediante la fórmula de recurrencia

$$\Gamma \left( z+1\right)  =z\Gamma \left( z\right)$$
<p style="text-align: right;">$(5.207)$</p>

La distribución Beta tiene este nombre debido a que su función de densidad puede definirse mediante la llamada función beta, la que se define en términos de la función gamma como

$$\mathrm{B} \left( z_{1},z_{2}\right)  =\frac{\Gamma \left( z_{1}\right)  \Gamma \left( z_{2}\right)  }{\Gamma \left( z_{1}+z_{2}\right)  }$$
<p style="text-align: right;">$(5.208)$</p>

De lo anterior, la función de densidad $\mathrm{B}(\mu |\alpha, \beta)$ puede escribirse como

$$\mathrm{B} \left( \mu |\alpha ,\beta \right)  =\frac{\mu^{\alpha -1} \left( 1-\mu \right)^{\beta -1}  }{\mathrm{B} \left( \alpha ,\beta \right)  }$$
<p style="text-align: right;">$(5.209)$</p>

Intuitivamente, de la Fig. (5.16), podemos observar que $\alpha$ genera un desplazamiento de la función de densidad hacia 1, mientras que $\beta$ genera un desplazamiento de la misma hacia 0. Naturalmente, hay casos especiales de ambos parámetros que vale la pena considerar (Murphy, 2012):

- Para $\alpha =\beta =1$ obtenemos la **distribución uniforme** $\mathcal{U}(0,1)$ (es decir, una variable aleatoria cuyos valores están uniformemente distribuidos entre 0 y 1, lo que significa que todos los valores intermedios tienen igual probabilidad).
- Para $\alpha<1 \wedge \beta<1$, obtenemos una **distribución bimodal** con peaks en 0 y 1.
- Para $\alpha>1 \wedge \beta>1$, obtenemos una **distribución unimodal**.
- Para $\alpha<1, \beta<1 \wedge \alpha= \beta$, la distribución resultante es unimodal, simétrica y centrada en el intervalo cerrado $[0, 1]$. Es decir, la moda es igual a la media, y vale $\frac{1}{2}$.

<p style="text-align: center;"><img src="figures/fig_5_16.png" width="700"></p>
<p style="text-align: center;">Fig. (5.16): Función de densidad de tipo Beta, para distintos valores de $\alpha$ y $\beta$. Imagen adaptada en Python del maravilloso libro "Mathematics for Machine Learning" (Deisenroth, M. P., Faisal, A. A., & Ong, C. S. (2020))</p>

### Distribuciones conjugadas.
De acuerdo al teorema de Bayes (ecuación (5.132)), la distribución a posteriori es proporcional al producto de la distribución a priori (nuestra información conocida) y la función de verosimilitud. La especificación de la distribución a priori puede ser dificultosa por dos razones: Primero, la distribución a priori debiera encapsular nuestro conocimiento relativo al problema que queremos modelar antes de utilizar ningún dato. Esto, con frecuencia, resulta difícil de describir. En segundo lugar, suele ser improbable el calcular la distribución a posteriori de manera analítica. Sin embargo, existen algunas distribuciones a priori que son computacionalmente convenientes, y que se conocen como **distribuciones a priori conjugadas**. Tiene sentido pues la siguiente definición.

**<font color='blue'>Definición 5.34 – Distribución a priori conjugada:</font>** Una distribución a priori es conjugada para una función de verosimilitud si la distribución a posteriori respectiva (en el modelo de Bayes) es del mismo tipo (o forma) que esta distribución a priori.

La conjugación es particularmente conveniente, porque podemos calcular algebraicamente nuestra distribución a posteriori en la fórmula de Bayes simplemente actualizando los parámetros de la distribución a priori. Un ejemplo conocido en la práctica corresponde a la **conjugación beta-binomial**, que exploraremos en el siguiente ejemplo.

**Ejemplo 5.39:** Consideremos una variable aleatoria binomial con realización $x\sim \mathcal{Bi}(N,\mu)$, donde

$$p\left( x|N,\mu \right)  =\left( \begin{matrix}N\\ x\end{matrix} \right)  \mu^{x} \left( 1-\mu \right)^{N-x}  \  ;\  x=0,1,...,N$$
<p style="text-align: right;">$(5.210)$</p>

es la probabilidad de obtener $x$ veces una cara en $N$ lanzamientos de una moneda no trucada, donde $\mu$ es la probabilidad de obtener una cara en un único lanzamiento. Pongamos, como información a priori, una distribución Beta sobre el parámetro $\mu$; esto es $\mu \sim \mathrm{B}(\alpha,\beta)$, donde

$$f\left( \mu |\alpha ,\beta \right)  =\frac{\mu^{\alpha -1} \left( 1-\mu \right)^{\beta -1}  }{\mathrm{B} \left( \alpha ,\beta \right)  }$$
<p style="text-align: right;">$(5.211)$</p>

Si ahora observamos algún resultado $x=h$; esto es, vemos $h$ caras en $N$ lanzamientos de nuestra moneda, podemos calcular la distribución a posteriori sobre $\mu$ como

$$\begin{array}{lll}p\left( \mu |x=h,N,\alpha ,\beta \right)  &\propto &p\left( x|N,\mu \right)  f\left( \mu |\alpha ,\beta \right)  \\ &\propto &\mu^{h} \left( 1-\mu \right)^{N-h}  \mu^{\alpha -1} \left( 1-\mu \right)^{\beta -1}  =\mu^{h+\alpha -1} \left( 1-\mu \right)^{N-h+\beta -1}  \\ {}&\propto &\mathrm{B} \left( h+\alpha ,N-h+\beta \right)  \end{array}$$
<p style="text-align: right;">$(5.212)$</p>

Por lo tanto, la distribución a posteriori es del tipo Beta, de la misma forma que la distribución a priori; es decir, la distribución Beta es conjugada con respecto a la función de verosimilitud de tipo binomial sobre el parámetro $\mu$. ◼︎

**Ejemplo 5.40:** Sea $x\in \left\{ 0,1\right\}$ una variable aleatoria con distribución de Bernoulli, con parámetro $\theta \in [0,1]$; esto es, $p(x=1|\theta)=\theta$. Esto también puede expresarse como $p\left( x|\theta \right)  =\theta^{x} \left( 1-\theta \right)^{1-x}$. Sea $\theta \sim \mathrm{B}(\alpha,\beta)$; esto es, $f\left( \theta |\alpha ,\beta \right)  \propto \theta^{\alpha -1} \left( 1-\theta \right)^{\beta -1}$. Multiplicando las distribuciones de Bernoulli y Beta, obtenemos

$$\begin{array}{lll}p\left( \theta |x,\alpha ,\beta \right)  &=&p\left( x|\theta \right)  f\left( \theta |\alpha ,\beta \right)  \\ &\propto &\theta^{x} \left( 1-\theta \right)^{1-x}  \theta^{\alpha -1} \left( 1-\theta \right)^{\beta -1}  =\theta^{\alpha +x-1} \left( 1-\theta \right)^{\beta +\left( 1-x\right)  -1}  \\ &\propto &\mathrm{B} \left( \theta |\alpha +x,\beta +\left( 1-x\right)  \right)  \end{array}$$
<p style="text-align: right;">$(5.213)$</p>

Vemos pues que la distribución Beta también es conjugada con respecto a la función de verosimilitud de tipo Bernoulli sobre el parámetro $\theta$. ◼︎

La Tabla (5.5) lista algunos ejemplos de distribuciones conjugadas para algunas funciones de verosimilitud y que suelen ser utilizadas en muchos modelos probabilísticos. Las distribuciones de Dirichlet, multinomial, Gamma inversa y de Wishart inversa pueden ser consultadas en cualquier texto relativo a Estadística y/o Cálculo de Probabilidades. Se recomienda su revisión, en caso de querer profundizar al respecto, en el texto ﻿”Pattern Recognition and Machine Learning” (Bishop, 2006; Springer Ed.).

<p style="text-align: center;">Tabla (5.5): Ejemplos de distribuciones conjugadas para algunas funciones de verosimilitud comunes en la práctica</p>

| Función de verosimilitud | Distribución a priori conjugada | Distribución a posteriori |
| :----------------------- | :------------------------------ | :------------------------ |
| Bernoulli                | Beta                            | Beta                      |
| Binomial                 | Beta                            | Beta                      |
| Gaussiana                | Gaussiana/Gamma inversa         | Gaussiana/Gamma inversa   |
| Gaussiana                | Gaussiana/Wishart inversa       | Gaussiana/Wishart inversa |
| Multinomial              | Dirichlet                       | Dirichlet                 |

### Estadígrafos suficientes.
Recordemos que un estadígrafo, para el caso de una variable aleatoria, corresponde a una función determinística de dicha variable aleatoria. Por ejemplo, si $\mathbf{x}=(x_{1},...,x_{n})^{\top}$ es un vector que corresponde a la realización de varias variables aleatorias Gaussianas unidimensionales (esto es, $x_{i}\sim \mathcal{N}(\mu,\sigma^{2})$, para $1\leq i\leq n$), entonces la **media muestral** $\hat{\mu}=(x_{1}+\cdots +x_{n})/n$ es un **estadígrafo**. El matemático inglés Ronald Fisher, conocido mundialmente por ser *“un genio que, casi por sí solo, creó los fundamentos de la estadística moderna”* (Hald, 1998), desarrolló la noción de **estadígrafos suficientes**: La idea de que existen estadígrafos que contendrán toda la información disponible que puede ser inferida a partir de la data correspondiente a una determinada distribución (observada). En otras palabras, los estadígrafos de suficiencia llevan consigo toda la información que necesitamos para hacer inferencias con respecto a una población (o, en otras palabras, representar la correspondiente distribución).

Para un conjunto de distribuciones parametrizadas por $\theta$, sea $X$ una variable aleatoria con distribución $f_{X}(x|\theta_{0})$, dado un valor $\theta_{0}$ que es desconocido. Un vector $\phi(x)$ de estadígrafos es llamado **suficiente** para $\theta_{0}$, si tales estadígrafos contienen toda la posible información relativa a $\theta_{0}$. A fin de darle más formalidad a la frase *“toda la posible información”*, aquello significa que la probabilidad de $x$ dado $\theta$ pude ser factorizada en una parte que no depende de $\theta$, y otra parte que depende de $\theta$ únicamente mediante la función $\phi(x)$. El **teorema de factorización de Fisher-Neyman**, que estableceremos a continuación, formaliza esta noción.

**<font color='crimson'>Teorema 5.14 – Fisher-Neyman:</font>** *Sea $X$ una variable aleatoria con función de densidad $f_{X}(x|\theta)$. Diremos que el vector de estadígrafos $\phi(x)$ es suficiente para $\theta$ si y sólo si $f_{X}(x|\theta)$ puede escribirse como*

$$f_{X}\left( x|\theta \right)  =h\left( x\right)  g_{\theta }\left( \phi \left( x\right)  \right)$$
<p style="text-align: right;">$(5.214)$</p>

*Donde $h(x)$ es una distribución independiente de $\theta$ y $g_{\theta}$ que captura toda la dependencia respecto de $\theta$ mediante el estadígrafo suficiente $\phi(x)$.*
◆

Si $f_{X}(x|\theta)$ no depende de $\theta$, de manera trivial, $\phi(x)$ será un estadígrafo suficiente para toda función $\phi$. El caso más interesante se da cuando $f_{X}(x|\theta)$ es dependiente únicamente de $\phi(x)$ y no de $x$. En este caso, $\phi(x)$ es un estadígrafo suficiente para $\theta$.

En machine learning, consideramos usualmente un número finito de muestras de una distribución. Podríamos imaginar que para distribuciones sencillas (como la distribución de Bernoulli) sólo necesitamos un pequeño número de muestras para estimar los parámetros de la misma. Podríamos también considerar el problema opuesto: Si tenemos un conjunto de datos (una muestra de una distribución desconocida), ¿Cuál es la distribución que mejor se ajusta a dicho conjunto de datos? Una pregunta natural que podríamos hacernos es la siguiente: A medida que observamos más datos ¿Necesitamos más parámetros $\theta$ para describir la distribución?

Resulta que, en general, la respuesta a esta pregunta es sí. Y los temas inherentes a la formulación de dicha respuesta son la cuestión estudiada por la llamada **estadística no paramétrica** (Wasserman, 2007). Una pregunta opuesta guarda relación con considerar qué clase de distribuciones tienen estadígrafos suficientes con dimensión finita; es decir, el número de parámetros necesarios para describirlas no es arbitrariamente grande. La respuesta a esta pregunta es la siguiente: **La familia de distribuciones exponenciales**, las que describiremos en la siguiente subsección.

**Ejemplo 5.41:** Si $X_{1},...,X_{n}$ son variables aleatorias de Bernoulli independientemente distribuidas con valor esperado $p$, vamos a demostrar que la suma $\phi \left( x\right)  =\sum^{n}_{j=1} x_{j}$, donde $x_{j}\in \mathrm{Rec}(X_{j})$ para $1\leq j\leq n$, es un estadígrafo suficiente para $p$.

En efecto, si consideramos la función de densidad conjunta subyacente,

$$P\left( X=x\right)  =P\left( X_{1}=x_{1},...,X_{n}=x_{n}\right)$$
<p style="text-align: right;">$(5.215)$</p>

Debido a que las variables son independientes, podemos reescribir la ecuación (5.215) como

$$\begin{array}{lll}P\left( X=x\right)  &=&p^{x_{1}}\left( 1-p\right)^{1-x_{1}}  \cdots p^{x_{n}}\left( 1-p\right)^{1-x_{n}}  \\ &=&\displaystyle \prod^{n}_{j=1} p^{x_{j}}\left( 1-p\right)^{1-x_{j}}  \\ &=&\displaystyle p^{\sum\nolimits^{n}_{j=1} x_{j}}\left( 1-p\right)^{n-\sum\nolimits^{n}_{j=1} x_{j}}  \\ &=&p^{\phi \left( x\right)  }\left( 1-p\right)^{n-\phi \left( x\right)  }  \end{array}$$
<p style="text-align: right;">$(5.216)$</p>

La última línea de la ecuación (5.216) satisface el teorema (5.14) con $h(x)=1$ siendo únicamente una constante. Notemos además que el parámetro $p$ interactúa con la data (representada por $x$) únicamente por medio del estadígrafo $\phi(\mathbf{x})=\sum_{j=1}^{n} x_{j}$. ◼︎

**Ejemplo 5.42:** Si $X_{1},...,X_{n}$ son variables aleatorias que siguen una distribución de Poisson, independientemente distribuidas y con parámetro $\lambda$, vamos a demostrar que la suma $\phi \left( x\right)  =\sum^{n}_{j=1} x_{j}$, donde $x_{j}\in \mathrm{Rec}(X_{j})$, es un estadígrafo suficiente para $\lambda$.

Nuevamente, consideremos la función de densidad subyacente,

$$P\left( X=x\right)  =P\left( X=x_{1},...,X_{n}=x_{n}\right)$$
<p style="text-align: right;">$(5.217)$</p>

Debido a que las variables son independientes, podemos reescribir la ecuación (5.217) como

$$\begin{array}{lll}P\left( X=x\right)  &=&\displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{1}} }{x_{1}!} \cdot \displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{2}} }{x_{2}!} \cdots \displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{n}} }{x_{n}!} \\ &=&\displaystyle \prod^{n}_{j=1} \displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{j}} }{x_{j}!} \\ &=&\exp \left( -n\lambda \right)  \lambda^{x_{1}+\cdots +x_{n}} \displaystyle \frac{1}{x_{1}!x_{2}!\cdots x_{n}!} \\ &=&\exp \left( -n\lambda \right)  \lambda^{\sum\nolimits^{n}_{j=1} x_{j}} \displaystyle \frac{1}{\prod\nolimits^{n}_{j=1} x_{j}!} \end{array} $$
<p style="text-align: right;">$(5.218)$</p>

La última línea de la ecuación (5.218) satisface el teorema (5.14) con $h(x_{1},...,x_{n})=(\prod\nolimits^{n}_{j=1} x_{j}!)^{-1}$. Notemos además que el parámetro $\lambda$ interactúa con la data (representada por $x$) únicamente a través de la función $\phi(\mathbf{x})=\sum\nolimits^{n}_{j=1} x_{j}$. ◼︎

**Ejemplo 5.43:** Si $X_{1},...,X_{n}$ son variables aleatorias independientes y normalmente distribuidas con valor esperado $\mu$ (un parámetro) y varianza finita conocida (que llamamos $\sigma^{2}$), entonces demostraremos que la función $\phi: \mathbb{R}^{n} \longrightarrow \mathbb{R}$, definida como

$$\phi \left( \mathbf{x} \right)  =\frac{1}{n} \sum^{n}_{j=1} x_{j}=\bar{x}$$
<p style="text-align: right;">$(5.219)$</p>

es un estadígrafo suficiente para $\mu$, donde $x_{j}\in \mathrm{Rec}(X_{j})$, para $1\leq j\leq n$. En efecto, si consideramos la función de densidad conjunta de $\mathbf{X}=(X_{1},...,X_{n})$, y que las observaciones son independientes, podemos escribir dicha densidad como el producto de las densidades marginales de las variables aleatorias $X_{j}$. Es decir,

$$\begin{array}{lll}f_{\mathbf{X} }\left( \mathbf{x} \right)  &=&\displaystyle \prod^{n}_{j=1} \frac{1}{\sqrt{2\pi \sigma^{2} } } \exp \left( -\frac{\left( x_{j}-\mu \right)^{2}  }{2\sigma^{2} } \right)  \\ &=&\left( 2\pi \sigma^{2} \right)^{-n/2}  \exp \left( -\displaystyle \sum^{n}_{j=1} \frac{\left( x_{j}-\mu \right)^{2}  }{2\sigma^{2} } \right)  \\ &=&\left( 2\pi \sigma^{2} \right)^{-n/2}  \exp \left( -\displaystyle \sum^{n}_{j=1} \frac{\left( \left( x_{j}-\bar{x} \right)  -\left( \mu -\bar{x} \right)  \right)^{2}  }{2\sigma^{2} } \right)  \\ &=&\left( 2\pi \sigma^{2} \right)^{-n/2}  \exp \left( -\displaystyle \frac{1}{2\sigma^{2} } \left( \displaystyle \sum^{n}_{j=1} \left( x_{j}-\bar{x} \right)^{2}  +\displaystyle \sum^{n}_{j=1} \left( \mu -\bar{x} \right)^{2}  -2\displaystyle \sum^{n}_{j=1} \overbrace{\left( x_{j}-\bar{x} \right)  \left( \mu -\bar{x} \right)  }^{=0} \right)  \right)  \\ &=&\left( 2\pi \sigma^{2} \right)^{-n/2}  \exp \left( -\displaystyle \frac{1}{2\sigma^{2} } \displaystyle \sum^{n}_{j=1} \left( x_{j}-\bar{x} \right)^{2}  +n\left( \mu -\bar{x} \right)^{2}  \right)  \end{array}$$
<p style="text-align: right;">$(5.220)$</p>

Por lo tanto,

$$f_{\mathbf{X} }\left( \mathbf{x} \right)  =\underbrace{\left( 2\pi \sigma^{2} \right)^{-n/2}  \exp \left( -\frac{1}{2\sigma^{2} } \sum^{n}_{j=1} \left( x_{j}-\bar{x} \right)^{2}  \right)  }_{h\left( \mathbf{x} \right)  } \underbrace{\exp \left( -\frac{n}{2\sigma^{2} } \left( \mu -\bar{x} \right)^{2}  \right)  }_{g_{\mu }\left( \phi \left( \mathbf{x} \right)  \right)  }$$
<p style="text-align: right;">$(5.221)$</p>

Dado que $h(\mathbf{x})$ no depende del parámetro $\mu$ y $g_{\mu }\left( \phi \left( \mathbf{x} \right)  \right)$ sólo depende de $\mu$ por medio de la función $\phi \left( \mathbf{x} \right)  =\frac{1}{n} \sum^{n}_{j=1} x_{j}=\bar{x}$, entonces el teorema (5.14) nos garantiza que $\phi(\mathbf{x})$ es un estadígrafo suficiente para $\mu$. ◼︎

**Ejemplo 5.44:** Consideremos, para este último ejemplo, la **distribución Gamma**. Decimos que una variable aleatoria $X$ con realización $x$ tiene una distribución Gamma de parámetros $\alpha$ y $\beta$ (lo que denotamos como $X\sim \Gamma(\alpha,\beta)$), si su función de densidad es

$$f_{X}\left( x\right)  =\left( \frac{1}{\Gamma \left( \alpha \right)  \beta^{\alpha } } \right)  x^{\alpha -1}\exp \left( -\frac{x}{\beta } \right)$$
<p style="text-align: right;">$(5.222)$</p>

donde $\Gamma(\alpha)$ corresponde a la función Gamma aplicada sobre el parámetro $\alpha$. Vamos a demostrar que, si $X_{1},...,X_{n}$ son variables aleatorias independientes y tales que $X_{j}\sim \Gamma(\alpha,\beta)$, donde $\alpha$ y $\beta$ son parámetros desconocidos de una distribución Gamma, entonces el campo vectorial $\mathbf{\phi}:\mathbb{R}^{n} \longrightarrow \mathbb{R}^{2}$, definido como

$$\mathbf{\phi } \left( \mathbf{x} \right)  =\left( \prod^{n}_{j=1} x_{j},\sum^{n}_{j=1} x_{j}\right)$$
<p style="text-align: right;">$(5.223)$</p>

es un estadístico suficiente bidimensional para el par $(\alpha,\beta)$. En efecto, consideremos la función de densidad conjunta de $\mathbf{X}=(X_{1},...,X_{n})$. Debido a que las observaciones son independientes, dicha densidad conjunta puede escribirse como el producto de las correspondientes densidades marginales. Luego,

$$\begin{array}{lll}f_{\mathbf{X} }\left( \mathbf{x} \right)  &=&\displaystyle \prod^{n}_{j=1} \left( \displaystyle \frac{1}{\Gamma \left( \alpha \right)  \beta^{\alpha } } \right)  x^{\alpha -1}_{j}\exp \left( -\displaystyle \frac{x_{j}}{\beta } \right)  \\ &=&\underbrace{1}_{h\left( \mathbf{x} \right)  } \cdot \underbrace{\left( \displaystyle \frac{1}{\Gamma \left( \alpha \right)  \beta^{\alpha } } \right)^{n}  \left( \displaystyle \prod^{n}_{j=1} x_{j}\right)^{\alpha -1}  \exp \left( -\displaystyle \frac{1}{\beta } \displaystyle \sum^{n}_{j=1} x_{j}\right)  }_{g_{\left( \alpha ,\beta \right)  }\left( \mathbf{x} \right)  } \end{array} $$
<p style="text-align: right;">$(5.224)$</p>

Vemos pues que, para las funciones $h(\mathbf{x})$ y $g_{\left( \alpha ,\beta \right)  }\left( \mathbf{x} \right)$ previamente definidas, se satisfacen las condiciones del teorema (5.14), ya que $h(\mathbf{x})$ no depende de los parámetros $\alpha$ y $\beta$, y $g_{\left( \alpha ,\beta \right)  }\left( \mathbf{x} \right)$ sólo interactúa con el par $(\alpha,\beta)$ por medio de la función $\mathbf{\phi } \left( \mathbf{x} \right)  =\left( \prod^{n}_{j=1} x_{j},\sum^{n}_{j=1} x_{j}\right)$. Por lo tanto, $\mathbf{\phi } \left( \mathbf{x} \right)$ es un estadígrafo suficiente para el par $(\alpha,\beta)$. ◼︎

### Distribuciones exponenciales.
Existen tres posibles niveles de abstracción cuando consideramos en nuestro estudio distribuciones de probabilidad (discretas o continuas). En el primer nivel, tenemos una distribución en particular con parámetros fijos (usualmente con nombre propio). Por ejemplo, una distribución Gaussiana univariante $\mathcal{N}(0,1)$ con media nula y varianza unitaria. En machine learning, con frecuencia, utilizamos el segundo nivel de abstracción; esto es, fijamos la forma paramétrica (de la distribución Gaussiana univariante) e inferimos los parámetros a partir de los datos. Por ejemplo, asumimos una densidad Gaussiana univariante $\mathcal{N}(\mu,\sigma^{2})$ con media $\mu$ desconocida y varianza $\sigma^{2}$, también desconocida, y utilizamos un ajuste de máxima verosimilitud para determinar los mejores parámetros $(\mu,\sigma^{2})$. Veremos un ejemplo de esto en detalle cuando estudiemos el modelo de regresión lineal.

Un tercer nivel de abstracción guarda relación con considerar familias de distribuciones y, en estos apuntes, consideramos la llamada **familia exponencial de distribuciones**. La distribución Gaussiana univariante es un miembro de esta familia. Muchas de las distribuciones más ampliamente utilizadas en modelamiento probabilístico (por ejemplo, las mostradas en la Tabla (5.5)) son miembros de la familia exponencial, y pueden ser unificadas en un concepto único (Brown, 1986).

**<font color='blue'>Definición 5.35 – Familia exponencial:</font>** Una familia exponencial corresponde a una colección de distribuciones de probabilidad, parametrizadas por $\mathbf{\theta}\in \mathbb{R}^{s}$, y que pueden aglutinarse en la expresión general

$$f\left( \mathbf{x} |\mathbf{\theta } \right)  =h\left( \mathbf{x} \right)  \exp \left( \left< \mathbf{\theta } ,\mathbf{\phi } \left( \mathbf{x} \right)  \right>  -A\left( \mathbf{\theta } \right)  \right)$$
<p style="text-align: right;">$(5.225)$</p>

donde $\mathbf{\phi } \left( \mathbf{x} \right)$ es un campo vectorial que contiene los estadígrafos suficientes para $\mathbf{\theta}$, y la operación $\left< \mathbf{\theta } ,\mathbf{\phi } \left( \mathbf{x} \right)  \right>$ es un producto interno arbitrario, aunque, sin pérdida de generalidad, nos limitaremos a usar el producto interno usual en $\mathbb{R}^{s}$ (es decir, $\left< \mathbf{\theta } ,\mathbf{\phi } \left( \mathbf{x} \right)  \right>  =\mathbf{\theta }^{\top } \mathbf{\phi } \left( \mathbf{x} \right)$). Notemos que la forma que toma la definición de familia exponencial es, esencialmente, un caso particular de $g_{\mathbf{\theta } }\left( \mathbf{\phi } \left( \mathbf{x} \right)  \right)$ en el teorema (5.14).

El factor $h(\mathbf{x})$ puede ser absorbido por el producto interno mediante la adición de otra entrada (por ejemplo, $\log \left( h\left( \mathbf{x} \right)  \right)$) al vector de estadígrafos suficientes $\mathbf{\phi}(\mathbf{x})$. El término $A(\mathbf{\theta})$ es una constante de normalización, que nos asegura que la distribución es tal que su suma o integral sobre en rango completo de estados de la variable aleatoria que es inherente a la distribución es igual a 1, y se conoce como **función de partición logarítmica**.

Una buena noción, más bien intuitiva, de las familias exponenciales puede lograrse simplemente ignorando estos últimos dos términos, y considerando a tales distribuciones como expresiones de la forma

$$f\left( \mathbf{x} |\mathbf{\theta } \right)  \propto \left( \mathbf{\theta }^{\top } \mathbf{\phi } \left( \mathbf{x} \right)  \right)$$
<p style="text-align: right;">$(5.226)$</p>

Para esta forma de parametrización, los parámetros agrupados en el vector $\mathbf{\theta}$ son llamados **parámetros naturales**. En una primera lectura, parece que las distribuciones exponenciales son simplemente transformaciones que añaden una función exponencial al resultado de un producto interno. Sin embargo, existen muchas implicaciones que nos permiten un modelamiento conveniente y cálculos eficientes, basándonos en el hecho de que podemos capturar información valiosa acerca de la data por medio de la función de estadígrafos suficientes $\mathbf{\phi}(\mathbf{x})$.

**Ejemplo 5.45 – La distribución Gaussiana como miembro de la familia exponencial:** Consideremos la distribución Gaussiana univariante $\mathcal{N}(\mu,\sigma^{2})$. Sea $\mathbf{\phi}(x)=\left( \begin{matrix}x\\ x^{2}\end{matrix} \right)$. Entonces, usando la definición de familia exponencial, tenemos que

$$f\left( x|\mathbf{\theta } \right)  \propto \exp \left( \theta_{1} x+\theta_{2} x^{2}\right)$$
<p style="text-align: right;">$(5.227)$</p>

Poniendo,

$$\mathbf{\theta } =\left( -\frac{\mu }{\sigma^{2} } ,-\frac{1}{2\sigma^{2} } \right)^{\top }$$
<p style="text-align: right;">$(5.228)$</p>

Y sustituyendo la ecuación (5.228) en la (5.227), obtenemos

$$f\left( x|\mathbf{\theta } \right)  \propto \exp \left( \frac{\mu x}{\sigma^{2} } -\frac{x^{2}}{2\sigma^{2} } \right)  \propto \exp \left( -\frac{1}{2\sigma^{2} } \left( x-\mu \right)^{2}  \right)$$
<p style="text-align: right;">$(5.229)$</p>

Por lo tanto, la distribución Gaussiana univariante es un miembro de la familia exponencial, con estadígrafo suficiente $\mathbf{\phi}(x)=\left( \begin{matrix}x\\ x^{2}\end{matrix} \right)$, y parámetros naturales agrupados en el vector $\mathbf{\theta } =\left( -\frac{\mu }{\sigma^{2} } ,-\frac{1}{2\sigma^{2} } \right)^{\top }$. ◼︎

**Ejemplo 5.46 – La distribución de Bernoulli como miembro de la familia exponencial:** Consideremos ahora una variable aleatoria con función de densidad de Bernoulli:

$$p_{X}\left( x|p\right)  =p^{x}\left( 1-p\right)^{x}  \  ;\  x\in \left\{ 0,1\right\}$$
<p style="text-align: right;">$(5.230)$</p>

Podemos, con algo de álgebra, desarrollar la expresión anterior como sigue

$$\begin{array}{lll}p_{X}\left( x|p\right)  &=&\exp \left( \log \left( p^{x}\left( 1-p\right)^{x}  \right)  \right)  \\ &=&\exp \left( x\log \left( p\right)  +\left( 1-x\right)  \log \left( 1-p\right)  \right)  \\ &=&\exp \left( x\log \left( p\right)  -x\log \left( 1-p\right)  +\log \left( 1-p\right)  \right)  \\ &=&\exp \left( x\log \left( \displaystyle \frac{p}{1-p} \right)  +\log \left( 1-p\right)  \right)  \end{array}$$
<p style="text-align: right;">$(5.231)$</p>

La última línea de la ecuación (5.231) puede ser identificada como miembro de la familia exponencial (5.225), ya que

$$\begin{array}{l}h\left( x\right)  =1\\ \theta =\log \left( \frac{p}{1-p} \right)  \\ \phi \left( x\right)  =x\\ A\left( \theta \right)  =-\log \left( 1-p\right)  =\log \left( 1+\exp \left( \theta \right)  \right)  \end{array}$$
<p style="text-align: right;">$(5.232)$</p>

La relación entre $p$ y $\theta$ es invertible, por lo cual

$$p=\frac{1}{1+\exp \left( -\theta \right)  }$$
<p style="text-align: right;">$(5.233)$</p>

La ecuación (5.233) ha sido usada para obtener la última igualdad en la ecuación (5.231). ◼︎

La relación entre el parámetro original de la distribución de Bernoulli $p$ y el parámetro natural $\theta$ es conocida como **función sigmoide o logística** (que ya habíamos comentado en la [clase 1.4](https://github.com/rquezadac/udd_data_science_lectures/blob/main/PARTE%20I%20-%20Fundamentos%20matem%C3%A1ticos%20elementales/clase_1_4.ipynb)). Notemos que $0<p<1$, pero $\theta \in \mathbb{R}$, y por lo tanto la función logística tiene como recorrido al intervalo abierto $(0, 1)$. Esta propiedad es útil en machine learning; por ejemplo, es utilizada en el desarrollo del llamado **modelo de regresión logística** (Bishop, 2006), que veremos más adelante, así como en funciones de activación no lineales y diferenciables para el caso de redes neuronales (Goodfellow et al, 2016).

Con frecuencia, no resulta obvio encontrar la forma parametrizada de la distribución conjugada para una determinada distribución (por ejemplo, las que listamos en la Tabla (5.5)). Las familias exponenciales nos proveen de una forma conveniente de encontrar pares conjugados de distribuciones. Consideremos la variable aleatoria $\mathbf{X}$, cuya distribución es precisamente del tipo exponencial; es decir,

$$f\left( \mathbf{x} |\mathbf{\theta } \right)  =h\left( \mathbf{x} \right)  \exp \left( \left< \mathbf{\theta } ,\mathbf{\phi } \left( \mathbf{x} \right)  \right>  -A\left( \mathbf{\theta } \right)  \right)$$
<p style="text-align: right;">$(5.234)$</p>

Cada miembro de la familia exponencial tiene una distribución a priori conjugada, con ecuación (Brown, 1986)

$$f\left( \mathbf{\theta } |\mathbf{\gamma } \right)  =h_{c}\left( \mathbf{\theta } \right)  \exp \left( \left< \left( \begin{matrix}\gamma_{1} \\ \gamma_{2} \end{matrix} \right)  ,\left( \begin{matrix}\mathbf{\theta } \\ -A\left( \mathbf{\theta } \right)  \end{matrix} \right)  \right>  -A_{c}\left( \mathbf{\gamma } \right)  \right)$$
<p style="text-align: right;">$(5.235)$</p>

Donde $\mathbf{\gamma } =\left( \begin{matrix}\gamma_{1} \\ \gamma_{2} \end{matrix} \right)$ tiene dimensión $\dim(\mathbf{\theta})+1$. El estadígrafo suficiente para la distribución conjugada se agrupa en el vector $\left( \begin{matrix}\mathbf{\theta } \\ -A\left( \mathbf{\theta } \right)  \end{matrix} \right)$. Usando este conocimiento, podemos encontrar fórmulas cerradas para distribuciones conjugadas de miembros de la familia exponencial.

**Ejemplo 5.47:** Recordemos la forma exponencial de la distribución de Bernoulli que derivamos en el ejemplo (5.46):

$$p\left( x|p\right)  =\exp \left( x\log \left( \frac{p}{1-p} \right)  +\log \left( 1-p\right)  \right)$$
<p style="text-align: right;">$(5.236)$</p>

Luego, la correspondiente distribución a priori conjugada tiene la siguiente función de densidad

$$p\left( p|\alpha ,\beta \right)  =\left( \frac{p}{1-p} \right)  \exp \left( \alpha \log \left( \frac{p}{1-p} \right)  +\left( \alpha +\beta \right)  \log \left( 1-p\right)  -A_{c}\left( \gamma \right)  \right)$$
<p style="text-align: right;">$(5.237)$</p>

Donde hemos definido $\gamma :=\left( \alpha ,\alpha +\beta \right)^{\top }  \wedge h_{c}\left( p\right)  :=\frac{p}{1-p}$. Por lo tanto, la ecuación (5.237) se simplifica a

$$p\left( p|\alpha ,\beta \right)  =\exp \left( \left( \alpha -1\right)  \log \left( p\right)  +\left( \beta -1\right)  \log \left( 1-p\right)  -A_{c}\left( \alpha ,\beta \right)  \right)$$
<p style="text-align: right;">$(5.238)$</p>

Desarrollando la expresión anterior, llegamos a

$$p\left( p|\alpha ,\beta \right)  \propto p^{\alpha -1}\left( 1-p\right)^{\beta -1}$$
<p style="text-align: right;">$(5.239)$</p>

la cual corresponde a la distribución Beta. ◼︎

Como mencionamos al inicio de esta subsección, la principal motivación para el estudio de la familia exponencial de distribuciones de probabilidad es que sus estadígrafos suficientes tienen dimensión finita. Adicionalmente, las distribuciones conjugadas son sencillas de derivar. Desde una perspectiva inferencial, la estimación por máxima verosimilitud se comporta de buena manera porque las estimaciones empíricas de estadígrafos suficientes resultan ser óptimas para los valores de tales estadígrafos para las correspondientes poblaciones. Desde la perspectiva relativa a la optimización, se tiene que la función de verosimilitud logarítmica (que estudiaremos en detalle más adelante) es cóncava, lo que permite que los métodos inherentes de optimización de funciones sean eficientes en su aplicación.

## Transformaciones inversas.
Podría parecer que existen muchas distribuciones con nombre propio, pero en realidad el conjunto de esas distribuciones es bastante limitado. Por lo tanto, con frecuencia, resulta útil entender cómo las variables aleatorias transformadas se distribuyen. Por ejemplo, si asumimos que $X$ es una variable aleatoria normalmente distribuida, con función de densidad $\mathcal{N}(0,1)$, entones ¿Cuál es la distribución de $X^{2}$? Otro ejemplo, que es más común en machine learning, es el siguiente: Dadas las variables aleatorias $X_{1}$ y $X_{2}$ con distribución normal estándar ¿Cuál es la distribución de $(X_{1}+X_{2})/2$?

Vamos a estudiar dos enfoques para obtener las distribuciones de variables aleatorias transformadas: Uno directo, usando la definición de función de distribución acumulada y un cambio de variables tradicional, usando la regla de la cadena que estudiamos en la [clase 1.4](https://github.com/rquezadac/udd_data_science_lectures/blob/main/PARTE%20I%20-%20Fundamentos%20matem%C3%A1ticos%20elementales/clase_1_4.ipynb). Este enfoque es tradicionalmente utilizado en cursos elementales de Estadística y Probabilidades, porque nos provee de una “receta” para el cómputo de la distribución resultante debido a una transformación. Explicaremos brevemente las técnicas para variables aleatorias unidimensionales, y sólo echaremos un vistazo rápido al caso de variables aleatorias de mayor dimensión.

Las **transformaciones de variables aleatorias discretas** pueden ser entendidas de manera directa. Supongamos que tenemos una variable aleatoria discreta $X$ con función de masa de probabilidad $p(x)=P(X=x)$, y una función invertible $U(x)$. Consideremos la variable aleatoria $Y=U(x)$, cuya función de masa es $p(y)=P(Y=y)$. Luego,

$$\begin{array}{llll}P\left( Y=y\right)  &=&P\left( U\left( x\right)  =y\right)  &\left( \mathrm{transformacion\  de\  interes} \right)  \\ &=&P\left( X=U^{-1}\left( y\right)  \right)  &\left( \mathrm{inversa} \right)  \end{array}$$
<p style="text-align: right;">$(5.240)$</p>

donde podemos observar que $x=U^{-1}(y)$. Por lo tanto, para variables aleatorias discretas, las trasformaciones que hagamos cambian directamente los eventos individuales (con las correspondientes probabilidades aplicadas apropiadamente).

### Técnica basada en la función de distribución.
Esta técnica se basa en los principios más fundamentales del cálculo de probabilidades, y usa la definición de una función de distribución acumulada $F_{X}(x)=P(X\leq x)$ y el hecho de que su diferencial equivale a la función de densidad correspondiente. Para una variable aleatoria $X$ y una función $U$, encontramos la función de densidad de probabilidad de $Y=U(x)$ de la siguiente manera:

**Paso 1:** Determinamos su función de distribución:

$$F_{Y}\left( y\right)  =P\left( Y\leq y\right)$$
<p style="text-align: right;">$(5.241)$</p>

**Paso 2:** Diferenciamos $F_{Y}(y)$ para obtener la función de densidad $f_{Y}(y)$:

$$f_{Y}\left( y\right)  =\frac{d\left( F_{Y}\left( y\right)  \right)  }{dy}$$
<p style="text-align: right;">$(5.242)$</p>

Debemos tener en consideración que el dominio de la variable aleatoria respectiva puede modificarse por efecto de la transformación $U$.

**Ejemplo 5.48:** Sea $X$ una variable aleatoria con función de densidad definida para $0\leq x\leq 1$, donde $x$ es la realización de $X$, tal que $f_{X}(x)=3x^{2}$. Estamos interesados en determinar la función de densidad de $Y=X^{2}$.

La función $f_{X}$ es estrictamente creciente con respecto a $x$ y, por lo tanto, los valores correspondientes de $y$ (la realización de $Y$) también residen en el intervalo cerrado $[0, 1]$. Luego tenemos

$$\begin{array}{llll}F_{Y}\left( y\right)  &=&P\left( Y\leq y\right)  &\mathrm{definicion\  de\  la\  funcion\  de\  distribucion} \\ &=&P\left( X^{2}\leq y\right)  &\mathrm{transformacion\  de\  interes} \\ &=&P\left( X\leq \sqrt{y} \right)  &\mathrm{transformacion\  inversa} \\ &=&F_{X}\left( \sqrt{y} \right)  &\mathrm{definicion\  de\  la\  funcion\  de\  distribucion} \\ &=&\displaystyle \int^{\sqrt{y} }_{0} 3t^{2}dt&\mathrm{definicion\  de\  la\  funcion\  de\  distribucion\  como\  integral} \\ &=&\left[ t^{3}\right]^{t=\sqrt{y} }_{t=0}  &\mathrm{resultado\  de\  la\  integracion} \\ &=&\sqrt{y^{3}} \  ;\  0\leq y\leq 1&\end{array}$$
<p style="text-align: right;">$(5.243)$</p>

Por lo tanto, la función de distribución acumulada de $Y$ es $F_{Y}\left( y\right)  =\sqrt{y^{3}}$, para $0\leq y\leq 1$. Para obtener la función de densidad $f_{Y}$, simplemente diferenciamos $F_{Y}$ con respecto a $y$. De esta manera, obtenemos

$$f_{Y}\left( y\right)  =\frac{d}{dy} \left( \sqrt{y^{3}} \right)  =\frac{3}{2} \sqrt{y}$$
<p style="text-align: right;">$(5.244)$</p>

para $0\leq y\leq 1$. ◼︎

En el ejemplo (5.48), consideramos una función de densidad estrictamente creciente $f_{X}(x)=3x^{2}$. Esto significa que podemos calcular una función inversa. En general, queremos que la función de interés $y=U(x)$ sea invertible. Un caso particular aplicable a las funciones de densidad que son monótonas se establece en el siguiente teorema.

**<font color='crimson'>Teorema 5.15:</font>** *Sea $X$ una variable aleatoria continua con función de distribución acumulada $F_{X}(x)$. Entonces la variable aleatoria $Y$ definida explícitamente como $Y:=F_{X}(x)$ tiene una distribución uniforme.* ◆

El teorema (5.15) se conoce como transformada integral de probabilidades, y es frecuentemente utilizado para derivar algoritmos de muestreo desde distribuciones mediante la transformación del resultado desde una distribución uniforme (Bishop, 2006).

### Cambio de variables.
La técnica basada en funciones de distribución vista previamente se deriva desde principios fundamentales del cálculo de probabilidades, basándonos en la definición de una función de distribución y usando propiedades de funciones inversas, diferenciación e integración. Este último argumento se basa en dos hechos:

1. Podemos transformar la función de distribución acumulada de $Y$ en una expresión que corresponde a la función de distribución acumulada de $X$.
2. Podemos diferenciar la función de distribución para obtener la correspondiente función de densidad.

Desglosemos este razonamiento paso a paso, con el objetivo de entender cómo funcionan estos cambios de variables. Esta idea de “cambio de variables” proviene del cálculo integral. Puntualmente, de la fórmula de transformación de integrales que nos permite generar cambios de variables cuando nos vemos enfrentados a una integral difícil, a fin de obtener otra más fácil. Para el caso de funciones de una variable, esta fórmula toma la forma

$$\int f\left( g\left( x\right)  \right)  g^{\prime }\left( x\right)  dx=\int f\left( u\right)  du\  ;\  \mathrm{donde} \  u=g\left( x\right)$$
<p style="text-align: right;">$(5.245)$</p>

La derivación de la fórmula (5.245) está basada en la regla de la cadena del cálculo diferencial y la aplicación del [teorema fundamental del cálculo](https://en.wikipedia.org/wiki/Fundamental_theorem_of_calculus), el cual formaliza la idea de que la diferenciación y la integración son operaciones esencialmente inversas.

Consideremos una variable aleatoria $X$ y una función *invertible* $U$, la que nos da otra variable aleatoria $Y=U(X)$. Asumimos que la variable aleatoria $X$ tiene estados $x\in [a,b]$. Usando la definición de función de distribución acumulada (definición (5.14)), tenemos

$$F_{Y}\left( y\right)  =P\left( Y\leq y\right)$$
<p style="text-align: right;">$(5.246)$</p>

Estamos interesados en una función $U$ de la variable aleatoria:

$$P\left( Y\leq y\right)  =P\left( U\left( X\right)  \leq y\right)$$
<p style="text-align: right;">$(5.247)$</p>

donde asumimos que la función $U$ es invertible. De acuerdo al [teorema de la función inversa](https://en.wikipedia.org/wiki/Inverse_function_theorem) (uno de los resultados más importantes de los primeros cursos de Cálculo), una función invertible sobre un intervalo determinado es estrictamente creciente o decreciente. En el caso de que $U$ sea estrictamente creciente, entonces su inversa $U^{-1}$ también lo es. Aplicando dicha inversa $U^{-1}$ a los argumentos de $P(U(x)\leq y)$, obtenemos

$$P\left( U\left( X\right)  \leq y\right)  =P\left( U^{-1}\left( U\left( X\right)  \right)  \leq U^{-1}\left( y\right)  \right)  =P\left( X\leq U^{-1}\left( y\right)  \right)$$
<p style="text-align: right;">$(5.248)$</p>

La igualdad de más a la derecha en la ecuación (5.248) es una expresión para la función de distribución acumulada de $X$. Recordemos la definición de la función de distribución en términos de la función de densidad:

$$P\left( X\leq U^{-1}\left( y\right)  \right)  =\int^{U^{-1}\left( y\right)  }_{a} f\left( x\right)  dx$$
<p style="text-align: right;">$(5.249)$</p>

Ahora tenemos una expresión para la función de distribución acumulada de $Y$ en términos de $x$:

$$F_{Y}\left( y\right)  =\int^{U^{-1}\left( y\right)  }_{a} f\left( x\right)  dx$$
<p style="text-align: right;">$(5.250)$</p>

Para obtener la función de densidad, diferenciamos la función de distribución respecto de $y$:

$$f_{Y}\left( y\right)  =\frac{d}{dy} \left( F_{Y}\left( y\right)  \right)  =\frac{d}{dy} \left( \int^{U^{-1}\left( y\right)  }_{a} f\left( x\right)  dx\right)$$
<p style="text-align: right;">$(5.251)$</p>

Notemos que la integral en el lado derecho es con respecto a $x$. Sin embargo, necesitamos una integral con respecto a $y$ para poder calcular rápidamente la derivada involucrada (por medio del teorema fundamental del cálculo). En particular, usamos la ecuación (5.245) para llegar a

$$\int f\left( U^{-1}\left( y\right)  \right)  U^{-1}\left( y\right)  dy=\int f\left( x\right)  dx\  ;\  \mathrm{donde} \  x=U^{-1}\left( y\right)$$
<p style="text-align: right;">$(5.252)$</p>

Sustituyendo la ecuación (5.252) en el lado derecho de (5.251), nos da

$$f_{Y}\left( y\right)  =\frac{d}{dy} \left( \int^{U^{-1}\left( y\right)  }_{a} f_{X}\left( U^{-1}\left( y\right)  \right)  U^{-1^{\prime }}\left( y\right)  dy\right)$$
<p style="text-align: right;">$(5.253)$</p>

Ahora consideramos el hecho de que la derivada es un operador lineal, y usamos el subíndice $X$ para dar a entender que $f_{X}(U^{-1}(y))$ es una función de $x$, y no de $y$. Aplicando nuevamente el teorema fundamental del cálculo, obtenemos

$$f_{Y}\left( y\right)  =f_{X}\left( U^{-1}\left( y\right)  \right)  \cdot \left( \frac{d}{dx} \left( U^{-1}\left( y\right)  \right)  \right)$$
<p style="text-align: right;">$(5.254)$</p>

Recordemos que hemos asumido que $U$ es una función estrictamente creciente. Para funciones decrecientes, las expresiones que hemos derivado tendrán signo negativo. Por lo tanto, usamos la función valor absoluto para que la derivada en la ecuación (5.254) tenga el mismo signo, independiente del tipo de monotonía inherente a $U$. Luego,

$$f_{Y}\left( y\right)  =f_{X}\left( U^{-1}\left( y\right)  \right)  \cdot \left| \frac{d}{dx} \left( U^{-1}\left( y\right)  \right)  \right|$$
<p style="text-align: right;">$(5.255)$</p>

Esto se conoce como técnica de cambio de variables. El término $\left| \frac{d}{dx} \left( U^{-1}\left( y\right)  \right)  \right|$ en la ecuación (5.255) mide cuántas *unidades de volumen* se ven modificadas cuando aplicamos $U$, lo que es muy similar a la lógica inherente a la aplicación del determinante Jacobiano que vimos en la [clase 1.4](https://github.com/rquezadac/udd_data_science_lectures/blob/main/PARTE%20I%20-%20Fundamentos%20matem%C3%A1ticos%20elementales/clase_1_4.ipynb) (Fig. (4.5)).

Vamos a generalizar este resultado por medio del siguiente teorema.

**<font color='crimson'>Teorema 5.16 – Cambio de variables:</font>** *Sea $f_{\mathbf{X}}(\mathbf{x})$ el valor de la función de densidad de probabilidad para la variable aleatoria $\mathbf{X}$ con estados $(x_{1},...,x_{s})\in \mathbb{R}^{s}$. Si el campo vectorial $\mathbf{y}=\mathbf{U}(\mathbf{x})$ es diferenciable e invertible para todos los valores de $\mathbf{x}\in \mathrm{Rec}(\mathbf{X})$, entonces, para todos los valores de $\mathbf{y}$, la función de densidad de probabilidad de $\mathbf{Y}=\mathbf{U}(\mathbf{X})$ está dada por*

$$f_{\mathbf{Y} }\left( \mathbf{y} \right)  =f_{\mathbf{X} }\left( \mathbf{U}^{-1} \left( \mathbf{y} \right)  \right)  \cdot \left| \det \left( \frac{\partial }{\partial \mathbf{y} } \left( U^{-1}\left( \mathbf{y} \right)  \right)  \right)  \right|  =f_{\mathbf{X} }\left( \mathbf{U}^{-1} \left( \mathbf{y} \right)  \right)  \frac{\partial \left( U_{1},...,U_{s}\right)  }{\partial \left( x_{1},...,x_{s}\right)  }$$
<p style="text-align: right;">$(5.256)$</p>

*Donde $\frac{\partial \left( U_{1},...,U_{s}\right)  }{\partial \left( x_{1},...,x_{s}\right)  }$ es el jacobiano de la transformación $\mathbf{U}=(U_{1},...,U_{s})\in \mathbb{R}^{s}$* ◆

El teorema (5.16) se ve algo intimidante en un principio, pero el punto clave que se desprende de él es que un cambio de variable de una variable aleatoria multidimensional sigue exactamente el mismo proceso que el caso unidimensional. Primero, necesitamos trabajar sobre la transformación inversa, y luego sustituirla en la función de densidad para la variable aleatoria original. Luego calculamos el determinante Jacobiano y lo multiplicamos por el resultado.

Vamos a ejemplificar la aplicación del teorema (5.16) de manera práctica.

**Ejemplo 5.49:** Consideremos una variable aleatoria bidimensional $\mathbf{X}$ con estados $\mathbf{x}=\left( \begin{matrix}x_{1}\\ x_{2}\end{matrix} \right)$ y función de densidad

$$f_{\mathbf{X} }\left( \begin{matrix}x_{1}\\ x_{2}\end{matrix} \right)  =\frac{1}{2\pi } \exp \left( -\frac{1}{2} \left( \begin{matrix}x_{1}\\ x_{2}\end{matrix} \right)^{\top }  \left( \begin{matrix}x_{1}\\ x_{2}\end{matrix} \right)  \right)$$
<p style="text-align: right;">$(5.257)$</p>

Vamos a aplicar la técnica del cambio de variables descrita por el teorema (5.16) para derivar el efecto de una transformación lineal aplicada a $\mathbf{X}$. Consideremos pues una matriz $\mathbf{A}\in \mathbb{R}^{2\times 2}$ definida como

$$\mathbf{A} =\left( \begin{matrix}a_{11}&a_{12}\\ a_{21}&a_{22}\end{matrix} \right)$$
<p style="text-align: right;">$(5.258)$</p>

Estamos interesados en encontrar la función de densidad de probabilidad de la variable aleatoria transformada (también bidimensional), con estados $\mathbf{y}= \mathbf{A}\mathbf{x}$.

Recordemos que, para el cambio de variables, requerimos la transformación inversa de $\mathbf{x}$ como función de $\mathbf{y}$. Dado que estamos considerando una transformación lineal, la inversa respectiva está dada por la inversa de la matriz $\mathbf{A}$. Para matrices de 2$\times$2, podemos escribir explícitamente la fórmula de la función inversa, dada por

$$\left( \begin{matrix}x_{1}\\ x_{2}\end{matrix} \right)  =\mathbf{A}^{-1} \left( \begin{matrix}y_{1}\\ y_{2}\end{matrix} \right)  =\frac{1}{a_{11}a_{22}-a_{12}a_{21}} \left( \begin{matrix}a_{22}&-a_{12}\\ -a_{21}&a_{11}\end{matrix} \right)  \left( \begin{matrix}y_{1}\\ y_{2}\end{matrix} \right)$$
<p style="text-align: right;">$(5.259)$</p>

Observemos que $(a_{11}a_{22}-a_{12}a_{21})$ es el determinante de $\mathbf{A}$. La función de densidad correspondiente está dada entonces por

$$f_{\mathbf{X} }\left( \mathbf{x} \right)  =f_{\mathbf{X} }\left( \mathbf{A}^{-1} \mathbf{y} \right)  =\frac{1}{2\pi } \exp \left( -\frac{1}{2} \mathbf{y}^{\top } \mathbf{A}^{\top } \mathbf{A}^{-1} \mathbf{y} \right)$$
<p style="text-align: right;">$(5.260)$</p>

La derivada parcial de un vector multiplicado por una matriz, es igual a dicha matriz. Por lo tanto,

$$\frac{\partial }{\partial \mathbf{y} } \left( \mathbf{A}^{-1} \mathbf{y} \right)  =\mathbf{A}^{-1}$$
<p style="text-align: right;">$(5.261)$</p>

Por lo tanto,

$$\det \left( \frac{\partial }{\partial \mathbf{y} } \left( \mathbf{A}^{-1} \mathbf{y} \right)  \right)  =\frac{1}{a_{11}a_{22}-a_{12}a_{21}}$$
<p style="text-align: right;">$(5.262)$</p>

Y ya estamos en condiciones de aplicar el teorema (5.16). De esta manera, tenemos

$$\begin{array}{lll}f_{\mathbf{Y} }\left( \mathbf{y} \right)  &=&f_{\mathbf{X} }\left( \mathbf{x} \right)  \left| \det \left( \displaystyle \frac{\partial }{\partial \mathbf{y} } \left( \mathbf{A}^{-1} \mathbf{y} \right)  \right)  \right|  \\ &=&\displaystyle \frac{1}{2\pi } \exp \left( -\frac{1}{2} \mathbf{y}^{\top } \mathbf{A}^{\top } \mathbf{A}^{-1} \mathbf{y} \right)  \cdot \frac{1}{\left| a_{11}a_{22}-a_{12}a_{21}\right|  } \\ &=&\displaystyle \frac{\exp \left( -\frac{1}{2} \mathbf{y}^{\top } \mathbf{A}^{\top } \mathbf{A}^{-1} \mathbf{y} \right)  }{2\pi \left| a_{11}a_{22}-a_{12}a_{21}\right|  } \end{array}$$
<p style="text-align: right;">$(5.263)$</p>
◼︎

**Ejemplo 5.50:** La función de densidad de probabilidad para una variable aleatoria $X$ está dada por

$$f_{X}\left( x\right)  =\begin{cases}x^{2}/81&;\  \mathrm{si} \  -3<x<6\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.264)$</p>

Vamos a determinar la función de densidad de probabilidad para la variable aleatoria $Y=X^{2}$. Tomaremos, en este caso, un enfoque más gráfico. En efecto, para $U(X)=X^{2}$, tenemos que $x=\pm \sqrt{y}$, donde $x$ e $y$ son las realizaciones de $X$ e $Y$, respectivamente. De esta manera, tenemos que, a cada valor de $x$, le corresponde uno y sólo un valor de $y$, pero a cada valor de $y$ le corresponden dos valores de $x$. Los valores de $x$ para los cuales $-3<x<6$ corresponden a valores de $y$ para los cuales $0\leq y< 36$, como se observa en la Fig. (5.17).

<p style="text-align: center;"><img src="figures/fig_5_17.png" width="400"></p>
<p style="text-align: center;">Fig. (5.17): Gráfico del ejemplo (5.50)</p>

Como podemos observar, en el intervalo $-3< x\leq 3$, tenemos que $0<y \leq 9$, mientras que $3<x<6$ corresponde a $9<y<36$. En este caso, no podemos usar directamente el teorema (5.16), pero podemos proceder de la siguiente manera: La función de distribución para $Y$ es

$$F_{Y}\left( y\right)  =P\left( Y\leq y\right)$$
<p style="text-align: right;">$(5.265)$</p>

Ahora, si $0\leq y\leq 9$, tenemos que

$$\begin{array}{lll}F_{Y}\left( y\right)  &=&P\left( X^{2}\leq y\right)  \\ &=&P\left( -\sqrt{y} \leq X\leq \sqrt{y} \right)  \\ &=&\displaystyle \int^{\sqrt{y} }_{-\sqrt{y} } f_{X}\left( x\right)  dx\end{array} $$
<p style="text-align: right;">$(5.266)$</p>

Pero, si $9<y<36$, tenemos

$$\begin{array}{lll}F_{Y}\left( y\right)  &=&P\left( Y\leq y\right)  \\ &=&P\left( -3\leq X\leq \sqrt{y} \right)  \\ &=&\displaystyle \int^{\sqrt{y} }_{-3} f_{X}\left( x\right)  dx\end{array}$$
<p style="text-align: right;">$(5.267)$</p>

Dado que la función de densidad $f_{Y}(y)$ es la derivada de $F_{Y}(y)$, tenemos que

$$f_{Y}\left( y\right)  =\begin{cases}\displaystyle \frac{f_{X}\left( \sqrt{y} \right)  +f_{X}\left( -\sqrt{y} \right)  }{2\sqrt{y} } &;\  \mathrm{si} \  0\leq y\leq 9\\ \displaystyle \frac{f_{X}\left( \sqrt{y} \right)  }{2\sqrt{y} } &;\  \mathrm{si} \  9\leq y\leq 36\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases} $$
<p style="text-align: right;">$(5.268)$</p>

Usando la definición dada de la función de densidad $f_{X}$, la expresión anterior se convierte en

$$f_{Y}\left( y\right)  =\begin{cases}\sqrt{y} /81&;\  \mathrm{si} \  0\leq y\leq 9\\ \sqrt{y} /162&;\  \mathrm{si} \  9\leq y\leq 36\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.269)$</p>

Podemos verificar el resultado anterior comprobando que la integral de $f_{Y}(y)$ sobre todo su dominio sea igual a 1. En efecto,

$$\int^{+\infty }_{-\infty } f_{Y}\left( y\right)  dy=\int^{9}_{0} \frac{\sqrt{y} }{81} dy+\int^{36}_{9} \frac{\sqrt{y} }{162} =\left[ \frac{2\sqrt{y^{3}} }{243} \right]^{y=9}_{y=0}  +\left[ \frac{\sqrt{y^{3}} }{243} \right]^{y=36}_{y=9}  =1$$
<p style="text-align: right;">$(5.270)$</p>

Tal como queríamos demostrar. ◼︎

**Ejemplo 5.51:** Consideremos ahora la variable aleatoria bidimensional $\mathbf{X}=(X_{1},X_{2})$, cuya función de densidad conjunta es la siguiente:

$$f_{\mathbf{X} }\left( x,y\right)  =\begin{cases}xy/96&;\  \forall \left( x,y\right)  \in \mathbb{R}^{2} :0<x<4\wedge 1<y<5\\ 0&;\  \mathrm{en\  otro\  caso} \end{cases}$$
<p style="text-align: right;">$(5.271)$</p>

Consideremos la transformación no lineal definida por el campo vectorial $\mathbf{U} \left( u\left( x,y\right)  ,v\left( x,y\right)  \right)  =\left( xy^{2},x^{2}y\right)$. Vamos a determinar la función de densidad de probabilidad para la variable aleatoria $\mathbf{Y}=\mathbf{U}(\mathbf{X})$.

Pongamos pues $u=xy^{2}$ y $v=x^{2}y$. Dividiendo estas ecuaciones obtenemos $\frac{y}{x} =\frac{u}{v}$, de manera que $y=\frac{ux}{v}$. Esto nos lleva a la solución simultánea $x=v^{2/3}u^{-1/3}\wedge y=u^{2/3}v^{-1/3}$. Es decir, la transformación inversa de $\mathbf{U}$ es

$$\mathbf{U}^{-1} \left( u,v\right)  =\left( x\left( u,v\right)  ,y\left( u,v\right)  \right)  =\left( v^{2/3}u^{-1/3},u^{2/3}v^{-1/3}\right)  =\left( \frac{\sqrt[3]{v^{2}} }{\sqrt[3]{u} } ,\frac{\sqrt[3]{u^{2}} }{\sqrt[3]{v} } \right)$$
<p style="text-align: right;">$(5.272)$</p>

La imagen de $\mathcal{R} =\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :0<x<4\wedge 1<y<5\right\}$ en el plano $uv$ está dada por el conjunto 

$$\mathcal{T} =\left\{ \left( u,v\right) \in \mathbb{R}^{2} :0<v^{2/3}u^{-1/3}<4\wedge 1<u^{2/3}v^{-1/3}<5\right\}=\left\{ \left( u,v\right)  \in \mathbb{R}^{2} :v^{2}<64u\wedge v<u^{2}<125v\right\}$$ 
<p style="text-align: right;">$(5.273)$</p>

Tal conjunto se ilustra en la región achurada de la Fig. (5.18). El determinante Jacobiano asociado a la transformación $\mathbf{U}$ está dado por

$$\frac{\partial \left( x,y\right)  }{\partial \left( u,v\right)  } =\det \left( \begin{array}{cc}-\displaystyle \frac{1}{3} v^{2/3}u^{-4/3}&\displaystyle \frac{2}{3} v^{-1/3}u^{-1/3}\\ \displaystyle \frac{2}{3} u^{-1/3}v^{-1/3}&-\displaystyle \frac{1}{3} u^{2/3}v^{-4/3}\end{array} \right)  =-\displaystyle \frac{1}{3} u^{-2/3}v^{-2/3}$$
<p style="text-align: right;">$(5.274)$</p>

Por lo tanto, aplicando el teorema (5.16), tenemos que la función de densidad para $\mathbf{Y}=\mathbf{U}(\mathbf{X})$ es

$$f_{\mathbf{Y} }\left( u,v\right)  =\begin{cases}\displaystyle \frac{\left( u^{-1/3}v^{2/3}\right)  \left( u^{2/3}v^{-1/3}\right)  }{96} \cdot \left( \displaystyle \frac{1}{3} u^{-2/3}v^{-2/3}\right)  &;\  \mathrm{si} \  \left( u,v\right)  \in \mathcal{T} \\ 0&;\  \mathrm{en\  cualquier\  otro\  caso} \end{cases} $$
<p style="text-align: right;">$(5.275)$</p>

Podemos aplicar algo de álgebra sobre la expresión anterior, con lo cual obtenemos la versión simplificada

$$f_{\mathbf{Y} }\left( u,v\right)  =\begin{cases}\displaystyle \frac{1}{288\sqrt[3]{uv} } &;\  \mathrm{si} \  \left( u,v\right)  \in \mathcal{T} \\ 0&;\  \mathrm{en\  cualquier\  otro\  caso} \end{cases} $$
<p style="text-align: right;">$(5.276)$</p>

<p style="text-align: center;"><img src="figures/fig_5_18.png" width="300"></p>
<p style="text-align: center;">Fig. (5.18): Región $\mathcal{T}$ del ejemplo (5.51)</p> ◼︎

## Desigualdad de Chebyshev.
Vamos a finalizar esta sección comentando tres de los resultados más importantes del cálculo de probabilidades, como corolario de todo lo que hemos estudiado hasta ahora. El primero de estos resultados es la llamada **desigualdad de Chebyshev**.

Como ya se mencionó hace tiempo, un valor pequeño de la varianza significa que es poco probable que una variable aleatoria $X$ (que, sin perder generalidad, asumiremos como unidimensional) se desvíe mucho de su valor esperado. Para precisar más esta afirmación, introducimos la norma $\ell_{2}$ definida como $\left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert$, que describe la distancia entre $X$ y $\mathrm{E} \left[ x\right]$. Cabe preguntarnos: ¿Qué probabilidad hay de que esa distancia supere a un determinado número? Y para responder esta pregunta, tenemos que determinar la probabilidad

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c\right)$$
<p style="text-align: right;">$(5.277)$</p>

Donde $c$ es un número positivo conocido. En el caso continuo, tenemos

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c\right)  =1-P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  \leq c\right)  =1-P\left( \mathrm{E} \left[ x\right]  -c\leq x\leq \mathrm{E} \left[ x\right]  +c\right)$$
<p style="text-align: right;">$(5.278)$</p>

Por lo tanto,

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c\right)  =\int^{+\infty }_{-\infty } f_{X}\left( s\right)  ds-\int^{\mathrm{E} \left[ x\right]  +c}_{\mathrm{E} \left[ x\right]  -c} f_{X}\left( s\right)  ds$$
<p style="text-align: right;">$(5.279)$</p>

Lo que implica,

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c\right)  =\int^{\mathrm{E} \left[ x\right]  -c}_{-\infty } f_{X}\left( s\right)  ds+\int^{+\infty }_{\mathrm{E} \left[ x\right]  +c} f_{X}\left( s\right)  ds$$
<p style="text-align: right;">$(5.280)$</p>

Por consiguiente, el cálculo de esa probabilidad puede llevarse a efecto tan pronto se conozca la densidad $f_{X}$. Naturalmente, si $f_{X}$ es incógnita, este método no nos da información alguna. No obstante, si la varianza se conoce, podemos obtener una cota superior en (5.280). Tal cota superior nos la proporciona el siguiente teorema.

**<font color='crimson'>Teorema 5.17 – Desiguladad de Chebyshev:</font>** *Sea $X$ una variable aleatoria unidimensional con esperanza finita $\mathrm{E}[x]$ y varianza $\mathrm{Var}(x)$. Entonces, para todo $c>0$, tenemos que*

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c\right)  \leq \frac{\mathrm{Var} \left( x\right)  }{c^{2}}$$
<p style="text-align: right;">$(5.281)$</p> ◆

La **desigualdad de Chebyshev** nos dice que, cuanto mayor sea $c$, tanto menor será la probabilidad de que $\left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >c$. Dicho de otro modo, no es probable que $X$ se desvíe mucho del valor de $\mathrm{E} \left[ x\right]$; lo mismo ocurre si $\mathrm{Var}(x)$ es pequeña.

Si reemplazamos $c$ por $k \sigma^{2}$, siendo $k>0$ y $\sigma$ la desviación estándar de $X$ (es decir, $\sigma=\sqrt{\mathrm{Var}(x)}$), la desigualdad de Chebyshev toma la forma

$$P\left( \left\Vert X-\mathrm{E} \left[ x\right]  \right\Vert  >k\sigma \right)  \leq \frac{1}{k^{2}}$$
<p style="text-align: right;">$(5.282)$</p>

Esto es, la probabilidad de que $X$ difiera de su valor esperado más de $k$ veces la desviación estándar no excede a $1/k^{2}$. Por ejemplo, si $k=\sqrt{2}$, entonces la probabilidad de que los valores de $X$ residan en el intervalo abierto $\left( \mu -\sqrt{2} \sigma ,\mu +\sqrt{2} \sigma \right)$ no excede a $1/2$, donde $\mu$ equivale a $\mathrm{E}[x]$.

La desigualdad de Chebyshev es un teorema general que se aplica a todas las distribuciones. En muchas aplicaciones, cuando se tiene más información acerca de la distribución que se considera, se puede mejorar esa desigualdad. Por ejemplo, si $X$ tiene distribución binomial con parámetros $N$ y $p$ se puede demostrar que, para valores grandes de $N$, la probabilidad de que un valor observado difiera de la medida en más de tres desviaciones típicas es próxima a 0.003. (Para este resultado, basta $n\sim 12$). Esta probabilidad es mucho más pequeña que la equivalente a 0.111, conseguida con la desigualdad de Chebyshev.

**Ejemplo 5.52:** Consideremos un experimento en el cual lanzamos una moneda un total de 50 veces. Podemos usar la desigualdad de Chebyshev para encontrar una cota para la probabilidad de que el número de caras obtenidas en estos lanzamientos sea mayor que 35 o menor que 15.

Sea pues $X$ una variable aleatoria que permite representar el número de caras obtenidas en todos los lanzamientos. Como tal, sabemos que esta variable sigue una distribución binomial $\mathcal{Bi}(n,p)$ con $n=50$ y $p=1/2$. De esta manera, tenemos que:

- El valor esperado de $X$ es $\mu=np=50\cdot (1/2)=25$.
- La varianza de $X$ es $\sigma^{2}=np\left( 1-p\right)  =50\cdot \left( 1/4\right)  =12.5$. Por lo tanto, la desviación estándar de $X$ resulta $\sigma=\sqrt{12.5}$.
- Los valores $X=35$ y $X=15$ se encuentran 10 unidades alejados de la media en ambas direcciones. Este "alejamiento" puede establecerse en términos del número de desviaciones estándar de $X$. Por lo tanto, $X=15$ y $X=35$ están a $k=10/\sigma=2.824$ desviaciones de la media.

Usando la desigualdad de Chebyshev, podemos escribir

$$\begin{array}{lll}P\left( X<15\cup X>35\right)  &=&P\left( \left\Vert X-\mu \right\Vert  \geq k\sigma \right)  \\ &=&P\left( \left\Vert X-\mu \right\Vert  \geq 2.184\cdot \sqrt{12.5} \right)  \\ &\leq &\displaystyle \frac{1}{\left( 2.184\right)^{2}  } \\ &\leq &0.125\end{array} $$
<p style="text-align: right;">$(5.283)$</p>

En otras palabras, la probabilidad de que al lanzar 50 veces una moneda no trucada tengamos un número de caras fuera del intervalo $15<X<35$ es, como mucho, igual a 0.125.

Podemos hacer uso de **<font color='mediumorchid'>Matplotlib</font>** para observar la progresión de las cotas de probabilidad en este experimento haciendo uso de las desigualdad de Chebyshev. Para ello, podemos definir tal desigualdad por medio de una función sencilla:

In [21]:
# Definimos la desigualdad de Chebyshev (en realidad, la cota superior de las probabilidades
# inherentes a los experimentos de interés).
def chebyshev_inequality(k):
    return 1 / k**2

Vamos a definir un rango de valores de $k$ para observar el comportamiento de las cotas de probabilidad conforme nuestro experimento, y almacenaremos los valores obtenidos por medio de la desigualdad de Chebyshev en un arreglo de **<font color='mediumorchid'>Numpy</font>** como sigue:

In [22]:
# Definimos el rango de valores de k.
k = np.arange(start=1, stop=10, step=0.5)

In [23]:
# Definimos el arreglo donde almacenaremos las cotas para nuestras probabilidades para cada k.
prob = np.zeros(shape=len(k))

Y ahora sí, mediante un ciclo sencillo, calculamos las cotas $\frac{1}{k^{2}}$ para cada valor de `k`:

In [24]:
for i in range(len(k)):
    prob[i] = chebyshev_inequality(k[i])

En términos comparativos, también determinaremos las probabilidades asociadas a cada valor de `k` haciendo uso de la distribución normal estándar:

In [25]:
# Definimos el arreglo donde almacenaremos las probabilidades para cada k.
prob_norm = np.zeros_like(prob)

In [26]:
# Calculamos estas probabilidades para cada valor de k.
for i in range(len(k)):
    prob_norm[i] = (1 - stats.norm.cdf(k[i])) * 2

Y ahora graficamos los valores obtenidos para las probabilidades y sus cotas:

In [27]:
# Gráfico de nuestros resultados.
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(
    k, prob, color="navy", marker="o", linestyle="-", 
    label="Cota estimada mediante la desigualdad de Chebyshev"
)
ax.plot(
    k, prob_norm, color="forestgreen", marker="o", linestyle="-", 
    label="Probabilidad estimada mediante la distribución normal estándar"
)
ax.set_xlabel(r"Valor de $k$", fontsize=12, labelpad=10)
ax.set_ylabel(r"Probabilidad", fontsize=12, labelpad=10)
ax.legend(loc="best", frameon=True);

<IPython.core.display.Javascript object>

Podemos observar que la desigualdad de Chebyshev nos provee de una cota que se hace cada vez más "apretada" conforme crece el valor de `k`. ◼︎

## Ley de los grandes números.
Al hablar de problemas de lanzamiento de monedas, se dice a menudo que la probabilidad de que salga cara con una moneda perfectamente equilibrada es igual a $1/2$. Esto no significa que si una moneda se lanza dos veces salga necesariamente cara una sola vez. Ni que en 1000 tiradas salgan exactamente 500 caras. Representemos con $h(n)$ el número de caras que se presentan en $n$ tiradas. La experiencia nos demuestra que incluso para $n$ muy grande, la razón $h(n)/n$ no es necesariamente $1/2$. No obstante, la misma experiencia nos dice que esa razón parece aproximarse a $1/2$ cuando $n$ crece, si bien puede oscilar considerablemente en torno a $1/2$ durante el proceso. Esto nos sugiere la posibilidad de demostrar que

$$\lim_{n\rightarrow +\infty } \frac{h\left( n\right)  }{n} =\frac{1}{2}$$
<p style="text-align: right;">$(5.284)$</p>

Desgraciadamente, esto no es posible. Una de las dificultades es que el número $h(n)$ depende no tan sólo de $n$, sino también de la ejecución del experimento. No tenemos medio de conocer de antemano cómo varía $h(n)$ de un experimento a otro. Pero la dificultad real es que es posible (aunque no muy probable) que en alguna determinada experiencia la razón $h(n)/n$ no tienda a $1/2$ en absoluto. Por ejemplo, no hay razón para excluir la posibilidad de que salga cara en todas las tiradas de la moneda, en cuyo caso $h(n)=n$ y $h(n)/n \sim 1$. Por consiguiente, en lugar de intentar la demostración de la fórmula (5.284), encontraremos más razonable (y más útil) averiguar la probabilidad de que $h(n)/n$ difiera de $1/2$ en una cierta cantidad. Dicho de otro modo, dado un cierto número positivo $c$, determinar la probabilidad

$$P\left( \left| \frac{h\left( n\right)  }{n} -\frac{1}{2} \right|  >c\right)$$
<p style="text-align: right;">$(5.285)$</p>

Introduciendo una conveniente variable aleatoria y aplicando la desigualdad de Chebyshev, podemos obtener una cota superior útil de esa probabilidad, y que no exige un conocimiento explicito de $h(n)$. Esto nos lleva a un nuevo límite que reemplazará en forma adecuada al establecido en la ecuación (5.284).

No exige gran esfuerzo tratar el caso más general de una sucesión de pruebas de Bernoulli, en que la probabilidad de “éxito” o “suceso favorable” sea $p$ y la de “fallo” o “suceso contrario” sea $q=1-p$ (en el lanzamiento de una moneda, el suceso favorable es que salga cara, con lo cual, $p=1/2$). Sea $X$ la variable aleatoria que cuenta el número de sucesos favorables en $n$ pruebas independientes. En tal caso, $X$ tiene distribución binomial con esperanza $\mathrm{E}[x]=np$ y varianza $\mathrm{Var}(x)=npq$. Luego, la desigualdad de Chebyshev es aplicable, y nos dice que

$$P\left( \left\Vert X-np\right\Vert  >c\right)  \leq \frac{npq}{c^{2}}$$
<p style="text-align: right;">$(5.286)$</p>

Puesto que nos interesa $X/n$, que podemos llamar **frecuencia relativa del suceso**, dividimos la desigualdad $\left\Vert X-np\right\Vert  >c$ por $n$, con lo cual,

$$P\left( \left\Vert \frac{X}{n} -p\right\Vert  >\frac{c}{n} \right)  \leq \frac{npq}{c^{2}}$$
<p style="text-align: right;">$(5.287)$</p>

Ya que esto es válido para todo $c>0$, podemos hacer que $c$ dependa de $n$ y escribir $c=\varepsilon n$, siendo $\varepsilon$ un número positivo fijo. Entonces llegamos a

$$P\left( \left\Vert \frac{X}{n} -p\right\Vert  >\epsilon \right)  \leq \frac{pq}{n\epsilon^{2} }$$
<p style="text-align: right;">$(5.288)$</p>

El hecho de que aparezca $n$ en el denominador del segundo miembro sugiere tomar el límite cuando $n\rightarrow +\infty$. Esto nos conduce a la fórmula

$$\lim_{n\rightarrow +\infty } P\left( \left\Vert \frac{X}{n} -p\right\Vert  >\epsilon \right)  \leq 0\  ;\  \forall \epsilon >0\  \mathrm{fijo}$$
<p style="text-align: right;">$(5.289)$</p>

La que se conoce como **ley de los grandes números para la distribución de Bernoulli**. Tal ley nos dice que, dado un $\varepsilon >0$ (por pequeño que sea), la probabilidad de que la frecuencia relativa del suceso difiera en $p$ en más de $\varepsilon$ es una función de $n$ que tiende a 0 cuando $n$ crece infinitamente. Esta relación nos da una justificación matemática para la asignación de la probabilidad 1/2 al suceso de conseguir cara con una moneda perfectamente equilibrada.

El límite (5.289) es un caso particular de un resultado más general en el que la frecuencia relativa $X/n$ es reemplazada por la media aritmética de $n$ variables aleatorias independientes con la misma esperanza y la misma varianza. Este teorema más general se conoce como **ley débil de los grandes números**, y puede establecerse como sigue.

**<font color='crimson'>Teorema 5.18 – Ley débil de los grandes números:</font>** *Sea $X_{1},...,X_{n}$ una colección de $n$ variables aleatorias independientes, todas con la misma esperanza y varianza, y sean $\mathrm{E}[x_{k}]=\mu$ y $\mathrm{Var}(x_{k})=\sigma^{2}$ para todo $k$ tal que $1\leq k\leq n$. Definimos una nueva variable aleatoria $\bar{X}$, correspondiente a la media muestral de las $n$ variables $X_{1},...,X_{n}$:*

$$\bar{X} =\frac{1}{n} \sum^{n}_{k=1} X_{k}$$
<p style="text-align: right;">$(5.290)$</p>

*Entonces, para todo $\varepsilon >0$ fijo, tenemos que*

$$\lim_{n\rightarrow +\infty } P\left( \left\Vert \bar{X} -\mu \right\Vert  >\epsilon \right)  =0$$
<p style="text-align: right;">$(5.291)$</p>

O, equivalentemente,

$$\lim_{n\rightarrow +\infty } P\left( \left\Vert \bar{X} -\mu \right\Vert  \leq \epsilon \right)  =1$$
<p style="text-align: right;">$(5.292)$</p>
◆

El teorema (5.18) se denomina "ley débil", porque también existe una **ley fuerte de los grandes números** que, bajo las mismas hipótesis, establece que

$$P\left( \lim_{n\rightarrow +\infty } \bar{X} =\mu \right)  =1$$
<p style="text-align: right;">$(5.293)$</p>

Es decir, el promedio de las variables aleatorias converge a $\mu$ casi seguramente (en un conjunto de probabilidad 1).

Esta ley justifica la interpretación intuitiva del valor esperado de una variable aleatoria como el "promedio a largo plazo al hacer un muestreo repetitivo". Puede demostrarse que la ley fuerte implica la débil, pero el recíproco no es cierto.

## Teorema central del límite.
En muchas aplicaciones del cálculo de probabilidades, las variables aleatorias son sumas de otras variables aleatorias. Por ejemplo, el resultado (en dinero) después de varias partidas de juego es la suma de las ganancias en cada una. Un hecho sorprendente ocurre cuando se suman un gran número de variables aleatorias. Bajo condiciones generales (aplicable casi a todos los casos prácticos que se presentan, incluyendo por supuesto a los que podemos ver en machine learning) la distribución de la suma tiende a ser Gaussiana, prescindiendo de las distribuciones de cada una de las variables aleatorias que forman la suma. El enunciado preciso de este hecho notable se conoce como el **teorema central del límite del cálculo de probabilidades**, lo que explica la importancia de la distribución Gaussiana tanto en la teoría como en la práctica. La discusión completa de este teorema pertenece al estudio superior del cálculo de probabilidades, lo que escapa del alcance de estos apuntes. En esta última subsección se explicará solamente lo que afirma el teorema.

Sea una sucesión indefinida de variables aleatorias $X_{1},X_{2},...$, con esperanza y varianza finitas. Sean éstas $\mu_{k}=\mathrm{E}[x_{k}]$ y $\sigma^{2}_{k}=\mathrm{Var}(x_{k})$, para $k\in \mathbb{N}$. Formamos una nueva variable aleatoria $S_{n}$ sumando las $n$ primeras diferencias del tipo $x_{k}-\mu_{k}$:

$$S_{n}:=\sum^{n}_{k=1} \left( x_{k}-\mu_{k} \right)$$
<p style="text-align: right;">$(5.294)$</p>

En lugar de las $X_{k}$ sumamos las diferencias de manera que la suma $S_{n}$ tendrá un valor esperado igual a cero. Estamos interesados en determinar la forma límite de la función de distribución de $S_{n}$ cuando $n$ crece infinitamente.

Si $X_{1},...,X_{n}$ son independientes, tenemos que

$$\mathrm{Var} \left( s_{n}\right)  =\sum^{n}_{k=1} \mathrm{Var} \left( x_{k}-\mu_{k} \right)  =\sum^{n}_{k=1} \mathrm{Var} \left( x_{k}\right)  =\sum^{n}_{k=1} \sigma^{2}_{k}$$
<p style="text-align: right;">$(5.295)$</p>

Ordinariamente, $\mathrm{Var} \left( s_{n}\right)$ será grande aunque las varianzas particulares $\sigma_{k}^{2}$ sean pequeñas. Las variables aleatorias con alta varianza no nos interesan porque sus valores tienden a presentar una gran dispersión respecto del valor esperado de las mismas. Por este motivo, introducimos una nueva variable aleatoria $T_{n}$ mediante la fórmula

$$T_{n}=\frac{S_{n}}{\sqrt{\mathrm{Var} \left( s_{n}\right)  } }$$
<p style="text-align: right;">$(5.296)$</p>

Esta variable aleatoria tiene esperanza 0, varianza 1, y se conoce como **variable aleatoria estandarizada**. Tal variable tiene pleno sentido, incluso aunque $X_{1},...,X_{n}$ no sean independientes.

Lo anterior motiva el siguiente teorema.

**<font color='crimson'>Teorema 5.19 – Propiedad central del límite:</font>** *Sea $X_{1},X_{2},...$, una sucesión de variables aleatorias (no necesariamente independientes), donde cada $X_{k}$ tiene una esperanza $\mu_{k}$ y varianza $\sigma_{k}^{2}$, ambas finitas. Se definen $S_{n}$ y $T_{n}$ conforme las ecuaciones (5.294) y (5.296), respectivamente. Decimos que la sucesión de variables aleatorias $X_{1},X_{2},...$, satisface la propiedad central del límite si, para todo par $a,b$, siendo $a\leq b$, se tiene que*

$$\lim_{n\rightarrow +\infty } P\left( a\leq T_{n}\leq b\right)  =\frac{1}{2\pi } \int^{b}_{a} \exp \left( -\frac{t^{2}}{2} \right)  dt$$
<p style="text-align: right;">$(5.297)$</p> ◆

Dicho de otro modo, la sucesión de variables aleatorias $X_{1},X_{2},...$, satisfacen la **propiedad central del límite** si la distribución de la variable estandarizada $T_{n}$ se aproxima a una distribución normal cuando $n$ crece arbitrariamente. Es posible demostrar que el teorema (5.19) se cumple incluso si $a\rightarrow +\infty$ o $b\rightarrow +\infty$.

**Ejemplo 5.53:** Supongamos que alguien nos entrega una moneda y nos comenta que la misma no está perfectamente equilibrada (es decir, presenta un determinado nivel de sesgo), y nos informa que sólo un 48% de las veces ésta moneda, al lanzarla, nos devuelve una cara. Vamos a determinar cuántas veces debemos lanzar la moneda para concluir, con un 95% de confianza, que ésta efectivamente se encuentra sesgada.

Procederemos primero usando la ley débil de los grandes números (teorema (5.18)). Sea entonces $X$ la variable aleatoria binaria que establece el resultado de lanzar la moneda (es decir, $X=1$ si el resultado es cara, y $X=0$ si el resultado es sello). De esta manera, tenemos que $\mu=p=0.48$ y $\sigma^{2}=p(1-p)=0.48 \cdot 0.52=0.2496$. Para probar la moneda, la lanzamos $n$ veces y permitimos que exista un 2% de error de precisión; es decir, $\varepsilon =0.02$. Esto significa que estamos testeando la probabilidad de que la moneda nos devuelva una cara de forma tal que ésta se mueva en el intervalo $(0.46, 0.50)$. Por el teorema (5.18), queremos determinar un $n$ tal que

$$P\left( \left\Vert \bar{X} -0.48\right\Vert  >0.02\right)  \leq \frac{0.2496}{n\left( 0.02\right)^{2}  }$$
<p style="text-align: right;">$(5.298)$</p>

Así que, para un nivel de confianza del 95%, necesitamos que

$$\frac{0.2496}{n\left( 0.02\right)^{2}  } =0.05\Longleftrightarrow n=12480$$
<p style="text-align: right;">$(5.299)$</p>

Vale decir, necesitamos lanzar la moneda al menos 12480 veces para determinar que efectivamente existe el sesgo previamente establecido.

Vamos a resolver este problema por medio del teorema del límite central (teorema (5.19)). En este caso, la aplicación es directa:

$$\begin{array}{lll}P\left( \displaystyle \frac{S_{n}}{n} ,\displaystyle \frac{1}{2} \right)  &=&P\left( \displaystyle \frac{S_{n}-0.48n}{n} <0.02\right)  \\ &=&P\left( \displaystyle \frac{S_{n}-0.48n}{\sqrt{0.48\cdot 0.52n} } <\displaystyle \frac{0.02\sqrt{n} }{\sqrt{0.48\cdot 0.52} } \right)  \\ &\geq &P\left( \displaystyle \frac{S_{n}-0.48n}{\sqrt{0.2496n} } \leq 0.04\sqrt{n} \right)  \\ &\approx &\displaystyle \frac{1}{2\pi } \int^{0.04\sqrt{n} }_{-\infty } \exp \left( -\frac{t^{2}}{2} \right)  dt\end{array}$$
<p style="text-align: right;">$(5.300)$</p>

Luego tenemos,

$$0.04\sqrt{n} =1.645$$
<p style="text-align: right;">$(5.301)$</p>

Así pues, obtenemos un valor de $n$ igual a 1692. Por lo tanto, debemos lanzar la moneda un total de 1692 veces para determinar que efectivamente existe el sesgo previamente establecido. De esta manera, podemos observar que la ley débil de los grandes números no es tan poderosa o exacta como el teorema central del límite. Sin embargo, aún puede ser utilizada hasta un cierto nivel de exactitud. ◼︎

## Comentarios finales.
Sin duda alguna, esta sección ha sido la más larga e intensa que hemos repasado, así que le hemos hecho honor a la coletilla de "generosa" con la cual tildamos a esta clase. El mundo de las probabilidades en realidad es gigantesco, y si bien hemos intentado repasar consistentemente todo lo básico (y no tan básico) relativo a sus bases fundamentales, la verdad es que apenas hemos arañado la superficie de un mundo rico en contenidos. No obstante, lo que hemos revisado nos será de gran ayuda para cuando comencemos a hablar explícitamente de modelos y de cómo los datos serán la puerta de entrada a dicho concepto (y, por supuesto, lo que definirá en una primera instancia la calidad de éstos).

Ya nos queda únicamente un tópico general a revisar de forma previa a hablar concienzudamente de algoritmos de aprendizaje, y corresponde a la optimización de funciones continuas. No nos extenderemos tanto como acá, pero, indudablemente, será la sección de repaso más importante de todas las vistas en este primer bloque de apuntes, ya que los algoritmos de optimización son la piedra angular de los algoritmos de aprendizaje.