# CLASE 1.5: Una introducción (generosa) al cálculo de probabilidades
---

## Introducción.
La probabilidad, en términos bien generales, se corresponde con el estudio de la incertidumbre. Puede ser pensada como la fracción de tiempo en el cual un evento determinado ocurre, o como el grado de creencia bajo el cual un evento puede ocurrir. Queremos usar la probabilidad como medida de la posibilidad en que un suceso ocurre en un experimento determinado. Esta idea es esencial en los modelos de machine learning, puesto que con frecuencia queremos entender cuánto nivel de incertidumbre hay en nuestra data o en la predicción realizada por un modelo determinado. La cuantificación de la incertidumbre requiere de objetos matemáticos especializados conocidos como **variables aleatorias**, las cuales corresponden a funciones que mapean los resultados de experimentos aleatorios sobre los conjuntos de propiedades que nos interesan. Hay funciones asociadas a las variables aleatorias que permiten medir la probabilidad de que un resultado particular (o un conjunto de resultados) ocurra(n). Tales funciones se conocen como **distribuciones de probabilidad**.

Las distribuciones de probabilidad son utilizadas como cimientos para la construcción de otros conceptos, tales como modelos probabilísticos, modelos gráficos y selección de modelos. En esta sección, presentaremos los conceptos necesarios para poder definir una probabilidad y cómo estos se relacionan para la construcción de una variable aleatoria, a fin de poder entender constructos más generales, tales como densidades y distribuciones.

## Teoría clásica de probabilidad.

### El concepto de probabilidad.
Todos estamos familiarizados con la importancia de los experimentos en ciencias e ingeniería. La experimentación es útil porque, si suponemos que llevamos a cabo ciertos experimentos bajo condiciones esencialmente idénticas (algo especialmente cierto en pruebas industriales de algún componente, por ejemplo, un sistema de medición de perfil de cascada de mineral en un molino SAG), llegaremos (o deberíamos llegar) a los mismos resultados. En estas circunstancias, estamos en condiciones de controlar el valor de las variables que afectan el resultado del experimento.

Sin embargo, en algunos experimentos, no somos capaces de controlar el valor de determinadas variables, de manera que un resultado cambiará de un experimento a otro, a pesar de que la mayoría de las condiciones sean las mismas. Estos experimentos se describen como aleatorios, porque existe una determinada (y muchas veces razonable) cantidad de incertidumbre inherente a ellos. Por ejemplo, si lanzamos un dado (no cargado y simétrico), el resultado del experimento será uno de los números del conjunto $\Omega =\left\{ 1,2,3,4,5,6\right\}$. Un ejemplo un poco más industrial es la medición de la vida útil de fusibles producidos por una compañía manufacturadora de estos artefactos eléctricos. Entonces, el resultado del experimento es el tiempo $t$ en horas que se encuentra en algún intervalo, digamos $0\leq t\leq 6500$, suponiendo que la vida útil del fusible tiene un límite técnico de 6500 horas de uso.

Un conjunto $\Omega$ que consta de todos los resultados posibles de un experimento aleatorio es llamado espacio muestral, y cada resultado se denomina punto muestral. Con frecuencia habrá más de un espacio muestral que puede describir los resultados de un experimento, pero generalmente habrá uno que provee la mayor cantidad de información.

**Ejemplo 5.1:** Consideremos el experimento de lanzar dos veces una moneda. Sea 0 el resultado que describe la obtención de un sello, y 1 el resultado que describe la obtención de una cara. El espacio muestral asociado a este experimento se ilustra en la Fig. (5.1), donde, por ejemplo, el par (0, 1) representa que, en el primer lanzamiento, obtenemos un sello, y en el segundo, una cara. ◼︎

<p style="text-align: center;"><img src="figures/fig_5_1.png" width="450"></p>
<p style="text-align: center;">Fig. (5.1): Una representación gráfica del espacio muestral relativo al experimento de lanzar una moneda (no trucada) </p>

Si un espacio muestral tiene un numero finito de puntos muestrales, como en el ejemplo (5.1), se llamará **espacio muestral finito**. Si tiene un total de $n$ puntos, con $n\in \mathbb{N}$, siendo $n$ un valor no determinado, será llamado **espacio muestral infinito numerable** o **contable**. Si tiene un número indeterminado de puntos, no necesariamente equidistantes en relación a una referencia (por ejemplo, tantos puntos como los existentes en el intervalo $[a,b]$), será llamado **espacio muestral infinito no numerable**.

Con frecuencia, si un espacio muestral $\Omega$ es finito o infinito numerable, se habla de un **espacio muestral discreto**. Por otro lado, si $\Omega$ es infinito no numerable, suele ser denominado como **espacio muestral continuo**.

Un **evento** es un subconjunto $A$ del espacio muestral $\Omega$. Es decir, un conjunto de resultados posibles. Si el resultado de un experimento es un elemento de $A$, decimos que **el evento $A$ ocurrió**. Un evento que consta de un punto sencillo de $\Omega$ se denomina, con frecuencia, un **evento simple o elemental**.

**Ejemplo 5.2:** Si lanzamos una moneda dos veces, el evento relativo a que sólo salga una cara es un subconjunto del espacio muestral y que consta únicamente de los puntos $(0, 1)$ y $(1, 0)$, tal y como se ilustra en la Fig. (5.2). ◼︎

<p style="text-align: center;"><img src="figures/fig_5_2.png" width="450"></p>
<p style="text-align: center;">Fig. (5.2): Una representación gráfica del espacio muestral relativo al experimento descrito en el ejemplo (5.2)</p>

Como eventos particulares tenemos al mismo espacio muestral $\Omega$, el cual se conoce como **evento seguro** o **cierto**, dado que un elemento de $\Omega$ debe ocurrir sí o sí. Por otro lado, el conjunto vacío $\emptyset$ se denomina **evento imposible**, debido a que no es factible que éste ocurra. Usando operaciones lógicas (que son también válidas para el álgebra de conjuntos), podemos definir otros eventos de $\Omega$. Por ejemplo, si $A$ y $B$ son eventos, entonces podemos definir:

- **(C1):** $A\cap B$ corresponde a la **conjunción** de los eventos $A$ y $B$. Denota al evento compuesto por la ocurrencia simultánea de $A$ y $B$. En lógica matemática, la conjunción se suele escribir como $A\wedge B$ y se corresponde con la operación lógica “Y” (`and` o `&` en Python).
- **(C2):** $A\cup B$ corresponde a la **disyunción** de los eventos $A$ y $B$. Denota el evento compuesto por la ocurrencia de $A$, o bien, de $B$. En lógica matemática, la disyunción se suele escribir como $A\vee B$ y se corresponde con la operación lógica “O” (`or` o `|` en Python).
- **(C3):** $\bar{A}$ s el **evento complementario** a $A$. Denota el evento que describe la no ocurrencia de $A$. En lógica matemática, el complemento se corresponde con la operación lógica de negación denotada como “NO” (`not` o `~` en Python). También suele denotarse como $\sim A$.
- **(C4):** $A-B=A\cap \bar{B}$ describe la **diferencia simétrica** de los eventos $A$ y $B$. Describe al evento que consiste en la ocurrencia de $A$ y la no ocurrencia de $B$. En particular, observamos que $\bar{A}=\Omega -A$, donde $\Omega$ es el espacio muestral.

Si los conjuntos que describen a $A$ y $B$ son **disjuntos** (es decir, $A\cap B=\emptyset$), decimos que los eventos $A$ y $B$ son **mutuamente excluyentes**. En la práctica, esto significa que no pueden ocurrir simultáneamente. Una colección $A_{1},...,A_{n}$ de eventos es mutuamente excluyente si cada par $(A_{i},A_{j})$ de la colección (para $i\neq j$) es mutuamente excluyente.

En cualquier experimento aleatorio, hay siempre incertidumbre sobre si ocurrirá un evento en particular. Como una medida de la probabilidad con que esperamos que ocurra cierto evento, es conveniente asignar un número entre 0 y 1. Si estamos seguros de que tal evento ocurrirá, decimos que la **probabilidad** de dicho evento es 1 (o, equivalentemente, del 100%). Si estamos seguros de que tal evento no ocurrirá, la probabilidad de dicho evento es 0 (o del 0%).

La probabilidad así definida permite además definir la **probabilidad del complemento** de un evento. De esta manera, si un evento tiene una probabilidad de $\frac{1}{4}$ (o del 25%), entonces la diferencia $1-\frac{1}{4}=\frac{3}{4}$ (o 75%) será la probabilidad del complemento de dicho evento (es decir, la probabilidad de que no ocurra). Existen varias formas, en la teoría clásica, de definir una probabilidad. En primera instancia, tenemos un **enfoque clásico**, que establece que si un evento puede ocurrir de $k$ formas diferentes de un total de $n$, todas igualmente posibles (es decir, **equiprobables**), entonces la probabilidad del evento es igual a $\frac{k}{n}$. Si $A$ es tal evento, entonces escribimos $P(A)=\frac{k}{n}$.

Existe también un **enfoque frecuentista** que permite definir la probabilidad en un contexto más empírico. De esta manera, si después de $n$ repeticiones de un experimento, donde $n$ es un número muy grande, se observa que un evento ocurre $k$ veces, entonces la probabilidad de dicho evento es igual a $\frac{k}{n}$. Al respecto, una probabilidad definida de esta manera suele denominarse **probabilidad empírica** del evento.

Ambos enfoques presentan serios inconvenientes. El clásico debido a que la frase “igualmente probable” es una situación que se describe vagamente; y el frecuentista, porque un “número grande” es igualmente vago. Debido a estas dificultades, la definición de probabilidad se hace en base a ciertos enunciados conocidos formalmente como **axiomas de probabilidad**.

**<font color='blue'>Definición 5.1 – Probabilidad:</font>** Supongamos que tenemos un espacio muestral $\Omega$. Si $\Omega$ es discreto, todos los subconjuntos corresponden a eventos y viceversa, pero si $\Omega$ no es discreto, sólo los subconjuntos *medibles* corresponden a eventos. Para cada evento $A$ en la clase $C$ de eventos (siendo $C$ un subconjunto como el descrito previamente), asociamos un número $P(A)\in \mathbb{R}$. Entonces $P$ se denomina **función de probabilidad** y $P(A)$ la probabilidad asociada al evento $A$, si se cumplen los siguientes axiomas:

- **(A1):** Para cada evento $A$ en la clase $C$, se tiene que $P(A)\geq 0$.
- **(A2):** Para el evento seguro $\Omega$ en la clase $C$, se tiene que $P(\Omega)=1$.
- **(A3):** Para cualquier número de eventos mutuamente excluyentes, digamos $A_{1},...,A_{n}$, en la clase $C$, se tiene que $P\left( \bigcup^{n}_{k=1} A_{k}\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)$.

A partir de los axiomas de probabilidad, es posible agrupar una serie de resultados importantes e inmediatos relativos a la definición de probabilidad. Todos estos resultados los agrupamos en términos del siguiente teorema.

**<font color='crimson'>Teorema 5.1:</font>** *Sea $\Omega$ un espacio muestral y $\left\{ A_{k}\right\}^{n}_{k=1}$ una colección de eventos de $\Omega$. Entonces tenemos que:*

- **(T1):** *Si $A_{i}\subset A_{j}$, entonces $P(A_{i})\leq P(A_{j})$ y $P(A_{j}-A_{i})=P(A_{j})-P(A_{i})$.*
- **(T2):** *Para todo evento $A_{k}\subset \Omega$, se tiene que $0\leq P(A_{k})\leq 1$. Es decir, la probabilidad de un evento tiene un valor entre 0 y 1.*
- **(T3):** $P(\emptyset)=0$. *Es decir, el evento imposible tiene probabilidad nula.*
- **(T4):** *Si $\bar{A}$ es el complemento de $A$, entonces se tiene que $P(\bar{A})=1-P(A)$.*
- **(T5):** *Si $A=\bigcup^{n}_{k=1} A_{k}$, donde $A_{1},...,A_{n}$ son eventos mutuamente excluyentes, entonces $P\left( A\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)$. En particular, si $A=\Omega$, entonces $P(\Omega)=1$.*
- **(T6):** *Si $A$ y $B$ son dos eventos cualesquiera, entonces $P(A\cup B)=P(A)+P(B)-P(A\cap B)$. De forma más general, para la colección $\left\{ A_{k}\right\}^{n}_{k=1}$, si los eventos de dicha colección son todos arbitrarios, se tiene que*

$$P\left( \bigcup^{n}_{k=1} A_{k}\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)  -\sum_{i,j:1\leq i\leq j\leq n} P\left( A_{i}\cap A_{j}\right)  +\sum_{i,j,k:1\leq i\leq j\leq k\leq n} P\left( A_{i}\cap A_{j}\cap A_{k}\right)$$
<p style="text-align: right;">$(5.1)$</p>

- **(T7):** *Para cualesquiera eventos $A$ y $B$, se tiene que $P(A)=P(A\cap B)+P(A\cap \bar{B})$*.
- **(T8):** *Si un evento $A$ debe dar como resultado la ocurrencia de uno de los eventos mutuamente excluyentes $A_{1},...,A_{n}$, entonces tenemos que*

$$P\left( A_{k}\right)  =\sum^{n}_{k=1} P\left( A\cap A_{k}\right)$$
<p style="text-align: right;">$(5.2)$</p>
◆

### Asignación de probabilidades.
Si un espacio muestral $\Omega$ consta de un número finito de resultados $a_{1},...,a_{n}$, entonces, conforme **(T5)**, tenemos que $P(A_{1})+\cdots +P(A_{n})=1$, donde $A_{1},...,A_{n}$ es una colección de eventos elementales tales que $A_{i}=\left\{ a_{i}\right\}$. Entonces podemos escoger arbitrariamente cualquier número no negativo para las probabilidades de esos eventos sencillos siempre y cuando se satisfaga la ecuación (5.2). En particular, si suponemos que hay probabilidades iguales para todos esos eventos sencillos, entonces se tendrá que

$$P\left( A_{k}\right)  =\frac{1}{k} \  ;\  k=1,...,n$$
<p style="text-align: right;">$(5.3)$</p>

Si $A$ es un conjunto conformado por $h$ eventos sencillos, entonces se tendrá que

$$P\left( A\right)  =\frac{h}{n}$$
<p style="text-align: right;">$(5.4)$</p>

que equivale a la fórmula clásica de probabilidad vista al inicio de esta sección.

**Ejemplo 5.3:** Supongamos que se lanza un dado no cargado y simétrico una sola vez. Calcularemos la probabilidad de obtener un 2 o un 5 en dicho lanzamiento. En efecto, el espacio muestral de este experimento corresponde al conjunto finito $\Omega =\left\{ 1,2,3,4,5,6\right\}$. Si asignamos probabilidades iguales a cada uno de los puntos muestrales (lo que desde luego es válido, puesto que hemos supuesto que el dado no está cargado y es completamente simétrico), entonces

$$P\left( 1\right)  =P\left( 2\right)  =\cdots =P\left( 6\right)  =\frac{1}{6}$$
<p style="text-align: right;">$(5.5)$</p>

Por lo tanto, la probabilidad buscada es $P(2\cup 5)=P(2)+P(5)=1/3$. ◼

### Probabilidad condicional.
Sean $A$ y $B$ dos eventos ilustrados en el diagrama de Venn de la Fig. (5.3), tales que $P(A)>0$. Denotemos por $P(B|A)$ la probabilidad de ocurrencia del evento $B$, condicionada a la ocurrencia previa del evento $A$. Puesto que sabemos que ocurrió $A$, es claro que dicho evento se convierte en el espacio muestral del evento $A|B$. Tiene sentido, por tanto, la siguiente definición.

**<font color='blue'>Definición 5.2 – Probabilidad condicional:</font>** Sean $A$ y $B$ dos eventos tales que $P(A)>0$. Definimos la **probabilidad condicional** de ocurrencia de $B$, dado que previamente ocurrió $A$, denotada como $P(B|A)$, como

$$P\left( B|A\right)  :=\frac{P\left( A\cap B\right)  }{P\left( A\right)}$$
<p style="text-align: right;">$(5.6)$</p>

<p style="text-align: center;"><img src="figures/fig_5_3.png" width="350"></p>
<p style="text-align: center;">Fig. (5.3): Diagrama de Venn que muestra los subconjuntos $A$ y $B$ de un espacio muestral $\Omega$, remarcando su intersección</p>

**Ejemplo 5.4:** Supongamos nuevamente que lanzamos un dado no cargado y simétrico. Vamos a determinar la probabilidad de que el resultado sea un número menor que 4, dado que previamente el mismo dado, tras lanzarlo, entregó un número impar.

En efecto, sea $A$ el evento condicional relativo a que, al lanzar el dado, el resultado sea un número impar. Luego $P(A)=\frac{1}{2}$. Por lo tanto, aplicando la fórmula de probabilidad condicional (5.6), obtenemos

$$P\left( B|A\right)  =\frac{P\left( A\cap B\right)  }{P\left( B\right)  } =\frac{1/3}{1/2} =\frac{2}{3}$$
<p style="text-align: right;">$(5.7)$</p>

Por lo tanto, la información empírica relativa a saber que nuestro dado previamente resultó en un número impar eleva las probabilidades de obtener un número menor que 4 a 2/3 (originalmente, sin ese conocimiento previo, dicha probabilidad era de 1/2). ︎◼︎

La definición de probabilidad condicional permite enunciar los siguientes teoremas.

**<font color='crimson'>Teorema 5.2:</font>** *Sean $A_{1},A_{2}$ y $A_{3}$ tres eventos arbitrarios. Entonces tenemos que*

$$P\left( A_{1}\cap A_{2}\cap A_{3}\right)  =P\left( A_{1}\right)  P\left( A_{2}|A_{1}\right)  P\left( A_{3}|A_{1}\cap A_{2}\right)$$
<p style="text-align: right;">$(5.8)$</p>
◆

**<font color='crimson'>Teorema 5.3 – Regla de la suma:</font>** *Si un evento $A$ debe originar uno de los eventos mutuamente excluyentes $A_{1},...,A_{n}$, entonces tenemos que*

$$P\left( A\right)  =\sum^{n}_{k=1} P\left( A_{k}\right)  P\left( A|A_{k}\right)$$
<p style="text-align: right;">$(5.9)$</p>
◆

**<font color='blue'>Definición 5.3 – Eventos independientes:</font>** Sean $A$ y $B$ dos eventos con probabilidades de ocurrencia $P(A)$ y $P(B)$, respectivamente. Diremos que $A$ y $B$ son **eventos independientes** si se cumple que $P(B|A)=P(B)$. Esto equivale a decir que $P(A\cap B)=P(A)P(B)$. Más aun, la colección de eventos $A_{1},...,A_{n}$ será llamada **colección de eventos independientes** si cada una de las parejas $(A_{i},A_{j})$ es independiente (para $i\neq j$). En este caso, se tiene que

$$P\left( \bigcap^{n}_{k=1} A_{k}\right)  =\prod^{n}_{k=1} P\left( A_{k}\right)$$
<p style="text-align: right;">$(5.10)$</p>

Los resultados anteriores nos permiten formular el siguiente teorema, el cual es un resultado importante de la teoría de probabilidad.

**<font color='crimson'>Teorema 5.4 – Regla del producto:</font>** *Sea $A_{1},...,A_{n}$ una colección de eventos mutuamente excluyentes cuya unión es el espacio muestral $\Omega$ (es decir, al menos uno de los eventos de la colección tiene probabilidad no nula). Entonces, si $A$ es un evento arbitrario, se tiene que*

$$P\left( A_{k}|A\right)  =\frac{P\left( A_{k}\right)  P\left( A|A_{k}\right)  }{\sum\nolimits^{n}_{j=1} P\left( A_{j}\right)  P\left( A|A_{j}\right)  } \  ;\  1\leq k\leq n$$
<p style="text-align: right;">$(5.11)$</p>
◆

En términos más generales y menos matemáticos, el teorema de Bayes es de enorme relevancia puesto que vincula la probabilidad de $A$ dado $B$ con la probabilidad de $B$ dado $A$. Es decir, por ejemplo, que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza. Este sencillo ejemplo permite ilustrar la alta relevancia del teorema (5.4) en cuestión para la ciencia en todas sus ramas, puesto que tiene vinculación íntima con la comprensión de la probabilidad de aspectos causales dados los efectos observados. Es decir, mientras tengamos **evidencia empírica** de la ocurrencia de un fenómeno, siempre podemos tener un cierto nivel de certidumbre en relación a la ocurrencia de otros fenómenos que, experimentalmente, sabemos que están relacionados con el primero.

El teorema (5.4) es válido en todas las aplicaciones de la teoría de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea. En esencia, los seguidores de la estadística tradicional solo admiten probabilidades basadas en **experimentos repetibles** y que tengan una **confirmación empírica** mientras que los llamados **estadísticos Bayesianos** permiten **probabilidades subjetivas**. El teorema (5.4) puede servir entonces para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando recibimos información adicional de un experimento. La **estadística Bayesiana** está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica es lo que está abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los **clasificadores Bayesianos** que son frecuentemente usados en implementaciones de filtros de correo basura o spam, que se adaptan con el uso. Otra aplicación se encuentra en la fusión de datos, combinando información expresada en términos de densidad de probabilidad proveniente de distintos sensores. Es decir, la estadística Bayesiana resulta esencial en la base de muchos procesos de inteligencia artificial que son comunes en los algoritmos de machine learning.

**Ejemplo 5.5:** Consideremos una caja (que llamaremos $\Omega_{1}$) que contiene 3 bolitas rojas y 2 bolitas azules. Otra caja (la caja $\Omega_{2}$) contiene 2 bolitas rojas y 8 bolitas azules. Se define el siguiente experimento: Se lanza una moneda no trucada (es decir, cuyos resultados son equiprobables) y, si sale cara, se saca una bolita de la caja $\Omega_{1}$ y, si se obtiene sello, se saca una bolita de la caja $\Omega_{2}$. Vamos a resolver dos interrogantes:

- **(I1):** Determinaremos la probabilidad de obtener una bolita roja.
- **(I2):** Suponiendo que quien lanza la moneda no revela si obtiene cara o sello (de manera que no sabemos tampoco de qué caja se saca la bolita respectiva), y afirma que obtuvo una bolita roja, determinaremos la probabilidad de que haya escogido la caja $\Omega_{1}$.

En efecto, sea $R$ el evento definido por la obtención de una bolita roja, mientras que $\Omega_{1}$ y $\Omega_{2}$ describen los eventos que se escojan las cajas correspondientes. Dado que podemos obtener una bolita roja en ambas cajas, podemos aplicar la fórmula de probabilidad condicional de manera directa, obteniendo

$$P\left( R\right)  =P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  +P\left( \Omega_{2} \right)  P\left( R|\Omega_{2} \right)  =\frac{1}{2} \left( \frac{3}{3+2} \right)  +\frac{1}{2} \left( \frac{2}{2+8} \right)  =\frac{2}{5}$$
<p style="text-align: right;">$(5.12)$</p>

Para la pregunta **(I2)**, basta con aplicar el teorema de Bayes, lo que nos da

$$P\left( \Omega_{1} |R\right)  =\frac{P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  }{P\left( \Omega_{1} \right)  P\left( R|\Omega_{1} \right)  +P\left( \Omega_{2} \right)  P\left( R|\Omega_{2} \right)  } =\frac{\frac{1}{2} \left( \frac{3}{3+2} \right)  }{\frac{1}{2} \left( \frac{3}{3+2} \right)  +\frac{1}{2} \left( \frac{2}{2+8} \right)  } =\frac{3}{4}$$
<p style="text-align: right;">$(5.13)$</p>
◼︎

## Teoría moderna de probabilidad.

### Funciones de conjunto con aditividad finita.
El área de una región en el plano $XY$, la longitud de una curva, o la masa de un sistema de partículas son números que miden la magnitud o contenido de un conjunto. Todas esas medidas tienen ciertas propiedades en común. Establecidas de forma abstracta, conducen a un concepto general llamado **función de conjunto con aditividad finita**. Más adelante redefiniremos la probabilidad como otro ejemplo de función de este tipo. Para preparar el camino, primero discutiremos algunas propiedades comunes para este tipo de funciones.

Una función $f:\mathcal{A}\longrightarrow \mathbb{R}$ cuyo dominio es una colección $\mathcal{A}$ de conjuntos y cuyos valores son números reales, se llama **función de conjunto**. Si $A$ es un conjunto de la colección $\mathcal{A}$, el valor de la función $f$ en $A$ se representa como $f(A)$. Tiene sentido por tanto la siguiente definición.

**<font color='blue'>Definición 5.4 – Función de conjunto con aditividad finita:</font>** Una función de conjunto $f:\mathcal{A}\longrightarrow \mathbb{R}$ se dice que es de **aditividad finita** si se cumple que

$$f(A\cup B)=f(A)+f(B)$$
<p style="text-align: right;">$(5.14)$</p>

Siempre que $A$ y $B$ sean conjuntos disjuntos de $\mathcal{A}$, tales que $A\cup B\in \mathcal{A}$.

El área, la longitud y la masa son ejemplos de este tipo de funciones. A continuación, discutiremos algunas consecuencias de la ecuación (5.14). En las aplicaciones corrientes, los conjuntos de $\mathcal{A}$ son subconjuntos de un conjunto dado $\Omega$, llamado **conjunto universal**. Es común tener que efectuar las operaciones de unión, intersección y complementación sobre los conjuntos de $\mathcal{A}$. Para garantizar que $\mathcal{A}$ es cerrado con respecto a estas operaciones impondremos una condición: $\mathcal{A}$ debe ser un **álgebra Booleana**, la cual se define a continuación.

**<font color='blue'>Definición 5.5 – Álgebra Booleana de conjuntos:</font>** Una clase no vacía $\mathcal{A}$ de subconjuntos de un conjunto universal $\Omega$ es llamada **álgebra Booleana** si, para todo par $A$ y $B$ de conjuntos de $\mathcal{A}$, se tiene que

$$A\cup B\in \mathcal{A} \wedge \bar{A} \in \mathcal{A}$$
<p style="text-align: right;">$(5.15)$</p>

Donde, como antes, $\bar{A}$ denota al complemento de $A$ con respecto a $\Omega$. Un álgebra Booleana también es cerrada para las intersecciones y diferencias simétricas, ya que $A\cap B=\overline{\left( \bar{A} \cup \bar{B} \right)}$ y $A-B=A\cap \bar{B}$. Esto implica que el conjunto vacío $\emptyset$ también pertenece a $\mathcal{A}$, ya que $\emptyset=A-A$ para algún $A$ de $\mathcal{A}$. También el conjunto universal $\Omega$ pertenece a $\mathcal{A}$, puesto que $\Omega=\bar{\emptyset}$.

A partir de los subconjuntos de un conjunto universal dado $\Omega$ es posible construir un gran número de álgebras Booleanas. La menor de esas álgebras es la clase $\mathcal{A}_{0} =\left\{ \emptyset ,\Omega \right\}$ que consta únicamente de los conjuntos *triviales* $\emptyset$ y $\Omega$. En el otro extremo está la clase $\mathcal{A}_{1}$, que consta de *todos* los subconjuntos de $\Omega$. Toda álgebra Boleana construida con subconjuntos de $\Omega$ satisface las **relaciones de inclusión** $\mathcal{A}_{0} \subseteq \mathcal{A} \subseteq \mathcal{A}_{1}$.

La propiedad de aditividad finita de las funciones de conjunto en la ecuación (5.14) exige que $A$ y $B$ sean conjuntos disjuntos. De esta exigencia se desprende el siguiente teorema.

**<font color='crimson'>Teorema 5.5:</font>** *Si $f:\mathcal{A}\longrightarrow \mathbb{R}$ es una función de conjunto con aditividad finita sobre un álgebra Booleana $\mathcal{A}$ de conjuntos, entonces, para todo par de conjuntos $A$ y $B$ de $\mathcal{A}$, tenemos que*

$$f\left( A\cap B\right)  =f\left( A\right)  +f\left( B-A\right)  \wedge f\left( A\cup B\right)  =f\left( A\right)  +f\left( B\right)  -f\left( A\cap B\right)$$
<p style="text-align: right;">$(5.16)$</p>

### Medidas con aditividad finita.
Las funciones de conjunto que representan áreas, longitudes y masas poseen propiedades comunes. Por ejemplo, todas estas funciones son no negativas; es decir, $f(A)\geq 0$ para cada conjunto $A$ de la clase $\mathcal{A}$ que se considera. Esto motiva la siguiente definición.

**<font color='blue'>Definición 5.6 – Medida con aditividad finita:</font>** Una función de conjunto no negativa $f:\mathcal{A}\longrightarrow \mathbb{R}$ que es con aditividad finita es llamada **medida con aditividad finita** o, simplemente, una medida.

Aplicando el teorema (5.5) a la definición (5.6), obtenemos inmediatamente las siguientes propiedades, descritas en el teorema (5.6).

**<font color='crimson'>Teorema 5.6:</font>** *Sea $f:\mathcal{A}\longrightarrow \mathbb{R}$ una medida con aditividad finita definida sobre un álgebra Booleana $\mathcal{A}$. Para cualquier par de conjuntos $A$ y $B$ de $\mathcal{A}$, se cumplen las siguientes propiedades:*

- **(P1):** $f\left( A\cup B\right)  \leq f\left( A\right)  +f\left( B\right)$.
- **(P2):** $f\left( B-A\right)  =f\left( B\right)  -f\left( A\right)  \Longleftrightarrow A\subseteq B$.
- **(P3):** $f\left( A\right)  \leq f\left( B\right)  \Longleftrightarrow A\subseteq B$.
- **(P4):** $f\left( \emptyset \right)  =0$.
◆

**Ejemplo 5.6 – Número de elementos en un conjunto finito:** Sea $\Omega =\left\{ a_{1},...,a_{n}\right\}$ un conjunto que consta de $n$ elementos distintos y sea $\mathcal{A}$ la clase de todos los subconjuntos de $\Omega$. Para cada $A$ de $\mathcal{A}$, representemos por $\nu (A)$ el número de elementos distintos de $A$. Es sencillo verificar que esta función es de aditividad finita en $\mathcal{A}$. En efecto, si $A$ tiene $k$ elementos y $B$ tiene $m$ elementos, entonces $\nu (A)=k$ y $\nu (B)=m$. Si $A$ y $B$ son disjuntos es evidente que $A\cup B$ es un subconjunto de $\Omega$ con $(k+m)$ elementos, así que $\nu (A\cup B)=k+m=\nu (A) +\nu (B)$. La función $\nu$ es no negativa, por lo que, además, se trata de una medida. ◼︎

### Definición de probabilidad.
En el lenguaje de las funciones de conjunto, la probabilidad es un tipo especial de medida (denotada por $P$) definida sobre una particular álgebra Booleana $\mathcal{B}$ de subconjuntos. Los elementos de $\mathcal{B}$ son subconjuntos de un conjunto universal $\Omega$. Como bien sabemos, este conjunto $\Omega$ es llamado **espacio muestral**. Primero comentaremos la definición de probabilidad para espacios muestrales finitos y luego lo haremos para aquellos que son infinitos.

**<font color='blue'>Definición 5.7 – Probabilidad para espacios muestrales finitos:</font>** Sea $\mathcal{B}$ un álgebra Booleana cuyos elementos son subconjuntos de un conjunto finito dado $\Omega$. Una función de conjunto $P:\mathcal{B}\longrightarrow \mathbb{R}$ se llama **medida de probabilidad** si satisface las siguientes condiciones:

- **(C1):** $P$ es de aditividad finita.
- **(C2):** $P$ es no negativa.
- **(C3):** $P(\Omega)=1$.

Dicho de otro modo, para los espacios muestrales finitos, la probabilidad es simplemente una medida que asigna el valor 1 al espacio completo.

Es importante darnos de que, para una descripción completa de la medida de probabilidad, deben precisarse tres ideas: El espacio muestral $\Omega$, el álgebra Booleana $\mathcal{B}$ construida con ciertos subconjuntos de $\Omega$, y la función de conjunto $P$. La tripleta $(\Omega, \mathcal{B}, P)$ se denomina, con frecuencia, **espacio de probabilidad**. En la mayoría de las aplicaciones elementales, el álgebra Booleana $\mathcal{B}$ es la colección de todos los subconjuntos de $\Omega$.

**Ejemplo 5.7:** El juego de *"cara o sello"* es un ejemplo típico de aplicación de la teoría de la probabilidad. Como espacio muestral $\Omega$ tomamos el conjunto de todos los resultados posibles en el juego. Cada resultado es "cara" o "sello", que representamos con los símbolos $h$ y $t$, respectivamente. Dicho espacio muestral es pues $\Omega =\left\{ h,t\right\}$. Como álgebra Booleana consideraremos la colección de todos los subconjuntos de $\Omega$, que son cuatro: $\emptyset, \Omega, H$ y $T$, donde $H=\left\{ h\right\}$ y $T=\left\{ t\right\}$. Ahora asignaremos probabilidades a cada uno de estos subconjuntos. Para $\emptyset$ y $\Omega$ estos valores no son eligibles, ya que por **(C3)**, $P(\Omega)=1$ y $P(\emptyset)=0$. En cambio, tenemos libertad en la asignación a los otros dos subconjuntos, $H$ y $T$. Ya que $H$ y $T$ son conjuntos disjuntos cuya reunión es $\Omega$, la propiedad aditiva exige que

$$P\left( H\right)  +P\left( T\right)  =P\left( \Omega \right)  =1$$
<p style="text-align: right;">$(5.17)$</p>

Como valores de $P(H)$ y $P(T)$ podemos tomar cualquier valor no negativo con tal de que su suma sea igual a 1. Si tenemos en cuenta que la moneda no está trucada, de modo que no existe razón a priori para preferir cara o sello, parece natural asignar los valores

$$P\left( H\right)  =P\left( T\right)  =\frac{1}{2}$$
<p style="text-align: right;">$(5.18)$</p>

Si, en cambio, la moneda no es geométricamente perfecta, podemos asignar valores diferentes a estas dos probabilidades. Por ejemplo, $P(H)=1/3$ y $P(T)=2/3$ son tan aceptables como $P\left( H\right)  =P\left( T\right)=1/2$. En efecto, para todo $p\in \mathbb{R}$ tal que $0\leq p\leq 1$, podemos definir $P(H)=p$ y $P(T)=1-p$, y la función resultante $P$ satisfará todas las condiciones que se exigen a una medida de probabilidad.

Para una moneda determinada, no existe un método matemático para precisar cuál es la probabilidad $p$ “real”. Si escogemos $p=1/2$, podemos deducir consecuencias lógicas de la hipótesis de que la moneda no está trucada y, por extensión, no presenta sesgos de ningún tipo. La teoría desarrollada para el estudio de las probabilidades en monedas correctas puede utilizarse como test comprobatorio de su carencia de sesgo, efectuando un gran número de experimentos con ella y comparando los resultados experimentales con las predicciones teóricas. El poner de acuerdo la teoría y la evidencia empírica pertenece a la rama de la teoría de la probabilidad llamada **inferencia estadística**, y no la expondremos en estos apuntes. ◼︎

El ejemplo anterior es una típica aplicación del llamado **cálculo de probabilidades**. Las cuestiones probabilísticas se presentan a menudo en situaciones llamadas experimentos. No intentaremos definir un experimento (ya hicimos un acercamiento, más bien vago, a esta cuestión al inicio de esta sección); en cambio, mencionaremos tan sólo algunos ejemplos corrientes: Lanzar una o varias monedas, lanzar un par de dados, repartir una mano de cartas, sacar una bola de una urna, recuento de las mujeres que estudian en la Facultad de Ingeniería de la Universidad de Santiago de Chile, selección de un número en una guía telefónica, registro de la radiación en un contador Geiger, etc.

Para discutir las cuestiones de probabilidad que surgen en tales experimentos, nuestro primer trabajo es la construcción de un espacio muestral Ω que pueda utilizarse para mostrar todos los resultados posibles del experimento, como hicimos en el juego de lanzar una moneda. Cada elemento de $\Omega$ representará un resultado del experimento y cada resultado corresponderá a uno y sólo un elemento de $\Omega$. A continuación, elegimos un álgebra de Boole $\mathcal{B}$ de subconjuntos de $\Omega$ (casi siempre, todos los subconjuntos de $\Omega$) y entonces se define una medida de probabilidad $P$ sobre $\mathcal{B}$. La elección de $\Omega$, $\mathcal{B}$ y $P$ dependerá de la información que se posea acerca de los detalles del experimento y del problema que nos vamos a plantear. El objeto del cálculo de probabilidades no es discutir si el espacio de probabilidad $(\Omega,\mathcal{B},P)$ ha sido elegido correctamente. Esto pertenece a la ciencia o juego del que el experimento ha surgido, y tan solo la experiencia puede darnos idea de si la elección fue bien hecha o no. El cálculo de probabilidad es el estudio de las consecuencias lógicas que pueden deducirse una vez dado un espacio de probabilidad. La elección de un buen espacio de probabilidad no es teoría de probabilidad –ni siquiera es matemáticas–; es en cambio el arte de aplicar la teoría probabilística al mundo real.

Si $\Omega =\left\{ a_{1},...,a_{n}\right\}$ y si $\mathcal{B}$ consta de todos los subconjuntos de $\Omega$, la función de probabilidad $P$ está completamente determinada si conocemos sus valores para los conjuntos de un solo elemento,

$$P\left( \left\{ a_{1}\right\}  \right)  ,P\left( \left\{ a_{2}\right\}  \right)  ,...,P\left( \left\{ a_{n}\right\}  \right)$$
<p style="text-align: right;">$(5.19)$</p>

En efecto, todo subconjunto de $A$ de $\Omega$ es una reunión disjunta de los conjuntos anteriores, y $P(A)$ está determinada por la propiedad aditiva. Por ejemplo, cuando

$$A=\bigcup^{n}_{k=1} \left\{ a_{k}\right\}$$
<p style="text-align: right;">$(5.20)$</p>

la propiedad aditiva exige que

$$P\left( A\right)  =\sum^{n}_{k=1} P\left( \left\{ a_{k}\right\}  \right)$$
<p style="text-align: right;">$(5.21)$</p>

Debido a que el método probabilístico se usa en cuestiones prácticas, es conveniente imaginarse que cada espacio de probabilidad $(\Omega,\mathcal{B},P)$ está asociado a un experimento real o ideal. El conjunto universal $\Omega$ puede entonces concebirse como la colección de todos los resultados imaginables del experimento, como en el ejemplo (5.7). Cada elemento de $\Omega$ se llama **resultado** o **muestra** y los subconjuntos de $\Omega$ que se presentan en el álgebra de Boole $\mathcal{B}$ se denominan **sucesos**. Los motivos de esta terminología se pondrán en evidencia al tratar algunos ejemplos.

Dos sucesos $A$ y $B$ son **igualmente probables** (o **equiprobables**) si $P(A)=P(B)$. El suceso $A$ es **más probable** que $B$ si $P(A)>P(B)$ y **por lo menos tan probable** como $B$ si $P(A)\geq P(B)$. La Tabla (5.1) nos muestra una lista de locuciones del lenguaje habitual en las discusiones de la teoría de probabilidad. Las letras $A$ y $B$ representan sucesos, y $x$ es el resultado de un experimento asociado al espacio muestral $\Omega$. Cada fila de la columna de la izquierda es una afirmación relativa a los sucesos $A$ y $B$, y en la misma fila en la columna de la derecha se expresa la misma afirmación en el lenguaje de la teoría de conjuntos.

<p style="text-align: center;">Tabla (5.1): Proposiciones usadas en la teoría de probabilidad y su significado en la teoría de conjuntos</p>

| Proposiciones                                     | Significado en la teoría de conjuntos    |
| :------------------------------------------------ | :--------------------------------------- |
| Por lo menos uno de los sucesos $A$ o $B$ ocurre. | $x\in A\cup B$                           |
| Ambos sucesos, $A$ y $B$, ocurren.                | $x\in A\cap B$                           |
| Ni $A$ ni $B$ ocurren.                            | $x\in \bar{A}\cap \bar{B}$               |
| $A$ ocurre, pero $B$ no.                          | $x\in A\cap \bar{B}$                     |
| Exactamente ocurre uno de los sucesos, $A$ o $B$. | $x\in (A\cap \bar{B})\cup (\bar \cap B)$ |
| No más de uno de los sucesos, $A$ o $B$, ocurre.  | $x\in (\overline{A\cap B})$              |
| Si $A$ ocurre, también $B$ ($A$ implica $B$).     | $A\subseteq B$                           |
| $A$ y $B$ son mutuamente excluyentes.             | $A\cap B =\emptyset$                     |
| Suceso $A$ o suceso $B$.                          | $A\cup B$                                |
| Suceso $A$ y suceso $B$.                          | $A\cap B$                                |

**Ejemplo 5.8:** Consideremos el experimento consistente en tomar dos naipes de cada una de las dos barajas que constituyen un juego de cartas inglés. Vamos a determinar la probabilidad de que por lo menos uno de estos naipes sea el as de corazones.

Sean $a$ y $b$ cada naipe a sacar, uno de cada baraja. Representaremos un resultado mediante el par ordenado $(a,b)$ el número de resultados posibles; esto es, el número total de pares distintos $(a,b)$ del espacio muestral de $\Omega$ se deduce mediante una sencilla aplicación del principio multiplicativo. Así, dado que cada baraja tiene 52 naipes en total, se tendrá que el número de elementos de $\Omega$ es $52\times 52=52^{2}$. Asignamos a cada uno de estos pares la probabilidad $1/52^{2}$. El suceso en el que estamos interesados es el conjunto $A$ de pares $(a,b)$ en los que $a$ o $b$ pueden ser el as de corazones. En $A$ hay $52+51$ elementos (ya que no hemos establecido que el primer naipe se devuelve a la baraja una vez sacado). Por lo tanto, en esta hipótesis, deducimos que

$$P\left( A\right)  =\frac{52+51}{52^{2}} =\frac{1}{26} -\frac{1}{52^{2}}$$
<p style="text-align: right;">$(5.22)$</p>

## Experimentos o pruebas compuestas.
Una disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise Pascal y Pierre de Fermat, a la creación del cálculo de probabilidades. Antoine Gombaud, caballero de Méré, noble francés interesado en cuestiones de juegos y apuestas, llamó la atención a Pascal respecto a una aparente contradicción en un popular juego de dados. El juego consistía en lanzar 24 veces un par de dados; y el problema en decidir si era lo mismo apostar la misma cantidad a favor o en contra de la aparición por lo menos de un «doble seis» en las 24 tiradas. Una regla del juego aparentemente bien establecida condujo a de Méré a creer que apostar por un doble seis en 24 tiradas era ventajoso, pero sus propios cálculos indicaban justamente lo contrario. Este problema, consecuentemente, fue conocido como el *problema de Méré*.

Para resolver este problema, consideremos el experimento de lanzar un par de dados una sola vez. El resultado de este juego puede representarse mediante pares ordenados $(a,b)$ en los que $a$ y $b$ recorren los valores 1, 2, 3, 4, 5, y 6. El espacio muestral $\Omega$ consta de 36 de esos pares. Si asumimos que los dados no están cargados (son geométricamente perfectos, lo que implica que cada cara tiene igual probabilidad de salir), asignamos a cada par la probabilidad 1/36.

Supongamos que lanzamos los dados 𝑛 veces. La sucesión de las $n$ pruebas es una prueba compuesta que queremos describir matemáticamente. Por ello, necesitamos un nuevo espacio muestral y una correspondiente medida de probabilidad. Consideremos los resultados del nuevo juego como vectores en $\mathbb{R}^{n}$ del tipo $(x_{1},...,x_{n})$, donde cada elemento $x_{i}$ es uno de los resultados del espacio muestral original $\Omega$. Es decir, el espacio muestral para la prueba compuesta es el producto cartesiano $\Omega\times \cdots \times \Omega=\Omega^{n}$. De esta manera, $\Omega^{n}$ tiene un total de $36^{n}$ elementos, y asignamos la probabilidad $1/36^{n}$ a cada uno de ellos. Nos interesa el suceso “por lo menos un doble 6 en $n$ tiradas”. Designemos tal suceso por $A$. En este caso, es más sencillo calcular la probabilidad del suceso complementario $\bar{A}$, que significa “ningún doble 6 en $n$ tiradas”. Cada elemento de $\bar{A}$ es un vector en $\mathbb{R}^{n}$ cuyas componentes pueden ser cualquier elemento de $\Omega$ excepto $(6, 6)$. Por consiguiente, existen 35 valores para cada componente y por lo tanto $35^{n}$ vectores en total en $\bar{A}$. Puesto que cada elemento de $\bar{A}$ tiene probabilidad $(1/36)^{n}$, la suma de todas las probabilidades puntuales en $\bar{A}$ es igual a $(35/36)^{n}$. Esto nos da

$$P\left( A\right)  =1-P\left( \bar{A} \right)  =1-\left( \frac{35}{36} \right)^{n}$$
<p style="text-align: right;">$(5.23)$</p>

Para contestar a la pregunta de Méré, tenemos que decidir si $P(A)$ es mayor o menor que 1/2 cuando $n=24$. La desigualdad $P(A)\geq 1/2$ es equivalente a decir que $1-\left( \frac{35}{36} \right)^{n}  \geq \frac{1}{2}$ o $\left( \frac{35}{36} \right)^{n}  \leq \frac{1}{2}$. Tomando logaritmos, encontramos que

$$n\log \left( 35\right)  -n\log \left( 36\right)  \leq -\log \left( 2\right)  \  \vee \  n\geq \frac{\log \left( 2\right)  }{\log \left( 36\right)  -\log \left( 35\right)  } =24.6$$
<p style="text-align: right;">$(5.24)$</p>

Por consiguiente, $P(A)<1/2$ cuando $n=24$ y $P>1/2$ cuando $n\geq 25$. No es ventajosa una apuesta de una cantidad al suceso de que por lo menos se presente un doble 6 en 24 tiradas, frente a la apuesta de la misma cantidad al suceso contrario.

Esta discusión sugiere un método general para tratar los experimentos sucesivos. Si una prueba se repite dos o más veces, el resultado puede considerarse como una prueba compuesta. Más general, una prueba compuesta puede ser el resultado de ejecutar dos o más pruebas distintas sucesivamente. Cada una de las pruebas individuales puede estar relacionada con cada una de las otras o pueden ser estocásticamente independientes, en el sentido de que la probabilidad del resultado de cada una de ellas no depende de los resultados de las otras.

Por simplicidad, discutiremos cómo se pueden combinar dos pruebas independientes en una prueba compuesta. La generalización a más de dos experiencias será evidente.

Para asociar el espacio de probabilidad natural a una prueba o experiencia compuesta, debemos definir el nuevo espacio muestral $\Omega$, el álgebra Booleana $\mathcal{B}$ de subconjuntos de $\Omega$ y la medida de probabilidad $P$ sobre $\mathcal{B}$. Sean $(\Omega_{1},\mathcal{B}_{1},P_{1})$ y $(\Omega_{2},\mathcal{B},P_{2})$  dos espacios de probabilidad asociados a dos experiencias 𝐸_1 y 𝐸_2. Con 𝐸 representamos la experiencia o prueba compuesta para las que el espacio muestral $\Omega$ es el producto cartesiano $\Omega_{1}\times \Omega_{2}$. Un resultado de $E$ es el par $(x,y)$ de $\Omega$, donde la primera componente $x$ es un resultado de $E_{1}$ y el segundo 𝑦 es un resultado de $E_{2}$. Si $\Omega_{1}$ tiene $n$ elementos y $\Omega_{2}$ tiene $m$ elementos, el producto $\Omega_{1}\times \Omega_{2}$ tendrá $nm$ elementos.

Como nueva álgebra Booleana $\mathcal{B}$ tomamos la colección de todos los subconjuntos de $\Omega$. A continuación definimos la probabilidad $P$. Ya que $\Omega$ es finito, podemos definir $P(x,y)$ para cada punto $(x,y)$ de $\Omega$ y utilizar la aditividad al definir $P$ para los subconjuntos de $\Omega$. Las probabilidades $P(x,y)$ pueden asignarse de varias maneras. Sin embargo, si dos pruebas $E_{1}$ y $E_{2}$ son estocásticamente independientes, definimos $P$ mediante la ecuación

$$P\left( x,y\right)  =P_{1}\left( x\right)  P_{2}\left( y\right)  ;\forall \left( x,y\right)  \in \Omega$$
<p style="text-align: right;">$(5.25)$</p>

Esta afirmación se justifica como sigue: Consideremos dos sucesos particulares $A$ y $B$ del nuevo espacio $\Omega$, definidos como

$$\begin{array}{l}A=\left\{ \left( x_{1},y_{i}\right)  \right\}^{m}_{i=1}  =\left\{ \left( x_{1},y_{1}\right)  ,...,\left( x_{1},y_{m}\right)  \right\}  \\ B=\left\{ \left( x_{i},y_{1}\right)  \right\}^{n}_{i=1}  =\left\{ \left( x_{1},y_{1}\right)  ,...,\left( x_{n},y_{1}\right)  \right\}  \end{array}$$
<p style="text-align: right;">$(5.26)$</p>

Esto es, $A$ es el conjunto de todos los pares de $\Omega_{1}\times \Omega_{2}$ cuyo primer elemento es $x_{1}$, y $B$ es el conjunto de todos los pares de $\Omega_{1}\times \Omega_{2}$ cuyo segundo elemento es $y_{1}$. La intersección de los dos conjuntos $A$ y $B$ es el conjunto de un solo elemento $\left\{ \left( x_{1},y_{1}\right)  \right\}$. Si presentimos que el primer resultado $x_{1}$ no debe influir en el resultado $y_{1}$, parece razonable exigir que los sucesos $A$ y $B$ sean independientes. Esto significa que habrá que definir la nueva función de probabilidad $P$ de manera que

$$P\left( A\cap B\right)  =P\left( A\right)  P\left( B\right)$$
<p style="text-align: right;">$(5.27)$</p>

Si decidimos la forma de asignar las probabilidades $P(A)$ y $P(B)$, la ecuación (5.27) nos dirá como asignar la probabilidad $P(A\cap B)$. Esto es, la probabilidad $P(x_{1},y_{1})$. Se presenta el suceso $A$ si y sólo si el resultado de la primera prueba es $x_{1}$. Puesto que $P_{1}(x_{1})$ es su probabilidad, parece natural asignar el valor $P_{1}(x_{1})$ también a $P(A)$. Análogamente, asignamos a $P(B)$ el valor $P_{2}(y_{1})$. La ecuación (5.28) nos da entonces

$$P\left( x_{1},y_{1}\right)  =P_{1}\left( x_{1}\right)  P_{2}\left( y_{1}\right)$$
<p style="text-align: right;">$(5.28)$</p>

Todo esto es, naturalmente, tan solo una justificación para la asignación de probabilidades de la ecuación (5.25). El único camino para decidir si la ecuación (5.25) es o no una asignación de probabilidades puntuales aceptable es ver si se cumplen las propiedades fundamentales de las medidas de probabilidad. Cada número $P(x,y)$ es no negativo, y la suma de todas las probabilidades puntuales es igual a 1, pues que tenemos

$$\sum_{\left( x,y\right)  \in S} P\left( x,y\right)  =\sum_{x\in S_{1}} P_{1}\left( x\right)  \sum_{y\in S_{2}} P_{2}\left( y\right)  =1\cdot 1=1$$
<p style="text-align: right;">$(5.29)$</p>

Cuando decimos que una prueba compuesta $E$ está determinada por dos pruebas $E_{1}$ y $E_{2}$ estocásticamente independientes, queremos decir que el espacio de probabilidad $(\Omega,\mathcal{B},P)$ está definido como acabamos de explicar, tal “independencia” queda reflejada en el hecho de que $P(x,y)$ es igual al producto $P_{1}(x)P_{2}(y)$. Puede demostrarse que la asignación de probabilidades (5.25) implica la igualdad

$$P\left( U\times V\right)  =P_{1}\left( U\right)  P_{2}\left( V\right)$$
<p style="text-align: right;">$(5.30)$</p>

para todo par de subconjuntos $U$ de $\mathcal{B}_{1}$ y $V$ de $\mathcal{B}_{2}$. De esta forma, deduciremos algunas consecuencias importantes.

Sea $A$ un suceso (de la prueba compuesta $E$) de la forma

$$A=C_{1}\times \Omega_{2}$$
<p style="text-align: right;">$(5.31)$</p>

donde $C_{1}\in \mathbb{B}_{1}$. Cada resultado de $A$ es un par ordenado $(x,y)$, siendo $x$ un resultado de $C_{1}$ (en la primera prueba $E_{1}$), mientras que $y$ puede ser cualquier resultado de $\Omega_{2}$ (en la segunda prueba $E_{2}$). Si aplicamos la ecuación (5.30), encontramos que

$$P\left( A\right)  =P\left( C_{1}\times \Omega_{2} \right)  =P_{1}\left( C_{1}\right)  P_{2}\left( \Omega_{2} \right)  =P_{1}\left( C_{1}\right)$$
<p style="text-align: right;">$(5.32)$</p>

ya que $P_{2}(\Omega_{2})=1$. De este modo, la definición de $P$ aisgna la misma probabilidad $A$ que la asignada por $P_{1}$ a $C_{1}$. Por esa razón, se dice que un tal suceso $A$ **está determinado mediante la primera prueba** $E_{1}$. Análogamente, si $B$ es un suceso de $E$ de la forma

$$B=\Omega_{1}\times C_{2}$$
<p style="text-align: right;">$(5.33)$</p>

teniendo $C_{2}\in \mathcal{B}_{2}$, llegamos a

$$P\left( B\right)  =P\left( \Omega_{1} \times C_{2}\right)  =P_{1}\left( \Omega_{1} \right)  P_{2}\left( C_{2}\right)  =P_{2}\left( C_{2}\right)$$
<p style="text-align: right;">$(5.34)$</p>

y se dice que $B$ **está determinado por la segunda prueba** $E_{2}$. Demostraremos ahora, utilizando la ecuación (5.30), que tales sucesos $A$ y $B$ son independientes. Esto es, tenemos

$$P(A\cap B)=P(A)P(B)$$
<p style="text-align: right;">$(5.35)$</p>

En efecto,

$$\begin{array}{lll}A\cap B&=&\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :\left( x,y\right)  \in C_{1}\times \Omega_{2} \wedge \left( x,y\right)  \in \Omega_{1} \times C_{2}\right\}  \\ &=&\left\{ \left( x,y\right)  \in \mathbb{R}^{2} :x\in C_{1}\wedge y\in C_{2}\right\}  \\ &=&C_{1}\times C_{2}\end{array}$$
<p style="text-align: right;">$(5.36)$</p>

Luego tenemos

$$P(A\cap B)=P(C_{1}\times C_{2})=P_{1}(C_{1})P_{2}(C_{2})$$
<p style="text-align: right;">$(5.37)$</p>

Puesto que $P_{1}(C_{1})=P(A)$ y $P_{2}(C_{2})=P(B)$, obtenemos la ecuación (5.35). Observemos que la la ecuación (5.37) también demuestra que podemos calcular la probabilidad $P(A\cap B)$ como producto de las probabilidades en cada uno de los espacios muestrales $\Omega_{1}$ y $\Omega_{2}$. Por lo tanto, no son precisos los cálculos con probabilidades en las pruebas compuestas.

La generalización a experimentos con $n$ pruebas $E_{1},...,E_{n}$ se deduce de la misma forma. Los puntos en el nuevo espacio muestral son vectores en $\mathbb{R}^{n}$ del tipo $\mathbf{x}=(x_{1},...,x_{2})$ y las probabilidades se definen como producto de las probabilidades particulares. Es decir,

$$P\left( \mathbf{x} \right)  =P\left( x_{1},...,x_{n}\right)  =\prod^{n}_{k=1} P_{k}\left( x_{k}\right)$$
<p style="text-align: right;">$(5.38)$</p>

Cuando se adopta esta definición de $P$, decimos que $E$ **está determinado por $n$ pruebas independientes** $E_{1},...,E_{n}$. En el caso particular en el que todas las pruebas están asociadas al mismo espacio de probabilidad, la prueba compuesta 𝐸 es un ejemplo de pruebas independientes repetidas bajo idénticas condiciones. Un ejemplo de esto corresponde a las pruebas de Bernoulli, que caracterizaremos a continuación.

### Pruebas de Bernoulli.
Un ejemplo importante de prueba compuesta lo estudió Jakob Bernoulli y lo conocemos por el nombre de **sucesión de pruebas de Bernoulli**. Se trata de una sucesión de pruebas repetidas ejecutadas en las mismas condiciones, siendo cada resultado estocásticamente independiente de las demás. Cada prueba tiene exactamente dos resultados posibles, corrientemente llamados **“éxito”** y **“fallo”**; la probabilidad del éxito se representa por $p$ y la del fallo con $q$. Naturalmente, $q=1-p$. El teorema principal relacionado con las sucesiones de Bernoulli es el siguiente.

**<font color='crimson'>Teorema 5.7 – Fórmula de Bernoulli:</font>** *Sea $\Omega=\left\{ 0,1\right\}$ el espacio muestral de un experimento particular que será repetido un número particular de veces, donde designamos al éxito de la prueba con el valor $x=1$ y al fallo con un valor $x=0$. La probabilidad de $k$ éxitos en $n$ pruebas de Bernoulli, que designamos como $P(x=1)$, se define como*

$$P\left( x=1\right)  =\binom{n}{k} p^{k}q^{n-k}\  ;\  \binom{n}{k} =\frac{n!}{\left( n-k\right)  !k!}$$
<p style="text-align: right;">$(5.39)$</p>
◆

**Ejemplo 5.9:** Se lanza 50 veces una moneda. Vamos a calcular la probabilidad de que salgan, exactamente, 50 caras. En efecto, interpretemos este juego como una sucesión de 50 pruebas de Bernoulli, en las que "éxito" significa cara, y "fallo" significa sello. Si suponemos que la moneda no presenta sesgos de ningún tipo (y, por lo tanto, cada resultado es equiprobable), asignamos las probabilidades $p=q=1/2$ y la fórmula (5.39) nos da

$$P\left( x=1\right)  =\binom{50}{k} \left( \frac{1}{2} \right)^{50}$$
<p style="text-align: right;">$(5.40)$</p>

En particular, para $k=25$, obtenemos

$$P\left( x=1\right)  =\binom{50}{25} \left( \frac{1}{2} \right)^{50}  =\frac{50!}{25!\cdot 25!} \left( \frac{1}{2} \right)^{50}  \approx 0.112$$
<p style="text-align: right;">$(5.41)$</p>
◼

### Número más probable de éxitos en $n$ pruebas de Bernoulli.
Un par de dados no cargados es lanzado 28 veces ¿Cuál es el número más probable de sietes? Para resolver este problema, designemos por $f(k)$ la probabilidad de obtener exactamente $k$ sietes en 28 tiradas. La probabilidad de conseguir un siete en una tirada es 1/6. La fórmula de Bernoulli (teorema (5.7)) nos dice que

$$f\left( k\right)  =\binom{28}{k} \left( \frac{1}{6} \right)^{k}  \left( \frac{5}{6} \right)^{28-k}$$
<p style="text-align: right;">$(5.42)$</p>

Queremos determinar qué valor (o valores) de $k$ entre los valores $k=0,1,2,...,28$ hacen máximo a $f(k)$. El siguiente teorema resuelve este problema para cualquier sucesión de pruebas de Bernoulli.

**<font color='crimson'>Teorema 5.8:</font>** *Dados un entero $n\geq 1$ y un número real $p$ tal que $0<p<1$, consideremos el conjunto de números*

$$f\left( k\right)  =\binom{n}{k} p^{k}\left( 1-p\right)^{n-k}  \  ;\  k\in \mathbb{N} +\left\{ 0\right\}$$
<p style="text-align: right;">$(5.43)$</p>

- **(T1)**: *Si $(n+1)p\notin \mathbb{Z}$, el máximo de $f(k)$ se presenta exactamente para un valor de $k$:*

$$k=\left[ \left( n+1\right)  p\right]$$
<p style="text-align: right;">$(5.44)$</p>

*donde $\left[ \  \cdot \  \right]$ es la función parte entera.*

- **(T2)**: *Si $(n+1)p\in \mathbb{Z}$, el máximo de $f(k)$ se presenta exactamente para dos valores de $k$:*

$$k_{1}=\left( n+1\right)  p\wedge k_{2}=\left( n+1\right)  p-1$$
<p style="text-align: right;">$(5.45)$</p>
◆

**Ejemplo 5.10:** Vamos a determinar el número más probable de sietes cuando un par de dados se lanza 28 veces. En efecto, aplicamos el teorema (5.8) con $n=28$, $p=1/6$ y $(n+1)p=29/6$. Como $29/6$ no es un número entero, el valor máximo de $f(k)$ se presenta para $k=[29/6]=4$. ◼

## Conjuntos numerables y no numerables.
Hasta aquí sólo hemos considerado el concepto de probabilidad para espacios muestrales finitos. Queremos ahora extender la teoría a **espacios muestrales infinitos**. Para ello es necesario distinguir dos tipos de conjuntos infinitos, los **numerables** y los **no numerables**. En esta sección se estudian ambos.

Para contar los elementos de un conjunto finito se pone en correspondencia el conjunto, elemento a elemento, con el conjunto de los números naturales $\mathbb{N}$. La comparación de los "tamaños" de dos conjuntos mediante la correspondencia entre ellos elemento a elemento sustituye el recuento de los elementos cuando se trata de conjuntos infinitos. A este proceso se le puede dar una clara formulación matemática empleando el concepto de función.

**<font color='blue'>Definición 5.8 – Correspondencia uno a uno de conjuntos:</font>** Se dice que dos conjuntos $A$ y $B$ están en **correspondencia uno a uno** si existe una función $f$ con la siguientes propiedades:

- **(P1):** $f$ es tal que $f:A\longrightarrow B$.
- **(P2):** Si $x$ e $y$ son elementos distintos de $A$, entonces $f(x)$ y $f(y)$ son elementos distintos de $B$. Esto es, para todo par de elementos $x,y\in A$, se tiene que

$$x\neq y\Longrightarrow f(x)\neq f(y)$$
<p style="text-align: right;">$(5.46)$</p>

Una función $f$ que cumple con **(P2)** se dice inyectiva sobre $A$. Dos conjuntos $A$ y $B$ en correspondencia uno a uno se llaman también equivalentes, e indicamos esto poniendo $A\sim B$. Resulta claro pues que todo conjunto $A$ es equivalente a sí mismo, ya que $x=f(x)$ para todo $x$ en $A$.

Un conjunto puede ser equivalente a un subconjunto de sí mismo. Por ejemplo, el conjunto $P=\left\{ 1,2,3,...\right\}$ compuesto por todos los números naturales es equivalente a su subconjunto $Q=\left\{ 2,4,6,...\right\}$ compuesto por todos los números pares positivos. En este caso, la función inyectiva que los hace equivalentes es $f(x)=2x$ para todo $x\in P$.

Si $A\sim B$, es fácil demostrar que $B\sim A$. Si $f$ es inyectiva en $A$ y si $\mathrm{Rec}(f)=B$, entonces, para cada $b\in B$ existe exactamente un $a$ en $A$ tal que $f(a)=b$. De ahí que podemos definir una función inversa $g$ en $B$ del modo siguiente: Si $b\in B$, $g(b)=a$, donde $a$ es el único elemento de $A$ tal que $f(s)=b$. La función $g$ así definida es inyectiva en $B$ y su recorrido es $A$; luego $B\sim A$. Esta propiedad de equivalencia se llama **simetría**:

$$A\sim B\Longrightarrow B\sim A$$
<p style="text-align: right;">$(5.47)$</p>

También resulta sencillo demostrar que la equivalencia tiene la siguiente propiedad, llamada **transitividad**:

$$A\sim B\wedge B\sim C\Longrightarrow A\sim C$$
<p style="text-align: right;">$(5.48)$</p>

Un conjunto $\Omega$ se denomina **finito** y se dice que contiene $n$ elementos si $\Omega \sim \left\{ 1,2,...,n\right\}$. El conjunto vacío también se considera finito. A los conjuntos que no son finitos se les llama **infinitos**. Un conjunto $\Omega$ se llama **infinito numerable (o contable)** si es equivalente al conjunto de todos los números naturales, esto es, si $\Omega \sim \mathbb{N}$. En este caso, existe una función $f$ que establece una correspondencia uno a uno entre el conjunto $\mathbb{N}$ y los elementos de $\Omega$; luego el conjunto $\Omega$ puede expresarse como $\Omega =\left\{ f\left( 1\right)  ,f\left( 2\right)  ,...\right\}  $.

A menudo utilizamos subíndices y representamos $f(k)$ con $a_{k}$ (o con una notación parecida) y escribimos $\Omega=\left\{ a_{1},a_{2},...\right\}$. La idea importante es que la correspondencia $\Omega \sim \mathbb{N}$ nos permite utilizar los números naturales como “marcas” de los elementos de $\Omega$. Un conjunto se dice que es **numerable en sentido amplio** si es finito o infinito numerable. Un conjunto que no es numerable se llama **no numerable**. Muchas operaciones con conjuntos efectuadas sobre conjuntos numerables producen conjuntos numerables. Por ejemplo, tenemos las propiedades siguientes:

- **(P1):** Todo subconjunto de un conjunto numerable es numerable.
- **(P2):** La intersección de toda colección de conjuntos numerables es numerable.
- **(P3):** La reunión de una colección numerable de conjuntos numerables es numerable.
- **(P4):** El producto cartesiano de un número finito de conjuntos numerables es numerable.

**Ejemplo 5.11:** El conjunto $\mathbb{Z}$ es numerable. En efecto, si $n\in \mathbb{Z}$, sea $f(n)=2n$ si $n$ es positivo, y $f(n)=2|n|+1$ si $n$ es negativo o cero. El dominio de $f$ es $\mathbb{Z}$ y su recorrido es el conjunto $\mathbb{N}+\left\{ 0\right\}$. Puesto que $f$ es inyectiva en $\mathbb{Z}$, deducimos que $\mathbb{Z}$ es numerable. ◼

**Ejemplo 5.12:** El conjunto $\mathbb{Q}$ de los números racionales es numerable. En efecto, para cada entero $n\geq 1$ fijo, sea $\Omega_{n}$ el conjunto de números racionales de la forma $x/n$, donde $x\in \mathbb{Z}$. Cada $\Omega_{n}$ es equivalente a $\mathbb{Z}$ (tómese $f(t)=nt$ si $t\in \Omega_{n}$) y, por consiguiente, cada $\Omega_{n}$ es numerable. Puesto que $\mathbb{Q}$ es la reunión de todos los $\Omega_{n}$, en virtud de **(P3)**, $\mathbb{Q}$ resulta ser numerable. ◼

**Ejemplo 5.13:** El conjunto de todos los números reales $x$ que satisfacen $0<x<1$ es no numerable. En efecto, supongamos que el conjunto es numerable. De ser así, podemos disponer de sus elementos así: $\left\{ x_{1},x_{2},...\right\}$. Construiremos ahora un número real $y$ que cumpla con $0<y<1$ y que no estará en esta lista. Para ello, escribimos cada elemento en forma decimal. Es decir, $x_{n}=0.a_(n,1)a_(n,2)a_(n,3)...$, donde cada $a_(n,i)$ es uno de los enteros del conjunto $\left\{ 0,1,2,...,9\right\}$. Sea $y$ el número real cuyo desarrollo decimal es $0.y_{1}y_{2}y_{3}...$. Aquí,

$$y_{n}=\begin{cases}1&;\  \mathrm{si} \  a_{\left( n,n\right)  }\neq 1\\ 2&;\  \mathrm{si} \  a_{\left( n,n\right)  }=1\end{cases}$$
<p style="text-align: right;">$(5.49)$</p>

De este modo, ningún elemento del conjunto $\left\{ x_{1},x_{2},...\right\}$ puede ser igual a $y$, puesto que $y$ difiere de $x_{1}$ en la primera cifra decimal, de $x_{2}$ en la segunda, y en general, difiere de $x_{k}$ en la $k$-ésima cifra decimal. Por lo tanto, $y$ satisface $0<y<1$, lo cual es una contradicción, lo que prueba que el conjunto $(0,1)\subset \mathbb{R}$ es no numerable. ◼

### Definición de probabilidad para espacios muestrales infinitos numerables.
Ahora procederemos a extender la definición de probabilidad a espacios muestrales infinitos numerables. Sean $\Omega$ un conjunto infinito numerable y $\mathcal{B}$ un álgebra Booleana de subconjuntos de $\Omega$. Definimos una medida de probabilidad $P$ en $\mathcal{B}$ como se hizo en el caso finito, excepto que exigiremos la aditividad numerable además de la finita. Esto es, para toda colección infinita numerable $\left\{ A_{1},A_{2},\ldots \right\}$ de elementos de $\mathcal{B}$, exigimos que

$$P\left( \bigcup^{+\infty }_{k=1} A_{k}\right)  =\sum^{+\infty }_{k=1} P\left( A_{k}\right)  \Longleftrightarrow A_{i}\cap A_{j}=\emptyset \  ;\  \forall i\neq j$$
<p style="text-align: right;">$(5.50)$</p>

Las funciones de conjunto con aditividad finita que satisfacen la ecuación (5.50) se llaman **funciones de aditividad numerable** (o *completamente aditivas*). Naturalmente, esta propiedad también exige suponer que la reunión numerable $\bigcup^{+\infty }_{k=1} A_{k}$ pertenece a $\mathcal{B}$ cuando cada $A_{k}$ pertenezca también a $\mathcal{B}$. No todas las álgebras de Boole presentan esta propiedad. Las que sí la tienen son llamadas **$\sigma$-álgebras**. Un ejemplo es el álgebra Booleana de todos los subconjuntos del espacio muestral $\Omega$. Precisemos, pues, esta definición.

**<font color='blue'>Definición 5.9 – $\sigma$-álgebra:</font>** Una familia de subconjuntos de $\Omega$, representada por $\mathcal{B}$, es una **$\sigma$-álgebra** sobre $\Omega$ cuando se cumplen las siguientes propiedades:

- **(P1)**: El conjunto vacío está en $\mathcal{B}$.
- **(P2)**: Si $A\in \mathcal{B}$, entonces $\bar{A} \in \mathcal{B}$.
- **(P3)**: Si $A_{1},A_{2},...$ es una sucesión de elementos de $\mathcal{B}$, entonces la unión (numerable) $\bigcup^{+\infty }_{k=1} A_{k}$ también está en $\mathcal{B}$.

Ahora ya estamos listos para construir la definición de probabilidad para espacios muestrales infinitos numerables.

**<font color='blue'>Definición 5.10 – Probabilidad para espacios muestrales infinitos numerables:</font>** Sea $\mathcal{B}$ una $\sigma$-álgebra cuyos elementos son subconjuntos de un conjunto infinito $\Omega$ numerable dado. Una función de conjunto $P$ se llama **medida de probabilidad** en $\mathcal{B}$ si es no negativa, de aditividad numerable, y satisface $P(\Omega)=1$.

Cuando $\mathcal{B}$ es la $\sigma$-álgebra de todos los subconjuntos de $\Omega$, una función de probabilidad queda completamente determinada mediante sus valores para los subconjuntos de un solo elemento (tales valores se llaman **probabilidades puntuales**). Todo subconjunto $A$ de $\Omega$ es finito o infinito numerable, y la probabilidad de $A$ se calcula **sumando las probabilidades puntuales** para todos los elementos de $A$:

$$P\left( A\right)  =\sum_{x\in A} P\left( x\right)$$
<p style="text-align: right;">$(5.51)$</p>

La suma del lado derecho de la ecuación (5.51) tiene un número finito de sumandos, o bien, se trata de una serie absolutamente convergente.

**Ejemplo 5.14:** Se lanza una moneda repetidamente hasta que el primer resultado vuelve a aparecer por segunda vez; entonces termina el juego. Como espacio muestral, tomamos la colección de todos los posibles juegos que pueden hacerse. Este conjunto puede expresarse como la reunión de los conjuntos infinitos numerables $A$ y $B$, definidos como

$$A=\left\{ TT,THT,THHT,THHHT,...\right\}  \wedge B=\left\{ HH,HTH,HTTH,HTTTH,...\right\}$$
<p style="text-align: right;">$(5.52)$</p>

Donde $H$ representa una cara y $T$ representa un sello. Designemos los elementos del conjunto $A$ (en el orden en que se citan en la lista anterior) con $a_{0},a_{1},...$ y los de $B$ con $b_{0},b_{1},...$. Podemos asignar arbitrariamente probabilidades puntuales no negativas $P(a_{n})$ y $P(b_{n})$ tales que

$$\sum^{+\infty }_{n=0} P\left( a_{n}\right)  +\sum^{+\infty }_{n=0} P\left( b_{n}\right)  =1$$
<p style="text-align: right;">$(5.53)$</p>

Por ejemplo, supongamos que la moneda tiene una probabilidad $p$ de mostrar cara. Es decir, $P(H)=p$ y $P(T)=1-p$, con $0<p<1$. Entonces resulta natural la asignación de las probabilidades puntuales

$$P\left( a_{n}\right)  =\left( 1-p\right)^{2}  p^{n}\wedge P\left( b_{n}\right)  =p^{2}\left( 1-p\right)^{n}$$
<p style="text-align: right;">$(5.54)$</p>

Tal asignación es aceptable, porque tenemos, para $q=1-p$,

$$\sum^{+\infty }_{n=0} P\left( a_{n}\right)  +\sum^{+\infty }_{n=0} P\left( b_{n}\right)  =q^{2}\sum^{+\infty }_{n=0} p^{n}+p^{2}\sum^{+\infty }_{n=0} q^{n}=\frac{q^{2}}{1-p} +\frac{p^{2}}{1-q} =\frac{\left( 1-q\right)  q^{2}+\left( 1-p\right)  p^{2}}{\left( 1-p\right)  \left( 1-q\right)  } =q+p=1$$
<p style="text-align: right;">$(5.55)$</p>

Supongamos ahora que queremos saber la probabilidad de que el juego termine después de exactamente $n+2$ lanzamientos. Este es el suceso $\left\{ a_{n}\right\}  \cap \left\{ b_{n}\right\}$, y su probabilidad es

$$\sum^{n}_{k=0} P\left( a_{k}\right)  +\sum^{n}_{k=0} P\left( b_{k}\right)  =q^{2}\left( \frac{1-p^{n+1}}{1-p} \right)  +p^{2}\left( \frac{1-q^{n+1}}{1-q} \right)  =1-qp^{n+1}-pq^{n+1}$$
<p style="text-align: right;">$(5.56)$</p>
◼

### Definición de probabilidad para espacios muestrales infinitos no numerables.
Un segmento rectilíneo se descompone en dos partes, con el punto de subdivisión elegido al azar. ¿Cuál es la probabilidad de que los dos fragmentos tengan la misma longitud? ¿Cuál es la probabilidad de que el mayor tenga exactamente el doble de la longitud del pequeño? ¿Cuál es la probabilidad de que el mayor tenga una longitud por lo menos de 10 unidades menos con respecto al doble de la longitud del menor? Éstos son ejemplos de problemas de probabilidad en los que el espacio muestral es no numerable ya que consta de todos los puntos del segmento. Nos preocuparemos pues de extender la definición de probabilidad, incluyendo los espacios muestrales no numerables.

Si siguiéramos el mismo proceso que establecimos para el caso de espacios muestrales numerables, tendríamos que partir de un conjunto no numerable arbitrario $\Omega$ y una $\sigma$-álgebra $\mathcal{B}$ de subconjuntos de $\Omega$, y definir una medida de probabilidad que fuera una función de conjunto $P$ no negativa, completamente aditiva y definida sobre $\mathcal{B}$, siendo $P(\Omega)=1$. Esto origina ciertas dificultades técnicas que no se presentan cuando $\Omega$ es numerable, y no nos alcanzarían estos apuntes para poder listarlas. Evitaremos, por tanto, estas dificultades, imponiendo restricciones iniciales al conjunto $\Omega$ y a la $\sigma$-álgebra $\mathcal{B}$.

En primer lugar, restringiremos $\Omega$ a ser un subconjunto de $\mathbb{R}$ o $\mathbb{R}^{n}$, según sea el caso (ya desglosaremos ambos y explicaremos esta distinción). Para el caso de la $\sigma$-álgebra $\mathcal{B}$, empleamos subconjuntos especiales de $\Omega$ que, en el lenguaje de la teoría moderna de integración (que –seamos honestos– no es *tan* común verla en cursos básicos de una carrera de ingeniería), son llamados **conjuntos medibles**. Para entender este concepto a plenitud, estableceremos la siguiente definición.

**<font color='blue'>Definición 5.11 – Medida de Borel:</font>** Sea $\Omega$ un conjunto que designaremos como *espacio de Hausdorff localmente compacto* (en palabras menos rimbombantes, un conjunto de puntos tales que puntos distintos tienen siempre entornos disjuntos, y estos admiten además una frontera), y sea $\mathcal{B}$ la mínima $\sigma$-álgebra que contiene a todos los subconjuntos abiertos de $\Omega$ (la que se conoce como **$\sigma$-álgebra de conjuntos de Borel**). Una **medida de Borel** es una medida $\mu$ definida sobre $\mathcal{B}$ que es localmente finita. Es decir, $\mu(C)<\infty$ para cada conjunto (compacto) $C\subset \Omega$. El espacio $\Omega$ es llamado, por tanto, un **conjunto medible conforme la medida de Borel** (o, más sencillo, simplemente **conjunto medible**).

Si un conjunto medible es subconjunto de $\mathbb{R}$, entonces cumplirá con las siguientes propiedades:

- **(P1):** Si $A$ es medible, entonces lo es también la diferencia simétrica $\mathbb{R}-A$ (es decir, el complemento de $A$.
- **(P2):** Si $\left\{ A_{1},A_{2},...\right\}$ es una colección numerable de conjuntos medibles, entonces la reunión $\bigcup^{n}_{k=1} A_{k}$ también es medible.
- **(P3):** Todo intervalo (abierto, cerrado, semiabierto, finito o infinito) es medible.

Por lo tanto, los conjuntos medibles de $\mathbb{R}$ forman una $\sigma$-álgebra Booleana que contiene a todos los psoibles intervalos de $\mathbb{R}$. Existe una $\sigma$-álgebra mínima (en el sentido de la inclusión) que tiene esa propiedad, cuyos elementos son los mencionados conjuntos de Borel. Análogamente, en $\mathbb{R}^{2}$, existe una $\sigma$-álgebra mínima que contiene todos los productos cartesianos de pares de intervalos (sus elementos son, naturalmente, conjuntos de Borel). Finalmente, para el caso de $\mathbb{R}^{n}$, existe una $\sigma$-álgebra mínima de todos los productos cartesianos de los intervalos posibles de construir con respecto a los elementos de la base canónica de $\mathbb{R}^{n}$ (por ejemplo, $(a_{1},b_{1})\times (a_{2},b_{2})\times (a_{3},b_{3})$ es el producto cartesiano de tres intervalos abiertos, cada uno relativo a los ejes $X, Y$ y $Z$, respectivamente, y que, en $\mathbb{R}^{3}$, se representa por medio de una figura similar a una caja rectangular de dimensiones $(b_{1}-a_{1})\times (b_{2}-a_{2})\times (b_{3}-a_{3})$, llamada *celda ortoédrica abierta*), y cuyos elementos son conjuntos de Borel.

De ahora en adelante, siempre que usemos un conjunto $\Omega$ de números reales como espacio muestral, o, más general, siempre que se use un conjunto $\Omega \subset \mathbb{R}^{n}$ como espacio muestral, supondremos que éste conjunto es siempre un conjunto de Borel. Los subconjuntos de Borel de $\Omega$ forman asimismo una $\sigma$-álgebra de Boole; supondremos que nuestras medidas de probabilidad están definidas sobre estas $\sigma$-álgebras. Éstas son lo bastante amplias para incluir los sucesos que se presenten en las aplicaciones naturales de la teoría de probabilidades. Por lo tanto, tiene sentido la siguiente definición.

**<font color='blue'>Definición 5.12 – Probabilidad para espacios muestrales no numerables:</font>** Sea $\Omega$ un subconjunto de $\mathbb{R}^{n}$ y $\mathcal{B}$ una $\sigma$-álgebra de subconjuntos de $\Omega$ que, a su vez, son conjuntos de Borel. Una función de conjunto $P:\mathcal{B}\longrightarrow \mathbb{R}$ no negativa, completamente aditiva y tal que $P(\Omega)=1$, es llamada **medida de probabilidad**. La tripleta $(\Omega, \mathcal{B}, P)$ es asimismo llamada **espacio de probabilidad**.

### Numerabilidad de un conjunto de puntos con probabilidad positiva.
Para espacios muestrales numerables la probabilidad de un suceso $A$ se calcula a menudo sumando las probabilidades puntuales $P(x)$ para todo $x$ de $A$. Este método es aplicable para espacios muestrales no numerables porque, como el siguiente teorema pone de manifiesto, la mayor parte de las probabilidades puntuales son nulas.

**<font color='crimson'>Teorema 5.9:</font>** *Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y sea $T$ el conjunto de los puntos $x\in \Omega$ tales que $P(x)>0$. Entonces $T$ es numerable.* ◆

El teorema (5.9) nos dice que pueden asignarse probabilidades positivas a lo sumo a un subconjunto numerable de $\Omega$. Los restantes puntos de $\Omega$ tendrán una probabilidad igual a cero. En particular, si todos los resultados de $\Omega$ son igualmente probables, entonces todo punto de $\Omega$ debe tener asignada probabilidad cero. Puesto que la mayor parte de (si no todas) las probabilidades puntuales para un espacio muestral no numerable serán iguales a cero, no basta conocer las probabilidades puntuales para calcular las probabilidades de sucesos arbitrarios. Se necesita más información; la descripción es mejor utilizando dos conceptos nuevos, las **variables aleatorias** y las **funciones de distribución**, a las que nos vamos a referir a continuación. Dichos conceptos permiten hacer uso del cálculo integral en muchos problemas con espacios muestrales no numerables. La integración, en este caso, sustituye a la sumación en el cálculo de probabilidades.

## Variables aleatorias.
En muchos experimentos nos interesan números asociados a los resultados del experimento. Por ejemplo, $n$ monedas se lanzan simultáneamente y preguntamos por el número de caras. Un par de dados ruedan y nos interesa la suma de los puntos conseguidos. Se lanza una flecha hacia un blanco circular y queremos saber la distancia desde el punto en que cayó con respecto al centro. Siempre que asociamos un número real a cada resultado de un experimento estamos tratando con una función cuyo dominio es el conjunto de resultados posibles y cuyo recorrido es el conjunto de los números reales en cuestión. Una función de estas características se llama **variable aleatoria**. Formalizaremos pues su definición a continuación.

**<font color='blue'>Definición 5.13 – Variable aleatoria:</font>** Sea $\Omega$ un espacio muestral arbitrario. Una función $X:\Omega \longrightarrow \mathbb{R}$ es llamada **variable aleatoria unidimensional**. En términos más generales, una función vectorial del tipo $\mathbf{X}:\Omega \longrightarrow \mathbb{R}^{n}$ es llamada **variable aleatoria $n$-dimensional** (o, en términos más prácticos, **vector aleatorio $n$-dimensional**).

Así pues, una variable aleatoria no es más que una función (real o vectorial) definida en un conjunto determinado. La palabra “aleatoria” tan solo se utiliza para recordar que el conjunto en cuestión es un espacio muestral $\Omega$ (en ningún caso significa, necesariamente, que los elementos de $\Omega$ se escojan al azar para construir la variable aleatoria respectiva).

A causa de la generalidad de la anterior definición, es posible tener distintas variables aleatorias asociadas a un mismo experimento. En cada caso particular nosotros, como experimentadores (o, a un grado ya más subjetivo, **generalistas** o **conocedores del negocio**), debemos decidir cuáles son las variables aleatorias que nos interesan. Generalmente, procuramos trabajar con las variables aleatorias cuyas funciones reflejan, **con la máxima simplicidad posible**, las propiedades de los resultados del experimento que son realmente esenciales. **Esto no es trivial y, con frecuencia, se va haciendo más fácil con la experiencia**.

En términos de notación, solemos emplear letras mayúsculas regulares para la designación de variables aleatorias unidimensionales. Por ejemplo, $X,Y, Z$. El resultado de un experimento suele ser representado mediante letras griegas (es muy común el uso de la letra griega $\omega$, sobretodo en textos más clásicos). De esta manera, $X(\omega)$ representa aquel número real que, para el caso de la variable aleatoria $X$, está asociado el resultado $\omega$.

A continuación, vamos a ejemplificar este concepto a fin de despejar las dudas (razonables) que podamos tener al respecto.

**Ejemplo 5.15:** Un experimento consiste en lanzar un dado y leer el número de puntos conseguido. Si el dado no está cargado, resulta útil definir una variable aleatoria $X$ que describa los resultados posibles de tal experimento. Es decir,

$$X\left( \omega \right)  =\omega \  \wedge\  \omega =\left\{ 1,2,3,4,5,6\right\}$$
<p style="text-align: right;">$(5.57)$</p>

En este caso, decimos que **la variable aleatoria $X$ es discreta**, debido a que los resultados posibles del experimento son finitos (una variable aleatoria también será discreta si el espacio muestral es infinito numerable). No obstante, no es la única variable aleatoria que podríamos considerar. Si estamos interesados en saber si el número de puntos es par o impar, debemos considerar otra variable aleatoria $Y$ que, para este caso, puede definirse como

$$Y\left( \omega \right)  =\begin{cases}0&;\  \mathrm{si} \  \omega \  \mathrm{es\  par} \\ 1&;\  \mathrm{si} \  \omega \  \mathrm{es\  impar} \end{cases}$$
<p style="text-align: right;">$(5.58)$</p>

Los valores 0 y 1 no son esenciales. Podría utilizarse cualquier par de números para describir los resultados de este experimento. Sin embargo, es usual que utilicemos estos valores, ya que en las ciencias computacionales, el par $\left\{ 0,1\right\}$ suele asociar los valores *“falso”* y *“verdadero”* respectivamente a cualquier prueba lógica cuyos resultados sean esencialmente dos (que, naturalmente, sean de nuestro interés). Por consiguiente, $Y$ es una **variable aleatoria binaria**. ◼︎

**Ejemplo 5.16:** Se lanza una flecha hacia un blanco circular. El conjunto de todos los resultados posibles es el que consta de todos los puntos $\omega$ del blanco. Si imaginamos un sistema de coordenadas cartesianas colocado en el blanco y cuyo origen coincide con su centro, podemos asignar diversas variables aleatorias a este experimentos. Una de ellas es la variable aleatoria bidimensional que asigna al punto $\omega$ sus coordenadas $(x,y)$. Otra es el par de coordenadas polares $(r,\theta)$ del punto $\omega$. Como ejemplos de variables unidimensionales tenemos a aquellas que asignan a cada $\omega$ su coordenada horizontal $x$ o su coordenada radial $r$, dependiendo del sistema de coordenadas empleado. Con frecuencia, en un experimento de este tipo, deseamos conocer la probabilidad de que la flecha toque en una determinada región del blanco, por ejemplo, en el primer cuadrante. Este suceso se puede describir de la manera más simple mediante la variable aleatoria que asigna a cada punto $\omega$ su coordenada transversal $\theta$, con lo cual $X(\omega)=\theta$; el suceso *“la flecha da en el primer cuadrante”* es el conjunto de valores de $\omega$ tales que $0\leq X(\omega)\leq \pi/2$. Así pues, $X$ es un ejemplo de variable aleatoria continua. ◼︎

Vamos a detenernos un poco en el tema de las notaciones. Evitaremos generar una notación engorrosa (siempre que se pueda) empleando notaciones breves para describir ciertos tipos de sucesos y sus probabilidades. Por ejemplo, si $t\in \mathbb{R}$, el conjunto de todos los valores de $\omega$ del espacio muestral tales que $X(\omega)=t$ se representará brevemente poniendo $X=t$. La probabilidad de este suceso se denota como $P(X=t)$ en lugar de poner $P\left( \left\{ \omega |X\left( \omega \right)  =t\right\}  \right)$. Los símbolos tales como $P\left( X=a\vee X=b\right)$ y $P(a<X\leq b)$ se definen de modo parecido. Así pues, el suceso $X=a\vee X=b$ es la unión de los sucesos $X=a$ y $X=b$; el símbolo $P\left( X=a\vee X=b\right)$ representa la probabilidad de esta unión. El suceso $a<X\leq b$ es el conjunto de todos los puntos $\omega$ tales que $X(\omega)$ pertenece al intervalo semiabierto $(a,b]$, y el símbolo $P(a<X\leq b)$ representa la probabilidad de este suceso.

## Funciones de distribución.
Volvamos de nuevo al problema del cálculo de probabilidades de un suceso asociado a una cierta variable aleatoria. Sea $X$ una variable aleatoria unidimensional definida en un espacio muestral $\Omega$, siendo $\Omega$ un conjunto de Borel en $\mathbb{R}^{n}$ para $n\geq 1$. Sea $P$ una medida de probabilidad definida en los subconjuntos de Borel de $\Omega$. Para cada $\omega$ de $\Omega$, $X(\omega)$ es un número real, y cuando $\omega$ recorre los elementos de $\Omega$, los números $X(\omega)$ recorren un conjunto de números reales (el recorrido de $X$). Este conjunto puede ser finito, infinito numerable o infinito no numerable. Para cada número real $t$ consideramos el siguiente subconjunto de $\Omega$:

$$A\left( t\right)  =\left\{ \omega |X\left( \omega \right)  \leq t\right\}$$
<p style="text-align: right;">$(5.59)$</p>

Si $t$ es menor que todos los números del recorrido de $X$, el conjunto $A(t)$ será vacío. De lo contrario, $A(t)$ será un conjunto no vacío. Suponemos que, para cada $t$, el conjunto $A(t)$ es un suceso (esto es, un conjunto de Borel). Conforme nuestra notación, representaremos este suceso con el símbolo $X\leq t$.

Suponemos conocida la probabilidad $P(X\leq t)$ para todo $t\in \mathbb{R}$. Este conocimiento nos permitirá calcular las probabilidades de otros muchos sucesos de interés. Para lograrlo, se usan las probabilidades $P(X\leq t)$ como base para la construcción de una nueva función $F$, llamada **función de distribución** de $X$, que se define a continuación.

**<font color='blue'>Definición 5.14 – Función de distribución (caso undimensional):</font>** Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y $X:\Omega \longrightarrow \mathbb{R}$ una variable aleatoria unidimensional. La función $F:\mathbb{R} \longrightarrow [0,1]$ definida como

$$F\left( t\right)  =P\left( X\leq t\right)$$
<p style="text-align: right;">$(5.60)$</p>

es llamada **función de distribución acumulada** de la variable aleatoria $X$.

Es importante darse cuenta de que la función de distribución $F$ está definida para todo $\mathbb{R}$, aun cuando el recorrido de $X$ puede ser sólo una porción acotada de $\mathbb{R}$. En efecto, si todos los números $X(\omega)$ están en un cierto intervalo finito $[a,b]$, entonces, para $t<a$, la probabilidad $P(X\leq t)$ es cero (ya que, para $t<a$ el conjunto $X\leq t$ es vacío) y para $t\geq b$ la probabilidad $P(X\leq t)$ es 1 (debido a que, en ese caso, el conjunto $X\leq t$ es el espacio muestral completo). Esto significa que, para variables aleatorias $X$ acotadas cuyo recorrido está dentro de un intervalo $[a,b]$, tenemos que $F(t)=0$ para todo $t<a$ y $F(t)=1$ para todo $t\geq b$.

Mediante el siguiente teorema, estableceremos las propiedades fundamentales de las funciones de distribución.

**<font color='crimson'>Teorema 5.10:</font>** *Sea $(\Omega,\mathcal{B},P)$ un espacio de probabilidad y $X:\Omega \longrightarrow \mathbb{R}$ una variable aleatoria. Si $F$ es una función de distribución de $X$, entonces se tiene que:*

- **(P1):** $0\leq F(t)\leq 1$ *para todo $t$*.
- **(P2):** $P(a<X\leq b)=F(b)-F(a)$ *siempre que $a<b$.*
- **(P3):** $F(a)\leq F(b)$ *si* $a<b$.
◆

**Ejemplo 5.17 – Visualización del recorrido de una función de distribución:** La función $U$ definida como

$$U\left( t\right)  =\begin{cases}0&;\  \mathrm{si} \  t<0\\ t&;\  \mathrm{si} \  0\leq t<1\\ 1&;\  \mathrm{si} \  t\geq 1\end{cases}$$
<p style="text-align: right;">$(5.61)$</p>

es llamada **función de distribución uniforme**. Se trata de una función propia de una variable aleatoria acotada que es tal que $X(t)=t$ para $0\leq t<1$. Podemos recurrir a la librería **<font color='MediumOrchid'>Matplotlib:</font>** para visualizar el rango completo de valores que esta función toma para todos los valores posibles de $t$. En efecto, importamos dicha librería (más otras que usaremos un poco más adelante):

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [2]:
# Setting de parámetros por defecto para nuestras figuras.
plt.rcParams["figure.dpi"] = 100
sns.set()
plt.style.use("bmh")

In [3]:
%matplotlib notebook

Y definimos la función $U$ de manera sencilla como sigue:

In [4]:
# Definición de la función de distribución uniforme.
def U(t):
    Y = np.zeros(t.shape)
    
    for j in range(len(t)):
        if t[j] < 1 and t[j] >= 0:
            Y[j] = t[j]
        elif t[j] < 0:
            Y[j] = 0
        else:
            Y[j] = 1
    
    return Y

Graficar esta función resulta sencillo. Por ejemplo, para $-1\leq t\leq 2$, tenemos:

In [5]:
# Creamos la figura y los ejes que la componen.
fig, ax = plt.subplots(figsize=(10, 5))

# Definimos el arreglo de valores de t.
t = np.linspace(start=-1, stop=2, num=100)

# Llenamos la figura.
ax.plot(t, U(t), color="navy", lw=3)
ax.set_xlabel(r"$t$", fontsize=12, labelpad=10)
ax.set_ylabel(r"$U(t)$", fontsize=12, labelpad=20, rotation=0)
ax.set_title(r"Distribución uniforme, para $-1\leq t\leq 2$", fontsize=14, fontweight="bold", pad=10);

<IPython.core.display.Javascript object>

La función de distribución uniforme es un caso típico de **distribución no acotada**. Naturalmente, no todas las funciones de distribución son de este tipo. La función $S$, definida como

$$S\left( t\right)  =\frac{1}{1+\exp \left( -t\right)  }$$
<p style="text-align: right;">$(5.62)$</p>

es llamada **distribución logística**, y se trata de una **función de distribución no acotada**. Esta distribución tiene una gráfica bien conocida en el campo de la estadística y en machine learning, y cuya forma es parecida a la de la letra "S":

In [6]:
# Definimos la función de distribución logística.
def S(t):
    return 1 / (1 + np.exp(-t))

In [7]:
# Creamos la figura y los ejes que la componen.
fig, ax = plt.subplots(figsize=(10, 5))

# Definimos el arreglo de valores de t.
t = np.linspace(start=-5, stop=5, num=100)

# Llenamos la figura.
ax.plot(t, S(t), color="indianred", lw=3)
ax.set_xlabel(r"$t$", fontsize=12, labelpad=10)
ax.set_ylabel(r"$S(t)$", fontsize=12, labelpad=20, rotation=0)
ax.set_title(r"Distribución logística, para $-5\leq t\leq 5$", fontsize=14, fontweight="bold", pad=10);

<IPython.core.display.Javascript object>

En general, resulta conveniente reconocer las propiedades geométricas de las funciones de distribución, ya que éstas permiten agruparlas en **familias de distribuciones**. Si bien profundizaremos más adelante en aquello, por el momento, nos conformaremos con reconocer que las variables aleatorias inherentes a estas distribuciones son ciertamente diferentes: Una *variable aleatoria uniforme* es evidentemente discreta, mientras que una *variable aleatoria logística* es de tipo continua. En un momento formalizaremos esta distinción haciendo uso, precisamente, de las distribuciones de probabilidad. ◼︎

El teorema (5.10) indica cómo calcular (en función de la correspondiente función de distribución acumulada $F$) la probabilidad de que una variable aleatoria $X$ pertenezca a un intervalo semiabierto de la forma $(a,b]$. El siguiente teorema permite extender el concepto a otros tipos de intervalos.

**<font color='crimson'>Teorema 5.11:</font>** *Sea $X$ una variable aleatoria unidimensional y $F$ una función de distribución para $X$. Entonces, si $a<b$, tenemos que:*

- **(P1):** $P\left( a\leq X\leq b\right)  =F\left( b\right)  -F\left( a\right)  +P\left( X=a\right)$.
- **(P2):** $P\left( a<X<b\right)  =F\left( b\right)  -F\left( a\right)  -P\left( X=b\right)$.
- **(P3):** $P\left( a\leq X<b\right)  =F\left( b\right)  -F\left( a\right)  +P\left( X=a\right)  -P\left( X=b\right)$.
- **(P4):** $\displaystyle \lim_{t\rightarrow -\infty } F\left( t\right)  =0\wedge \displaystyle \lim_{t\rightarrow +\infty } F\left( t\right)  =1$.
◆

El tipo más general de distribución es cualquier función $F:\mathbb{R} \longrightarrow [0, 1]$ que cumpla con las siguientes propiedades:

- **(T1):** $F$ es una función monótona creciente en el intervalo cerrado $[0,1]$.
- **(T2):** $F$ es continua a la derecha en cada punto (es decir, pueden existir discontinuidades de salto en $F$ siempre que sean por la izquierda).
- **(T3):** $\displaystyle \lim_{t\rightarrow -\infty } F\left( t\right)  =0\wedge \displaystyle \lim_{t\rightarrow +\infty } F\left( t\right)  =1$.

En efecto, es posible demostrar que, para cada una de estas funciones $F$, existe una correspondiente función de conjunto $P$, definida sobre los conjuntos de Borel de $\mathbb{R}$, tal que $P$ es una medida de probabilidad que asigna el valor $F(b)-F(a)$ a cada intervalo semiabierto $(a,b]$.

Existen dos tipos especiales de distribuciones, llamadas **discretas** y **continuas**, que en la práctica tienen particular importancia. En el caso discreto toda la *masa* de puntos con probabilidades no nulas está concentrada en un número de puntos finito o infinito numerable, mientras que en el caso continuo, dichas probabilidades están esparcidas, con espesor uniforme o variado, a lo largo de todo el eje real, a modo de una densidad de infinitos puntos. A continuación, trataremos con cierto detalle esos dos tipos de distribuciones.

### Distribuciones discretas.
Sea $X$ una variable aleatoria unidimensional y consideremos una nueva función $p$, llamada **función de masa de probabilidad** de $X$ (que suele abreviarse como *fmp*, *pmf*, del inglés *probability mass function*). Sus valores están definidos para todo el rango de valores de $X$, digamos $k\in \mathbb{R}$, mediante la ecuación $p(k)=P(X=k)$. Es decir, $p(k)$ es la probabilidad de $X$ tome el valor $k$. Cuando deseamos poner de manifiesto que $p$ está asociada a $X$, solemos escribir $p_{X}$ en lugar de sólo $p$, $p_{X}(k)$ en lugar de simplemente $p(k)$.

El conjunto de números reales $k$ para los cuales $p(k)>0$ es finito o infinito numerable. Si llamamos $T$ a dicho conjunto, podemos expresarlo como $T=\left\{ k\in \mathbb{R} :p\left( k\right)  >0\right\}$. Al respecto, diremos que la variable aleatoria $X$ es **discreta** si se cumple que

$$\sum_{k\in T} p\left( k\right)  =1$$
<p style="text-align: right;">$(5.63)$</p>

Dicho de otro modo, $X$ es discreta si una unidad de masa de probabilidad está distribuida sobre el eje real concentrándose una masa positiva $p(k)$ en cada punto $k$ de un cierto conjunto $T$ finito o infinito numerable y, en los restantes puntos, no hay masa. Consecuentemente, los puntos de $T$ son llamados **puntos de masa** de $X$.

Para variables aleatorias discretas, el conocimiento de la función de masa de probabilidad nos permite calcular la probabilidad de sucesos arbitrarios. Tenemos, efectivamente, el siguiente teorema.

**<font color='crimson'>Teorema 5.12:</font>** *Si $A$ es un subconjunto de Borel de $\mathbb{R}$, y si designamos con $P(X\in A)$ a la probabilidad de que $X(\omega)=A$, entonces*

$$P\left( X\in A\right)  =\sum_{x\in A\cap T} p\left( x\right)$$
<p style="text-align: right;">$(5.64)$</p>

*Donde $T$ es el conjunto de puntos de masa de $X$.* ◆

Cuando $A$ es el intervalo $(-\infty, k]$, la sumatoria (5.64) da el valor de la función de distribución $F(k)$. Así pues, tenemos que

$$F\left( k\right)  =P\left( X\leq k\right)  =\sum_{x\leq k} p\left( x\right)$$
<p style="text-align: right;">$(5.65)$</p>

Si una variable aleatoria es discreta, **la función de distribución correspondiente $F$ también es discreta**.

**Ejemplo 5.18 – La distribución binomial:** Sea $p$ un número real que satisface $0\leq p\leq 1$ y sea $q=1-p$. Supongamos que una variable aleatoria toma los valores $0,1,2,...,n$, con $n\in \mathbb{N}\cup \left\{ 0\right\}$, y admitamos que la probabilidad $P(X=k)$ viene dada por la fórmula

$$P(X=k)=\binom{n}{k} p^{k}q^{n-k}\  ;\  k\in \mathbb{N} \cup \left\{ 0\right\}$$
<p style="text-align: right;">$(5.66)$</p>

Esta asignación de probabilidades es legítima, porque la suma de todas ellas es

$$\sum^{n}_{k=0} P\left( X=k\right)  =\sum^{n}_{k=0} \binom{n}{k} p^{k}q^{n-k}=\left( p+q\right)^{n}  =1$$
<p style="text-align: right;">$(5.67)$</p>

ya que $p+q=1$. La correspondiente función de distribución $F(k)$ se denomina **distribución binomial**, de parámetros $n$ y $p$. Sus valores pueden calcularse mediante la siguiente expresión:

$$F\left( k\right)  =P\left( X\leq k\right)  =\sum^{k}_{j=0} \binom{n}{j} p^{j}q^{n-j}$$
<p style="text-align: right;">$(5.68)$</p>

La distribución binomial se presenta de manera natural en el caso de una sucesión de pruebas de Bernoulli, donde $p$ es la probabilidad del suceso. Efectivamente, cuando la variable aleatoria $X$ cuenta el número de veces en que se presenta el suceso en $n$ pruebas, $P(X=k)$ es precisamente igual a $\binom{n}{k} p^{k}q^{n-k}$ en virtud del teorema (5.7).

Crear una variable aleatoria de este tipo es relativamente sencillo en Python, si usamos la librería **<font color='mediumorchid'>Scipy:</font>**. Puntualmente, estamos interesados en hacer uso del módulo `scipy.stats`, el cual se especializa en la realización de análisis estadísticos de gran complejidad:

In [8]:
from scipy import stats

Para crear una variable aleatoria binomial, basta con usar la clase `stats.binom()`, inicializándola con el número total $n$ de repeticiones del experimento en cuestión y la probabilidad $p$ de obtener éxito. En los siguientes bloques de código, crearemos tres variables aleatorias binomiales para distintas combinaciones de $n$ y $p$, a fin de visualizar tales cambios en sus correspondientes funciones de masa y de distribución:

In [9]:
# Inicializamos la figura.
fig, ax = plt.subplots(figsize=(10, 10), nrows=2, sharex=True)

# Creamos el rango de valores para evaluar las funciones de masa y de distribución.
k = np.linspace(start=0, stop=20, num=21)

# Mediante un loop, creamos las variables aleatorias y las graficamos.
for n_j, p_j, color_j in zip([20, 20, 40], [0.5, 0.7, 0.5], ["orange", "purple", "skyblue"]):
    X_j = stats.binom(n_j, p_j) # Creamos la variable aleatoria.
    ax[0].scatter(
        k, X_j.pmf(k), marker="o", ec="gray", color=color_j, label=r"$n=$"+f"{n_j}, " + r"$p=$" + f"{p_j}"
    )
    ax[0].legend(loc="upper left", frameon=True, fontsize=12)
    ax[0].set_ylabel(r"$p(k)$", fontsize=14, labelpad=20, rotation=0)
    ax[1].scatter(
        k, X_j.cdf(k), marker="o", ec="gray", color=color_j, label=r"$n=$"+f"{n_j}, " + r"$p=$" + f"{p_j}"
    )
    ax[1].legend(loc="best", frameon=True, fontsize=12)
    ax[1].set_ylabel(r"$F(k)$", fontsize=14, labelpad=20, rotation=0)

ax[0].set_title("Función de masa binomial", pad=10, fontweight="bold", fontsize=15)
ax[1].set_title("Función de distribución binomial", pad=10, fontweight="bold", fontsize=15)
ax[1].set_xlabel(r"$k$", fontsize=14, labelpad=10);

<IPython.core.display.Javascript object>

Notemos pues que estas elecciones difieren, en términos geométricos, en la **forma** y la **localización** de cada una de las curvas resultantes de unir estos puntos discretos. ◼︎

**Ejemplo 5.19 – La distribución de Poisson:** Sea $\lambda >0$ y $X$ una variable aleatoria que toma valores enteros no negativos. Si la función de masa de probabilidad asociada a $X$ está definida como

$$p\left( k\right)  =P\left( X=k\right)  =\frac{\exp \left( -\lambda \right)  \lambda^{k} }{k!}$$
<p style="text-align: right;">$(5.69)$</p>

para $k\in \mathbb{N} \cup \left\{ 0\right\}$, entonces decimos que $X$ es una **variable aleatoria de Poisson**. La función de distribución resultante se denomina **distribución de Poisson** de parámetro $\lambda$. Tal asignación de probabilidades es válida, porque

$$\sum^{+\infty }_{k=0} p\left( k\right)  =\exp \left( -\lambda \right)  \sum^{+\infty }_{k=0} \frac{\lambda^{k} }{k!} =\exp \left( -\lambda \right)  \exp \left( \lambda \right)  =1$$
<p style="text-align: right;">$(5.70)$</p>

La distribución de Poisson es popular porque modela el número de veces que ocurre un evento en un intervalo de tiempo. De esta manera, a partir de una frecuencia de ocurrencia media (o tasa de éxitos), permite modelar la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos “raros”. El parámetro $\lambda>0$ representa el número de veces que se espera que ocurra dicho suceso en un intervalo dado. Por ejemplo, si es suceso estudiado tiene lugar en promedio 4 veces por minuto, y estamos interesados en la probabilidad de que ocurra $k$ veces en un intervalo de 10 minutos, sería razonable utilizar un modelo de distribución de Poisson con $\lambda =10\times 4=40$.

Es, por tanto, aplicable a diversos problemas relativos a sucesos aleatorios que se presentan en el transcurso del tiempo, tales como accidentes de tráfico, conexiones equivocadas en una central telefónica, e intercambios de cromosomas en las células provocados por rayos X. En minería, puntualmente en minería subterránea en ambientes de altos esfuerzos, resulta ser una elección popular para modelar la tasa de ocurrencia de eventos sísmicos de gran magnitud inducidos por la minería, los que pueden traducirse, en caso de ocurrir en zonas cercanas a niveles de producción y tener potencial de detener las operaciones de extracción, en **estallidos de rocas**, asignándose un número denominado *peligro sísmico* (o *seismic hazard*).

Como en el caso de la distribución binomial, visualizar una distribución de Poisson es sencillo si nos referimos al uso del módulo `scipy.stats`. En esta oportunidad, usamos la clase `stats.poisson()`, seteando el parámetro $\lambda$ en distintos valores, a fin de observar los efectos en las funciones de masa y de distribución:

In [10]:
# Inicializamos la figura.
fig, ax = plt.subplots(figsize=(10, 10), nrows=2, sharex=True)

# Creamos el rango de valores para evaluar las funciones de masa y de distribución.
k = np.linspace(start=0, stop=20, num=21)

# Mediante un loop, creamos las variables aleatorias y las graficamos.
for lambda_j, color_j in zip([1, 4, 10], ["orange", "purple", "skyblue"]):
    X_j = stats.poisson(lambda_j)
    ax[0].plot(
        k, X_j.pmf(k), marker="o", color="gray", 
        markerfacecolor=color_j, ms=7, label=r"$\lambda=$"+f"{lambda_j}"
    )
    ax[0].legend(loc="best", frameon=True, fontsize=12)
    ax[0].set_ylabel(r"$p(k)$", fontsize=14, labelpad=20, rotation=0)
    ax[1].plot(
        k, X_j.cdf(k), marker="o", color="gray", 
        markerfacecolor=color_j, ms=7, label=r"$\lambda=$"+f"{lambda_j}"
    )
    ax[1].legend(loc="best", frameon=True, fontsize=12)
    ax[1].set_ylabel(r"$F(k)$", fontsize=14, labelpad=20, rotation=0)

ax[0].set_title("Función de densidad de Poisson", pad=10, fontweight="bold", fontsize=15)
ax[1].set_title("Función de distribución de Poisson", pad=10, fontweight="bold", fontsize=15)
ax[1].set_xlabel(r"$k$", fontsize=14, labelpad=10);

<IPython.core.display.Javascript object>

◼︎

**Ejemplo 5.20:** En un procesamiento de recirculación de agua industrial en una planta concentradora, se observa que el número de bombas que fallan en el tren completo, antes de 100 días de funcionamiento, es en promedio de 8. Vamos a determinar:

1. La probabilidad de que una bomba falle en 25 días.
2. La probabilidad de que no más de dos bombas fallen en 50 días.
3. La probabilidad de que fallen al menos 10 bombas en 125 días.

En efecto, consideremos la variable aleatoria $X$ que representa el número de bombas que fallan antes de cumplir los 100 días requeridos de funcionamiento. Dado que la tasa de fallos es fija (y baja), dicha variable puede admitirse como una variable aleatoria de Poisson con parámetro $\lambda =8$.

Para responder la pregunta (1), vamos a suponer que existe un cierto nivel de regularidad en el proceso relativo a la falla de las bombas y, por lo tanto, la frecuencia de fallas en un cuarto de tiempo del intervalo definido de 100 días es también un cuarto de la original. De esta manera, si $Y$ es la variable aleatoria que determina el número de bombas que falla antes de cumplir 25 días, entonces $Y$ es una variable aleatoria de Poisson con parámetro $\lambda =8/4=2$. Así pues, la probabilidad de que exactamente una bomba falle en 25 días puede calcularse como

In [11]:
# Seteamos nuestra variable aleatoria.
Y = stats.poisson(2)

In [12]:
# Calculamos la probabilidad requerida (p(Y = 1)).
Y.pmf(1)

0.2706705664732254

Por lo tanto, la probabilidad de que una única bomba falle en 25 días es del 27.07%. Si seguimos el mismo razonamiento, podemos construir una nueva variable aleatoria de Poisson $Z$ para el caso (2), donde el parámetro $\lambda$ es igual a 4 (ya que estamos interesados en saber lo que ocurre en la mitad del tiempo definido para la variable aleatoria original $X$). Por lo tanto,

In [13]:
# Seteamos nuestra variable aleatoria.
Z = stats.poisson(4)

Así que debemos calcular la probabilidad $P(Z\leq 2)$. Usando la función de distribución, obtenemos:

In [14]:
# Calculamos la probabilidad requerida.
Z.cdf(2)

0.23810330555354436

Por lo tanto, la probabilidad de que no más de dos bombas fallen en 50 días es de un 23.81%. Finalmente, para el caso (3), bastará con definir una nueva variable aleatoria de Poisson $U$ con parámetro $\lambda=10$, ya que hemos excedido los 100 días del intervalo respectivo. Considerando la propiedad que tiene toda función de distribución $F(k)=P(X\leq k)$, para la cual $P(X\geq k)=1-P(X<k)$, obtenemos el siguiente resultado:

In [15]:
# Seteamos nuestra variable aleatoria.
U = stats.poisson(10)

In [16]:
# Calculamos la probabilidad requerida.
1 - U.cdf(10)

0.41696024980701485

Así que la probabilidad de que fallen al menos 10 bombas en 125 días es de un 41.7%. Un valor preocupantemente alto y que ameritaría discutir ciertos planes de prevención con el área de mantenimiento. ◼︎

### Distribuciones continuas.
Sea $X$ una variable aleatoria unidimensional y $F$ sy función de distribución, de modo que $F(t)=P(X\leq t)$ para todo $t\in \mathbb{R}$. Si la probabilidad $P(X=t)$ es cero para todo $t$, entonces, en virtud del teorema (5.11), $F$ es una función continua en todo $\mathbb{R}$. En este caso, decimos que $F$ es una **distribución continua de probabilidad** y $X$ es, por extensión, una **variable aleatoria continua**. Si $F$ es de clase $C^{1}$ para todo $t$ en el intervalo $[a,t]$, podemos hacer uso del teorema fundamental del cálculo y escribir

$$F\left( t\right)  -F\left( a\right)  =\int^{t}_{a} f\left( u\right)  du$$
<p style="text-align: right;">$(5.71)$</p>

Donde $f$ es la derivada de $F$. La diferencia $F(t)-F(a)$ es, naturalmente, la probabilidad $P(a< X\leq t)$, y la ecuación (5.71) permite expresar tal probabilidad por medio de una integral.

En algunas ocasiones la función de distribución $F$ puede expresarse como una integral de la forma (5.71), en la que la función $f$ es integrable pero no necesariamente continua. Siempre que una igualdad como (5.71) sea válida para todos los intervalos $[a,t]$, el integrando $f$ se llama **función de densidad de probabilidad** de la variable aleatoria $X$ (o de la distribución $F$) con tal que $f$ sea no negativa. Dicho de otro modo, tenemos la siguiente definición.

**<font color='blue'>Definición 5.15 – Función de densidad (caso undimensional):</font>** Sea $X$ una variable aleatoria continua con función de distribución $F$. Una función $f$ no negativa se denomina **función de densidad de probabilidad** de $X$ (asociada a $F$) si es integrable en el intervalo $[a,b]$, y si

$$F(b)-F(a)=P(a\leq X\leq b)=\int^{b}_{a} f\left( x\right)  dx$$
<p style="text-align: right;">$(5.72)$</p>

Si en la ecuación (5.72) hacemos que $a\rightarrow \infty$, se tendrá que $F(a)\rightarrow 0$, obteniéndose la importante relación:

$$P\left( X\leq b\right)  =\int^{b}_{-\infty } f\left( x\right)  dx$$
<p style="text-align: right;">$(5.73)$</p>

y que es válida para todo $x\in \mathbb{R}$. Si ahora hacemos que $b\rightarrow +\infty$, entonces $F(b)\rightarrow 1$ y, por tanto, obtenemos

$$\int^{+\infty }_{-\infty } f\left( x\right)  dx=1$$
<p style="text-align: right;">$(5.74)$</p>

Para las variables aleatorias discretas, la suma de todas las probabilidades $P(X=k)$ es igual a 1. La fórmula (5.74) es la versión de la misma propiedad adaptada a las variables aleatorias continuas. También existe una estrecha analogía entre las fórmulas (5.64) y (5.73). La función de densidad $f$ desempeña, para las distribuciones continuas, el mismo papel de la función que la función de masa de probabilidad $p$ para distribuciones discretas; la integración reemplaza a la suma en el cálculo de las probabilidades. Sin embargo, existe una diferencia importante. En el caso discreto, $p(k)$ es la probabilidad de que $X=k$, pero en el caso continuo, $f(x)$ no es la probabilidad de que $X=x$. En efecto, esta probabilidad es cero debido a que $f$ es continua para todo $x$, lo que equivale a que, para una distribución continua, tengamos que

$$P\left( a\leq X\leq b\right)  =P\left( a<X<b\right)  =P\left( a<X\leq b\right)  =P\left( a\leq X<b\right)$$
<p style="text-align: right;">$(5.75)$</p>

Si $F$ tiene una función de densidad $f$, cada una de las probabilidades anteriores es igual a la integral $\int^{b}_{a} f\left( x\right)  dx$. Cuando queremos poner de manifiesto que $f$ es una función de densidad asociada a la variable aleatoria $X$, escribimos $f_{X}$ en lugar de $f$.

Dado que la función de densidad $f$ es no negativa, es posible interpretar geométricamente la ecuación (5.72) como el área bajo el gráfico de $f$ entre las rectas $x=a$ y $x=b$. Para visualizar esto de manera concreta, podemos hacer uso nuevamente del módulo `scipy.stats`, a fin de poder visualizar la variable aleatoria $X$ cuya función de densidad es

$$\phi \left( x\right)  =\frac{1}{\sigma \sqrt{2\pi } } \exp \left( -\frac{1}{2} \left( \frac{x-\mu }{\sigma } \right)^{2}  \right)$$
<p style="text-align: right;">$(5.76)$</p>

La variable $X$ es llamada **variable aleatoria normal** y, por extensión, $\phi$ es llamada **función de densidad normal** de parámetros $\mu$ y $\sigma$. No entraremos en detalles aún en lo que respecta a esta función particular, salvo por el hecho de que es extremadamente importante en el campo de la estadística y del aprendizaje automatizado, y de seguro que, si somos alumnos o profesionales de la ingeniería, habremos escuchado de ella una gran cantidad de veces. Cualquiera sea el caso, es posible crear rápidamente una variable aleatoria normal en **<font color='mediumorchid'>Scipy</font>** mediante el uso de la clase `stats.norm()`:

In [17]:
# Creamos la variable normal en cuestión.
X = stats.norm()

La variable aleatoria `X` creada de esta forma tiene una función de densidad $\phi$ con parámetros $\mu=0$ y $\sigma=1$. Tal función se denomina **función de densidad normal estándar**.

Vamos a obtener el gráfico de esta función de densidad en el intervalo $[-3, 3]$, y encerraremos el área entre las rectas $x=-1$ y $x=1$:

In [18]:
# Creamos el rango de valores sobre los cuales graficaremos la función.
x = np.linspace(start=-3, stop=3, num=100)

In [19]:
# Obtenemos los valores de la función de densidad sobre el intervalo anterior.
phi = X.pdf(x)

In [20]:
# Creamos el gráfico.
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(x, phi, color="navy", label=r"$\phi(x)$", linewidth=2)
ax.axvline(x=-1, color="k", linestyle="-.", label=r"$x=-1$")
ax.axvline(x=1, color="k", linestyle="--", label=r"$x=1$"),
ax.fill_between(
    x, phi, 0, where=(x >= -1) & (x <= 1), color="turquoise", alpha=0.6,
    label=r"$P\ \left( -1\leq X\leq 1\right)$"
)
ax.set_title(r"Función de densidad normal estándar", fontsize=15, pad=10, fontweight="bold")
ax.set_xlabel(r"$x$", fontsize=14, labelpad=10)
ax.set_ylabel(r"$\phi(x)$", fontsize=14, labelpad=20, rotation=0)
ax.legend(loc="best", fontsize=11, frameon=True)
plt.tight_layout();

<IPython.core.display.Javascript object>

Podemos observar pues que, en el gráfico anterior, el área sombreada bajo $\phi(x)$ representa la probabilidad $P(-1\leq X\leq 1)$.

## Valor esperado de una variable aleatoria.
Vamos a dar un paso más en la caracterización de las variables aleatorias y añadiremos algunos elementos que son dependientes de sus respectivas funciones de masa o densidad (ya sea que la variable aleatoria respectiva sea discreta o continua, respectivamente). El primero de estos elementos corresponde a la **esperanza matemática** o **valor esperado** de la variable aleatoria respectiva, y que corresponde a una **medida de tendencia central** cuyo objetivo es, mediante un único número (o un rango de ellos), representar una distribución de probabilidad en términos de sus valores más probables. Es pues una generalización del concepto de media de un conjunto de datos discretos, y que definiremos en detalle a continuación.

**<font color='blue'>Definición 5.16 – Valor esperado de una variable aleatoria discreta:</font>** Sea $(\Omega, \mathcal{B}, P)$ un espacio de probabilidad y $X:\Omega \longrightarrow I\subseteq \mathbb{R}$ una variable aleatoria unidimensional. Si $I$ es un conjunto finito o infinito numerable de $\mathbb{R}$ y, por extensión, $X$ es una variable aleatoria discreta con función de masa de probabilidad $p(x)$ para todo $x\in \mathbb{R}$, definiremos la **esperanza** o **valor esperado** de $X$, denotado como $\mathrm{E}[X]$, a la suma

$$\mathrm{E} \left[ X\right]  =\sum^{n}_{k=1} x_{k}p\left( x_{k}\right)$$
<p style="text-align: right;">$(5.77)$</p>

Donde $x_{1},...,x_{n}$ son los valores que toma la variable aleatoria $X$ en caso de que $I$ sea un conjunto finito de puntos. Si $I$ es infinito numerable, la fórmula para el valor esperado de $X$ toma la forma

$$\mathrm{E} \left[ X\right]  =\sum^{+\infty}_{k=1} x_{k}p\left( x_{k}\right)$$
<p style="text-align: right;">$(5.78)$</p>

siendo la serie en (5.78) absolutamente convergente en todo $\mathbb{R}$.

**Ejemplo 5.21 – La esperanza de una variable aleatoria binomial:** Consideremos la variable aleatoria binomial $X$, cuya función de masa de probabilidad, como sabemos, se define como

$$p\left( k\right)  =\binom{n}{k} p^{k}\left( 1-p\right)^{n-k}$$
<p style="text-align: right;">$(5.79)$</p>

Aplicaremos la fórmula (5.77) para determinar el valor esperado de $X$. En efecto, tenemos

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=&\displaystyle \sum^{n}_{i=1} k_{i}p\left( x_{i}\right)  \\ &=&\displaystyle \sum^{n}_{i=1} x_{i}\binom{n}{k_{i}} p^{k_{i}}\left( 1-p\right)^{n-k_{i}}  \\ &=&np\end{array}$$
<p style="text-align: right;">$(5.80)$</p>

Observamos pues que la esperanza de $X$, en el caso de que $X$ es una variable aleatoria binomial, depende únicamente del número $n$ de veces en el que se repite el correspondiente experimento y de la probabilidad $p$ del resultado de dicho experimento, y no de los valores que toma $X$. Este es un comportamiento general de la función valor esperado para toda variable aleatoria. De hecho, es común, en la literatura especializada, que las funciones de masa o de densidad de probabilidad se definan junto con sus respectivos valores esperados. Más adelante, cuando estudiemos en profundidad algunas funciones de densidad especialmente importantes en el campo del aprendizaje automátizado, haremos mención a sus correspondientes valores esperados. ◼︎

**Ejemplo 5.22 – La esperanza de una variable aleatoria de Poisson:** Vamos a repetir el ejercicio anterior para el caso en que $X$ es una variable aleatoria de Poisson. Debido a que los procesos caracterizados por este tipo de variables (llamados procesos de Poisson) son de interés por cuanto las probabilidades de ocurrencia de los sucesos a estudiar son muy pequeñas, es común que los espacios muestrales involucrados sean infinitos numerables. Por lo tanto, podemos definir el valor esperado de $X$ como sigue

$$\mathrm{E} \left[ X\right]  =\sum^{+\infty }_{i=1} x_{i}p\left( x_{i}\right)  =\sum^{+\infty }_{i=1} x_{i}\frac{\exp \left( -\lambda \right)  \lambda^{x_{i}} }{x_{i}!}$$
<p style="text-align: right;">$(5.81)$</p>

Luego, considerando la serie de Taylor de la función $g(x)=\exp(x)$ en torno a $x_{0}=0$, definida como $\exp \left( x\right)  =\sum^{+\infty }_{n=0} \frac{x^{n}}{n!}$, obtenemos

$$\begin{array}{lll}\mathrm{E} \left[ X\right]  &=&\displaystyle \sum^{+\infty }_{i=1} x_{i}\displaystyle \frac{\exp \left( -\lambda \right)  \lambda^{x_{i}} }{x_{i}!} \\ &=&\exp \left( -\lambda \right)  \displaystyle \sum^{+\infty }_{i=1} x_{i}\displaystyle \frac{\lambda^{x_{i}} }{x_{i}!} \\ &=&\lambda \exp \left( -\lambda \right)  \exp \left( \lambda \right)  =\lambda \end{array} $$
<p style="text-align: right;">$(5.82)$</p>

Por lo tanto, el valor esperado de $X$ es simplemente igual a $\lambda$. ◼︎