# Probabilidad condicional

Cada vez que observamos nueva evidencia (es decir, obtenemos datos), adquirimos información que puede afectar nuestras incertidumbres. Una nueva observación que es consistente con una creencia existente podría hacernos más seguros de esa creencia, mientras que una observación sorprendente podría poner en duda esa creencia. La probabilidad condicional es el concepto que aborda esta pregunta fundamental: ¿cómo deberíamos actualizar nuestras creencias a la luz de la evidencia que observamos?

## 2.1 La importancia de pensar condicionalmente

La probabilidad condicional es esencial para el razonamiento científico, médico y legal, ya que muestra cómo incorporar evidencia en nuestra comprensión del mundo de una manera lógica y coherente. De hecho, una perspectiva útil es que todas las probabilidades son condicionales; ya sea que esté escrito explícitamente o no, siempre hay conocimiento previo (o suposiciones) incorporado en cada probabilidad.

Supongamos, por ejemplo, que una mañana estamos interesados en el evento $R$ de que lloverá ese día. Sea $P(R)$ nuestra evaluación de la probabilidad de lluvia antes de mirar afuera. Si luego miramos afuera y vemos nubes ominosas en el cielo, entonces presumiblemente nuestra probabilidad de lluvia debería aumentar; denotamos esta nueva probabilidad por $P(R|C)$ (leída como "probabilidad de $R$ dado $C$"), donde $C$ es el evento de que haya nubes ominosas. Cuando pasamos de $P(R)$ a $P(R|C)$, decimos que estamos "condicionando en $C$". A medida que avanza el día, podemos obtener más y más información sobre las condiciones climáticas, y podemos actualizar continuamente nuestras probabilidades. Si observamos que los eventos $B_1, \ldots, B_n$ ocurrieron, entonces escribimos nuestra nueva probabilidad condicional de lluvia dada esta evidencia como $P(R|B_1, \ldots, B_n)$. Si eventualmente observamos que comienza a llover, nuestra probabilidad condicional se convierte en 1.

Además, veremos que el condicionamiento es una estrategia de resolución de problemas muy poderosa, que a menudo hace posible resolver un problema complicado descomponiéndolo en piezas manejables con razonamiento caso por caso. Así como en ciencias de la computación una estrategia común es dividir un problema grande en piezas de tamaño manejable (o incluso del tamaño de un byte), en probabilidad una estrategia común es reducir un problema de probabilidad complicado a un conjunto de problemas de probabilidad condicional más simples. En particular, discutiremos una estrategia conocida como análisis del primer paso, que a menudo nos permite obtener soluciones recursivas a problemas donde el experimento tiene múltiples etapas.

Debido a la importancia central del condicionamiento, tanto como el medio por el cual actualizamos creencias para reflejar evidencia como una estrategia de resolución de problemas, decimos que:

**El condicionamiento es el alma de la estadística.**

## 2.2 Definición e intuición

**Definición 2.2.1 (Probabilidad condicional).** Si $A$ y $B$ son eventos con $P(B) > 0$, entonces la probabilidad condicional de $A$ dado $B$, denotada por $P(A|B)$, se define como:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

Aquí $A$ es el evento cuya incertidumbre queremos actualizar, y $B$ es la evidencia que observamos (o queremos tratar como dada). Llamamos a $P(A)$ la probabilidad previa (prior) de $A$ y $P(A|B)$ la probabilidad posterior de $A$ ("previa" significa antes de actualizar basándose en la evidencia, y "posterior" significa después de actualizar basándose en la evidencia).

Es importante interpretar el evento que aparece después de la barra vertical de condicionamiento como la evidencia que hemos observado o que está siendo condicionada: $P(A|B)$ es la probabilidad de $A$ dada la evidencia $B$, no la probabilidad de alguna entidad llamada $A|B$. Como se discute en §2.4.1, no existe tal evento como $A|B$.

Para cualquier evento $A$, $P(A|A) = P(A \cap A)/P(A) = 1$. Al observar que $A$ ha ocurrido, nuestra probabilidad actualizada para $A$ es 1. Si este no fuera el caso, ¡exigiríamos una nueva definición de probabilidad condicional!

**Ejemplo 2.2.2 (Dos cartas).** Se baraja bien un mazo estándar de cartas. Se extraen dos cartas aleatoriamente, una a la vez sin reemplazo. Sea $A$ el evento de que la primera carta es un corazón, y $B$ el evento de que la segunda carta es roja. Encuentra $P(A|B)$ y $P(B|A)$.

**Solución:**

Por la definición ingenua de probabilidad y la regla de la multiplicación:

$$P(A \cap B) = \frac{13 \times 25}{52 \times 51} = \frac{25}{204}$$

ya que un resultado favorable se determina eligiendo cualquiera de los 13 corazones y luego cualquiera de las 25 cartas rojas restantes. Además, $P(A) = \frac{1}{4}$ ya que los 4 palos son igualmente probables, y:

$$P(B) = \frac{26 \times 51}{52 \times 51} = \frac{1}{2}$$

ya que hay 26 posibilidades favorables para la segunda carta, y para cada una de ellas, la primera carta puede ser cualquier otra carta (recuerda del Capítulo 1 que el orden cronológico no es necesario en la regla de la multiplicación).

Una forma más elegante de ver que $P(B) = \frac{1}{2}$ es por simetría: desde un punto de vista antes de haber hecho el experimento, la segunda carta es igualmente probable de ser cualquier carta del mazo.

Ahora tenemos todas las piezas necesarias para aplicar la definición de probabilidad condicional:

$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{25/204}{1/2} = \frac{25}{102}$$

$$P(B|A) = \frac{P(B \cap A)}{P(A)} = \frac{25/204}{1/4} = \frac{25}{51}$$

Es extremadamente importante tener cuidado sobre qué eventos poner en qué lado de la barra de condicionamiento. En particular, $P(A|B) \neq P(B|A)$. La siguiente sección explora cómo $P(A|B)$ y $P(B|A)$ están relacionados en general. Confundir estas dos cantidades se llama la falacia del fiscal.

Para arrojar más luz sobre lo que significa la probabilidad condicional, aquí hay dos interpretaciones intuitivas.

**Intuición 2.2.3 (Mundo de las Piedras).** Considera un espacio muestral finito, con los resultados visualizados como piedras con masa total 1. Como $A$ es un evento, es un conjunto de piedras, y lo mismo para $B$. La Figura 2.1(a) muestra un ejemplo.

![![image.png](https://)](attachment:image.png)

**FIGURA 2.1**

Intuición del Mundo de las Piedras para $P(A|B)$. De izquierda a derecha: (a) Los eventos $A$ y $B$ son subconjuntos del espacio muestral. (b) Como sabemos que $B$ ocurrió, eliminamos los resultados en $B^c$. (c) En el espacio muestral restringido, renormalizamos para que la masa total siga siendo 1.

Ahora supongamos que nos enteramos de que $B$ ocurrió. En la Figura 2.1(b), al obtener esta información, eliminamos todas las piedras en $B^c$ porque son incompatibles con el conocimiento de que $B$ ha ocurrido. Entonces $P(A \cap B)$ es la masa total de las piedras que quedan en $A$. Finalmente, en la Figura 2.1(c), renormalizamos, es decir, dividimos todas las masas por una constante para que la nueva masa total de las piedras restantes sea 1. Esto se logra dividiendo por $P(B)$, la masa total de las piedras en $B$. La masa actualizada de los resultados correspondientes al evento $A$ es la probabilidad condicional $P(A|B) = P(A \cap B)/P(B)$.

De esta manera, nuestras probabilidades han sido actualizadas de acuerdo con la evidencia observada. Los resultados que contradicen la evidencia son descartados, y su masa se redistribuye entre los resultados restantes, preservando las masas relativas de los resultados restantes. Por ejemplo, si la piedra 2 pesa el doble que la piedra 1 inicialmente, y ambas están contenidas en $B$, entonces después de condicionar en $B$ sigue siendo cierto que la piedra 2 pesa el doble que la piedra 1. Pero si la piedra 2 no está contenida en $B$, entonces después de condicionar en $B$ su masa se actualiza a 0.

**Intuición 2.2.4 (Interpretación frecuentista).** Recuerda que la interpretación frecuentista de la probabilidad se basa en la frecuencia relativa sobre un gran número de ensayos repetidos. Imagina repetir nuestro experimento muchas veces, generando una larga lista de resultados observados. La probabilidad condicional de $A$ dado $B$ puede entonces pensarse de una manera natural: es la fracción de veces que $A$ ocurre, restringiendo la atención a los ensayos donde $B$ ocurre.

En la Figura 2.2, nuestro experimento tiene resultados que pueden escribirse como una cadena de 0's y 1's; $B$ es el evento de que el primer dígito es 1 y $A$ es el evento de que el segundo dígito es 1. Condicionando en $B$, encerramos en un círculo todas las repeticiones donde $B$ ocurrió, y luego observamos la fracción de repeticiones circuladas en las que el evento $A$ también ocurrió.

En símbolos, sea $n_A$, $n_B$, $n_{AB}$ el número de ocurrencias de $A$, $B$, $A \cap B$ respectivamente en un gran número $n$ de repeticiones del experimento. La interpretación frecuentista es que:

$$P(A) \approx \frac{n_A}{n}, \quad P(B) \approx \frac{n_B}{n}, \quad P(A \cap B) \approx \frac{n_{AB}}{n}$$

Entonces $P(A|B)$ se interpreta como $n_{AB}/n_B$, que es igual a $(n_{AB}/n)/(n_B/n)$. Esta interpretación nuevamente se traduce a $P(A|B) = P(A \cap B)/P(B)$.

![image.png](attachment:image.png)

**FIGURA 2.2**

Intuición frecuentista para $P(A|B)$. Las repeticiones donde $B$ ocurrió están encerradas en un círculo; entre estas, las repeticiones donde $A$ ocurrió están resaltadas en negrita. $P(A|B)$ es la frecuencia relativa a largo plazo de las repeticiones donde $A$ ocurre, dentro del subconjunto de repeticiones donde $B$ ocurre.

## 2.3 La regla de Bayes y la ley de probabilidad total

La definición de probabilidad condicional es simple—solo una razón de dos probabilidades—pero tiene consecuencias de gran alcance. La primera consecuencia se obtiene fácilmente moviendo el denominador en la definición al otro lado de la ecuación.

**Teorema 2.3.1 (Probabilidad de la intersección de dos eventos).** Para cualesquiera eventos $A$ y $B$ con probabilidades positivas:

$$P(A \cap B) = P(B)P(A|B) = P(A)P(B|A)$$

Esto se deduce de tomar la definición de $P(A|B)$ y multiplicar ambos lados por $P(B)$, y luego tomar la definición de $P(B|A)$ y multiplicar ambos lados por $P(A)$. A primera vista este teorema puede no parecer muy útil: es la definición de probabilidad condicional, solo escrita de manera ligeramente diferente, y de todos modos parece circular usar $P(A|B)$ para ayudar a encontrar $P(A \cap B)$ cuando $P(A|B)$ fue definida en términos de $P(A \cap B)$. Pero veremos que el teorema es de hecho muy útil, ya que a menudo resulta posible encontrar probabilidades condicionales sin volver a la definición, y en tales casos el Teorema 2.3.1 puede ayudarnos a encontrar más fácilmente $P(A \cap B)$.

Aplicando el Teorema 2.3.1 repetidamente, podemos generalizar a la intersección de $n$ eventos.

**Teorema 2.3.2 (Probabilidad de la intersección de n eventos).** Para cualesquiera eventos $A_1, \ldots, A_n$ con $P(A_1, A_2, \ldots, A_{n-1}) > 0$:

$$P(A_1, A_2, \ldots, A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1, A_2) \cdots P(A_n|A_1, \ldots, A_{n-1})$$

Las comas denotan intersecciones, por ejemplo, $P(A_3|A_1, A_2)$ es $P(A_3|A_1 \cap A_2)$.

De hecho, esto es $n!$ teoremas en uno, ya que podemos permutar $A_1, \ldots, A_n$ como queramos sin afectar el lado izquierdo. A menudo el lado derecho será mucho más fácil de calcular para algunos ordenamientos que para otros. Por ejemplo:

$$P(A_1, A_2, A_3) = P(A_1)P(A_2|A_1)P(A_3|A_1, A_2) = P(A_2)P(A_3|A_2)P(A_1|A_2, A_3)$$

y hay 4 expansiones más de esta forma también. A menudo se necesita práctica y reflexión para poder saber qué ordenamiento usar.

Ahora estamos listos para introducir los dos teoremas principales de este capítulo—la regla de Bayes y la ley de probabilidad total—que nos permitirán calcular probabilidades condicionales en una amplia gama de problemas. La regla de Bayes es un resultado extremadamente famoso y extremadamente útil que relaciona $P(A|B)$ con $P(B|A)$.

**Teorema 2.3.3 (Regla de Bayes).**

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

Esto se deduce inmediatamente del Teorema 2.3.1, que a su vez se dedujo inmediatamente de la definición de probabilidad condicional. Sin embargo, la regla de Bayes tiene implicaciones y aplicaciones importantes en probabilidad y estadística, ya que es tan necesario encontrar probabilidades condicionales, y a menudo $P(B|A)$ es mucho más fácil de encontrar directamente que $P(A|B)$ (o viceversa).

**Teorema 2.3.6 (Ley de probabilidad total).** Sea $A_1, \ldots, A_n$ una partición del espacio muestral $S$ (es decir, los $A_i$ son eventos disjuntos y su unión es $S$), con $P(A_i) > 0$ para todo $i$. Entonces:

$$P(B) = \sum_{i=1}^{n} P(B|A_i)P(A_i)$$

**Demostración.** Como los $A_i$ forman una partición de $S$, podemos descomponer $B$ como:

$$B = (B \cap A_1) \cup (B \cap A_2) \cup \cdots \cup (B \cap A_n)$$

Esto se ilustra en la Figura 2.3, donde hemos cortado $B$ en las piezas más pequeñas $B \cap A_1$ hasta $B \cap A_n$. Por el segundo axioma de probabilidad, como estas piezas son disjuntas, podemos sumar sus probabilidades para obtener $P(B)$:

$$P(B) = P(B \cap A_1) + P(B \cap A_2) + \cdots + P(B \cap A_n)$$

Ahora podemos aplicar el Teorema 2.3.1 a cada uno de los $P(B \cap A_i)$:

$$P(B) = P(B|A_1)P(A_1) + \cdots + P(B|A_n)P(A_n)$$

La ley de probabilidad total nos dice que para obtener la probabilidad incondicional de $B$, podemos dividir el espacio muestral en rebanadas disjuntas $A_i$, encontrar la probabilidad condicional de $B$ dentro de cada una de las rebanadas, luego tomar una suma ponderada de las probabilidades condicionales, donde los pesos son las probabilidades $P(A_i)$. La elección de cómo dividir el espacio muestral es crucial: una partición bien elegida reducirá un problema complicado en piezas más simples, mientras que una partición mal elegida solo exacerbará nuestros problemas, ¡requiriendo que calculemos $n$ probabilidades difíciles en lugar de solo una!

![image.png](attachment:image.png)

**FIGURA 2.3**

Los $A_i$ particionan el espacio muestral; $P(B)$ es igual a $\sum_i P(B \cap A_i)$.

**Ejemplo 2.3.7 (Moneda aleatoria).** Tienes una moneda justa y una moneda sesgada que cae en Cara con probabilidad 3/4. Escoges una de las monedas al azar y la lanzas tres veces. Cae en Cara las tres veces. Dada esta información, ¿cuál es la probabilidad de que la moneda que escogiste sea la justa?

**Solución:**

Sea $A$ el evento de que la moneda elegida caiga en Cara tres veces y sea $F$ el evento de que escogimos la moneda justa. Estamos interesados en $P(F|A)$, pero es más fácil encontrar $P(A|F)$ y $P(A|F^c)$ ya que ayuda saber qué moneda tenemos; esto sugiere usar la regla de Bayes y la ley de probabilidad total. Al hacerlo, tenemos:

$$P(F|A) = \frac{P(A|F)P(F)}{P(A)} = \frac{P(A|F)P(F)}{P(A|F)P(F) + P(A|F^c)P(F^c)}$$

$$= \frac{(1/2)^3 \times 1/2}{(1/2)^3 \times 1/2 + (3/4)^3 \times 1/2} \approx 0.23$$

Antes de lanzar la moneda, pensábamos que era igualmente probable haber escogido la moneda justa como la moneda sesgada: $P(F) = P(F^c) = 1/2$. Al observar tres Caras, sin embargo, se vuelve más probable que hayamos elegido la moneda sesgada que la moneda justa, por lo que $P(F|A)$ es solo aproximadamente 0.23.

**Ejemplo 2.3.9 (Prueba para una enfermedad rara).** Un paciente llamado Fred se hace una prueba para una enfermedad llamada condicionitis, una condición médica que afecta al 1% de la población. El resultado de la prueba es positivo, es decir, la prueba afirma que Fred tiene la enfermedad. Sea $D$ el evento de que Fred tiene la enfermedad y $T$ el evento de que la prueba resulte positiva.

Supongamos que la prueba es "95% precisa"; hay diferentes medidas de la precisión de una prueba, pero en este problema se asume que significa que $P(T|D) = 0.95$ y $P(T^c|D^c) = 0.95$. La cantidad $P(T|D)$ se conoce como la sensibilidad o tasa de verdaderos positivos de la prueba, y $P(T^c|D^c)$ se conoce como la especificidad o tasa de verdaderos negativos.

Encuentra la probabilidad condicional de que Fred tenga condicionitis, dada la evidencia proporcionada por el resultado de la prueba.

**Solución:**

Aplicando la regla de Bayes y la ley de probabilidad total, tenemos:

$$P(D|T) = \frac{P(T|D)P(D)}{P(T)} = \frac{P(T|D)P(D)}{P(T|D)P(D) + P(T|D^c)P(D^c)}$$

$$= \frac{0.95 \times 0.01}{0.95 \times 0.01 + 0.05 \times 0.99} \approx 0.16$$

¡Así que solo hay un 16% de probabilidad de que Fred tenga condicionitis, dado que dio positivo en la prueba, aunque la prueba parece ser bastante confiable!

La mayoría de las personas encuentran sorprendente que la probabilidad condicional de tener la enfermedad dado un resultado positivo de la prueba sea solo del 16%, incluso aunque la prueba sea 95% precisa (ver Gigerenzer y Hoffrage [13]). La clave para entender esta probabilidad posterior sorprendentemente baja de tener la enfermedad es darse cuenta de que hay dos factores en juego: la evidencia de la prueba, y nuestra información previa sobre la prevalencia de la enfermedad.

¡Aunque la prueba proporciona evidencia a favor de la enfermedad, la condicionitis también es una condición rara! La probabilidad condicional $P(D|T)$ refleja un balance entre estos dos factores, ponderando apropiadamente la rareza de la enfermedad contra la rareza de un resultado de prueba erróneo.

Para mayor intuición, considera una población de 10,000 personas como se ilustra en la Figura 2.4, donde 100 tienen condicionitis y 9,900 no; esto corresponde a una tasa de enfermedad del 1%. Si hiciéramos la prueba a todos en la población, esperaríamos que de los 100 individuos enfermos, 95 den positivo y 5 den negativo. De los 9,900 individuos sanos, esperaríamos que $(0.95)(9900) \approx 9405$ den negativo y 495 den positivo.

![image.png](attachment:image.png)

**FIGURA 2.4**

Prueba para una enfermedad rara en una población de 10,000 personas, donde la prevalencia de la enfermedad es del 1% y las tasas de verdaderos positivos y verdaderos negativos son ambas iguales al 95%. Las burbujas no están a escala.

Ahora enfoquémonos en aquellos individuos que dan positivo en la prueba; es decir, condicionemos en un resultado positivo de la prueba. Los 95 verdaderos positivos (es decir, los individuos que dan positivo en la prueba y tienen la enfermedad) son ampliamente superados en número por los 495 falsos positivos (es decir, los individuos que dan positivo en la prueba a pesar de no tener la enfermedad). ¡Así que la mayoría de las personas que dan positivo en la prueba para la enfermedad en realidad no tienen la enfermedad!

## 2.4 Las probabilidades condicionales son probabilidades

Cuando condicionamos en un evento $E$, actualizamos nuestras creencias para que sean consistentes con este conocimiento, poniéndonos efectivamente en un universo donde sabemos que $E$ ocurrió. Dentro de nuestro nuevo universo, sin embargo, las leyes de probabilidad operan exactamente como antes. ¡La probabilidad condicional satisface todas las propiedades de la probabilidad! Por lo tanto, cualquiera de los resultados que hemos derivado sobre probabilidad siguen siendo válidos si reemplazamos todas las probabilidades incondicionales con probabilidades condicionales en $E$.

Para resumir nuestra discusión en pocas palabras:

**Las probabilidades condicionales son probabilidades, y todas las probabilidades son condicionales.**

Ahora enunciamos las formas condicionales de la regla de Bayes y la ley de probabilidad total. Estas se obtienen tomando las formas ordinarias de la regla de Bayes y la ley de probabilidad total y agregando $E$ a la derecha de la barra vertical en todas partes.

**Teorema 2.4.2 (Regla de Bayes con condicionamiento adicional).** Siempre que $P(A \cap E) > 0$ y $P(B \cap E) > 0$, tenemos:

$$P(A|B,E) = \frac{P(B|A,E)P(A|E)}{P(B|E)}$$

**Teorema 2.4.3 (Ley de probabilidad total con condicionamiento adicional).** Sea $A_1, \ldots, A_n$ una partición de $S$. Siempre que $P(A_i \cap E) > 0$ para todo $i$, tenemos:

$$P(B|E) = \sum_{i=1}^{n} P(B|A_i,E)P(A_i|E)$$

Las formas de condicionamiento adicional de la regla de Bayes y la ley de probabilidad total pueden demostrarse de manera similar a cómo verificamos que $\tilde{P}$ satisface los axiomas de probabilidad, pero también se deducen directamente del "metateorema" de que las probabilidades condicionales son probabilidades.

**Ejemplo 2.4.4 (Moneda aleatoria, continuación).** Continuando con el escenario del Ejemplo 2.3.7, supongamos que ahora hemos visto que nuestra moneda elegida cayó en Cara tres veces. Si lanzamos la moneda una cuarta vez, ¿cuál es la probabilidad de que caiga en Cara una vez más?

**Solución:**

Como antes, sea $A$ el evento de que la moneda elegida cayó en Cara tres veces, y definamos un nuevo evento $H$ para que la moneda elegida caiga en Cara en el cuarto lanzamiento. Estamos interesados en $P(H|A)$. Sería muy útil saber si tenemos la moneda justa. La ley de probabilidad total con condicionamiento adicional nos da $P(H|A)$ como un promedio ponderado de $P(H|F,A)$ y $P(H|F^c,A)$, y dentro de estas dos probabilidades condicionales sí sabemos si tenemos la moneda justa:

$$P(H|A) = P(H|F,A)P(F|A) + P(H|F^c,A)P(F^c|A)$$

$$\approx \frac{1}{2} \times 0.23 + \frac{3}{4} \times (1 - 0.23) \approx 0.69$$

Las probabilidades posteriores $P(F|A)$ y $P(F^c|A)$ provienen de nuestra respuesta al Ejemplo 2.3.7.

Una forma equivalente de resolver este problema es definir una nueva función de probabilidad $\tilde{P}$ tal que para cualquier evento $B$, $\tilde{P}(B) = P(B|A)$. Esta nueva función asigna probabilidades que se actualizan con el conocimiento de que $A$ ocurrió. Entonces, por la ley ordinaria de probabilidad total:

$$\tilde{P}(H) = \tilde{P}(H|F)\tilde{P}(F) + \tilde{P}(H|F^c)\tilde{P}(F^c)$$

que es exactamente lo mismo que nuestro uso de la ley de probabilidad total con condicionamiento adicional. Esto ilustra una vez más el principio de que las probabilidades condicionales son probabilidades.