# Probabilidad condicional

Cada vez que observamos nueva evidencia (es decir, obtenemos datos), adquirimos información que puede afectar nuestras incertidumbres. Una nueva observación que es consistente con una creencia existente podría hacernos más seguros de esa creencia, mientras que una observación sorprendente podría poner en duda esa creencia. La probabilidad condicional es el concepto que aborda esta pregunta fundamental: ¿cómo deberíamos actualizar nuestras creencias a la luz de la evidencia que observamos?

## 2.1 La importancia de pensar condicionalmente

La probabilidad condicional es esencial para el razonamiento científico, médico y legal, ya que muestra cómo incorporar evidencia en nuestra comprensión del mundo de una manera lógica y coherente. De hecho, una perspectiva útil es que todas las probabilidades son condicionales; ya sea que esté escrito explícitamente o no, siempre hay conocimiento previo (o suposiciones) incorporado en cada probabilidad.

Supongamos, por ejemplo, que una mañana estamos interesados en el evento $R$ de que lloverá ese día. Sea $P(R)$ nuestra evaluación de la probabilidad de lluvia antes de mirar afuera. Si luego miramos afuera y vemos nubes ominosas en el cielo, entonces presumiblemente nuestra probabilidad de lluvia debería aumentar; denotamos esta nueva probabilidad por $P(R|C)$ (leída como "probabilidad de $R$ dado $C$"), donde $C$ es el evento de que haya nubes ominosas. Cuando pasamos de $P(R)$ a $P(R|C)$, decimos que estamos "condicionando en $C$". A medida que avanza el día, podemos obtener más y más información sobre las condiciones climáticas, y podemos actualizar continuamente nuestras probabilidades. Si observamos que los eventos $B_1, \ldots, B_n$ ocurrieron, entonces escribimos nuestra nueva probabilidad condicional de lluvia dada esta evidencia como $P(R|B_1, \ldots, B_n)$. Si eventualmente observamos que comienza a llover, nuestra probabilidad condicional se convierte en 1.

Además, veremos que el condicionamiento es una estrategia de resolución de problemas muy poderosa, que a menudo hace posible resolver un problema complicado descomponiéndolo en piezas manejables con razonamiento caso por caso. Así como en ciencias de la computación una estrategia común es dividir un problema grande en piezas de tamaño manejable (o incluso del tamaño de un byte), en probabilidad una estrategia común es reducir un problema de probabilidad complicado a un conjunto de problemas de probabilidad condicional más simples. En particular, discutiremos una estrategia conocida como análisis del primer paso, que a menudo nos permite obtener soluciones recursivas a problemas donde el experimento tiene múltiples etapas.

Debido a la importancia central del condicionamiento, tanto como el medio por el cual actualizamos creencias para reflejar evidencia como una estrategia de resolución de problemas, decimos que:

**El condicionamiento es el alma de la estadística.**

## 2.2 Definición e intuición

**Definición 2.2.1 (Probabilidad condicional).** Si $A$ y $B$ son eventos con $P(B) > 0$, entonces la probabilidad condicional de $A$ dado $B$, denotada por $P(A|B)$, se define como:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

Aquí $A$ es el evento cuya incertidumbre queremos actualizar, y $B$ es la evidencia que observamos (o queremos tratar como dada). Llamamos a $P(A)$ la probabilidad previa (prior) de $A$ y $P(A|B)$ la probabilidad posterior de $A$ ("previa" significa antes de actualizar basándose en la evidencia, y "posterior" significa después de actualizar basándose en la evidencia).

Es importante interpretar el evento que aparece después de la barra vertical de condicionamiento como la evidencia que hemos observado o que está siendo condicionada: $P(A|B)$ es la probabilidad de $A$ dada la evidencia $B$, no la probabilidad de alguna entidad llamada $A|B$. Como se discute en §2.4.1, no existe tal evento como $A|B$.

Para cualquier evento $A$, $P(A|A) = P(A \cap A)/P(A) = 1$. Al observar que $A$ ha ocurrido, nuestra probabilidad actualizada para $A$ es 1. Si este no fuera el caso, ¡exigiríamos una nueva definición de probabilidad condicional!

**Ejemplo 2.2.2 (Dos cartas).** Se baraja bien un mazo estándar de cartas. Se extraen dos cartas aleatoriamente, una a la vez sin reemplazo. Sea $A$ el evento de que la primera carta es un corazón, y $B$ el evento de que la segunda carta es roja. Encuentra $P(A|B)$ y $P(B|A)$.

**Solución:**

Por la definición ingenua de probabilidad y la regla de la multiplicación:

$$P(A \cap B) = \frac{13 \times 25}{52 \times 51} = \frac{25}{204}$$

ya que un resultado favorable se determina eligiendo cualquiera de los 13 corazones y luego cualquiera de las 25 cartas rojas restantes. Además, $P(A) = \frac{1}{4}$ ya que los 4 palos son igualmente probables, y:

$$P(B) = \frac{26 \times 51}{52 \times 51} = \frac{1}{2}$$

ya que hay 26 posibilidades favorables para la segunda carta, y para cada una de ellas, la primera carta puede ser cualquier otra carta (recuerda del Capítulo 1 que el orden cronológico no es necesario en la regla de la multiplicación).

Una forma más elegante de ver que $P(B) = \frac{1}{2}$ es por simetría: desde un punto de vista antes de haber hecho el experimento, la segunda carta es igualmente probable de ser cualquier carta del mazo.

Ahora tenemos todas las piezas necesarias para aplicar la definición de probabilidad condicional:

$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{25/204}{1/2} = \frac{25}{102}$$

$$P(B|A) = \frac{P(B \cap A)}{P(A)} = \frac{25/204}{1/4} = \frac{25}{51}$$

Es extremadamente importante tener cuidado sobre qué eventos poner en qué lado de la barra de condicionamiento. En particular, $P(A|B) \neq P(B|A)$. La siguiente sección explora cómo $P(A|B)$ y $P(B|A)$ están relacionados en general. Confundir estas dos cantidades se llama la falacia del fiscal.

Para arrojar más luz sobre lo que significa la probabilidad condicional, aquí hay dos interpretaciones intuitivas.

**Intuición 2.2.3 (Mundo de las Piedras).** Considera un espacio muestral finito, con los resultados visualizados como piedras con masa total 1. Como $A$ es un evento, es un conjunto de piedras, y lo mismo para $B$. La Figura 2.1(a) muestra un ejemplo.

![![image.png](https://)](attachment:image.png)

**FIGURA 2.1**

Intuición del Mundo de las Piedras para $P(A|B)$. De izquierda a derecha: (a) Los eventos $A$ y $B$ son subconjuntos del espacio muestral. (b) Como sabemos que $B$ ocurrió, eliminamos los resultados en $B^c$. (c) En el espacio muestral restringido, renormalizamos para que la masa total siga siendo 1.

Ahora supongamos que nos enteramos de que $B$ ocurrió. En la Figura 2.1(b), al obtener esta información, eliminamos todas las piedras en $B^c$ porque son incompatibles con el conocimiento de que $B$ ha ocurrido. Entonces $P(A \cap B)$ es la masa total de las piedras que quedan en $A$. Finalmente, en la Figura 2.1(c), renormalizamos, es decir, dividimos todas las masas por una constante para que la nueva masa total de las piedras restantes sea 1. Esto se logra dividiendo por $P(B)$, la masa total de las piedras en $B$. La masa actualizada de los resultados correspondientes al evento $A$ es la probabilidad condicional $P(A|B) = P(A \cap B)/P(B)$.

De esta manera, nuestras probabilidades han sido actualizadas de acuerdo con la evidencia observada. Los resultados que contradicen la evidencia son descartados, y su masa se redistribuye entre los resultados restantes, preservando las masas relativas de los resultados restantes. Por ejemplo, si la piedra 2 pesa el doble que la piedra 1 inicialmente, y ambas están contenidas en $B$, entonces después de condicionar en $B$ sigue siendo cierto que la piedra 2 pesa el doble que la piedra 1. Pero si la piedra 2 no está contenida en $B$, entonces después de condicionar en $B$ su masa se actualiza a 0.