# Probabilidad

La probabilidad afecta a cada aspecto de nuestras vidas, pero en realidad, todos somos bastante malos en ello, como demuestran algunos de los ejemplos en este capítulo. Necesitamos estudiar la probabilidad para hacerlo bien. Y necesitamos hacerlo bien porque el aprendizaje profundo trata extensamente con ideas de la teoría de la probabilidad. La probabilidad aparece en todas partes, desde las salidas de las redes neuronales hasta la frecuencia con la que aparecen diferentes clases en la naturaleza hasta las distribuciones utilizadas para inicializar redes profundas.

Este capítulo tiene como objetivo exponerte a los tipos de ideas y términos relacionados con la probabilidad que encontrarás con frecuencia en el aprendizaje profundo. Comenzaremos con ideas básicas sobre probabilidad e introduciremos la noción de una variable aleatoria. Luego pasaremos a las reglas de la probabilidad. Estas secciones cubren los conceptos básicos que nos permitirán hablar sobre probabilidades conjuntas y marginales. Encontrarás esos términos una y otra vez mientras exploras el aprendizaje profundo. Una vez que entiendas cómo usar las probabilidades conjuntas y marginales, explicaré la primera de las dos reglas de la cadena discutidas en este libro. La segunda está en el Capítulo 6 sobre cálculo diferencial. Continuaremos nuestro estudio de la probabilidad en el Capítulo 3.

## Conceptos básicos

Una _probabilidad_ es un número entre 0 y 1 que mide qué tan probable es que ocurra algo. Si no hay posibilidad de que algo suceda, su probabilidad es 0. Si es absolutamente cierto que sucederá, su probabilidad es 1. Usualmente expresamos las probabilidades de esta manera, aunque en el uso cotidiano, a las personas parecen no gustarles decir cosas como "La probabilidad de lluvia mañana es 0.25". En cambio, decimos "La probabilidad de lluvia mañana es del 25%". En el habla cotidiana, convertimos la probabilidad fraccional a un porcentaje. Haremos lo mismo en este capítulo.

El párrafo anterior utilizó múltiples palabras asociadas con probabilidad: probable, chance y certeza. Esto está bien en el uso informal, e incluso en cierto modo en el aprendizaje profundo, pero cuando necesitamos ser explícitos, nos adheriremos a la probabilidad y la expresaremos numéricamente en el rango de 0 a 1, [0, 1]. Los corchetes cuadrados significan que el límite superior e inferior están incluidos. Si el límite no está incluido en el rango, se utiliza un paréntesis normal. Por ejemplo, la función np.random.random() de NumPy devuelve un número de punto flotante seudorandom en el rango [0, 1). Por lo tanto, podría devolver exactamente 0, pero nunca devolverá exactamente 1.

A continuación, introduciré los conceptos fundamentales de espacio muestral, eventos y variables aleatorias. Concluiré con algunos ejemplos de cómo los humanos son malos en probabilidad.

### Espacio muestral y eventos

En pocas palabras, un espacio muestral es un conjunto discreto o un rango continuo que representa todos los posibles resultados de un evento. Un evento es algo que sucede. Por lo general, es el resultado de algún proceso físico, como lanzar una moneda o tirar un dado. Todos los posibles eventos que hemos agrupado juntos son el espacio muestral con el que estamos trabajando. Cada evento es una muestra del espacio muestral, y el espacio muestral representa todos los posibles eventos. Veamos algunos ejemplos.

Los posibles resultados de lanzar una moneda son cara (H) o cruz (T); por lo tanto, el espacio muestral para lanzar una moneda es el conjunto {H, T}. El espacio muestral para el lanzamiento de un dado estándar es el conjunto {1, 2, 3, 4, 5, 6} porque, descartando que el dado se pare sobre su borde, una de las seis caras del cubo estará en la parte superior cuando el dado deje de moverse. Estos son ejemplos de espacios muestrales discretos.

En el aprendizaje profundo, la mayoría de los espacios muestrales son continuos y consisten en números de punto flotante, no enteros o elementos de un conjunto. Por ejemplo, si una característica de entrada a una red neuronal puede tomar cualquier valor en el rango [0, 1], entonces [0, 1] es el espacio muestral para esa característica.

Podemos preguntar sobre la probabilidad de que ciertos eventos ocurran. Para una moneda, podemos preguntar, ¿cuál es la probabilidad de que la moneda caiga cara cuando se lanza? Intuitivamente, suponiendo que la moneda no esté sesgada para que un lado sea más probable que el otro, decimos que la probabilidad de cara es del 50%. La probabilidad de obtener cara es entonces 0.5 (50% como porcentaje). Vemos que la probabilidad de obtener cruz también es 0.5. Finalmente, dado que cara y cruz son los únicos resultados posibles, vemos que la suma de las probabilidades sobre todos los resultados posibles es $0.5 + 0.5 = 1.0$. Las probabilidades siempre suman 1.0 sobre todos los valores posibles del espacio muestral.

¿Cuál es la probabilidad de sacar un cuatro con un dado de seis caras? Nuevamente, no hay razón para favorecer una cara sobre otra, y solo una de las seis caras tiene cuatro puntos, por lo que la probabilidad es una de cada seis, $1/6 ≈ 0.166666$ . . . o alrededor del 17%.


### Variables aleatorias

Vamos a denotar el resultado de lanzar una moneda con una variable, $X$. $X$ es lo que se llama una variable aleatoria, una variable que toma valores de su espacio muestral con cierta probabilidad. Debido a que aquí el espacio muestral es discreto, $X$ es una variable aleatoria discreta, que denotamos con una letra mayúscula. Para la moneda, la probabilidad de que $X$ sea cara es igual a la probabilidad de que $X$ sea cruz, ambas 0.5. Para escribir esto de manera formal, usamos:

$$
P(X = cara) = P(X = cruz) = 0.5
$$

Donde $P$ se usa universalmente para indicar la probabilidad del evento entre paréntesis para la variable aleatoria especificada. Una variable aleatoria continua es una variable aleatoria de un espacio muestral continuo, denotada con una letra minúscula, como $x$. Normalmente hablamos sobre la probabilidad de que la variable aleatoria esté en algún rango del espacio muestral, no en un número real en particular. Por ejemplo, si usamos la función aleatoria de NumPy para devolver un valor en [0, 1), podemos preguntar: ¿Cuál es la probabilidad de que devuelva un valor en el rango [0, 0.25)? Dado que cualquier número es tan probable de ser devuelto como cualquier otro, decimos que la probabilidad de estar en ese rango es 0.25 o 25%.

### Los humanos somos malos en probabilidad

Nos sumergiremos en las matemáticas de la probabilidad en la próxima sección. Pero antes de eso, veamos dos ejemplos que involucran probabilidad y que muestran cuán malos podemos ser los humanos en ella. Ambos ejemplos han desconcertado a expertos, no porque los expertos carezcan de habilidades, sino porque nuestras intuiciones sobre la probabilidad a menudo son completamente incorrectas, y hasta los expertos son completamente humanos.

#### El dilema de Monty Hall

Este problema es uno de mis favoritos, ya que confunde incluso a matemáticos con títulos avanzados. El dilema proviene de un antiguo programa de televisión estadounidense llamado "Let’s Make a Deal". El presentador original del programa, Monty Hall, seleccionaba a un miembro de la audiencia y le mostraba a esa persona tres grandes puertas cerradas etiquetadas como 1, 2 y 3. Detrás de una de las puertas había un automóvil nuevo. Detrás de las otras dos puertas había premios de broma, como una cabra viva. Se le pedía al concursante que eligiera una puerta. Luego, Hall preguntaría qué puerta, de las que el concursante no eligió, se abriría, naturalmente una que no tuviera un automóvil detrás. Después de que la audiencia dejara de reírse de cualquier premio de broma que estuviera detrás de esa puerta, Hall le preguntaría al concursante si quería quedarse con la puerta originalmente seleccionada o si prefería cambiar su elección a la puerta restante. El dilema es simplemente ese: ¿deben quedarse con su elección original o cambiar a la puerta restante?

Si quieres pensar en ello por un tiempo, por favor hazlo. Deja el libro, da un paseo, toma un lápiz y papel, toma notas y luego, cuando tengas una solución (o te rindas), sigue leyendo...

Aquí está la respuesta correcta: cambia de puerta. Si lo haces, ganarás el automóvil 2/3 del tiempo. Si no lo haces, solo ganarás el automóvil 1/3 del tiempo, ya que esa es la probabilidad de seleccionar la puerta correcta inicialmente: una elección correcta de tres posibles.

Cuando Marilyn vos Savant presentó este problema en su columna de la revista Parade en 1990 y declaró que la solución correcta era cambiar de puerta, recibió una avalancha de cartas, muchas de matemáticos, algunas enojadas, insistiendo en que estaba equivocada. No lo estaba. Una forma de ver que ella tenía razón es usar un programa de computadora para simular el juego. No desarrollaremos el código para uno aquí, pero no es demasiado difícil. Si escribes uno y lo ejecutas, verás que la probabilidad de ganar cuando cambias de puerta converge en 2/3 a medida que aumenta el número de juegos simulados. Sin embargo, también podemos usar el sentido común y las ideas básicas sobre probabilidad para ver la solución.

Primero, si no cambiamos de puerta, sabemos que tenemos una probabilidad de 1/3 de ganar el automóvil. Ahora, considera qué puede pasar cuando cambiamos de puerta. Si cambiamos de puerta, la única forma en que podemos perder es si seleccionamos la puerta correcta en primer lugar. ¿Por qué? Supongamos que inicialmente elegimos una de las puertas de premio de broma. Hall, que sabe perfectamente qué puerta tiene el automóvil, nunca abrirá la puerta con el automóvil. Dado que ya seleccionamos una de las puertas de broma, él está obligado a elegir la puerta de broma restante y abrirla para nosotros, asegurando así que el automóvil esté detrás de la única puerta restante. Si cambiamos de puerta, ganamos. Dado que hay dos puertas sin el automóvil, nuestra posibilidad de seleccionar la puerta incorrecta inicialmente es 2/3. Sin embargo, acabamos de ver que si elegimos la puerta incorrecta inicialmente y cambiamos cuando se nos da la oportunidad, ganaremos el automóvil. Por lo tanto, tenemos un 2/3 de probabilidad de ganar el automóvil cambiando nuestra suposición inicial. La probabilidad de 1/3 de perder al cambiar nuestra suposición inicial es, por supuesto, el caso en el que inicialmente seleccionamos la puerta correcta.

#### ¿Cáncer o no?

Este ejemplo se encuentra en varios libros populares sobre probabilidad y estadística (por ejemplo, "More Damned Lies and Statistics" de Joel Best [UC Press, 2004] y "The Drunkard’s Walk" de Leonard Mlodinow [Pantheon, 2008]). Está basado en un estudio real. La tarea es determinar la probabilidad de que una mujer en sus 40 años tenga cáncer de mama si tiene una mamografía positiva. Ten en cuenta que los números que siguen podrían haber sido precisos cuando se realizó el estudio, pero es posible que no sean válidos ahora. Por favor, considéralos solo como un ejemplo.

Se nos dice lo siguiente:
1. La probabilidad de que una mujer seleccionada al azar en sus 40 años tenga cáncer de mama es del 0.8 por ciento (8 de cada 1.000).
2. La probabilidad de que una mujer con cáncer de mama tenga una mamografía positiva es del 90 por ciento.
3. La probabilidad de que una mujer sin cáncer de mama tenga una mamografía positiva es del 7 por ciento.

Una mujer llega a la clínica y se somete a un examen. La mamografía es positiva. ¿Cuál es la probabilidad, basada en lo que se nos ha dicho, de que ella realmente tenga cáncer de mama?

De lo anterior, sabemos que si seleccionamos al azar a 1.000 mujeres en sus 40 años, 8 de ellas tendrán cáncer de mama (en promedio). Por lo tanto, de esas 8, el 90 por ciento de ellas (según el punto 2) tendrá una mamografía positiva. Esto significa que 7 mujeres con cáncer tendrán una mamografía positiva porque $8 × 0.9 = 7.2$. Esto deja 992 de las 1.000 originales que no tienen cáncer de mama. Según el punto 3, $992 × 0.07 = 69.4$, por lo que 69 mujeres sin cáncer de mama también tendrán una mamografía positiva, lo que da un total de $7 + 69 = 76$ mamografías positivas, de las cuales 7 son cáncer real y 69 son resultados falsos positivos. Por lo tanto, la probabilidad de que una mamografía positiva indique cáncer es de 7 de cada 76 o $7/76 = 0.092$, aproximadamente el 9 por ciento.

La estimación mediana que los médicos presentados con este problema dieron fue una probabilidad de cáncer de alrededor del 70 por ciento, con más de un tercio dando una estimación del 90 por ciento. Las probabilidades son difíciles para los humanos, incluso para aquellos con mucha capacitación. El error de los médicos no fue tener en cuenta adecuadamente la probabilidad de que una mujer seleccionada al azar en sus 40 años tenga cáncer de mama. Veremos en el Capítulo 3 cómo calcular este resultado usando el teorema de Bayes, que sí tiene en cuenta esta probabilidad.

Por ahora, cambiemos de la intuición a la formalidad matemática.

## Las reglas de la probabilidad

Comencemos con las reglas básicas de la probabilidad. Estas son reglas fundamentales que necesitaremos para el resto del capítulo y más allá. Aprenderemos sobre la probabilidad de eventos, la regla de la suma para probabilidades y qué significa una probabilidad condicional. Después de eso, la regla del producto nos permitirá abordar la paradoja del cumpleaños. En la paradoja del cumpleaños, veremos cómo calcular el número mínimo de personas que deben estar juntas en una habitación para que la probabilidad de que al menos dos de ellas compartan un cumpleaños supere el 50%. La respuesta es menos de lo que podrías pensar.

### Probabilidad de un evento

Mencionamos anteriormente que la suma de todas las probabilidades para un espacio muestral es uno. Esto significa que la probabilidad de cualquier evento del espacio muestral siempre es menor o igual a uno, ya que el evento proviene del espacio muestral, y el espacio muestral abarca todos los eventos posibles. Esto implica, para cualquier evento A,

$$ 0 \leq P(A) \leq 1\ $$

y, para todos los eventos $A_i$ en el espacio muestral,

$$ \sum_i P(A_i) = 1 $$

donde $Σ$ (sigma) significa sumar sobre la expresión a la derecha para cada uno de los $i$. Piensa en un bucle for en Python con la expresión a la derecha como el cuerpo del bucle.

Si lanzamos un dado de seis caras, intuitivamente (y correctamente) entendemos que la probabilidad de obtener cualquier valor es la misma: una de seis posibilidades, o $1/6. Por lo tanto, la ecuación 2.1 nos dice que $P(1), la probabilidad de obtener un uno, está entre cero y uno. Esto es cierto ya que $0 \leq \frac{1}{6} \leq 1. Además, la ecuación 2.2 nos dice que la suma de las probabilidades de todos los eventos en el espacio muestral debe ser uno. Esto también es cierto para el dado de seis caras, ya que $P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = \frac{1}{6}$ y $\frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = 1$.

Si la probabilidad de que ocurra un evento es $P(A)$, entonces la probabilidad de que el evento A no ocurra es

$$ P(\bar{A}) = 1 - P(A) $$

con $P(\bar{A})$ leído como "no $A$". $P(\bar{A})$ se conoce como el complemento de $A$. A veces verás $P(\bar{A})$ escrito como $P(\neg A)$ usando $\neg$, el símbolo lógico para "no".

La ecuación 2.3 proviene de la ecuación 2.1 y la ecuación 2.2 porque la probabilidad de un evento es menor que uno y la probabilidad de que ocurra cualquier evento del espacio muestral es uno, por lo que la probabilidad de eventos que no son $A$ debe ser uno menos la probabilidad de que ocurra el evento $A$.

Por ejemplo, al lanzar un dado, la probabilidad de obtener un valor en $[1, 6]$ es uno, pero la probabilidad de obtener un cuatro es $1/6$. Entonces, la posibilidad de no sacar un cuatro es toda la probabilidad que queda cuando se elimina la probabilidad de sacar un cuatro,

$P(\bar{4}) = 1 - P(4) = 1 - \frac{1}{6} = \frac{5}{6} = 0.8333...$ lo que significa que tenemos un 83% de probabilidad de no sacar un cuatro.

¿Qué pasa si lanzamos dos dados y los sumamos? El espacio muestral es el conjunto de enteros del 2 al 12. Sin embargo, cada suma no es igualmente probable en este caso, una situación que está en el núcleo del juego de casino craps, por ejemplo. Calculamos las probabilidades de cada suma enumerando todas las formas en que pueden ocurrir. Contando las formas en que pueden ocurrir los eventos y dividiendo por el número total de eventos, podemos determinar la probabilidad. La tabla muestra todas las formas posibles de generar cada suma.

<center>

| Heads | Combinations            | Count | Probability |
|-------|-------------------------|-------|-------------|
| 0     | TTT                     | 1     | 0.125       |
| 1     | HTT, THT, TTH           | 3     | 0.375       |
| 2     | HHT, HTH, THH           | 3     | 0.375       |
| 3     | HHH                     | 1     | 0.125       |
|       |                         | 8     | 1.000       |

</center>
