![](https://api.brandy.run/core/core-logo-wide)

# Bayesian Probability

## 1 Probability
El estudio de las probabilidades es una rama de las matemáticas en que se busca cantificar la certidumbre de que ocurra un determinado evento aleatório. 

### 1.1 Why?
¿Por qué es importante conocer los fundamentos de la probabilidad para el Machine Learning? La probabilidad es uno de los fundamentos del Machine Learning y en diferentes etapas del proceso:

- Los algoritmos de clasificación calculan la probabilidad de que se pertenezca a una clase.
- Hay algoritmos diseñados usando probabilidad (e.g.: Naive Bayes)
- Los modelos "aprenden" a hacer decisiones usando probabilidad.
- Se entrenan los modelos utilizando parámetros probabilísticos (e.g.: maximum likelihood, log loss, cross entropy)
- Se usan herramientas probabilísticas para optimizar y valorar algoritmos. (e.g.: ROC curve)

### 1.2 Sample Space
El espacio muestral, o espacio de la muestra, son todas las posibilidades que pueden ocurrir en un determinado experimento. Ej.:
- En el lanzamiento de un dado: {1,2,3,4,5,6}
- Carta de una baraja: {las 52 cartas}
- etc.

### 1.3 Probability of event A
Se define como $P(A)$ la probabilidad de que ocurra el evento `A`. Se calcula ese valor como:

$$
P(A) = \frac{\text{número de exitos A en el espacio muestral}}{\text{número total de resultados en el espacio muestral}}
$$

### 1.4 $[0,1]$ interval
La probabilidad de cualquier evento siempre se encuentra en el intervalo $[0,1]$, i.e. $0 \leq P(A) \leq 1$.
Una probabilidad de 0 significa un evento imposíble de ocurrir, mientras una probabilidad de 1 representa un evento de éxito seguro.

La probabilidad de un evento `Q` es complementaria a la probabilidad que `NO` ocurra `Q`. 

$$
P(Q) = 1 - P(Q')
$$

### 1.5 Coins, Dice and Cards
Dadas las definiciones anteriores podemos calcular diferentes probabilidades de eventos aleatorios.

In [1]:
resultados_tirar_moneda = {"C","X"}

In [2]:
ss = {x+y+k for x in "CX" for y in "CX" for k in "CX"}

In [3]:
ss

{'CCC', 'CCX', 'CXC', 'CXX', 'XCC', 'XCX', 'XXC', 'XXX'}

In [4]:
evento_cara = {"CCC"}
evento = len(evento_cara & ss)

In [5]:
{"CCC","XXX","CCCX"} & ss

{'CCC', 'XXX'}

In [6]:
3/len(ss)

0.375

In [7]:
p_ccc = evento/len(ss)
p_ccc

0.125

La probabilidad de que al tirar 2 dados, la suma de los numeros sea 8

In [8]:
ss = [(x,y) for x in range(1,7) for y in range(1,7)]

In [9]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
[dices for dices in ss if sum(dices)==8]

[(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)]

In [11]:
p_eight = 5/len(ss)
p_eight

0.1388888888888889

### 1.6 Rule of Sum and Rule of Multiplication
Puede ser que no siempre sea tan directo calcular los espacios muestrales (ej.: 36 Caras en 50 tiradas de moneda, etc.)

Pero, con suerte, podemos calcular esa probabilidad a partir de probabilidades más sencillas de calcular usando dos reglas, la de la suma y la de la multiplicación.

>#### 1.6.1 Adición
>Si queremos descubrir la probabilidad de que ocurra un evento A `ò` un evento B, considerando que A y B sean eventos mutuamente excluyentes, tenemos el mismo espacio muestral, pero contamos como sucessos las ocurrencias de A y de B.

In [12]:
# Probabilidad de sacar Corazones ó Picas
suits = '♥♠♦♣'
ranks = 'A23456789TJQK'
baraja = [r+s for r in ranks for s in suits]

In [13]:
p_corazones = 13/len(baraja)

In [14]:
p_picas = 13/len(baraja)

In [15]:
p_corazones_o_picas = p_corazones+p_picas

In [16]:
p_corazones_o_picas

0.5

In [17]:
# Probabilidad de sacar Corazones ó probabilidad de sacar K

In [18]:
p_corazones = 13/52
p_k = 4/52

In [19]:
p_corazones_o_k = (13+4)/52

In [20]:
# Esta probabilidad es erronea
p_corazones_o_k

0.3269230769230769

Si $A \cap B = \emptyset$ (A y B son mutuamente excluyentes), entonces

$$
P(A\cup B) = P(A) + P(B)
$$

Si, entretanto, A y B no son mutuamente excluyentes, i.e.: $A \cap B \ne\emptyset$, y queremos saber la probabilidad de A o B, debemos subtraer la probabilidad de A y B, para no considerar esa possibilidad dos veces..

$$
P(A\cup B) = P(A) + P(B) - P(A\cap B)
$$

In [21]:
baraja

['A♥',
 'A♠',
 'A♦',
 'A♣',
 '2♥',
 '2♠',
 '2♦',
 '2♣',
 '3♥',
 '3♠',
 '3♦',
 '3♣',
 '4♥',
 '4♠',
 '4♦',
 '4♣',
 '5♥',
 '5♠',
 '5♦',
 '5♣',
 '6♥',
 '6♠',
 '6♦',
 '6♣',
 '7♥',
 '7♠',
 '7♦',
 '7♣',
 '8♥',
 '8♠',
 '8♦',
 '8♣',
 '9♥',
 '9♠',
 '9♦',
 '9♣',
 'T♥',
 'T♠',
 'T♦',
 'T♣',
 'J♥',
 'J♠',
 'J♦',
 'J♣',
 'Q♥',
 'Q♠',
 'Q♦',
 'Q♣',
 'K♥',
 'K♠',
 'K♦',
 'K♣']

In [22]:
corazones = {carta for carta in baraja if "♥" in carta}

In [23]:
corazones

{'2♥', '3♥', '4♥', '5♥', '6♥', '7♥', '8♥', '9♥', 'A♥', 'J♥', 'K♥', 'Q♥', 'T♥'}

In [24]:
k = {carta for carta in baraja if "K" in carta}
k

{'K♠', 'K♣', 'K♥', 'K♦'}

In [25]:
p_corazones = len(corazones)/len(baraja)
p_corazones

0.25

In [26]:
13/52

0.25

In [27]:
p_k = len(k)/len(baraja)
p_k

0.07692307692307693

In [28]:
4/52

0.07692307692307693

In [29]:
# P A&B
corazones & k

{'K♥'}

In [30]:
13/52+4/52-1/52

0.3076923076923077

In [31]:
16/52

0.3076923076923077



Imaginemos 2 características físicas representadas por un par de genes con caráter recesivo, por ejemplo ojos azules y pelo rúbio. Un padre de ojos y pelo castaños y una madre de ojos castaños y pelo rúbio tienen las siguientes posibilidades de pasar sus genes a sus hijos segun las tablas abajo. Calcularemos la probabilidad de que un hijo tenga ojos azules `o` pelo rúbio, pero no ambos.

blue_eye_gene | B  | b  |
--------------|----|----|
B             | BB | Bb |
b             | Bb | bb |

blond_hair_gene | F  | f  |
----------------|----|----|
f               | Ff | ff |
f               | Ff | ff |

In [32]:
ss = [b+f for b in ["BB","Bb","Bb","bb"] for f in ["Ff", "ff", "Ff", "ff"]]
ss

['BBFf',
 'BBff',
 'BBFf',
 'BBff',
 'BbFf',
 'Bbff',
 'BbFf',
 'Bbff',
 'BbFf',
 'Bbff',
 'BbFf',
 'Bbff',
 'bbFf',
 'bbff',
 'bbFf',
 'bbff']

In [33]:
p_bb = 1/4
p_ff = 2/4

In [34]:
p_bb_AND_ff = p_bb*p_ff

In [35]:
p_bb_AND_ff, p_bb, p_ff

(0.125, 0.25, 0.5)

In [36]:
p_bb_OR_ff = p_bb+p_ff - p_bb_AND_ff

In [37]:
p_bb_OR_ff

0.625

>#### 1.6.2 Multiplicación
>Para descubrir la posibilidad del evento A `Y` el evento B, i.e. $P(A\cap B)$, podemos también calcular en función de $P(A)$ y $P(B)$.

Si A y B son eventos independientes:

$$
P(A\cap B) = P(A)P(B)
$$

Entretanto, si A y B son dependientes, debemos calcularlo como:

$$
P(A\cap B) = P(A)P(B|A)
$$

Donde $P(B|A)$ es la probabilidad de que pase el evento B una vez que se haya verificado el suceso del evento A.

In [38]:
# Probabilidad de sacar 4 Ases

In [39]:
p_1a = 4/52
p_2a = 3/51
p_3a = 2/50
p_4a = 1/49

In [40]:
p_4A = (4*3*2*1)/(52*51*50*49)
p_4A

3.6937852063902484e-06

## 2 Combination and Permutation
Muchas veces para calcular una probabilidad, tenemos que conocer el espacio muestral, lo que no es siempre tan directo. Podemos para eso utilizar herramientas para calcular combinaciones y permutaciones.

### 2.1 Combination
Cuando calculamos el numero de combinaciones posibles, no nos importa el orden en que se organizaron los elementos, solo nos importa que elementos son parte del conjunto final.

Número de combinaciones posibles de `r` elementos retirados de un grupo de `n`.
$$
C(n,r) = \frac{n!}{r!(n-r)!}
$$

In [41]:
from math import factorial

In [42]:
def comb(n,r):
    return factorial(n)/( factorial(r) * factorial(n-r) )

In [43]:
from itertools import combinations, permutations

In [44]:
comb(len(baraja), 4)

270725.0

In [45]:
1/comb(len(baraja), 4)

3.6937852063902484e-06

In [46]:
all_combination = list(map(" ".join, combinations(baraja, 4)))

In [47]:
[mano for mano in all_combination if mano.count("A")==4]

['A♥ A♠ A♦ A♣']

### 2.2 Permutation
Si, entretanto, nos importa el orden en que los elementos están, debemos calcular las posibles permutaciones:

Posibles permutaciones de `r` elementos retirados de un conjunto original de `n`. No hay repeticiones
$$
P(n,r) = \frac{n!}{(n-r)!}
$$

Para permutaciones con repetición de elementos:

$$
P(n,r) = n^r
$$

In [48]:
def perm(n,r):
    return factorial(n) / factorial(n-r)

In [49]:
perm(4,4)

24.0

In [50]:
len(list(permutations(['A♥','A♠','A♦','A♣'], 4)))

24

In [51]:
[mano for mano in all_combination if mano.count("A")==4]

['A♥ A♠ A♦ A♣']

In [52]:
list(permutations(['A♥','A♠','A♦','A♣'], 4))

[('A♥', 'A♠', 'A♦', 'A♣'),
 ('A♥', 'A♠', 'A♣', 'A♦'),
 ('A♥', 'A♦', 'A♠', 'A♣'),
 ('A♥', 'A♦', 'A♣', 'A♠'),
 ('A♥', 'A♣', 'A♠', 'A♦'),
 ('A♥', 'A♣', 'A♦', 'A♠'),
 ('A♠', 'A♥', 'A♦', 'A♣'),
 ('A♠', 'A♥', 'A♣', 'A♦'),
 ('A♠', 'A♦', 'A♥', 'A♣'),
 ('A♠', 'A♦', 'A♣', 'A♥'),
 ('A♠', 'A♣', 'A♥', 'A♦'),
 ('A♠', 'A♣', 'A♦', 'A♥'),
 ('A♦', 'A♥', 'A♠', 'A♣'),
 ('A♦', 'A♥', 'A♣', 'A♠'),
 ('A♦', 'A♠', 'A♥', 'A♣'),
 ('A♦', 'A♠', 'A♣', 'A♥'),
 ('A♦', 'A♣', 'A♥', 'A♠'),
 ('A♦', 'A♣', 'A♠', 'A♥'),
 ('A♣', 'A♥', 'A♠', 'A♦'),
 ('A♣', 'A♥', 'A♦', 'A♠'),
 ('A♣', 'A♠', 'A♥', 'A♦'),
 ('A♣', 'A♠', 'A♦', 'A♥'),
 ('A♣', 'A♦', 'A♥', 'A♠'),
 ('A♣', 'A♦', 'A♠', 'A♥')]

In [53]:
len(list(permutations(baraja, 4)))

6497400

In [54]:
len(list(combinations(baraja, 4)))

270725

In [55]:
len(list(permutations(['A♥','A♠','A♦','A♣'], 4)))

24

In [56]:
len(list(permutations(['A♥','A♠','A♦','A♣'], 4)))/len(list(permutations(baraja, 4)))

3.6937852063902484e-06

In [57]:
1/len(list(permutations(['A♥','A♠','A♦','A♣'], 4)))/len(list(permutations(baraja, 4)))

6.4128215388719585e-09

In [58]:
# Probabilidad de que selecionando 11 letras al azar 
# escriban la palabra `shakespeare`

In [59]:
print(format(1/27**len('shakespeare'), ".100f"))

0.0000000000000001798865092451430058153641420415514623011885253457339817195759223977802321314811706543


![](img/monkey.jpeg)

Considerando que un mono tiene la misma probabilidad de pulsar cualquer tecla de un teclado que contiene las 27 letras del castellano y el espacio, ¿cual es la probabilidad de que dentre 100 monos, cada uno haciendo 20_000 pulsaciones, alguno de ellos genere la frase `hola soy un mono`?

In [60]:
frase = "hola soy un mono"

In [61]:
len(frase)

16

In [62]:
#Probabilidad de escribir la frase bien a la primera
p = (27+1)**len(frase)

In [63]:
1/p

7.006022028850074e-24

In [64]:
(20_000-len(frase))*1/p # Probabilidad de que la frase haya sido escrita bien 1 vez entre las 20_000 pulsaciones

1.4000834422453987e-19

In [65]:
print(format(100*(20_000-len(frase))*1/p, ".100f"))

0.0000000000000000140008344224539865336780390178374561641487865105374505114710359521268401294946670532


## 3 Bayes Theorem
![](img/theorem.jpeg)

Hasta el momento hemos visto la probabilidad de eventos independientes, pero como podemos calcular la probabilidad condicional? Para eso usaremos el teorema de Bayes. 

$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$

- Visualization: http://setosa.io/conditional/

Donde:
- P(A) y P(B) son las probabilidades a priori de ambos los eventos
- P(B|A) es la probabilidad condicional de B en la hipotesis A.
- P(A|B) es la probabilidad de A dado que es conocido el resultado B.


- Ejemplo 1

Probabilidade de sacar un 6 seguido de un 4 al tirar dos veces un dado. 

In [66]:
# P_A -> Probabilidad de sacar un 6
# P_B -> Probabilidad de sacar un 4
# P_BA -> Probabilidad de sacar un 4 sabiendo que se ha sacado un 6
# P_AB -> Probabilidad de sacar un 6 sabiendo que se ha sacado un 4

p_a = 1/6
p_b = 1/6
p_ba = 1/6
p_ab = (p_a*p_ba)/p_b
p_ab

0.16666666666666666

In [67]:
1/6

0.16666666666666666

In [68]:
# Se han tirado dos dados. Cual es la probabilidad de haber sumado 9 si se ha sacado un 4
# A -> Sumar 9
# B -> Sacar un 4
# B|A -> Sacar un 4 sabiendo que la suma es 9
# A|B -> Sumar 9 habiendo sacado un 4

In [69]:
ss = [(d1,d2) for d1 in range(1,7) for d2 in range(1,7)]

In [70]:
[dices for dices in ss if sum(dices)==9]

[(3, 6), (4, 5), (5, 4), (6, 3)]

In [71]:
p_a = len([dices for dices in ss if sum(dices)==9])/len(ss)
p_a

0.1111111111111111

In [72]:
p_b = 1/6 # Sacar un 4

In [73]:
p_ba = 2/4

In [74]:
p_ba

0.5

In [75]:
p_ab = (p_a*p_ba)/p_b
p_ab

0.3333333333333333

$P(A|B)$ es $P(A)$, 1/6, pues ambos eventos son independientes (una tirada de dado no afecta la otra).

- Ejemplo 2

En una caja, A, hay 10 diamantes verdaderos y 20 diamantes falsos. En otra caja, B, hay 5 diamantes verdaderos y 35 falsos. Tienes la oportunidad de eligir una piedra de una caja eligida al azar.

Si el diamante que obtienes es verdadero, ¿cual es la probabilidad de que vino de la caja A?

In [76]:
# P_A -> Probabilidad de venir de la caja A
# P_B -> Probablidad de que el diamante sea verdadero (sea de la caja A o de la B)
# P_B|A -> Probabilidad de que sea verdadero sabiendo que viene de la caja A
# P_A|B -> Probabilidad de que vino de la caja A sabiendo que es verdadero

In [77]:
p_a = (10+20) / (10+20 + 5+35)
p_a

0.42857142857142855

In [78]:
p_b = (10+5) / (10+20 + 5+35)
p_b

0.21428571428571427

In [79]:
p_ba = 10/30
p_ba

0.3333333333333333

In [80]:
p_ab = (p_a*p_ba)/p_b
p_ab

0.6666666666666666

In [81]:
cajas = {
    "A": [True]*10 + [False]*20,
    "B": [True]*5 + [False]*35
}

ss = [(caja, diamante) for caja in cajas.keys() for diamante in cajas[caja]]

In [82]:
# P_A -> Probabilidad de venir de la caja A
caja_A = [pair for pair in ss if "A" in pair]
len(caja_A)/len(ss)

0.42857142857142855

In [83]:
# P_B -> Probablidad de que el diamante sea verdadero (sea de la caja A o de la B)
diamante_verdadero = [pair for pair in ss if True in pair]
len(diamante_verdadero)/len(ss)

0.21428571428571427

In [84]:
# P_BA -> Probabilidad de que sea verdadero sabiendo que viene de la caja A
diamantes_caja_A = [pair for pair in caja_A if True in pair]
len(diamantes_caja_A)/len(caja_A)

0.3333333333333333

In [85]:
# P_A|B -> Probabilidad de que vino de la caja A sabiendo que es verdadero
caja_A_verdadero = [pair for pair in diamante_verdadero if "A" in pair]
len(caja_A_verdadero)/len(diamante_verdadero)

0.6666666666666666

- Ejemplo 3

Hay una enfermedad que afecta a 0.1% de la población. Hay un examen que es 99% efectivo en detectar una persona infectada, pero que dá un resultado falso positivo en 0.5% de los casos.

¿Cual es la probabilidad de tener la enfermedad si el resultado del test fué positivo?

In [86]:
# P_A -> Probabilidad de tener la enfermedad
# P_B -> Probabilidad de test positivo
# P_B|A -> Probabilidad de test positivo dado que tiene la enfermedad
# P_A|B -> La probabilidad de tener la enfermedad dado que el resultado del test fué positivo

In [87]:
p_a = 0.001

In [88]:
p_b = (0.99*0.001) + (0.005*(1-p_a))  # test * %enfermo + test_falso_positivo * %gente_sana
p_b

0.005985000000000001

In [89]:
p_ba = 0.99   # El test se realiza sobre las personas infectadas, no sobre el 100% de la poblacion. Por eso no se
              # multiplica por 0.001, el cual es el porcentaje de personas infectadas con la enfermedad.
p_ba

0.99

In [90]:
p_ab = (p_a*p_ba)/p_b
p_ab*100

16.541353383458645

## 4 Monty Hall example
![](img/monty.png)

En un famoso programa norteamericano había un concurso en que el presentador le enseñaba 3 puertas al participante, que debería eligir una de ellas para conseguir un gran premio. Una vez eligida su puerta, de las 2 restantes, el presentador abriría una para enseñar que allí no había premio, sino que una cabra. 🐐

En ese momento el participante podía eligir permanecer con su elección inicial o cambiar de puerta. ¿Que harías tu?

In [91]:
# Elegimos la puerta 3

In [92]:
# P_A = Coche en la puerta 3 🤩
# P_B = El presentador abre la puerta 1 🐐

p_a = 1/3   # Elegimos una puerta entre las 3 puertas disponibles
p_b = 1/2   # El presentador puede elegir una de las 2 puertas que quedan
p_ba = 1/2  # El presentador puede abrir cualquiera de las 2 puertas, ya que son cabras 🐐

p_ab = p_a*p_ba/p_b
p_ab

0.3333333333333333

In [93]:
# P_A = Coche en la puerta 1 😱
# P_B = El presentador abre la puerta 1 ⁉️

p_a = 1/3   # Elegimos una puerta entre las 3 puertas disponibles
p_b = 1/2   # El presentador puede elegir una de las 2 puertas que quedan
p_ba = 0    # No va a abrir la puerta que contiene el coche (Probabilidad de que abra la puerta 1 dado que contiene el coche)

p_ab = p_a*p_ba/p_b
p_ab

0.0

In [94]:
# P_A = Coche en puerta 2 😱
# P_B = El presentador abre la puerta 1 🐐

p_a = 1/3   # Elegimos una puerta entre las 3 puertas disponibles
p_b = 1/2   # El presentador puede elegir una de las 2 puertas que quedan
p_ba = 1    # El presentador solo puede elegit la puerta 1, ya que en la puerta 2 está el coche

p_ab = p_a*p_ba/p_b
p_ab

0.6666666666666666

Video explicativo 🤓 [Date un blog](https://www.youtube.com/watch?v=1BpTBzDQuRE)