# Teorema de la Probabilidad Total. Teorema de Bayes y probabilidad a posteriori

## Teorema de la Probabilidad Total

Consideremos una partición $\mathscr{P}$ del espacio muestral $\Omega$, constituida por $K$ sucesos disjuntos $B_i$:

$$B_i \in \mathscr{P}(\Omega) \, i=1\ldots K \iff  \begin{matrix}
  \bigcup_{i=1}^K B_i = \Omega &  \\
  B_i \cap B_j = \emptyset & i\neq j  
 \end{matrix}$$

Consideremos ahora un suceso $A \in \Omega$. Es fácil ver que:

$$\begin{align*}
P(A) &= P(A \cap B_1) + P(A \cap B_2) + \ldots  P(A \cap B_K)\\
     &= P(A/B_1)P(B_1) + P(A/B_2)P(B_2)+ \ldots P(A/B_K)P(B_K)\\
     &= \sum_{i=1}^K P(A/B_i)P(B_i)
\end{align*}$$


Apliquemos el **Teorema de la Probabilidad Total** al experimento de lanzar un dado bueno, sin trucar, para calcular las probabilidades de los sucesos vistos antes,  $A =\{2\}, \, B=\{5\}, \, C=A\cup B =\{2, 5\}, \, D=\{3, 4, 6\}$, considerando la partición en los sucesos $par$ e $impar$. **La partición la determina el problema**. Podríamos utilizar otras, por ejemplo $divisible por 3$ y $no divisible por 3$, y los resultados no variarían.

$$\begin{align*}
P(A) &= P(A/par)P(par)+P(A/impar)P(impar)=\frac{1}{3}\frac{1}{2}+0\frac{1}{2}=\frac{1}{6}\\
P(B) &= P(B/par)P(par)+P(B/impar)P(impar)=0\frac{1}{2}+\frac{1}{3}\frac{1}{2}=\frac{1}{6}\\
P(C) &= P(C/par)P(par)+P(C/impar)P(impar)=\frac{1}{3}\frac{1}{2}+\frac{1}{3}\frac{1}{2}=\frac{1}{3}\\
P(D) &= P(D/par)P(par)+P(D/impar)P(impar)=\frac{2}{3}\frac{1}{2}+\frac{1}{3}\frac{1}{2}=\frac{1}{2}
\end{align*}$$



In [1]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib_venn import venn2, venn3, venn2_circles, venn3_circles
import scipy.stats as stats

In [2]:
caras  = np.array([1,2,3,4,5,6])
P_dado = np.array([1/6, 1/6, 1/6, 1/6, 1/6, 1/6])
P_dadoTrucado    = np.array([1/12, 1/12, 1/12, 1/12, 1/3, 1/3]).round(decimals=10)
P_dadoTrucado[5] = 1-P_dadoTrucado[0:5].sum()

elementos = ['uno','dos','tres','cuatro','cinco','seis']
uno, dos, tres, cuatro, cinco, seis = 0,1,2,3,4,5

S = np.array([[1,0,0,0,0,0],
              [0,1,0,0,0,0],
              [0,0,1,0,0,0],
              [0,0,0,1,0,0],
              [0,0,0,0,1,0],
              [0,0,0,0,0,1]])

sucesos = ['nulo','par','impar','div3','nodiv3','seguro']
nulo, par, impar, div3, nodiv3, seguro = 0,1,2,3,4,5

F = np.array([[0,0,0,0,0,0],
              [0,1,0,1,0,1],
              [1,0,1,0,1,0],
              [0,0,1,0,0,1],
              [1,1,0,1,1,0],
              [1,1,1,1,1,1]]);

P_suc        = np.zeros(6)
P_sucTrucado = np.zeros(6)
#print('Probabilidades sucesos singulares:\n')
for i,suc in enumerate(sucesos):
    P_suc[i] = (F[i]*P_dado).sum().round(decimals=15)
#    print('Probabilidad dado bueno(', F[i], suc, ') ->', P_suc[i])
    P_sucTrucado[i] = (F[i]*P_dadoTrucado).sum()
#    print('Probabilidad dado trucado(', F[i], suc, ') ->', P_sucTrucado[i],'\n')

In [3]:
tres_cuatro_cinco = np.array([0,0,1,1,1,0]);
P_tres_cuatro_cinco = (tres_cuatro_cinco*P_dado).sum().round(decimals=15)

# Probabilidad del suceso "tres o cuatro o cinco" condicionado por el suceso "resultado par"

parOtres_cuatro_cinco   = np.logical_or(F[par], tres_cuatro_cinco).astype(int)
P_parOtres_cuatro_cinco = (parOtres_cuatro_cinco*P_dado).sum().round(decimals=15)

parYtres_cuatro_cinco   = np.logical_and(F[par], tres_cuatro_cinco).astype(int)
P_parYtres_cuatro_cinco = (parYtres_cuatro_cinco*P_dado).sum().round(decimals=15)

P_tres_cuatro_cincoCONDpar = P_parYtres_cuatro_cinco/P_suc[par]

# Probabilidad del suceso "tres o cuatro o cinco" condicionado por el suceso "resultado impar"

imparOtres_cuatro_cinco   = np.logical_or(F[impar], tres_cuatro_cinco).astype(int)
P_imparOtres_cuatro_cinco = (imparOtres_cuatro_cinco*P_dado).sum()

imparYtres_cuatro_cinco   = np.logical_and(F[impar], tres_cuatro_cinco).astype(int)
P_imparYtres_cuatro_cinco = (imparYtres_cuatro_cinco*P_dado).sum()

P_tres_cuatro_cincoCONDimpar = P_imparYtres_cuatro_cinco/P_suc[impar]

# Probabilidad del suceso "tres o cuatro o cinco" condicionado por el suceso "resultado divisible por 3"

div3Otres_cuatro_cinco   = np.logical_or(F[div3], tres_cuatro_cinco).astype(int)
P_div3Otres_cuatro_cinco = (div3Otres_cuatro_cinco*P_dado).sum().round(decimals=15)

div3Ytres_cuatro_cinco   = np.logical_and(F[div3], tres_cuatro_cinco).astype(int)
P_div3Ytres_cuatro_cinco = (div3Ytres_cuatro_cinco*P_dado).sum().round(decimals=15)


P_tres_cuatro_cincoCONDdiv3 = P_div3Ytres_cuatro_cinco/P_suc[div3]

# Probabilidad del suceso "tres o cuatro o cinco" condicionado por el suceso "resultado no divisible por 3"

nodiv3Otres_cuatro_cinco   = np.logical_or(F[nodiv3], tres_cuatro_cinco).astype(int)
P_nodiv3Otres_cuatro_cinco = (nodiv3Otres_cuatro_cinco*P_dado).sum()

nodiv3Ytres_cuatro_cinco   = np.logical_and(F[nodiv3], tres_cuatro_cinco).astype(int)
P_nodiv3Ytres_cuatro_cinco = (nodiv3Ytres_cuatro_cinco*P_dado).sum()


P_tres_cuatro_cincoCONDnodiv3 = P_nodiv3Ytres_cuatro_cinco/P_suc[nodiv3]

In [4]:
print('Probabilidad de que salga tres o cuatro o cinco:', P_tres_cuatro_cinco,
      '\nP(tres o cuatro o cinco / par:) ', P_tres_cuatro_cincoCONDpar,
     '\n\tProbabilidad de que salga par:', P_suc[par],
     '\nP(tres o cuatro o cinco / impar) = ', P_tres_cuatro_cincoCONDimpar,
     '\n\tProbabilidad de que salga impar:', P_suc[impar],
     '\nProbabilidad total tres o cuatro o cinco:',
      P_tres_cuatro_cincoCONDpar*P_suc[par]+
      P_tres_cuatro_cincoCONDimpar*P_suc[impar])

Probabilidad de que salga tres o cuatro o cinco: 0.5 
P(tres o cuatro o cinco / par:)  0.333333333333334 
	Probabilidad de que salga par: 0.5 
P(tres o cuatro o cinco / impar) =  0.6666666666666666 
	Probabilidad de que salga impar: 0.5 
Probabilidad total tres o cuatro o cinco: 0.5000000000000003


In [5]:
print('Probabilidad de que salga tres o cuatro o cinco:', P_tres_cuatro_cinco,
      '\nP(tres o cuatro o cinco / divisible por tres:) ',
     P_tres_cuatro_cincoCONDdiv3,
     '\n\tProbabilidad de que salga divisible por tres:', P_suc[div3],
     '\nP(tres o cuatro o cinco / no divisible por tres) = ',
      P_tres_cuatro_cincoCONDnodiv3,
     '\n\tProbabilidad de que salga no divisible por tres:', P_suc[nodiv3],
     '\nProbabilidad total tres o cuatro o cinco:',
      P_tres_cuatro_cincoCONDdiv3*P_suc[div3]+
      P_tres_cuatro_cincoCONDnodiv3*P_suc[nodiv3])

Probabilidad de que salga tres o cuatro o cinco: 0.5 
P(tres o cuatro o cinco / divisible por tres:)  0.5000000000000016 
	Probabilidad de que salga divisible por tres: 0.333333333333333 
P(tres o cuatro o cinco / no divisible por tres) =  0.4999999999999998 
	Probabilidad de que salga no divisible por tres: 0.666666666666667 
Probabilidad total tres o cuatro o cinco: 0.5000000000000003


## Teorema de Bayes

Recordemos que la **probabilidad del suceso $A$ condicionada por el suceso $B$** es

$$P(A/B) = \frac{P(A\cap B)}{P(B)}$$

La interpretación es que, si ambos sucesos $A$ y $B$ no son independientes, que acontezca $B$ supone una información adicional en relación a la certidumbre de $A$, cuya probabilidad $P(A)$ pasa ahora a ser $P(A/B)$.

Supongamos que conocemos $P(A/B)$ y que acontece el suceso $A$. Nos preguntamos cuál es la $P(B/A)$. 

Es muy importante **no caer en una falacia argumental**. Por ejemplo, si sabe que cuando alguien tiene una enfermedad la probabilidad del test positivo es $P(T^+/S_E)$, en particular que el test da positivo el $99\%$ de las veces para alguien que tiene cáncer, esto es $P(T^+/S_E)=0.99$, y el test da positivo, ¿quiere es decir que tiene cáncer con una probabibilidad $P(S_E/T^+)=0.99$?

El **Teorema de Bayes** nos permite dar una respuesta:

$$P(B/A) = \frac{P(B\cap A)}{P(A)}=\frac{P(A/B)P(B)}{P(A)}$$

Si $B_i \in \mathscr{P}(\Omega)$, combinando con el **Teorema de la Probabilidad Total** obtenemos la formulación habitual del **Teorema de Bayes**:

$$P(B_i/A) =\frac{P(A/B_i)P(B_i)}{P(A)} = \frac{P(A/B_i)P(B_i)}{\sum_{i=1}^K P(A/B_i)P(B_i)}$$

* $P(B_i/A)$ es la **probabilidad *a posteriori*** del suceso $B_i$ una vez que sabemos que $A$ ha acontecido.
* $P(B_i)$ es la **probabilidad *a priori*** del suceso $B_i$, conocida de antemano.
* $P(A/B_i)$ es la **probabilidad de transición**, también conocida de antemano.

Apliquemos el **Teorema de Bayes** para calcular $P(par)$ cuando acontecen los sucesos ya conocidos, $A =\{2\}, \, B=\{5\}, \, C=A\cup B =\{2, 5\}, \, D=\{3, 4, 6\}$. La **probabilidad *a priori*** del dado bueno es $P(par)=P(impar)=1/2$. Las **probabilidades *a posteriori*** son:

$$\begin{align*}
P(par/A) &=\frac{P(A/par)P(par)}{P(A)} =\frac{(1/3)(1/2)}{1/6}=1&\neq P(A/par)\\
P(par/B) &=\frac{P(B/par)P(par)}{P(B)} =\frac{0(1/2)}{1/2}=0 &=P(B/par)\\
P(par/C) &=\frac{P(C/par)P(par)}{P(C)} =\frac{(1/3)(1/2)}{1/3}=\frac{1}{2}&\neq P(C/par)\\
P(par/D) &=\frac{P(D/par)P(par)}{P(D)} =\frac{(2/3)(1/2)}{1/2}=\frac{2}{3}&=P(D/par)
\end{align*}$$



## Probabilidad *a posteriori*

Obtenemos las **probabilidades *a posteriori*** de los sucesos condicionantes, esto es, después de observarse el suceso. <u>Ahora no se trata de estimar una verosimilitud, sino una probabilidad condicionada</u>. Para ello necesitamos conocer:
* **Probabilidades *a priori***: probabilidades incondicionadas de los sucesos condicionantes, que forman una partición del espacio muestral.
* **Probabilidades de transición**: probabilidades condicionadas del suceso observado, por el suceso condicionante que forma una partición del espacio muestral.

Con tal información, haciendo uso del **Teorema de Bayes**, obtenemos las **probabilidades *a posteriori***, esto es, las probabilidades de los sucesos condicionantes (que forman la partición), condicionadas por el suceso que se observa.

* Decisión **Máximo A Posteriori (MAP)**: La decisión se toma seleccionando el suceso condicionante cuya probabilidad a posteriori es máxima
* <u>No confundir</u> con decisión de **Máxima Verosimilitud (ML)**: no se utilizan las probabilidades a priori, y tomamos la decisión sobre las probabilidades de transición.

Veamos varios casos:

**El resultado observado es tres, cuatro o cinco. ¿Será par o impar el resultado?**

* Probabilidad del resultado par condicionado por que haya salido tres, cuatro o cinco

In [6]:
P_parCONDtres_cuatro_cinco = P_tres_cuatro_cincoCONDpar*P_suc[par]/P_tres_cuatro_cinco
print('P(par / tres_cuatro_cinco)', P_parCONDtres_cuatro_cinco)

P(par / tres_cuatro_cinco) 0.333333333333334


* Probabilidad del resultado impar condicionado por que haya salido tres, cuatro o cinco

In [7]:
P_imparCONDtres_cuatro_cinco = P_tres_cuatro_cincoCONDimpar*P_suc[impar]/P_tres_cuatro_cinco
print('P(impar / tres_cuatro_cinco)', P_imparCONDtres_cuatro_cinco)

P(impar / tres_cuatro_cinco) 0.6666666666666666


La probabilidad a posteriori de que salga impar es superior a que salga par, si el resultado visto es tres, cuatro o cinco.

Como las probabilidades a priori son iguales, la decisión MAP coincide con la ML.

**El resultado observado es tres, cuatro o cinco. ¿Será divisible por tres o no el resultado?**

* Probabilidad del resultado divisible por tres condicionado por que haya salido tres, cuatro o cinco

In [41]:
P_div3CONDtres_cuatro_cinco = P_tres_cuatro_cincoCONDdiv3*P_suc[div3]/P_tres_cuatro_cinco
print('P(divisible por tres / tres_cuatro_cinco)', P_div3CONDtres_cuatro_cinco)

P(divisible por tres / tres_cuatro_cinco) 0.33333333333333404


* Probabilidad del resultado no divisible por tres condicionado por que haya salido tres, cuatro o cinco

In [8]:
P_nodiv3CONDtres_cuatro_cinco = P_tres_cuatro_cincoCONDnodiv3*P_suc[nodiv3]/P_tres_cuatro_cinco
print('P(no divisible por tres / tres_cuatro_cinco)', P_nodiv3CONDtres_cuatro_cinco)

P(no divisible por tres / tres_cuatro_cinco) 0.6666666666666666


La probabilidad a posteriori de que no sea divisible por tres es superior a que sí lo sea. El decisor MAP permite tomar una decisión cuando el ML no permitía discriminar, gracias a que las probabilidades a priori son diferentes.