# Herramientas de AI: probabilidad
## Máster en Inteligencia Artificial Avanzada y Aplicada
En este notebooks vamos a introducir el concepto de probabilidad al mismo tiempo que repasamos los conceptos básicos acerca del uso y representación de datos en Python.  
### Ejemplo de probabilidad (frecuentista): encuesta de helados

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
#definimos un DataFrame en Pandas con los resultados de la encuesta
encuesta = pd.DataFrame({'chocolate': [100, 350], 'vainilla': [120, 200], 'fresa': [60, 90]}, index = ['hombre', 'mujer'])
encuesta

In [None]:
#Podemos sumar las filas para ver totales por columnas
encuesta.sum(axis='index')

In [None]:
#O podemos sumar las columnas para ver totales por filas

##COMPLETAR

In [None]:
#Totales de la tabla
N = encuesta.sum().sum()
N

#### Probabilidad conjunta
La probabilidad de que sucedan dos eventos a la vez.

In [None]:
P = encuesta / N
P

Ejemplo, de los 920 participantes de la encuesta, ¿Cuál es la probabilidad de que el participante sea un hombre y prefiera el chocolate, $P(hombre, chocolate)$?

In [None]:
P.loc['hombre', 'chocolate']

¿Cuál es la probabilidad de que el participante sea una mujer y prefiera la vainilla, $P(mujer, vainilla)$?

In [None]:
##COMPLETAR

#### Probabilidad marginal
La probabilidad marginal de una probabilidad conjunta se obtiene eliminando el efecto de un evento sobre la probabilidad conjunta (regla de la suma).  

In [None]:
P_sabor = P.sum(axis='index')
P_sabor

Ejemplo: la probabilidad de que un participante cualquiera prefiera el chocolate, $P(chocolate)$, es

In [None]:
P_sabor['chocolate']

Este valor equivale a la suma  $P(hombre, chocolate) + P(mujer, chocolate)$

In [None]:
##COMPROBAR

#### Probabilidad condicionada
La probabilidad de que suceda un evento dado que ha sucedido otro evento.  
Ejemplo, si sabemos que el participante de la encuesta es un hombre, ¿cuál es la probilidad de que prefiera el chocolate, $P(chocolate|hombre)$?

In [None]:
P_genero = P.sum(axis='columns')
P_choco_hombre = P.loc['hombre', 'chocolate'] / P_genero['hombre']
P_choco_hombre

In [None]:
#Podemos calcular la probabilidad condicionada por género para cada entrada de la tabla
#dividimos cada columna (sabor) por la P_genero
#convertimos en numpy array para hacer broadcasting
#añdimos una dimensión a P_genero para convertirlo en vector columna

from numpy import newaxis
P_s_g = P.to_numpy() / P_genero.to_numpy()[:,newaxis]
P_s_g

In [None]:
P_s_g = pd.DataFrame(P_s_g, columns = encuesta.columns, index = encuesta.index)
display(P_s_g)

la probabilidad de que siendo mujer le guste la fresa es

In [None]:
P_s_g.loc['mujer', 'fresa']

#### Ley de la probabilidad total
Se puede calcular la probabilidad de un evento como la suma de todas sus probabilidades condicionales.  
Ejemplo: la probabilidad de que el participante de la encuesta prefiera el chocolate es la suma:  
$P(chocolate|hombre) \times P(hombre) + P(chocolate|mujer) \times P(mujer)$  

In [None]:
P_choco_mujer = #COMPLETAR

P_choco = P_choco_hombre * P_genero['hombre'] + P_choco_mujer * P_genero['mujer']
P_choco

In [None]:
#La probabilidad total de cada sabor se puede calcular con el producto matricial
# P_genero x P_sabor_genero
P_genero.to_numpy().dot(P_s_g)

#### Independencia
Dos eventos son independientes si $P(A, B) = P(A) \cdot P(B)$   
¿se cumple para los datos de la encuesta?

In [None]:
assert(P.loc['hombre', 'chocolate'] == P_choco * P_genero['hombre'])

In [None]:
P.loc['hombre', 'chocolate']

In [None]:
P_choco * P_genero['hombre']

## Ejemplo práctico
### Dataset 'Titanic'
Vamos a utilizar un listado de pasajeros del Titanic para estudiar probabilidades de supervivencia de los pasajeros en función de su género y su clase. 
Primero cargamos los datos en Pandas.  

In [None]:
#Cargamos el dataset
titanic = #COMPLETAR

In [None]:
#Mostramos primeras columnas como ejemplo
titanic.head()

In [None]:
#Convertimos columna 'Pclass' a cadena de texto
titanic['Pclass'] = titanic['Pclass'].astype('str')

Para calcular las probabilidades necesitamos obtener la tabla de frecuencias de cada combinación (supervicencia, clase, género)

In [None]:
#Tabla de contingencia: nº de pasajeros por clase y sexo
pd.crosstab(index=titanic['Pclass'], columns=titanic['Sex'])

In [None]:
#Tabla de contingencia: supervivientes por clase y sexo
titanic_frec = pd.crosstab(index=titanic['Survived'], columns=[titanic['Sex'],titanic['Pclass']])
titanic_frec

### Ejercicio  
Calcula las probabilidades condicionales siguientes:  
 * $P(Survived=True|Género=male)$ 
 * $P(Survived=True|Género=female)$ 
 * $P(Survived=True|Género=male, Clase=1)$  
 * $P(Survived=True|Género=male, Clase=2)$  
 * $P(Survived=True|Género=male, Clase=3)$  
 * $P(Survived=True|Género=female, Clase=1)$  
 * $P(Survived=True|Género=female, Clase=2)$  
 * $P(Survived=True|Género=female, Clase=3)$  

In [None]:
#Solución
#COMPLETAR

## Teorema de Bayes
### Ejercicio práctico: sistema de diagnóstico de Meningitis  
* La meningitis causa rigidez de cuello en un 50% de los casos: $P(S|M)=0.5$    
* se conoce también la probabilidad a priori de que un paciente tenga meningitis: $P(M)=1/50000$    
* se conoce la probabilidad a priori de que un paciente tenga rigidez de cuello $P(S)=1/20$    

Por tanto podemos calcular $P(M|S)$ (probabilidad de que un paciente con rigidez de cuello sufra una meningitis

In [None]:
pM = 1/50000
pS = 1/20
pS_M = 0.5

#teorema de Bayes
pM_S = (pS_M*pM) / pS

In [None]:
#probabilidad a priori de tener meningitis
pM

In [None]:
#probabilidad a posteriori de tener meningitis
pM_S

In [None]:
#la probabilidad de tener meningitis si se tiene rigidez de cuello aumenta 10 veces
pM_S / pM

Ahora evaluamos cómo varía $P(M|S)$ cuando varía $P(S)$   

In [None]:
pSarray = np.arange(start=1/20, stop=1, step=1/20)
pM_Sarray = [pS_M*pM/pS for pS in pSarray]

pM_Sarray

In [None]:
#Representa gráficamente

Cuando más probable es el síntoma, menos informativo es para nuestros propósitos

## Variables aleatorias
Una variable aleatoria es una variable que toma valores numéricos de un fenómeno aleatorio. Las variables aleatorias pueden ser `discretas` o `continuas`.  
### Variables discretas
Suponemos que tenemos una población con los números enteros del 1 al 6 (por ejemplo al lanzar un dado de 6 caras).  

In [None]:
np.random.seed(1234)
x=np.arange(6)+1

x

In [None]:
#Permutación de la población
np.random.shuffle(x) #Ojo, no devuelve un array sino que modifica el original
x

In [None]:
#otra manera
np.random.permutation(x) #devuelve un array con las permutaciones

In [None]:
#última manera
np.random.permutation(6)+1 #genera un array de [0...5] y lo permuta

In [None]:
#muestreo de la población
np.random.choice(x, 3, replace=False)

In [None]:
#muestreo con repetición
np.random.choice(x, 10, replace=True)

In [None]:
#repetición del experimento 10 veces
np.array([np.random.choice(x, 3, replace=True) for i in range(10)])

## Distribuciones de probabilidad

La distribución de probabilidad (PDF de sus siglas en inglés) de una variable discreta es una lista de las probabilidades asociadas a cada valor posible.  
La función de distribución acumulativa (CDF) es una función de la probabilidad de que un variable aleatoria X sea menor o igual que x para cada x.  
En Python, podemos obtener las funciones de distribución en el paquete `numpy.random.Generator` (https://numpy.org/doc/stable/reference/random/generator.html).  

### Distribución uniforme
Lo podemos obtener con `np.random.Generator.uniform`


In [None]:
size = 1000
s = np.random.default_rng().uniform(size=size)

In [None]:
count, bins, ignored = plt.hist(s, 15, density=True, label='Simulación')
plt.axhline(y=1, linewidth=2, color='r', label='PDF uniforme')
plt.legend()
plt.show()

### Distribución normal
Lo podemos obtener con `np.random.Generator.normal`


In [None]:
mu, sigma = 0, 0.1 # mean and standard deviation
s = np.random.default_rng().normal(mu, sigma, size)

In [None]:
from scipy.stats import norm
count, bins, ignored = plt.hist(s, 50, density=True, label='Simulación')
plt.plot(bins, norm.pdf(bins, mu, sigma), linewidth=2, color='r', label='PDF normal')
plt.legend()
plt.show()

### Distribución binomial
P. ej. si la probabilidad de que suceda un evento es p=0.3 y repetimos el evento 10 veces, ¿cuál es la probabilidad de que suceda el evento $x$ veces ( $PDF(x, n=10, p=0,3)$ )?  
Lo simulamos con `np.random.default_rng().binomial`

In [None]:
from scipy.stats import binom
n = 10
p = 0.3
s = np.random.default_rng().binomial(n, p, size)

In [None]:
fig, ax = plt.subplots()
ax = sns.countplot(s, label='Simulación', color='b')
ax.set_xlabel("Número de aciertos",fontsize=16)
ax.set_ylabel("Frecuencia",fontsize=16)
x = range(n+1)
ax.plot(x, binom.pmf(x, n, p)*size, 'ro', label='PDF binomial')
ax.vlines(x, 0, binom.pmf(x, n, p)*size, colors='r', lw=5, alpha=0.5)
plt.legend()
plt.show()

#### Ejemplo
Si realizamos un cuestionario con n=15 preguntas con 4 opciones cada respuesta, y la persona que realiza la prueba responde al azar, ¿Cuál es la nota esperada? ¿Y si penalizamos con 1/4 la respuesta equivocada?

In [None]:
#Solución: sin penalización
n = 15
p = 1/4
#la probabilidad de acertar x preguntas sigue una distribución binomial
x = range(n+1)
p_x = binom.pmf(x, n, p)

In [None]:
#Representa la probabilidad de cada nota

In [None]:
#la nota esperada es la suma de cada x por su probabilidad (sobre 15 ptos)
nota_esperada = np.sum(x*p_x)
nota_esperada/15*10

In [None]:
#Solución: con penalización

#si acierta x preguntas, falla n-x preguntas con una penalización de -1/4
nota_esperada = np.sum(x*p_x) - np.sum((np.ones(n+1)*n-x)*p_x*1/4)
nota_esperada/15*10

### Distribución multinomial
Es una generalización de la distribución binomial, en la que cada experimento puede tomar un valor de entre  $p$  valores posibles.  
Ejemplo: si lanzamos un dado (equilibrado) 20 veces, ¿cuántas veces sale cada valor?

In [None]:
veces = 20
p = [1/6]*6
s = np.random.default_rng().multinomial(veces, p, size=1)
s

In [None]:
np.sum(s)

Si repetimos el experimento muchas veces, dado que la probabilidad es igual para todo los lados, la tendencia es a tener una distribución uniforme de valores

In [None]:
s = np.random.default_rng().multinomial(veces, p, size=1000)
np.mean(s, axis=0)

In [None]:
plt.bar(x=np.arange(6)+1, height=np.mean(s, axis=0))
plt.show()

In [None]:
np.sum(np.mean(s, axis=0))

### Distribución de Poisson
Es una generalización de la distribución binomial para valores grandes de N.  
Ejemplo: nº de coches que pasan por una carretera en 1 hora para una estimación de 100 coches/hora

In [None]:
from scipy.stats import poisson

lam = 100
s = np.random.default_rng().poisson(lam, size=1000) #simulamos 1000 horas
count, bins, ignored = plt.hist(s, 25, density=True, label='Simulación')
x = np.arange(poisson.ppf(0.01, lam),
               poisson.ppf(0.99, lam))
plt.plot(x, poisson.pmf(x, lam), linewidth=2, color='r', label='PDF Poisson')
plt.legend()
plt.show()

## Método de Monte Carlo
Vamos a calcular las probabilidades de ganar en el juego de Monty Hall según se cambie o no la puerta mediante simulación.

In [None]:
#Monty Hall (esto lo pondremos al final)
def juego(cambio):
    """Calcula la probabilidad de ganar en el juego de Monty Hall
    en función de si cambiamos (cambio=1) o no la puerta"""
    P = np.arange(3) #puertas posibles
    E = np.random.choice(3, 1) #puerta elegida
    C = np.random.choice(3, 1) #puerta con el coche, sucesos independientes
    Monty = np.random.choice(np.setdiff1d(P, np.union1d(E, C)), 1) #selección de Monty
    E = E if cambio==0 else np.setdiff1d(P, np.union1d(E, Monty)) #elección final
    
    return(E==C)

In [None]:
N = 1000
ganados = [juego(0) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% inttentos ganados')
plt.title('porc. de intentos ganados cuando NO se cambia')
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

In [None]:
N = 1000
ganados = [juego(1) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% inttentos ganados')
plt.title('porc. de intentos ganados cuando SI se cambia')
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

### Estimación del valor de Pi
Suponemos que tenemos un círculo de radio $r=1$ dentro de un cuadrado del mismo tamaño. Sabiendo que el área de un círculo tiene el valor $A=\pi \times r^2$,  lanzamos aleatoriamente dardos en toda la superficie del cuadrado, la proporción $p$ de dardos que quedan dentro del cículo deben de ser:
$p=\frac{\pi \times r^2}{(2r)^2}=\frac{\pi}{4}$   
Luego:
$\pi=p \times 4$  

In [None]:
import random as r
import math as m

# Número de dardos que caen dentro del círculo.
inside = 0
# Número total de dardos lanzados.
total = 1000

# Iteramos para el total de dardos.
for i in range(0, total):
  # Generamos posición del dardo (x, y) en el rango [0, 1] con una distr. uniforme
  
    x = r.random()
    y = r.random()
  # Incrementamos el contador si el dardo cae dentro.
    if m.sqrt(x**2 + y**2) < 1.0:
        inside += 1

# dentro / total = pi / 4
pi = (float(inside) / total) * 4
print(pi)

In [None]:
#Versión vectorizada con numPy
#COMPLETAR

### Ejercicio
Analizar cómo mejora la precisión de la estimación de $\pi$ al aumentar el nº de dardos en la simulación.  
Para eso hay que crear una función que calcule la estimación de $\pi$ en función del nº de dardos (N) y hacer un barrido de N

In [None]:
#Mejora de la precisión de la simulación con el número de dardos
def calcula_pi(total):
    #COMPLETAR
    
    return(pi)

N = 1000
pi_estimado = [calcula_pi(i+1) for i in range(N)]

In [None]:
#Representa gráficamente