<img src="idal-logo.png" align="right" style="float" width="300">
<font color="#CA3532"><h1 align="left">Máster en Inteligencia Artificial Avanzada y Aplicada.</h1></font>
<font color="#6E6E6E"><h2 align="left">Herramientas de AI: probabilidad.</h2></font> 

#### Joan Vila Francés


En este notebooks vamos a introducir el concepto de probabilidad, al mismo tiempo que repasamos los conceptos básicos acerca del uso y representación de datos en Python usando las librerías `Pandas` y `numPy`.  
## Ejemplo de probabilidad (frecuentista): encuesta de helados
Sabemos la frecuencia con que la que se prefiere un determinado sabor de helado según el género (a partir de una encuesta).

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
#definimos un DataFrame en Pandas con los resultados de la encuesta
encuesta = pd.DataFrame({'chocolate': [100, 350], 
                         'vainilla': [120, 200], 
                         'fresa': [60, 90]}, 
                         index = ['hombre', 'mujer'])
encuesta

In [None]:
type(encuesta)

### Indexado de filas y columnas
#### Indexado de filas

In [None]:
#Las filas se pueden referenciar por su nombre (index)
encuesta.loc['hombre']

In [None]:
type(encuesta.loc['hombre'])

In [None]:
encuesta.iloc[0] #o también por su índice numérico

#### Indexado de columnas

In [None]:
encuesta['chocolate'] #indexado de columnas por nombre

In [None]:
encuesta[['chocolate', 'fresa']] #varias columnas

In [None]:
#otra manera de indexar columnas por nombre
encuesta.loc[:,"chocolate"]

In [None]:
encuesta.iloc[:,0] #referencia a columna por índice

#### Indexado de celdas

In [None]:
encuesta.loc['hombre', 'chocolate'] #indexado de celda [fila, columna]

In [None]:
#equivalente: indexar una columna y en objeto pd.Series resultante indexar una fila
encuesta['chocolate']['hombre']

### Sumatorios

In [None]:
encuesta

In [None]:
#Podemos sumar las filas para ver totales por columnas (agregación por filas -index-)
encuesta.sum(axis='index')

In [None]:
#O podemos sumar las columnas para ver totales por filas (agregación por columnas)
encuesta.sum(axis='columns')

In [None]:
encuesta.sum() #por defecto agrega por axis=0 (filas)

In [None]:
#Totales de la tabla
N = encuesta.sum().sum()
N

### Conversión a `numPy`
Podemos convertir de Pandas a NumPy y usar sus funciones

In [None]:
encuesta_np = encuesta.to_numpy()
encuesta_np

In [None]:
type(encuesta_np)

In [None]:
encuesta_np.shape

In [None]:
encuesta_np.dtype

In [None]:
#numPy por defecto suma todos los elementos
encuesta_np.sum()

In [None]:
encuesta_np.sum(axis=0) #suma por filas

In [None]:
encuesta_np.sum(axis=0).shape #suma por filas

In [None]:
encuesta_np.sum(axis=1) #suma por columnas

In [None]:
encuesta_np.sum(axis=1).shape #suma las columnas

#### Probabilidad conjunta
La probabilidad de que sucedan dos eventos a la vez.

In [None]:
#Convertimos frecuencias a probabilidad (aprox. frecuentista)
P = encuesta / N
P

La probabilidad de todo el espacio muestral debe ser 1

In [None]:
P.sum().sum()

Ejemplo, de los 920 participantes de la encuesta, ¿Cuál es la probabilidad de que el participante sea un hombre **y** prefiera el chocolate, $P(hombre, chocolate)$?

In [None]:
P.loc['hombre', 'chocolate']

¿Cuál es la probabilidad de que el participante sea una mujer y prefiera la vainilla, $P(mujer, vainilla)$?

In [None]:
#completar


#### Probabilidad marginal
La probabilidad **marginal** de una probabilidad conjunta se obtiene eliminando el efecto de un evento sobre la probabilidad conjunta (regla de la suma):  
\begin{align}
P(A)=\sum_B{P(A,B)}
\end{align} 
En la encuesta, la probabilidad $P(sabor)$ se obtiene sumando las probabilidades conjuntas: $P(sabor, hombre)+P(sabor, mujer)$

In [None]:
#Sumamos las filas
P_sabor = P.sum(axis='index')
P_sabor

Ejemplo: la probabilidad de que un participante cualquiera prefiera el chocolate, $P(chocolate)$, es

In [None]:
P_sabor['chocolate']

Este valor equivale a la suma  $P(hombre, chocolate) + P(mujer, chocolate)$

In [None]:
#comprobar [COMPLETAR]


Podemos calcular la probabilidad de $P(género)$ sumando por columnas:

In [None]:
P_genero = P.sum(axis='columns')
P_genero

Probabilidad de que el encuestado sea un hombre

In [None]:
#P('hombre')
P_genero.loc['hombre']

In [None]:
#o también simplemente
P_genero['hombre']

Este valor equivale a la suma  $P(hombre, chocolate) + P(hombre, vainilla) + P(hombre, fresa)$ (regla de la suma) 

In [None]:
P.loc['hombre', 'chocolate']+P.loc['hombre', 'vainilla']+P.loc['hombre', 'fresa']

#### Probabilidad condicionada
La probabilidad de que suceda un evento dado que ha sucedido otro evento.  
Ejemplo, si sabemos que el participante de la encuesta es un hombre, ¿cuál es la probilidad de que prefiera el chocolate, $P(chocolate|hombre)$?  
Por la regla de la cadena:  
\begin{align}
P(chocolate|hombre)=\frac{P(chocolate,hombre)}{P(hombre)}
\end{align}

In [None]:
P_choco_hombre = P.loc['hombre', 'chocolate'] / P_genero['hombre']
P_choco_hombre

Nótese que es distinta de la probabilidad $P(chocolate)$:

In [None]:
P_sabor['chocolate']

Es decir, que la probabilidad -global- de que a un encuestado le guste el chocolate es del 48%, pero disminuye a un 36% si sabemos que el encuestado es un hombre.

#### Ejercicio
Calcula la probabilidad $P(chocolate|mujer)$

In [None]:
#completar


Podemos calcular la probabilidad de cada sabor condicionada por género para cada entrada de la tabla en una sola operación.

In [None]:
P #recordamos

In [None]:
#dividimos cada columna (sabor) por la P_genero
#convertimos P_genero en vector columna para hacer broadcasting

#P(sabor|genero) = P(sabor,genero)/P(genero)
P_s_g = P.to_numpy() / P_genero.to_numpy().reshape(-1,1)
P_s_g

Puesto 'en bonito' de nuevo

In [None]:
#muestra en "bonito" la probabilidad condicionada de 'sabor' dado 'género'
P_s_g = pd.DataFrame(P_s_g, columns = P.columns, index = P.index)
display(P_s_g)

*donde*

In [None]:
P.to_numpy() 

In [None]:
P.to_numpy().shape

In [None]:
P_genero.to_numpy()

In [None]:
P_genero.to_numpy().shape

In [None]:
P_genero.to_numpy().reshape(-1,1) #convertimos a vector columna (dim 2x1)

In [None]:
P_genero.to_numpy().reshape(-1,1).shape

In [None]:
#alternativa para convertir P_genero en vector columna

from numpy import newaxis
P_genero.to_numpy()[:,newaxis]

Pandas es inteligente a la hora de hacer "broadcasting".  
P.ej. podemos condicionar cada género por sabor ($P(género|sabor)$):

In [None]:
#P(genero|sabor) = P(sabor,genero)/P(sabor)
#dividimos cada fila (género) por la P_sabor

P_g_s = P.to_numpy() / P_sabor.to_numpy().reshape(1,-1)
P_g_s

*donde*

In [None]:
P_sabor

In [None]:
P_sabor.to_numpy()

In [None]:
P_sabor.to_numpy().shape

In [None]:
P_sabor.to_numpy().reshape(1,-1) #convierte a vector fila

In [None]:
P_sabor.to_numpy().reshape(1,-1).shape #convierte a vector fila

In [None]:
#también hubiera funcionado
P.to_numpy() / P_sabor.to_numpy()

In [None]:
#muestra en "bonito" la probabilidad condicionada de 'género' dado 'sabor'
P_g_s = pd.DataFrame(P_g_s, columns = P.columns, index = P.index)
display(P_g_s)

P. ej. la probabilidad de que siendo mujer le guste la fresa $P(fresa|mujer)$ es

In [None]:
P_s_g.loc['mujer', 'fresa']

La probabilidad de ser mujer si te gusta la fresa, $P(mujer|fresa)$:

In [None]:
P_g_s.loc['mujer', 'fresa']

#### Ley de la probabilidad total
Se puede calcular la probabilidad de un evento como la suma de todas sus probabilidades condicionales.  
Ejemplo: la probabilidad de que el participante de la encuesta prefiera el chocolate es la suma:  
  
$P(chocolate) = \underset{genero}{ \sum} P(chocolate|genero) \times P(genero) =P(chocolate|hombre) \times P(hombre) + P(chocolate|mujer) \times P(mujer)$  


In [None]:
P_sabor['chocolate']

In [None]:
#P(sabor|género) es P_s_g.loc['género', 'sabor']

P_choco = (P_s_g.loc['hombre', 'chocolate'] * P_genero['hombre'] + 
           P_s_g.loc['mujer', 'chocolate'] * P_genero['mujer'])
P_choco

In [None]:
#La probabilidad total de cada sabor se puede calcular con el producto matricial
# P_genero x P_sabor_genero
# dim(1,2) x dim(2,3) = dim(1,3)
P_genero.to_numpy().dot(P_s_g)

*donde*

In [None]:
P_genero.to_numpy() #convierte a vector fila

In [None]:
P_s_g #se convierte automáticamente a numpy al hacer el producto matricial

#### Independencia
Dos eventos son independientes si $P(A, B) = P(A) \cdot P(B)$   
¿se cumple para los datos de la encuesta?

In [None]:
P.loc['hombre', 'chocolate'] == P_genero['hombre'] * P_sabor['chocolate']

In [None]:
P.loc['hombre', 'chocolate']

In [None]:
P_genero['hombre'] * P_sabor['chocolate']

Otra manera de comprobar independencia es ver si $P(G|S) = P(G)$  
Para eso podemos calcular si la probabilidad de 'hombre' es igual dado el gusto del participante  

In [None]:
#P(hombre|sabor) = P(hombre, sabor) / P(sabor)
P.loc['hombre'] / P.sum()

In [None]:
#mientras que P(hombre) es
P.sum(axis=1)["hombre"]

Vemos que esta probabilidad $P(hombre|sabor)$ es distinta para cada sabor, por lo que hombre y sabor NO son independientes: la probabilidad de que el encuestado sea hombre depende del sabor preferido.

## Ejemplo práctico
### Dataset 'Titanic'
Vamos a utilizar un listado de pasajeros del Titanic para estudiar probabilidades de supervivencia de los pasajeros en función de su género y su clase. 
Primero cargamos los datos como `DataFrame` de Pandas.  

In [None]:
#Cargamos el dataset
titanic = pd.read_csv('titanic.csv')

In [None]:
titanic.info()

In [None]:
#Mostramos primeras columnas como ejemplo
titanic.head()

In [None]:
#Convertimos columna 'Sex' a categoría
titanic['Sex'] = titanic['Sex'].astype('category')

In [None]:
titanic.info()

### Análisis exploratorio (EDA)
Realizamos un primer análisis de cada variable del dataset (supervivencia, clase, género)

In [None]:
titanic['Survived'].value_counts()

In [None]:
titanic['Pclass'].value_counts()

In [None]:
titanic['Sex'].value_counts()

### Visualización
Usamos la librería `seaborn`, https://seaborn.pydata.org/tutorial/categorical.html#bar-plots

In [None]:
# Nº supervivientes
sns.countplot(data=titanic, x="Survived")
plt.show()

In [None]:
# Nº pasajeros por clase
sns.countplot(data=titanic, x="Pclass")
plt.show()

In [None]:
#Edad media frente a clase
sns.barplot(data=titanic, x="Pclass", y="Age")
plt.show()

In [None]:
#visualizamos Survived frente a Sex
#seaborn toma la media de Y para representar cada categoría en X
sns.barplot(data=titanic, x="Sex", y="Survived", ci=None) #media de "survived" por "Sex"
plt.show()

In [None]:
#supervivientes por clase
sns.barplot(data=titanic, x="Pclass", y="Survived", ci=None)
plt.show()

In [None]:
#supervivientes por clase y sexo
sns.barplot(data=titanic, x="Pclass", y="Survived", hue="Sex", ci=None)
plt.show()

In [None]:
#edad media según supervivencia por clase
sns.barplot(data=titanic, x="Pclass", y="Age", hue="Survived", ci=None)
plt.show()

### Tablas de contingencia
Contamos agrupando por variables

In [None]:
#Tabla de contingencia: nº de pasajeros por supervivencia y sexo
pd.crosstab(index=titanic['Survived'], columns=titanic['Sex'])

In [None]:
#Tabla de contingencia: nº de pasajeros por sexo y supervivencia
pd.crosstab(index=titanic['Sex'], columns=titanic['Survived'])

In [None]:
#Tabla de contingencia: nº de pasajeros por clase y sexo
pd.crosstab(index=titanic['Pclass'], columns=titanic['Sex'])

In [None]:
#Tabla de contingencia: nº de pasajeros por supervivencia y clase
pd.crosstab(index=titanic['Survived'], columns=titanic['Pclass'])

In [None]:
#Tabla de contingencia: nº de supervivientes por sexo y clase (multi-columna)
titanic_surv = pd.crosstab(index=titanic['Survived'], columns=[titanic['Sex'],titanic['Pclass']])
titanic_surv

In [None]:
titanic_surv.info()

cada columna es una tupla de dos elementos:

In [None]:
titanic_surv.columns

In [None]:
titanic_surv.loc[0] #indexado de filas

In [None]:
titanic_surv.loc[:,"male"] #indexado de columna superior

In [None]:
titanic_surv.loc[:,("male",2)] #indexado multicolumna

In [None]:
titanic_surv.xs(1, axis='columns', level="Pclass") #indexado columna inferior

### Probabilidad conjunta
Normalizamos a probabilidades la tabla de contingencias

In [None]:
N = len(titanic)
N

In [None]:
titanic_frec = titanic_surv / N
round(titanic_frec, 4)

Por ejemplo, probabilidad de supervivencia para mujeres de clase 2: $P(Survived, female, 2)$

In [None]:
titanic_frec.loc[1, ("female", 2)]

In [None]:
titanic_frec.loc[1][("female", 2)] #equivalente

In [None]:
titanic_frec[("female", 2)][1] #última manera

In [None]:
#Tabla de contingencia multi-índice (supervivencia y sexo por clase)
titanic_frec_2 = pd.crosstab(index=[titanic['Survived'],titanic['Sex']], columns=[titanic['Pclass']]) / N
round(titanic_frec_2, 4)

In [None]:
titanic_frec_2.info()

Cada índice es una tupla de 2 elementos:

In [None]:
titanic_frec_2.index

De esta tabla obtenemos las probabilidades conjuntas de los tres eventos (supervivencia, género, clase)

In [None]:
titanic_frec

In [None]:
titanic_frec.loc[0] #No Supervivientes (label 0) por género y clase
#cuidado, aquí '0' es una etiqueta y no un índice

In [None]:
#P(no supervivencia, mujer, clase 2)
#cuidado, aquí '0' es una etiqueta y no un índice
titanic_frec.loc[0, ('female', 2)]

In [None]:
#P(no supervivencia, mujer, todas las clases)
titanic_frec.loc[0, ('female')]

In [None]:
#o también
titanic_frec.loc[0, 'female']

In [None]:
#o incluso
titanic_frec.loc[0]['female']

In [None]:
#última manera
titanic_frec['female'].loc[0]

Para calcular las probabilidad de supervivencia de la clase 1, $P(clase=1)$, hay que aplicar la regla de la suma sobre todas las columnas `PClass=1` por lo que hay que seleccionar el segundo nivel del multindex por columna con el método `xs` (*cross-section*):  

In [None]:
titanic_frec

In [None]:
titanic_frec.xs(1, axis='columns', level='Pclass') #Supervivencia por género para clase 1

In [None]:
titanic_frec.xs(1, axis='columns', level='Pclass')['female'] #Supervivencia para mujeres de clase 1

In [None]:
titanic_frec.loc[:,('female',1)] #equivale a lo anterior: indexamos una columna multi-índice

In [None]:
#pasajeros con Sex='female'
titanic_frec.xs('female', axis='columns', level='Sex')

In [None]:
#en este caso, al ser el primer nivel también sirve
titanic_frec.loc[:,'female']

In [None]:
#o incluso más simple
titanic_frec['female']

Repasamos ahora el indexado multi-índice

In [None]:
titanic_frec_2

In [None]:
#indexamos por el primer nivel del índice: seleccionamos filas para Survived=1
titanic_frec_2.loc[1]

In [None]:
#indexamos por el segundo nivel del índice: seleccionamos filas para Sex='males'
titanic_frec_2.xs('male', axis='index', level='Sex')

In [None]:
titanic_frec[[('female', 1), ('male', 3)]] #seleccionamos columnas concretas multi-índice

In [None]:
titanic_frec.loc[1][('female', 1)] #supervivientes clase 1, female

In [None]:
titanic_frec.loc[1, ('female', 1)]

### Ejercicio  
Calcula las probabilidades condicionales siguientes:  
 * $P(Survived=True|Género=male)$ 
 * $P(Survived=True|Clase=1)$  
 * $P(Survived=True|Género=male, Clase=1)$  
 

Solución de $P(Survived=True|Género=male)$  

In [None]:
#recuerda
titanic_frec

In [None]:
#Solución


Solución de $P(Survived=True|Clase=1)$  

In [None]:
#Solución


Solución de $P(Survived=True|Género=male, Clase=1)$   
Aquí hay que aplicar la regla de la cadena:  
$P(Survived=True|Género=male, Clase=1) = P(Survived=True, Género=male, Clase=1) / P(Género=male, Clase=1)$

In [None]:
#Solución


### Independencia de las variables
¿son independientes género y clase?  
Si lo son debe cumplirse la igualdad $P(G,C)=P(G)*P(C)$  
Lo comprobamos para género='male' y clase=1

In [None]:
#P(G,C)
P_h_c1 = sum(titanic_frec[('male',1)]) #P(male, class1)
P_h_c1

In [None]:
#P(G)
P_h = titanic_frec['male'].sum().sum() #P(male)
P_h

In [None]:
#P(C)
P_c1 = titanic_frec.xs(1, axis=1, level='Pclass').sum().sum() #P(class1)
P_c1

In [None]:
#P(G)*P(C)
P_h * P_c1

**No** son independientes.  
Otra manera de comprobarlo es mirar si $P(G|C) = P(G)$

In [None]:
#P(hombre|c1) = P(hombre, clase1) / P(clase1)
P_h_c_1 = P_h_c1 / P_c1

In [None]:
P_h_c_1

In [None]:
P_h

Podemos comprobar para ambos sexos a la vez

In [None]:
p_sex_c = pd.crosstab(index=titanic['Sex'], columns=titanic['Pclass']) / N
p_sex_c

In [None]:
#P(G|C) = P(G,C) / P(C)
p_sex_c / p_sex_c.sum()

In [None]:
#mientras que P(G) es
p_sex_c.sum(axis=1)

El hecho de ser hombre y viajar en clase 1 no son independientes (la prob. de ser hombre es menor entre los pasajeros de la clase 1). Generalizando, la prob. de pertenecer a un sexo depende de la clase en la que se viajaba

In [None]:
# ¿es independiente la probabilidad de supervencia de la clase?
#P(S|c1)=P(S) ??
P_S_c1 = (titanic_frec.xs(1, axis=1, level='Pclass').loc[1].sum() /
          titanic_frec.xs(1, axis=1, level='Pclass').sum().sum())#P(S|c1) = P(S,c1)/P(c1)

P_S_c1

¿es independiente probabilidad de supervivencia y clase?  
La probabilidad de supervivencia condicionada a cada clase es:

In [None]:
#para todas las clases
# P(S|C) = P(S,C) / P(C)
titanic_frec_surv_class = pd.crosstab(index=titanic["Survived"], columns=titanic["Pclass"])/N
titanic_frec_surv_class.loc[1] / titanic_frec_surv_class.sum()

Pero la probabilidad global de supervivencia, $P(S=1)$ es:  

In [None]:
P_S = titanic_frec.loc[1].sum() #P(S)

P_S

No es independiente la probabilidad de supervivencia y la clase.  
Por otro lado, ¿es independiente probabilidad de supervivencia y género?  

In [None]:
#P(S|G) = P(S,G) / P(G)
titanic_frec_surv_sex = pd.crosstab(index=titanic["Survived"], columns=titanic["Sex"])/N
titanic_frec_surv_sex.loc[1] / titanic_frec_surv_sex.sum()

No es independiente porque la probabilidad de supervivencia cambia cuando se condiciona al género.

## Teorema de Bayes
### Ejercicio práctico: sistema de diagnóstico de Meningitis  
* La meningitis (M) causa el síntoma de rigidez de cuello (S) en un 50% de los casos: $P(S|M)=0.5$    
* se conoce también la probabilidad a priori de que un paciente tenga meningitis: $P(M)=1/50000$    
* se conoce la probabilidad a priori de que un paciente tenga rigidez de cuello $P(S)=1/20$    

Por tanto podemos calcular $P(M|S)$ (probabilidad de que un paciente con rigidez de cuello sufra una meningitis)

In [None]:
pS_M = 0.5
pM = 1/50000
pS = 1/20

#teorema de Bayes: P(M|S) = P(S|M)*P(M)/P(S)
pM_S = (pS_M*pM) / pS
pM_S

In [None]:
#probabilidad a priori de tener meningitis
pM

In [None]:
#probabilidad a posteriori de tener meningitis, dado que se tiene rigidez de cuello
pM_S

La probabilidad de tener meningitis si se tiene rigidez de cuello aumenta en un factor:


In [None]:
pM_S / pM

Ahora evaluamos cómo varía $P(M|S)$ cuando varía $P(S)$ (probabilidad a priori de tener rigidez de cuello)

In [None]:
pSarray = np.arange(start=1/20, stop=1, step=1/20)
pM_Sarray = [pS_M*pM/pS for pS in pSarray]

pSarray

In [None]:
plt.plot(pSarray, pM_Sarray)
plt.xlabel('P(S)')
plt.ylabel('P(M|S)')
plt.grid()
plt.title("Probabilidad de meningitis en función de P(S)")
plt.show()

Cuando más probable es el síntoma de la rigidez de cuello, menos informativo es para nuestros propósitos (menos probable de que se deba a una meningitis)

### Ejercicio práctico: PCR para detectar COVID-19  
* Un test PCR tiene una sensibilidad del 93% y una especificidad del 99%    
* La prevalencia estimada de COVID-19 es del 10% de la población en general

Si una PCR tiene un resultado positivo, ¿cuál es la probabilidad *real* de tener COVID-19? ¿y si el paciente se hace una segunda PCR y también es positiva?  
¿qué pasaría si baja la prevalencia del COVID-19 al 1%? ¿y si la especificidad del test es del 95%?  
**Ayuda:**  
*sensibilidad = P(PCR|C)* [Prob. de test positivo cuando se tiene COVID],  
*especificidad = P(noPCR|noC)* [Prob. de test negativo cuando no se tiene COVID]

In [None]:
# Solución


In [None]:
#para la segunda PCR:


In [None]:
#si baja la prevalencia de la COVID-19 al 1%


In [None]:
#si baja la especificidad del test al 95%


## Variables aleatorias
Una variable aleatoria es una variable que toma valores numéricos de un fenómeno aleatorio (con una determinada distribución de probabilidad). Las variables aleatorias pueden ser `discretas` o `continuas`.  
### Variables discretas
Suponemos que tenemos una población con los números enteros del 1 al 6 (por ejemplo al lanzar un dado de 6 caras).  

In [None]:
np.random.seed(12345)
x=np.arange(6)+1

x

Selección de muestras al azar (de manera aleatoria uniforme)

In [None]:
#Permutación de la población
np.random.shuffle(x) #Ojo, no devuelve un array sino que modifica el original
x

In [None]:
#otra manera
np.random.permutation(x) #devuelve un array con las permutaciones

In [None]:
x #no modifica el array original

In [None]:
#última manera
np.random.permutation(6)+1 #genera un array de [0...5] y lo permuta

In [None]:
#muestreo de la población sin reemplazo
np.random.choice(x, 3, replace=False)

In [None]:
#muestreo con reemplazo
np.random.choice(x, 10, replace=True)

In [None]:
#repetición del experimento 10 veces
a=np.array([np.random.choice(x, 3, replace=False) for i in range(10)])
a

In [None]:
#¿qué dimensiones tiene este array?
a.shape

## Distribuciones de probabilidad

La distribución de probabilidad (PMF de sus siglas en inglés) de una variable discreta es una lista de las probabilidades asociadas a cada valor posible.  
La función de distribución acumulativa (CDF) es indica la probabilidad de que una variable aleatoria X sea menor o igual que x.  
En Python, podemos generar muestras aleatorias para distintas funciones de distribución con el paquete `numpy.random.Generator` (https://numpy.org/doc/stable/reference/random/generator.html).  
Podemos calcular la PMF y la CDF de distintas distribuciones con el paquete `scipy.stats` (https://docs.scipy.org/doc/scipy/reference/stats.html)  

## Distribuciones discretas
### Distribución uniforme
Generamos una secuencia uniforme de números enteros entre 0 y 9

In [None]:
size = 1000
n = 10
s = np.random.choice(np.arange(n), size, replace=True)
s.shape

In [None]:
s[:10]

In [None]:
#frecuencia de cada número
counts = np.unique(s, return_counts=True)
counts

#### Distribución de probabilidad

In [None]:
fig, ax = plt.subplots()
ax = sns.countplot(x=s, label='Simulación', color='b')
ax.set_xlabel("Valor",fontsize=16)
ax.set_ylabel("Frecuencia",fontsize=16)
x = range(n)
ax.plot(x, np.ones(n)*size/n, 'ro', label='PMF uniforme')
ax.vlines(x, 0, np.ones(n)*size/n, 'r', lw=5, alpha=0.5)
plt.legend()
plt.show()

#### Función de probabilidad acumulada

In [None]:
#frecuencia acumulada
counts[1].cumsum()

In [None]:
cdf = counts[1].cumsum() / size
cdf

In [None]:
plt.subplots()
plt.plot(counts[0], counts[1].cumsum()/size, label='Simulación')
plt.xlabel("Valor",fontsize=16)
plt.ylabel("CDF",fontsize=16)
plt.plot(x, (np.ones(n)*size/n).cumsum()/size, 'r', label='CDF uniforme')
plt.legend()
plt.grid()
plt.show()

### Distribución binomial
P. ej. si la probabilidad de que suceda un evento (acierto) es p=0.3 y repetimos el evento 10 veces, ¿cuál es la probabilidad de que suceda el evento $x$ veces ( $PDF(x, n=10, p=0,3)$ )?  
Lo simulamos con `np.random.default_rng().binomial`.  
Podemos calcular el valor teórico del la PMF con el método `pmf` de la clase `scipy.stats.binom`.

In [None]:
from scipy.stats import binom
size = 1000 #nº de veces que repetimos la simulación
n = 10
p = 0.3
s = np.random.default_rng().binomial(n, p, size)

In [None]:
s.shape

In [None]:
s[:10]

In [None]:
np.unique(s, return_counts=True)

P. ej. valor teórico de la PMF de una distribución binomial (n=10, p=0.3) para el evento 0 (probabilidad de que ocurran 0 eventos para 10 ejecuciones):

In [None]:
binom.pmf(0, n, p)

Para 1000 realizaciones del experimento

In [None]:
binom.pmf(0, n, p) * size

In [None]:
fig, ax = plt.subplots()
ax = sns.countplot(x=s, label='Simulación', color='b')
ax.set_xlabel("Número de aciertos",fontsize=16)
ax.set_ylabel("Frecuencia",fontsize=16)
x = range(n+1)
ax.plot(x, binom.pmf(x, n, p)*size, 'ro', label='PMF binomial')
ax.vlines(x, 0, binom.pmf(x, n, p)*size, colors='r', lw=5, alpha=0.5)
plt.legend()
plt.show()

In [None]:
#frecuencia teórica de acertar 7 veces en 1000 simulaciones
binom.pmf(7,10,0.3)*1000

In [None]:
#CDF
#normalizamos frecuencias a probabilidad
prob=pd.Series(s).value_counts().sort_index()/size
prob

In [None]:
#otra manera
counts = np.unique(s, return_counts=True)
counts[1]/size

In [None]:
#prob. acumulada
prob.cumsum()

In [None]:
#CDF teórica de acertar 7 veces o menos en 10 repeticiones
binom.cdf(7, n, p)

In [None]:
fig, ax = plt.subplots()
ax = prob.cumsum().plot(label='Simulación')
ax.set_xlabel("Número de aciertos",fontsize=16)
ax.set_ylabel("CDF",fontsize=16)
x = range(n+1)
ax.plot(x, binom.cdf(x, n, p), 'ro', label='CDF binomial')
plt.legend()
plt.grid()
plt.show()

In [None]:
#Probabilidad de tener entre 4 y 7 aciertos
binom.cdf(7, n, p)-binom.cdf(3, n, p)

In [None]:
#Probabilidad acertar 3 o menos veces
binom.cdf(3, n, p)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salga exactamente 20 caras?
binom.pmf(20, 100, 0.5)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salga 20 caras o menos?
binom.cdf(20, 100, 0.5)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salga 50 caras o menos?
binom.cdf(50, 100, 0.5)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salgan más de 50 caras?
1-binom.cdf(50,100,0.5)

#### Valor esperado
El valor esperado de una variable aleatoria es el valor medio que toma la variable para un gran número de ejecuciones. Se define como:  
\begin{align}
E[X]=\sum{xp(x)} 
\end{align}
Calculamos el valor esperado en una variable con distribución binomial:

In [None]:
fig, ax = plt.subplots()
ax.vlines(prob.index, 0, prob, colors='r', lw=5, alpha=0.5)
ax.set_xlabel("Número de aciertos",fontsize=16)
ax.set_ylabel("Probabilidad",fontsize=16)
plt.show()

In [None]:
prob

In [None]:
#valor de la simulación
E=sum(prob.index*prob)
E

In [None]:
#valor teórico
x=range(10+1)
E=sum(x*binom.pmf(x, n, p))
E

#### Ejemplo
Si realizamos un cuestionario con n=10 preguntas con 4 opciones cada respuesta, y la persona que realiza la prueba responde al azar, ¿Cuál es la nota esperada? ¿cuál es la probabilidad de aprobar? ¿Y si penalizamos con 0.25 puntos la respuesta equivocada?

In [None]:
#Solución: sin penalización
n = 10
p = 1/4
#la probabilidad de acertar x preguntas sigue una distribución binomial
x = range(n+1)
p_x = binom.pmf(x, n, p)

In [None]:
plt.plot(x, p_x, 'ro', )
plt.vlines(x, 0, p_x, colors='r', lw=5, alpha=0.5)
plt.xlabel("Número de aciertos",fontsize=16)
plt.ylabel("Probabilidad",fontsize=16)
plt.grid()
plt.show()

In [None]:
#la nota esperada es la suma de cada x por su probabilidad
nota_esperada = np.sum(x*p_x)
nota_esperada

In [None]:
#Simular 1000 exámenes y obtener la nota media de todos los exámenes

size = 1000
n = 10
p = 1/4
s = np.random.default_rng().binomial(n, p, size)

In [None]:
s.mean()

In [None]:
#¿cuál es la probabilidad de sacar al menos un 3?
1-binom.cdf(2, n, p) #Hay que acertar más de 2 preguntas

In [None]:
#¿cuál es la prob de aprobar?
1-binom.cdf(4, n, p) 

Aplicando penalización

In [None]:
#si acierta x preguntas, falla n-x preguntas con una penalización de -1/4
nota_esperada = np.sum(x*p_x) - np.sum((np.ones(n+1)*n-x)*p_x*1/4)
nota_esperada

In [None]:
#donde el número de preguntas falladas es 10-(nº aciertos)
(np.ones(n+1)*n-x)

In [None]:
#Representamos Nota final con penalización según nº de aciertos
plt.plot(x-(np.ones(n+1)*n-x)*1/4)
plt.axhline(y=5, color='red')
plt.xlabel('Nº de aciertos')
plt.ylabel('Nota')
plt.grid()
plt.show()

Hace falta acertar al menos 6 preguntas para aprobar:

In [None]:
#nota obtenida para cada nº de aciertos
pd.Series(x-(np.ones(n+1)*n-x)*1/4)

Con penalización, ¿cuál es la prob. de sacar más de 3?

In [None]:
#hace falta al menos acertar 5 preguntas (nota: 3,75)
1-binom.cdf(4, n, p)

Probabilidad de aprobar con penalización. Hay que acertar al menos 6 preguntas

In [None]:
1-binom.cdf(5, n, p) #prob. acumulada de acercar 6 o más preguntas

### Distribución multinomial
Es una generalización de la distribución binomial, en la que cada experimento puede tomar un valor de entre  $p$  valores posibles.  
Ejemplo: si lanzamos un dado (equilibrado) 20 veces, ¿cuántas veces sale cada valor?

In [None]:
veces = 20
p = [1/6]*6 #probabilidad de cada cara

In [None]:
#nº de veces que sale cada cara al lanzar 20 veces el dado
s = np.random.default_rng().multinomial(veces, p, size=1)
s

In [None]:
np.sum(s)

Si repetimos el experimento muchas veces, dado que la probabilidad es igual para todo los lados, la tendencia es a tener una distribución uniforme de valores

In [None]:
s = np.random.default_rng().multinomial(veces, p, size=1000)

In [None]:
s.shape

In [None]:
np.mean(s, axis=0)

In [None]:
np.mean(s, axis=0).sum()

Si repetimos infinitas veces el experimiento de lanzar 20 veces el dado, cada lado debe salir 20/6 veces

In [None]:
20/6

In [None]:
plt.bar(x=np.arange(6)+1, height=np.mean(s, axis=0))
plt.axhline(y=20/6, color='red')
plt.xlabel('Valor del dado')
plt.ylabel('Nº de veces que sale')
plt.show()

Suponemos un dado trucado en el que el 4 tiene el doble de probabilidad de salir que el resto de caras:

In [None]:
#Calculamos la probabilidad de cada evento (cada una de las caras)
prob = [1,1,1,2,1,1]
p=np.array(prob)/sum(prob) #normalizamos las probabilidades
p

In [None]:
np.random.default_rng().multinomial(veces, p, size=1)

In [None]:
s = np.random.default_rng().multinomial(veces, p, size=1000)
s.mean(axis=0)

In [None]:
plt.bar(x=np.arange(6)+1, height=np.mean(s, axis=0))
plt.xlabel('Valor del dado')
plt.ylabel('Nº de veces que sale')
plt.show()

### Distribución de Poisson
Es una generalización de la distribución binomial para valores grandes de N.  
#### Ejemplo:
Nº de coches que pasan por una carretera en 1 hora para una estimación de 100 coches/hora

In [None]:
from scipy.stats import poisson

lam = 100 #coches por hora
s = np.random.default_rng().poisson(lam, size=1000) #simulamos 1000 repeticiones

In [None]:
s[:10]

In [None]:
s.shape

In [None]:
len(np.unique(s))

In [None]:
poisson.ppf(0.01, lam) #percentil 1% de coches por hora

Es decir, sólo el 1% de las veces pasan 77 coches o menos

In [None]:
poisson.ppf(0.99, lam) #percentil 99% de coches por hora

In [None]:
poisson.pmf(100, lam) #probabilidad de que pasen exactamente 100 coches/hora

In [None]:
poisson.pmf([50, 90, 100, 110, 150], lam) #probabilidad de que pasen exactamente esos coches/hora

In [None]:
#Probabilidad de que pasen más de 120 coches en una hora
1 - poisson.cdf(120, lam)

In [None]:
count, bins, ignored = plt.hist(s, 25, density=True, label='Simulación')
x = np.arange(poisson.ppf(0.01, lam),
               poisson.ppf(0.99, lam))
plt.plot(x, poisson.pmf(x, lam), linewidth=2, color='r', label='PDF Poisson')
plt.xlabel("Nº coches/hora")
plt.ylabel("Probabilidad")
plt.legend()
plt.show()

In [None]:
#suma de todas las probabilidades teóricas (ojo, se excluye el percentil 1% por cada extremo)
sum(poisson.pmf(x, lam))

En la simulación, si contamos el nº de veces que pasan entre entre 77 y 124 coches (rango del percentil 98%):

In [None]:

sum(np.isin(s, x))/size

In [None]:
#CDF
fig, ax = plt.subplots()
ax.plot(bins[1:], count.cumsum()/count.sum(), 'o-', label='Simulación')
ax.set_xlabel("Nº coches/hora",fontsize=16)
ax.set_ylabel("CDF",fontsize=16)
ax.plot(x, poisson.cdf(x, lam), linewidth=2, color='r', label='CDF Poisson')
plt.legend()
plt.grid()
plt.show()

In [None]:
#¿cuál es la posibilidad de que pasen entre 90 y 110 coches en una hora?

poisson.cdf(110, lam)-poisson.cdf(89, lam)

#### Ejemplo 2
Imaginad que enviamos un paquete de bits de longitud $n = 10^4$ donde cada bit puede estar corrupto independientemente con una probabilidad $p=10^{-6}$.  
¿cuál es la probabilidad de que se reciba un mensaje sin corromper?  
Aquí $\lambda=10^4 \times 10^{-6}=0.01$ luego:  

In [None]:
lam = 0.1
poisson.pmf(0, lam) #probabilidad de 0 eventos de error

In [None]:
#probabilidad de algún error
1-poisson.pmf(0, lam)

In [None]:
#Probabilidad de tener N bits erróneos
x = np.arange(10)
plt.plot(x, poisson.pmf(x, lam), 'ro')
plt.vlines(x, 0, poisson.pmf(x, lam), colors='r', lw=5, alpha=0.5)
plt.xlabel("Nº bits erróneos")
plt.ylabel("Probabilidad")
plt.show()

In [None]:
#valor numérico de probabilidad
pd.Series(np.round(poisson.pmf(x, lam), 3))

### Ejemplo 3
Analizamos los homicidios cometidos en Inglaterra y Gales entre 2013 y 2016 (https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/compendium/focusonviolentcrimeandsexualoffences/yearendingmarch2016/homicide#statistical-interpretation-of-trends-in-homicides).  
Vemos cómo el nº de homicidios por día sigue una estadística de Poisson (tomando como lambda la media de homicidios/día en ese período).

In [None]:
homicidios = pd.read_csv("homicidios.csv")
homicidios

Calculamos la media de homicidios/día y sacamos la distribución de Poisson para comparar

In [None]:
total = np.sum(np.arange(8)*homicidios.Occurences)
media = total / 365 / 3 #período de 3 años
print(f'Ha habido un total de {total} homicidios, con una media de {media:.3f} homicidios/día')

In [None]:
homicidios["estimados"] = poisson.pmf(np.arange(8), media) * (365*3)
homicidios

In [None]:
fig, ax = plt.subplots()
plt.bar(x=homicidios.Homicides, height=homicidios.Occurences, color='b', label="Observado")
ax.vlines(homicidios.Homicides, 0, homicidios.estimados, colors='r', lw=5, alpha=0.5, label="Estimado")
plt.plot(homicidios.Homicides, homicidios.estimados, 'ro')
ax.set_xlabel("Número de homicidios/día",fontsize=16)
ax.set_ylabel("Ocurrencia",fontsize=16)
plt.legend()

plt.show()

## Distribuciones continuas
### Distribución uniforme
Lo podemos simular con `np.random.Generator.uniform`


In [None]:
size = 1000
s = np.random.default_rng().uniform(size=size)

In [None]:
s[:10]

In [None]:
count, bins, ignored = plt.hist(s, 10, density=True, label='Simulación')
plt.axhline(y=1, linewidth=2, color='r', label='PDF uniforme')
plt.legend()
plt.xlabel('x')
plt.ylabel('frec. normalizada')
plt.show()

In [None]:
#CDF
plt.plot(bins[1:], count.cumsum()/np.sum(count), 'o-')
plt.plot([0,1], [0,1], 'r')
plt.xlabel('x')
plt.ylabel('P(x)')
plt.legend(['Simulación', 'CDF uniforme'])
plt.grid()
plt.show()

### Distribución normal
La podemos simular con `np.random.Generator.normal` y calcular con `scipy.stats.norm`.


In [None]:
mu, sigma = 0, 0.1 # media y desviación estándar
size=1000
s = np.random.default_rng().normal(mu, sigma, size)

In [None]:
s.shape

In [None]:
s[:10]

In [None]:
from scipy.stats import norm
count, bins, ignored = plt.hist(s, 25, density=True, label='Simulación')
x = np.linspace(mu-3*sigma, mu+3*sigma)
plt.plot(x, norm.pdf(x, mu, sigma), linewidth=2, color='r', label='PDF normal')
plt.xlabel("x")
plt.ylabel("PDF")
plt.legend()
plt.grid()
plt.show()

La PDF está normalizada para que su CDF sea 1 (área bajo la curva)

In [None]:
#CDF
plt.plot(bins[1:], count.cumsum()/np.sum(count), 'o-', label='CDF simulación')
plt.plot(bins, norm.cdf(bins, mu, sigma), linewidth=2, color='r', label='CDF normal')
plt.xlabel("x")
plt.ylabel("CDF")
plt.legend()
plt.grid()
plt.show()

El CDF nos permite conocer la probabilidad de obtener un valor dentro de un rango:

In [None]:
#Probabilidad entre -sigma y 0
norm.cdf(0, mu, sigma)-norm.cdf(-sigma, mu, sigma)

In [None]:
#Prob. de obtener un valor alrededor de una desv. estándar de la media
norm.cdf(sigma, mu, sigma)-norm.cdf(-sigma, mu, sigma)

In [None]:
#probabilidad en el rango de 3 sigmas
norm.cdf(3*sigma, mu, sigma)-norm.cdf(-3*sigma, mu, sigma)

## Método de Monte Carlo
Permite simular un evento probabilísticamente sin necesidad de realizar el desarrollo matemático.  
### Ejemplo
Vamos a calcular la probabilidad de que la suma de lanzar 3 veces un dado sea 10

In [None]:
#simulamos el lanzamiento de 3 dados
s = np.random.choice(np.arange(6)+1, 3, replace=True)
sum(s)


In [None]:
#repetimos el lanzamiento n veces
n = 10000
a=np.array([np.random.choice(np.arange(6)+1, 3, replace=True) for i in range(n)])
a.shape

In [None]:
#calculamos la suma de cada tirada
sumas = a.sum(axis=1)
sumas.shape

In [None]:
#representamos resultados
counts=pd.Series(sumas).value_counts().sort_index()

plt.plot(counts.index, counts, 'ro', )
plt.vlines(counts.index, 0, counts, colors='r', lw=5, alpha=0.5)
plt.xlabel("Valor de la suma",fontsize=13)
plt.ylabel("Nº de ocurrencias",fontsize=13)
plt.grid()
plt.show()

In [None]:
#Probabilidad de suma=10
counts.loc[10] / n

Recuerda que el valor más probable estimado es:

In [None]:
E = sum(1/6*(np.arange(6)+1)) #valor estimado para 1 dado
E * 3 #suma para 3 dados

### Problema de Monty Python
Vamos a calcular las probabilidades de ganar en el juego de Monty Hall según se cambie o no la puerta mediante simulación.

In [None]:
def juego(cambio):
    """Calcula la probabilidad de ganar en el juego de Monty Hall
    en función de si cambiamos (cambio=1) o no la puerta"""
    P = np.arange(3) #puertas posibles
    E = np.random.choice(3, 1) #puerta elegida
    C = np.random.choice(3, 1) #puerta con el coche, sucesos independientes
    Monty = np.random.choice(np.setdiff1d(P, np.union1d(E, C)), 1) #selección de Monty
    E = E if cambio==0 else np.setdiff1d(P, np.union1d(E, Monty)) #elección final
    
    return(E==C)

Explicación del código de la función

In [None]:
P = np.arange(3) #puertas posibles
P

In [None]:
E = np.random.choice(3, 1) #puerta elegida
E

In [None]:
C = np.random.choice(3, 1) #puerta con el coche, sucesos independientes
C

In [None]:
np.union1d(E, C) #puertas que no puede elegir Monty

In [None]:
np.setdiff1d(P, np.union1d(E, C)) #puertas que puede elegir Monty

In [None]:
Monty=np.random.choice(np.setdiff1d(P, np.union1d(E, C))) #selección de Monty
Monty

In [None]:
np.union1d(E, Monty) #puertas descartadas si se cambia la puerta

In [None]:
E == C #resultado final si el jugador NO cambia la puerta

In [None]:
E = np.setdiff1d(P,np.union1d(E, Monty)) #selección final si se cambia la puerta
E

In [None]:
E == C #resultado final si el jugador SÍ cambia la puerta

Simulamos el juego 1000 veces

In [None]:
N = 10000
ganados = [juego(0) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)*100/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% intentos ganados')
plt.title('% de intentos ganados cuando NO se cambia')
plt.grid()
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

In [None]:
N = 10000
ganados = [juego(1) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)*100/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% inttentos ganados')
plt.title('porc. de intentos ganados cuando SI se cambia')
plt.grid()
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

### Estimación del valor de Pi
Suponemos que tenemos un círculo de radio $r=1$ dentro de un cuadrado del mismo tamaño. Sabiendo que el área de un círculo tiene el valor $A=\pi \times r^2$,  lanzamos aleatoriamente dardos en toda la superficie del cuadrado, la proporción $p$ de dardos que quedan dentro del cículo deben de ser:
$p=\frac{\pi \times r^2}{(2r)^2}=\frac{\pi}{4}$   
Luego:
$\pi=p \times 4$  

In [None]:
import random as r
import math as m

# Número de dardos que caen dentro del círculo.
inside = 0
# Número total de dardos lanzados.
total = 1000000

# Iteramos para el total de dardos.
for i in range(0, total):
  # Generamos posición del dardo (x, y) en el rango [0, 1] con una distr. uniforme
  
    x = r.random()
    y = r.random()
  # Incrementamos el contador si el dardo cae dentro.
    if m.sqrt(x**2 + y**2) <= 1.0:
        inside += 1

# dentro / total = pi / 4
pi = (float(inside) / total) * 4
pi


In [None]:
total=1000000
#Versión vectorizada con numPy
x = np.random.default_rng().uniform(size=total)
y = np.random.default_rng().uniform(size=total)
inside = np.sum(np.sqrt(x**2 + y**2) <= 1.0)
pi = (float(inside) / total) * 4
pi

### Ejercicio
Analizar cómo mejora la precisión de la estimación de $\pi$ al aumentar el nº de dardos en la simulación.  
Para eso hay que crear una función que calcule la estimación de $\pi$ en función del nº de dardos (N) y hacer un barrido de N

In [None]:
#Mejora de la precisión de la simulación con el número de dardos
def calcula_pi(n):
    #completar




In [None]:
calcula_pi(100000)

In [None]:
#Simulamos entre 1 y 1000 veces
N = 1000
pi_estimado = [calcula_pi(i+1) for i in range(N)]

In [None]:
plt.plot(pi_estimado)
plt.xlabel('Nº de dardos')
plt.ylabel('$\pi$')
plt.title('Valor estimado de $\pi$')
plt.axhline(y=np.pi, color='r', linewidth=2)
plt.grid()
plt.show()

In [None]:
N = np.logspace(2, 6, 1000) #escala logarítmica de 100 a 1000000 de simulaciones

In [None]:
pi_estimado = [calcula_pi(int(i)) for i in N]

plt.semilogx(N, pi_estimado)
plt.xlabel('Nº de dardos')
plt.ylabel('$\pi$')
plt.title('Valor estimado de $\pi$')
plt.axhline(y=np.pi, color='r', linewidth=2)
plt.grid()
plt.show()

In [None]:
#Representación del error absoluto
plt.plot((np.abs(np.array(pi_estimado)-np.pi)))
plt.grid()
plt.show()

In [None]:
pi_estimado[-1] #valor estimado en la última iteración (N máxima)