<img src="datamecum_logo.png" align="right" style="float" width="400">
<font color="#CA3532"><h1 align="left">Programa Experto en Data Science.</h1></font>
<font color="#6E6E6E"><h2 align="left">Módulo Introducción matemática.</h2></font> 
<font color="#6E6E6E"><h2 align="left">Probabilidad.</h2></font> 

#### Joan Vila Francés


En este notebooks vamos a introducir el concepto de probabilidad, al mismo tiempo que repasamos los conceptos básicos acerca del uso y representación de datos en Python usando las librerías `Pandas` y `numPy`.  
## Ejemplo de probabilidad (frecuentista): encuesta de helados
Suponemos que hacemos una encuesta para saber los gustos mundiales de helados. A partir de la encuesta sabemos la frecuencia con que la que se prefiere un determinado sabor de helado según el género.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
#definimos un DataFrame en Pandas con los resultados de la encuesta
encuesta = pd.DataFrame({'chocolate': [100, 350], 
                         'vainilla': [120, 200], 
                         'fresa': [60, 90]}, 
                         index = ['hombre', 'mujer'])
encuesta

In [None]:
type(encuesta)

In [None]:
encuesta.info()

### Indexado de filas y columnas en Pandas
#### Indexado de filas

In [None]:
#Las filas se pueden referenciar por su nombre (índex)
encuesta.loc['hombre']

In [None]:
type(encuesta.loc['hombre'])

In [None]:
encuesta.iloc[1] #o también por su posición numérica (empezando en 0)

#### Indexado de columnas

In [None]:
encuesta['chocolate'] #indexado de columnas por nombre

In [None]:
encuesta.chocolate #indexado de columnas por nombre

In [None]:
encuesta[['chocolate', 'fresa']] #varias columnas

También podemos indexar una columna como objeto `DataFrame` con:

In [None]:
encuesta[['chocolate']]

In [None]:
encuesta['chocolate']

¿cuál es la diferencia entre `encuesta['chocolate']` y `encuesta[['chocolate']]`?

In [None]:
type(encuesta['chocolate'])

In [None]:
type(encuesta[['chocolate']])

#### Indexado de celdas
Por etiqueta (*label*)

In [None]:
encuesta.loc['hombre', 'chocolate'] #indexado de celda [fila, columna]

Por índice

In [None]:
encuesta.iloc[0, 0]

In [None]:
#equivalente: indexar una columna y en objeto pd.Series resultante indexar una fila
encuesta['chocolate']['hombre']

Con este indexado también podemos hacer un "subset" de filas y columnas

In [None]:
#otra manera de indexar columnas por nombre
encuesta.loc[:,"chocolate"]

In [None]:
encuesta.iloc[:,0] #referencia a columna por índice

In [None]:
encuesta.iloc[:,0:2] #referencia a subset de columnas por índice

In [None]:
encuesta.iloc[:,[0,2]] #referencia a subset de columnas por índice

### Sumatorios

In [None]:
encuesta

In [None]:
#Podemos sumar las filas para ver totales por columnas (agregación por filas -index-)
encuesta.sum(axis='index')

In [None]:
#O podemos sumar las columnas para ver totales por filas (agregación por columnas)
encuesta.sum(axis='columns')

In [None]:
encuesta.sum() #por defecto agrega por axis=0 (filas)

In [None]:
#Totales de la tabla
N = encuesta.sum().sum()
N

### Conversión a `numPy`
Podemos convertir de Pandas a NumPy y usar sus funciones

In [None]:
encuesta_np = encuesta.to_numpy()
encuesta_np

In [None]:
type(encuesta_np)

In [None]:
encuesta_np.shape

In [None]:
encuesta_np.dtype

In [None]:
#numPy por defecto suma todos los elementos
encuesta_np.sum()

In [None]:
encuesta_np.sum(axis=0) #suma por filas -eje 0-

In [None]:
encuesta_np.sum(axis=0).shape #suma por filas

In [None]:
encuesta_np.sum(axis=1) #suma por columnas -eje 1-

In [None]:
encuesta_np.sum(axis=1).shape #suma por columnas

#### Probabilidad conjunta
La probabilidad de que sucedan dos eventos a la vez.  
Calculamos la probabilidad conjunto de los eventos *género* y *sabor*

In [None]:
#Convertimos frecuencias a probabilidad (aprox. frecuentista)
P = encuesta / N
P

La probabilidad de todo el espacio muestral debe ser 1

In [None]:
P.sum().sum()

Ejemplo, de los 920 participantes de la encuesta, ¿Cuál es la probabilidad de que el participante sea un hombre **y** prefiera el chocolate, $P(hombre, chocolate)$?

In [None]:
P.loc['hombre', 'chocolate']

¿Cuál es la probabilidad de que el participante sea una mujer y prefiera la vainilla, $P(mujer, vainilla)$?

In [None]:
#completar
P.loc['mujer','vainilla']

#### Probabilidad marginal
La probabilidad **marginal** de una probabilidad conjunta se obtiene eliminando el efecto de un evento sobre la probabilidad conjunta (regla de la suma):  
\begin{align}
P(A)=\sum_B{P(A,B)}
\end{align} 
En la encuesta, la probabilidad $P(sabor)$ se obtiene sumando las probabilidades conjuntas: $P(sabor, hombre)+P(sabor, mujer)$

In [None]:
#Sumamos las filas (género) para obtener la probabilidad marginal de sabor
P_sabor = P.sum(axis='index')
P_sabor

Ejemplo: la probabilidad de que un participante cualquiera prefiera el chocolate, $P(chocolate)$, es

In [None]:
P_sabor['chocolate']

In [None]:
P_sabor['vainilla']

Este valor equivale a la suma  $P(hombre, chocolate) + P(mujer, chocolate)$

In [None]:
#comprobar
P.loc['hombre','chocolate']+P.loc['mujer', 'chocolate']

Podemos calcular la probabilidad de $P(género)$ sumando por columnas:

In [None]:
P_genero = P.sum(axis='columns')
P_genero

Probabilidad de que el encuestado sea un hombre

In [None]:
#P('hombre')
P_genero['hombre']

Este valor equivale a la suma  $P(hombre, chocolate) + P(hombre, vainilla) + P(hombre, fresa)$ (regla de la suma) 

In [None]:
P.loc['hombre', 'chocolate']+P.loc['hombre', 'vainilla']+P.loc['hombre', 'fresa']

#### Probabilidad condicionada
La probabilidad de que suceda un evento dado que ha sucedido otro evento.  
Ejemplo, si sabemos que el participante de la encuesta es un hombre, ¿cuál es la probilidad de que prefiera el chocolate, $P(chocolate|hombre)$?  
Por la regla de la cadena:  
\begin{align}
P(chocolate|hombre)=\frac{P(chocolate,hombre)}{P(hombre)}
\end{align}

In [None]:
P_choco_hombre = P.loc['hombre', 'chocolate'] / P_genero['hombre']
P_choco_hombre

Nótese que es distinta de la probabilidad $P(chocolate)$:

In [None]:
P_sabor['chocolate']

Es decir, que la probabilidad -global- de que a un encuestado le guste el chocolate es del 48%, pero disminuye a un 36% si sabemos que el encuestado es un hombre (como luego veremos esto indica que ambos eventos NO son independientes)

#### Ejercicio
Calcula la probabilidad $P(chocolate|mujer)$

In [None]:
#completar


Podemos calcular la probabilidad de cada sabor condicionada por género para cada entrada de la tabla en una sola operación.

In [None]:
#dividimos cada columna (sabor) por la P_genero
P_s_g = P.div(P_genero, axis=0)

P_s_g #probabilidad condicional P(sabor|género)

P. ej. la probabilidad de que siendo mujer le guste la fresa $P(fresa|mujer)$ es

In [None]:
P_s_g.loc['mujer', 'fresa']

Podemos condicionar cada género por sabor ($P(género|sabor)$) dividiendo cada columna por su P_sabor

In [None]:
P_g_s = P.div(P_sabor, axis=1)

P_g_s #probabilidad condicional P(género|sabor)

P. ej. la probabilidad de ser mujer si te gusta la fresa, $P(mujer|fresa)$:

In [None]:
P_g_s.loc['mujer', 'fresa']

#### Ley de la probabilidad total
Se puede calcular la probabilidad de un evento como la suma de todas sus probabilidades condicionales.  
Ejemplo: la probabilidad de que el participante de la encuesta prefiera el chocolate es la suma:  
  
$P(chocolate) = \underset{genero}{ \sum} P(chocolate|genero) \times P(genero) =P(chocolate|hombre) \times P(hombre) + P(chocolate|mujer) \times P(mujer)$  


In [None]:
P_sabor['chocolate'] #calculada antes con la suma marginal

In [None]:
#P(sabor|género) es P_s_g.loc['género', 'sabor']

P_choco = (P_s_g.loc['hombre', 'chocolate'] * P_genero['hombre'] + 
           P_s_g.loc['mujer', 'chocolate'] * P_genero['mujer'])
P_choco

In [None]:
#La probabilidad total de cada sabor se puede calcular con el producto matricial
# P(genero) x P(sabor|género)
# dim(1,2) x dim(2,3) = dim(1,3)
P_genero.to_numpy().dot(P_s_g) #P(sabor)

#### Independencia
Dos eventos son independientes si $P(A, B) = P(A) \cdot P(B)$   
¿se cumple para los datos de la encuesta?

In [None]:
P.loc['hombre', 'chocolate'] == P_genero['hombre'] * P_sabor['chocolate']

Es decir, la probabilidad de que te guste más el chocolate no es independiente del género.

In [None]:
P.loc['hombre', 'chocolate']

In [None]:
P_genero['hombre'] * P_sabor['chocolate']

Otra manera de comprobar independencia es ver si $P(S|G) = P(S)$  
Para eso podemos calcular si la probabilidad de 'hombre' es igual dado el gusto del participante  

In [None]:
#P(sabor|hombre) = P(sabor,hombre)/P(hombre)
P.loc['hombre'] / P_genero['hombre']

In [None]:
#mientras que P(sabor) es
P.sum(axis=0)

Vemos que la probabilidad $P(sabor|hombre)$ es distinta que la probabilidad marginal de cada sabor, por lo que hombre y sabor NO son independientes: la probabilidad del sabor preferido depende del género del encuestado.

## Ejemplo práctico
### Dataset 'Titanic'
Vamos a utilizar un listado de pasajeros del Titanic para estudiar probabilidades de supervivencia de los pasajeros en función de su género y su clase. 
Primero cargamos los datos como `DataFrame` de Pandas.  

In [None]:
#Cargamos el dataset
titanic = pd.read_csv('titanic.csv')

In [None]:
titanic.info()

In [None]:
#Mostramos primeras columnas como ejemplo
titanic.head()

In [None]:
#Convertimos columna 'Sex' a categoría
titanic['Sex'] = titanic['Sex'].astype('category')

In [None]:
#Convertimos columna 'Survived' a categoría
titanic["Survived"] = titanic["Survived"].map({0: "no", 1: "yes"}).astype("category")

In [None]:
titanic.info()

### Análisis exploratorio (EDA)
Realizamos un primer análisis de cada variable categórica del dataset (supervivencia, clase, género)

In [None]:
titanic['Survived'].value_counts()

In [None]:
titanic['Pclass'].value_counts()

In [None]:
titanic['Sex'].value_counts()

Para los datos numéricos de edad vemos su descripción estadística

In [None]:
titanic['Age'].describe()

### Visualización
Usamos la librería `seaborn`, https://seaborn.pydata.org/tutorial/categorical.html#bar-plots  

#### Variables categóricas
Vemos el recuento de variables categóricas con la función `countplot`

In [None]:
# Nº supervivientes
sns.countplot(data=titanic, x="Survived")
plt.show()

In [None]:
# Nº pasajeros por clase
sns.countplot(data=titanic, y="Pclass")
plt.show()

#### Variables numéricas
Vemos la distribución de las variables numéricas con su histograma.

In [None]:
sns.histplot(data=titanic, x="Age")
plt.show()

Variables numéricas agregadas por categoría

In [None]:
#Edad media frente a clase
#seaborn toma la media del eje Y para representar cada categoría en X

sns.barplot(data=titanic, x="Pclass", y="Age")
plt.show()

Estos valores corresponden con las medias calculadas agrupando por clase:

In [None]:
titanic.groupby("Pclass")["Age"].mean()

In [None]:
# visualizamos % Survived frente a Sex
sns.barplot(data=titanic, x="Sex", y=(titanic["Survived"]=="yes").astype('int')*100, errorbar=None) #media de "survived" por "Sex"
plt.show()

In [None]:
# porcentaje de supervivientes por clase
sns.barplot(data=titanic, x="Pclass", y=(titanic["Survived"]=="yes").astype('int')*100, errorbar=None)
plt.show()

Podemos representar una tercera variable con el color (Hue) de las gráficas

In [None]:
#supervivientes por clase y sexo
sns.barplot(data=titanic, x="Pclass", y=(titanic["Survived"]=="yes").astype('int')*100, hue="Sex", errorbar=None)
plt.show()

In [None]:
#edad media según supervivencia por clase
sns.barplot(data=titanic, x="Pclass", y="Age", hue="Survived", errorbar=None) #eje Y calcula media
plt.show()

### Tablas de contingencia
Contamos nº de muestras agrupando por variables (extensión del `value_count` a varias dimensiones)

In [None]:
#Tabla de contingencia: nº de pasajeros por supervicencia y sexo
pd.crosstab(index=titanic['Survived'], columns=titanic['Sex'])

In [None]:
#Traspuesta de la anterior: nº de pasajeros por sexo y supervivencia
t = pd.crosstab(index=titanic['Sex'], columns=titanic['Survived'])
t

In [None]:
t.info()

In [None]:
t["no"]

In [None]:
#Tabla de contingencia: nº de pasajeros por clase y sexo
pd.crosstab(index=titanic['Pclass'], columns=titanic['Sex'])

In [None]:
#Tabla de contingencia: nº de pasajeros por supervivencia y clase
pd.crosstab(index=titanic['Survived'], columns=titanic['Pclass'])

#### Tablas de contingencias de más de 2 variables
En ese caso hay que crear una tabla multi-índice (varias niveles jerárquicos de columnas o de filas)

In [None]:
#Tabla de contingencia: nº de supervivientes (fila) por sexo y clase (multi-columna)
titanic_survived = pd.crosstab(index=titanic['Survived'], columns=[titanic['Sex'],titanic['Pclass']])
titanic_survived

In [None]:
titanic_survived.sum()

In [None]:
titanic_survived.info()

cada columna es una tupla de dos elementos:

In [None]:
titanic_survived.columns

#### Indexado de tablas multi-columna

In [None]:
titanic_survived.loc['no'] #indexado de filas

In [None]:
titanic_survived["male"] #indexado de columna superior

In [None]:
titanic_survived[("male",2)] #indexado multicolumna

In [None]:
titanic_survived[[('female', 1), ('male', 1), ('male', 3)]] #seleccionamos columnas concretas multi-índice

Para seleccionar el segundo nivel del multindex por columna se utiliza el método `xs` (*cross-section*):

In [None]:
titanic_survived

In [None]:
titanic_survived.xs(1, axis='columns', level="Pclass") #indexado columna inferior

Indexado de una celda en un datafram multi-columna

In [None]:
titanic_survived.loc['no'][('female', 1)] #supervivientes clase 1, female

In [None]:
titanic_survived.loc['no', ('female', 1)] #equivale a la anterior

### Análisis de la probabilidad conjunta
Primero necesitamos normalizar a probabilidades la tabla de contingencias

In [None]:
N = len(titanic)
N

In [None]:
titanic_survived

In [None]:
P_titanic = titanic_survived / N
round(P_titanic, 4)

De esta tabla obtenemos las probabilidades conjuntas de los tres eventos (supervivencia, género, clase)

In [None]:
P_titanic.loc['no'] #No Supervivientes por género y clase


In [None]:
#P(no supervivencia, mujer, todas las clases)
P_titanic.loc['no', 'female']

Por ejemplo, probabilidad de supervivencia para mujeres de clase 2: $P(Survived, female, 2)$

In [None]:
P_titanic.loc['yes', ("female", 2)]

In [None]:
P_titanic.loc['yes'][("female", 2)] #equivalente

In [None]:
P_titanic[("female", 2)]['yes'] #última manera

Para calcular las probabilidad de supervivencia de la clase 1, $P(clase=1)$, hay que aplicar la regla de la suma sobre todas las columnas `PClass=1`:  

In [None]:
P_titanic #recordamos

In [None]:
P_titanic.xs(1, axis='columns', level='Pclass') #Supervivencia por género para clase 1 -segundo nivel del índice de columnas-

In [None]:
P_titanic.xs(1, axis='columns', level='Pclass').sum(axis=1) #Supervivencia para clase 1 -suma marginal-

### Tablas de contingencia multi-índice
También podemos crear niveles jerárquicos del índice (filas)

In [None]:
#Tabla de contingencia multi-índice (supervivencia y sexo por clase)
P_titanic_2 = pd.crosstab(index=[titanic['Survived'],titanic['Sex']], columns=[titanic['Pclass']]) / N
round(P_titanic_2, 4)

In [None]:
P_titanic_2.info()

Cada índice es una tupla de 2 elementos:

In [None]:
P_titanic_2.index

Indexado de tablas multi-índice

In [None]:
#indexamos por el primer nivel del índice: seleccionamos filas para Survived='yes'
P_titanic_2.loc['yes']

In [None]:
#indexamos por el segundo nivel del índice: seleccionamos filas para nivel Sex='male'
P_titanic_2.xs('male', axis='index', level='Sex')

In [None]:
P_titanic_2.loc[[('no', 'male'), ('yes', 'female')]] #seleccionamos filas concretas multi-índice

### Ejercicio  
Calcula las probabilidades condicionales siguientes:  
 * $P(Survived=True|Género=male)$ 
 * $P(Survived=True|Clase=1)$  
 * $P(Survived=True|Género=male, Clase=1)$  
 

Solución de $P(Survived=True|Género=male)$  

In [None]:
# SOLUCIÓN


Solución de $P(Survived=True|Clase=1)$  

In [None]:
# SOLUCIÓN


Solución de $P(Survived=True|Género=male, Clase=1)$   
  
Aquí hay que aplicar la regla de la cadena:  
$$
P(S,G,C) = P(S|G,C) \times P(G,C)
$$  
por tanto:  
$$
P(S|G,C) = P(S,G,C) / P(G,C)
$$  

luego:  
$$
P(Survived=True|Género=male, Clase=1) =
$$
$$
= P(Survived=True, Género=male, Clase=1) / P(Género=male, Clase=1)
$$

In [None]:
# SOLUCIÓN


### Independencia de las variables
¿son independientes género y clase?  
Si lo son debe cumplirse la igualdad $P(G,C)=P(G)*P(C)$  
Lo comprobamos para género='male' y clase=1

In [None]:
#P(G,C)
P_h_c1 = sum(P_titanic[('male',1)]) #P(male, class1)
P_h_c1

In [None]:
#P(G)
P_h = P_titanic['male'].sum().sum() #P(male)
P_h

In [None]:
#P(C)
P_c1 = P_titanic.xs(1, axis=1, level='Pclass').sum().sum() #P(class1)
P_c1

In [None]:
#P(G)*P(C)
P_h * P_c1

La supervicencia por género y clase **No** son independientes.  
Otra manera de comprobarlo es mirar si $P(G|C) = P(G)$

In [None]:
#P(hombre|c1) = P(hombre, clase1) / P(clase1)
P_h_c_1 = P_h_c1 / P_c1
P_h_c_1

In [None]:
P_h

Es decir, la probabilidad de ser hombre está condicionada por la clase.  
Podemos comprobar para ambos sexos a la vez

In [None]:
p_sex_c = pd.crosstab(index=titanic['Sex'], columns=titanic['Pclass']) / N
p_sex_c

Calculamos la probabilidad de cada género condicionada a la clase:

In [None]:
#P(G|C) = P(G,C) / P(C)
p_sex_c / p_sex_c.sum()

In [None]:
#mientras que P(G) es
p_sex_c.sum(axis=1)

El hecho de ser hombre y viajar en clase 1 no son independientes (la prob. de ser hombre disminuye condicionada a que viajaba en clase 1). Generalizando, la prob. de pertenecer a un sexo depende de la clase en la que se viajaba

¿Es independiente probabilidad de supervivencia y clase?  
La probabilidad global de supervivencia, $P(S=1)$ es:  

In [None]:
P_S = P_titanic.loc['yes'].sum() #P(S)

P_S

Por otro lado la probabilidad de supervivencia condicionada a cada clase es:

In [None]:
#para todas las clases
# P(S|C) = P(S,C) / P(C)
P_titanic_surv_class = pd.crosstab(index=titanic["Survived"], columns=titanic["Pclass"])/N
P_titanic_surv_class.loc['yes'] / P_titanic_surv_class.sum()

Por tanto no es independiente la probabilidad de supervivencia y la clase. ¡sorpresa!  
¿Es independiente probabilidad de supervivencia y género?  

In [None]:
#P(S|G) = P(S,G) / P(G)
P_titanic_surv_sex = pd.crosstab(index=titanic["Survived"], columns=titanic["Sex"])/N
P_titanic_surv_sex.loc['yes'] / P_titanic_surv_sex.sum()

No es independiente porque la probabilidad de supervivencia cambia cuando se condiciona al género.

## Teorema de Bayes
### Ejercicio práctico: sistema de diagnóstico de Meningitis  
* La meningitis (M) causa el síntoma de rigidez de cuello (S) en un 50% de los casos: $P(S|M)=0.5$    
* Se conoce también la probabilidad a priori de que un paciente tenga meningitis: $P(M)=1/50000$    
* Se conoce la probabilidad a priori de que un paciente tenga rigidez de cuello $P(S)=1/20$    

Por tanto podemos calcular $P(M|S)$ (probabilidad de que un paciente con rigidez de cuello sufra una meningitis)

In [None]:
pS_M = 0.5
pM = 1/50000
pS = 1/20

#teorema de Bayes: P(M|S) = P(S|M)*P(M)/P(S)
pM_S = (pS_M*pM) / pS
pM_S

In [None]:
#probabilidad a priori de tener meningitis
pM

In [None]:
#probabilidad a posteriori de tener meningitis, dado que se tiene rigidez de cuello
pM_S

La probabilidad de tener meningitis si se tiene rigidez de cuello aumenta en un factor:


In [None]:
pM_S / pM

Ahora evaluamos cómo varía $P(M|S)$ cuando varía $P(S)$ (probabilidad a priori de tener rigidez de cuello)

In [None]:
pSarray = np.arange(start=1/20, stop=1, step=1/20)
pSarray

In [None]:
pM_Sarray = [pS_M*pM/pS*100 for pS in pSarray] #probabilidad a posteriori de tener meningitis dado rigidez de cuello
plt.plot(pSarray * 100, pM_Sarray)
plt.xlabel('P(rigidez de cuello) %')
plt.ylabel('P(meningitis|rigidez de cuello) %')
plt.title('Probabilidad de tener meningitis dado rigidez de cuello')
plt.grid()
plt.show()

Cuando más probable es el síntoma de la rigidez de cuello, menos informativo es para nuestros propósitos (menos probable de que se deba a una meningitis)

### Ejercicio práctico: PCR para detectar COVID-19  
* Un test PCR tiene una sensibilidad del 93% y una especificidad del 99%    
* La prevalencia estimada de COVID-19 es del 10% de la población en general

Si una PCR tiene un resultado positivo, ¿cuál es la probabilidad *real* de tener COVID-19? ¿y si el paciente se hace una segunda PCR y también es positiva?  
Ayuda:  
*sensibilidad = P(PCR|C)* [test positivo cuando se tiene COVID],  
*especificidad = P(noPCR|noC)* [test negativo cuando no se tiene COVID]

In [None]:
# Solución


In [None]:
#segunda PCR positiva



## Variables aleatorias
Una variable aleatoria es una función que asigna un valor numérico a cada posible resultado de un experimento aleatorio (con una determinada distribución de probabilidad). Las variables aleatorias pueden ser `discretas` o `continuas`.  
### Variables discretas
Suponemos que tenemos un espacio muestral con los números enteros del 1 al 6 (por ejemplo al lanzar un dado de 6 caras).  

In [None]:
x=np.arange(6)+1
x

Selección de muestras al azar (de manera aleatoria uniforme)

In [None]:
np.random.seed(12345) #fijamos una semilla aleatoria

In [None]:
#Permutación de la población
np.random.shuffle(x) #Ojo, no devuelve un array sino que modifica el original
x

In [None]:
#otra manera
np.random.permutation(x) #devuelve un array con las permutaciones

In [None]:
x #no modifica el array original

In [None]:
#última manera
np.random.permutation(6)+1 #genera un array de [0...5] y lo permuta

Selección de muestras aleatorias:

In [None]:
#muestreo de la población sin reemplazo
np.random.choice(x, 3, replace=False)

In [None]:
#muestreo con reemplazo
np.random.choice(x, 10, replace=True)

In [None]:
#repetición del experimento 10 veces
a=[np.random.choice(x, 3, replace=False) for i in range(10)]
a

In [None]:
type(a)

In [None]:
#como array 2D de Numpy
a=np.array([np.random.choice(x, 3, replace=False) for i in range(10)])
a

In [None]:
type(a)

In [None]:
#¿qué dimensiones tiene este array?
a.shape

## Distribuciones de probabilidad

La distribución de probabilidad (PMF de sus siglas en inglés) de una variable discreta es una lista de las probabilidades asociadas a cada valor posible.  
La función de distribución acumulativa (CDF) indica la probabilidad de que una variable aleatoria X sea menor o igual que x.  
En Python, podemos generar muestras aleatorias -valores experimentales- para distintas funciones de distribución con el paquete `numpy.random.Generator` (https://numpy.org/doc/stable/reference/random/generator.html).  
Podemos calcular la PMF y la CDF de distintas distribuciones -valores teóricos- con el paquete `scipy.stats` (https://docs.scipy.org/doc/scipy/reference/stats.html)  

## Distribuciones discretas
### Distribución uniforme
Simulamos la generación de N valores aleatorios para una distribución continua uniforme de números enteros entre 0 y 9

In [None]:
N = 10_000
size = 10
s = np.random.choice(np.arange(size), N, replace=True)
s.shape

In [None]:
s[:10]

In [None]:
#frecuencia de cada número
counts = np.unique(s, return_counts=True)
counts

#### Distribución de probabilidad

In [None]:
fig, ax = plt.subplots()
ax = sns.barplot(x=counts[0], y=counts[1]/N, label='Simulación', color='b')
ax.set_xlabel("Valor",fontsize=12)
ax.set_ylabel("Probabilidad",fontsize=12)
x = range(size)
ax.plot(x, np.ones(size)/size, 'ro', label='PMF uniforme')
ax.vlines(x, 0, np.ones(size)/size, 'r', lw=5, alpha=0.5)
plt.legend()
plt.title("Distribución de probabilidad uniforme")
plt.show()

#### Función de probabilidad acumulada (CDF)

In [None]:
#frecuencia acumulada
counts[1].cumsum()

In [None]:
#normalizamos
cdf = counts[1].cumsum() / N
cdf

In [None]:
plt.subplots()
plt.plot(counts[0], counts[1].cumsum()/N, 'bo-' , label='Simulación')
plt.xlabel("Valor",fontsize=12)
plt.ylabel("CDF",fontsize=12)
plt.plot(x, (np.ones(size)/size).cumsum(), 'r*-', label='CDF uniforme')
plt.legend()
plt.title("CDF probabilidad uniforme")
plt.grid()
plt.show()

### Distribución binomial
P. ej. si la probabilidad de que suceda un evento (acierto) es p=0.3 y repetimos el evento 10 veces, ¿cuál es la probabilidad de que suceda el evento $x$ veces ( $PMF(x, n=10, p=0,3)$ )?  
Lo simulamos con `np.random.default_rng().binomial`.  
Podemos calcular el valor teórico del la PMF con el método `pmf` de la clase `scipy.stats.binom`.

Hay que instalar `scipy` con
```!pip install scipy```

In [None]:
from scipy.stats import binom
size = 10_000 #nº de veces que repetimos la simulación
n = 10
p = 0.3
s = np.random.default_rng().binomial(n, p, size)

In [None]:
s.shape

In [None]:
s[:10]

In [None]:
np.unique(s, return_counts=True)

P. ej. valor teórico de la PMF de una distribución binomial (n=10, p=0.3) para el evento 0 (probabilidad de que ocurran 0 eventos para 10 ejecuciones):

In [None]:
binom.pmf(0, n, p)

Convirtiendo probabilidad en nº de ocurrencias para las N realizaciones del experimento

In [None]:
binom.pmf(0, n, p) * size

In [None]:
fig, ax = plt.subplots()
ax = sns.countplot(x=s, label='Simulación', color='b')
ax.set_xlabel("Número de aciertos",fontsize=12)
ax.set_ylabel("Frecuencia",fontsize=12)
x = range(n+1)
ax.plot(x, binom.pmf(x, n, p)*size, 'ro', label='PMF binomial')
ax.vlines(x, 0, binom.pmf(x, n, p)*size, colors='r', lw=5, alpha=0.5)
plt.legend()
plt.title("Distribución de probabilidad binomial (p=0.3, n=10)")
plt.show()

Calculamos el CDF (simulado y teórico) de la distribución binomial

In [None]:
#CDF simulado
#normalizamos frecuencias a probabilidad
prob=pd.Series(s).value_counts().sort_index()/size
prob

In [None]:
#prob. acumulada
prob.cumsum()

In [None]:
#CDF teórica
binom.cdf(range(n+1), n, p)

In [None]:
fig, ax = plt.subplots()
ax = prob.cumsum().plot(label='Simulación', style='bo-')
ax.set_xlabel("Número de aciertos",fontsize=12)
ax.set_ylabel("CDF",fontsize=12)
x = range(n+1)
ax.plot(x, binom.cdf(x, n, p), 'r*-', label='CDF binomial')
plt.legend()
plt.title("CDF probabilidad binomial (p=0.3, n=10)")
plt.grid()
plt.show()

In [None]:
#Probabilidad de tener entre 4 y 7 aciertos
binom.cdf(7, n, p)-binom.cdf(3, n, p)

Comparamos con el valor simulado

In [None]:
np.sum((s>3) & (s<=7))/size

In [None]:
#Probabilidad acertar 3 o menos veces
binom.cdf(3, n, p)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salga exactamente 50 caras?
binom.pmf(50, 100, 0.5)

In [None]:
#al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salga 50 caras o menos?
binom.cdf(50, 100, 0.5)

### Ejercicio
Al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salgan más de 50 caras?

In [None]:
#Solución
1 - binom.cdf(50, 100, 0.5)

Al lanzar una moneda 100 veces, ¿cuál es la probabilidad de que salgan entre 45 y 55 caras?

In [None]:
#Solución
binom.cdf(55,100,0.5) - binom.cdf(44,100,0.5)

#### Valor esperado
El valor esperado de una variable aleatoria es el valor medio que toma la variable para un gran número de ejecuciones. Se define como:  
\begin{align}
E[X]=\sum{xp(x)} 
\end{align}
Calculamos el valor esperado en una variable con distribución binomial:

In [None]:
fig, ax = plt.subplots()
ax.vlines(prob.index, 0, prob, colors='r', lw=5, alpha=0.5)
ax.set_xlabel("Número de aciertos",fontsize=12)
ax.set_ylabel("Probabilidad",fontsize=12)
plt.title("PMF simulada binomial (p=0.3, n=10)")
plt.grid(True)
plt.show()

In [None]:
#valor esperado a partir de la simulación
E=sum(prob.index*prob)
E

In [None]:
#valor esperado (teórico)
x=range(n+1)
E=sum(x*binom.pmf(x, n, p))
E

In [None]:
s.mean() #el valor esperado coincide con la media muestral

#### Ejemplo
Si realizamos un cuestionario con n=10 preguntas con 4 opciones cada respuesta, y la persona que realiza la prueba responde al azar, ¿Cuál es la nota esperada? ¿cuál es la probabilidad de aprobar? ¿Y si penalizamos con 0.25 puntos la respuesta equivocada?

In [None]:
#Solución: sin penalización
n = 10
p = 1/4
#la probabilidad de acertar x preguntas sigue una distribución binomial
x = range(n+1)
p_x = binom.pmf(x, n, p)

In [None]:
plt.plot(x, p_x, 'ro', )
plt.vlines(x, 0, p_x, colors='r', lw=5, alpha=0.5)
plt.xlabel("Número de aciertos",fontsize=12)
plt.ylabel("Probabilidad",fontsize=12)
plt.title("PMF teórica")
plt.grid()
plt.show()

In [None]:
#la nota esperada es la suma de cada x por su probabilidad
nota_esperada = np.sum(x*p_x)
nota_esperada

In [None]:
#Simular 1000 exámenes y obtener la nota media de todos los exámenes

size = 1000
n = 10
p = 1/4
s = np.random.default_rng().binomial(n, p, size)
s.mean()

In [None]:
#¿cuál es la probabilidad de sacar al menos un 3?
1-binom.cdf(2, n, p) #Hay que acertar más de 2 preguntas

In [None]:
#¿cuál es la prob de aprobar?
#hay que acertar más de 4 preguntas
1-binom.cdf(4, n, p) 

Aplicando penalización a las respuestas incorrectas

In [None]:
#Representamos Nota final con penalización según nº de aciertos
plt.plot(x-np.array(range(n, -1, -1))*1/4, 'bo') #nota en función de aciertos menos penalización por los fallos
plt.axhline(y=5, color='red') #en rojo el mínimo para aprobar
plt.xlabel('Nº de aciertos')
plt.ylabel('Nota')
plt.title('Nota final con penalización')
plt.grid()
plt.show()

In [None]:
#a la nota esperada al acertar hay que restar la nota esperada de los fallos
nota_esperada = np.sum(x*p_x) - np.sum(np.array(range(n, -1, -1))*p_x*1/4)
nota_esperada

Hace falta acertar al menos 6 preguntas para aprobar:

In [None]:
#nota obtenida según nº de aciertos
pd.Series(x-np.array(range(n, -1, -1))*1/4)

Con penalización, ¿cuál es la prob. de sacar más de 3?

In [None]:
#hace falta al menos acertar 5 preguntas (nota: 3,75)
1-binom.cdf(4, n, p)

Probabilidad de aprobar con penalización. Hay que acertar al menos 6 preguntas

In [None]:
1-binom.cdf(5, n, p) #prob. acumulada de acercar 6 o más preguntas

### Distribución multinomial
Es una generalización de la distribución binomial, en la que cada experimento puede tomar un valor de entre  $p$  valores posibles.  
Ejemplo: si lanzamos un dado (equilibrado) 18 veces, ¿cuántas veces sale cada cara?

In [None]:
p = [1/6]*6 #probabilidad de cada cara
p

In [None]:
#valor esperado en el lanzamiento de un dado

E = sum((np.arange(6)+1)*p)
E

In [None]:
 #valor obtenido en simulación (1000 lanzamientos)
np.random.choice(np.arange(6)+1, 1000, replace=True).mean()

In [None]:
#nº de veces que sale cada cara al lanzar 18 veces el dado
#en una única jugada aleatoria (size=1)
n = 18
s = np.random.default_rng().multinomial(n, p, size=1)
s #cada posición corresponde a una cara del dado

In [None]:
np.sum(s)

Si repetimos el experimento muchas veces, dado que la probabilidad es igual para todo los lados, la tendencia es a tener una distribución uniforme de valores

In [None]:
s = np.random.default_rng().multinomial(n, p, size=1000)

In [None]:
s.shape

In [None]:
np.mean(s, axis=0) #media de las veces que sale cada cara para 1000 experimentos

La esperanza teórica de cada cara para 18 tiradas es:

In [None]:
np.array(p) * n

In [None]:
# Probabilidad teórica de que salgan exactamente 3 veces cada cara en 18 tiradas es:
from scipy.stats import multinomial
multinomial.pmf([3,3,3,3,3,3], n, p)


In [None]:
# Probabilidad teórica de que salgan 4,2,3,3,3,3 veces cada cara en 18 tiradas es:
multinomial.pmf([4,2,3,3,3,3], n, p)

Comparamos con el número de veces que ocurre esto en nuestra simulación

In [None]:
counts = np.sum((s == [4,2,3,3,3,3]).all(axis=1))
counts/10000

In [None]:
# Simulación con más repeticiones
size = 100_000
s = np.random.default_rng().multinomial(n, p, size=size)
counts = np.sum((s == [4,2,3,3,3,3]).all(axis=1))
counts/size

In [None]:
s = np.random.default_rng().multinomial(n, p, size=1000)

plt.bar(x=np.arange(6)+1, height=np.mean(s, axis=0), label="simulación")
plt.axhline(y=n/6, color='red', label="Prob. teórica")
plt.xlabel('Valor del dado')
plt.ylabel('Nº de veces (media)')
plt.title('Media de las veces que sale cada cara')
plt.legend()

plt.show()

Suponemos un dado trucado en el que el 4 tiene el doble de probabilidad de salir que el resto de caras:

In [None]:
#Calculamos la probabilidad de cada evento (cada una de las caras)
prob = [1,1,1,2,1,1]
p=np.array(prob)/sum(prob) #normalizamos las probabilidades
p

In [None]:
#valor esperado teórico en el lanzamiento de un dado trucado (con esta probabilidad)

E = sum((np.arange(6)+1)*p)
E

In [None]:
#valor simulado tras 10_000 jugadas
tirada = np.sum(np.random.default_rng().multinomial(1, p, size=10_000)*(np.arange(6)+1), axis=1)
np.mean(tirada)

In [None]:
np.random.default_rng().multinomial(n, p, size=1) #una jugada

In [None]:
s = np.random.default_rng().multinomial(n, p, size=1000) #repetimos 1000 veces el experimento
s.mean(axis=0)

In [None]:
plt.bar(x=np.arange(6)+1, height=np.mean(s, axis=0), label="Dado trucado")
plt.axhline(y=20/6, color='red', label="Dado equilibrado (teórico)")
plt.xlabel('Valor del dado')
plt.ylabel('Nº de veces (media)')
plt.title('Media de las veces que sale cada cara')
plt.legend()
plt.show()

### Distribución de Poisson
Es una generalización de la distribución binomial para valores grandes de $N$ con una $p$ pequeña.  
#### Ejemplo:
Nº de coches que pasan por una carretera en 1 hora para una estimación de 100 coches/hora

In [None]:
from scipy.stats import poisson

lam = 100 #coches por hora
N=10_000
s = np.random.default_rng().poisson(lam, size=N) #simulamos 10000 repeticiones

In [None]:
s[:10]

In [None]:
s.shape

In [None]:
len(np.unique(s))

In [None]:
[s.min(), s.max()]

In [None]:
poisson.pmf(100, lam) #probabilidad de que pasen exactamente 100 coches/hora

Rango de coches entre el 1% y el 99% de las veces (percentiles 0.01 y 0.99)

In [None]:
percentiles = [poisson.ppf(0.01, lam), poisson.ppf(0.99, lam)] #percentiles de coches por hora
percentiles

In [None]:
count, bins, ignored = plt.hist(s, 20, density=True, label='Simulación')
x = np.arange(percentiles[0], percentiles[1])
plt.plot(x, poisson.pmf(x, lam), linewidth=2, color='r', label='PMF Poisson')
plt.xlabel("Nº coches/hora")
plt.ylabel("Probabilidad")
plt.title("Distribución de coches por hora")
plt.legend()
plt.show()

In [None]:

sum(np.isin(s, x))/N

In [None]:
#CDF
fig, ax = plt.subplots()
ax.plot(bins[1:], count.cumsum()/count.sum(), 'o-', label='Simulación')
ax.set_xlabel("Nº coches/hora",fontsize=12)
ax.set_ylabel("CDF",fontsize=12)
ax.plot(x, poisson.cdf(x, lam), linewidth=2, color='r', label='CDF Poisson')
plt.legend()
plt.title("CDF simulada y teórica")
plt.grid()
plt.show()

In [None]:
#Probabilidad de que pasen más de 120 coches en una hora
1 - poisson.cdf(120, lam)

In [None]:
#¿cuál es la posibilidad de que pasen entre 90 y 110 coches en una hora?

poisson.cdf(110, lam)-poisson.cdf(89, lam)

Comparamos con la simulación

In [None]:
np.sum((s>=90) & (s<=110))/N

#### Ejemplo 2
Imaginad que enviamos un paquete de bits de longitud $n = 10^4$ donde cada bit puede estar corrupto independientemente con una probabilidad $p=10^{-6}$.  
¿cuál es la probabilidad de que se reciba un mensaje sin corromper?  
Aquí el número de errores esperado por mensaje es $\lambda=10^4 \times 10^{-6}=0.01$ luego:  

In [None]:
lam = 0.01
poisson.pmf(0, lam) #probabilidad de 0 eventos de error

In [None]:
#probabilidad de algún error
1-poisson.pmf(0, lam)

In [None]:
#Probabilidad de tener N bits erróneos
x = np.arange(10)
plt.plot(x, poisson.pmf(x, lam), 'ro')
plt.vlines(x, 0, poisson.pmf(x, lam), colors='r', lw=5, alpha=0.5)
plt.xlabel("Nº bits erróneos")
plt.ylabel("Probabilidad")
plt.title("probabilidad de bits erróneos")
plt.grid()
plt.show()

### Ejemplo 3
Analizamos los homicidios cometidos en Inglaterra y Gales entre 2013 y 2016 (https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/compendium/focusonviolentcrimeandsexualoffences/yearendingmarch2016/homicide#statistical-interpretation-of-trends-in-homicides).  
Vemos cómo el nº de homicidios por día sigue una estadística de Poisson (tomando como $\lambda$ la media de homicidios/día en ese período).

In [None]:
homicidios = pd.read_csv("homicidios.csv")
homicidios

Calculamos la media de homicidios/día y sacamos la distribución de Poisson para comparar

In [None]:
total = np.sum(homicidios['Homicides']*homicidios['Occurences'])
media = total / 365 / 3 #período de 3 años
print(f'Ha habido un total de {total} homicidios, con una media de {media:.3f} homicidios/día')

In [None]:
homicidios["estimados"] = poisson.pmf(homicidios['Homicides'], media) * (365*3)
homicidios

In [None]:
fig, ax = plt.subplots()
plt.bar(x=homicidios.Homicides, height=homicidios.Occurences, color='b', label="Observado")
ax.vlines(homicidios.Homicides, 0, homicidios.estimados, colors='r', lw=5, alpha=0.5, label="Estimado")
plt.plot(homicidios.Homicides, homicidios.estimados, 'ro')
ax.set_xlabel("Número de homicidios/día",fontsize=12)
ax.set_ylabel("Ocurrencia",fontsize=12)
plt.legend()
plt.title("Distribución de homicidios observados y estimados")
plt.show()

¿Cuál es la probabilidad teórica de que un día cualquiera se produzcan 3 homicidios?

In [None]:
#Solución
poisson.pmf(3, media)

In [None]:
#Valor medido
homicidios.loc[3, "Occurences"] / 365 / 3

¿Cuántos días al año no se producirá ningún homicidio -teóricamente-?

In [None]:
#Solución
poisson.pmf(0, media) * 365

In [None]:
#Valor medido
homicidios.loc[0, "Occurences"] / 3

## Distribuciones continuas
### Distribución uniforme
Lo podemos simular con `np.random.Generator.uniform`


In [None]:
size = 1000
s = np.random.default_rng().uniform(size=size) #por defecto genera el rango [0,1)

In [None]:
s[:10]

In [None]:
count, bins, ignored = plt.hist(s, 10, density=True, label='Simulación')
plt.axhline(y=1, linewidth=2, color='r', label='PDF uniforme')
plt.legend()
plt.xlabel('x')
plt.ylabel('Probabilidad')
plt.title('Distribución uniforme')
plt.show()

In [None]:
#CDF
plt.plot(bins[1:], count.cumsum()/np.sum(count), 'o-')
plt.plot([0,1], [0,1], 'r')
plt.xlabel('x')
plt.ylabel('P(x)')
plt.legend(['Simulación', 'CDF uniforme'])
plt.title('CDF uniforme')
plt.grid()
plt.show()

### Distribución normal
La podemos simular con `np.random.Generator.normal` y calcular con `scipy.stats.norm`.


In [None]:
mu, sigma = 0, 0.1 # media y desviación estándar
size=10_000
s = np.random.default_rng().normal(mu, sigma, size)

In [None]:
s[:10]

In [None]:
from scipy.stats import norm
count, bins, ignored = plt.hist(s, 20, density=True, label='Simulación')
x = np.linspace(mu-3*sigma, mu+3*sigma)
plt.plot(x, norm.pdf(x, mu, sigma), linewidth=2, color='r', label='PDF normal')
plt.xlabel("x")
plt.ylabel("PDF")
plt.legend()
plt.title("Distribución normal")
plt.grid()
plt.show()

La PMF está normalizada para que su CDF sea 1 (área bajo la curva)

In [None]:
#CDF
plt.plot(bins[1:], count.cumsum()/np.sum(count), 'o-', label='CDF simulación')
plt.plot(bins, norm.cdf(bins, mu, sigma), linewidth=2, color='r', label='CDF normal')
plt.xlabel("x")
plt.ylabel("CDF")
plt.legend()
plt.grid()
plt.title("CDF normal")
plt.show()

El CDF nos permite conocer la probabilidad de obtener un valor dentro de un rango:

In [None]:
#Probabilidad de salida menor o igual a 0
norm.cdf(0, mu, sigma)

In [None]:
#Probabilidad entre -sigma y 0
norm.cdf(0, mu, sigma)-norm.cdf(-sigma, mu, sigma)

In [None]:
#Prob. de obtener un valor alrededor de una desv. estándar de la media
norm.cdf(sigma, mu, sigma)-norm.cdf(-sigma, mu, sigma)

In [None]:
#probabilidad del valor en el rango de ± 3 sigmas
norm.cdf(3*sigma, mu, sigma)-norm.cdf(-3*sigma, mu, sigma)

### Teorema Central del Límite
La distribución de las medias de cualquier distribución se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra.  
Cogemos 10 valores muestreados de una distribución uniforme entre [0, 1) y calculamos su media para *n* realizaciones distintas, variando el valor de *n*.

In [None]:
from scipy.stats import norm

# Parámetros de la simulación
n_muestras = 10   # Número de medias muestrales a calcular
n_experimentos = [5, 10, 50, 100, 500, 1000]  # Tamaños de muestra a analizar en cada experimento

# Generamos la figura
plt.figure(figsize=(12, 8))

for i, n in enumerate(n_experimentos):
    # Simulamos n repeticiones de tamaño n_muestras
    s = np.array([np.random.default_rng().uniform(size=n_muestras) for _ in range(n)])
    # Calculamos la media de la muestra
    medias_muestrales = s.mean(axis=1)
    
    # Graficamos el histograma de las medias muestrales
    plt.subplot(2, len(n_experimentos)//2 + 1, i+1)
    plt.hist(medias_muestrales, bins=25, density=True, alpha=0.7, color='blue')
    
    # Ajustamos una distribución normal teórica con la misma media y varianza
    mu_teorico = 0.5  # Media teórica de la distribución uniforme
    sigma_teorico = np.sqrt(1/12) / np.sqrt(n_muestras)  # Desviación estándar teórica del TCL
    x = np.linspace(min(medias_muestrales), max(medias_muestrales), 1000)
    plt.plot(x, norm.pdf(x, mu_teorico, sigma_teorico), 'r-')
    
    plt.title(f'n={n}')
    plt.xlabel('Media muestral')
    plt.ylabel('Densidad')

plt.tight_layout()
plt.show()


## Método de Monte Carlo
Permite simular un evento probabilístico sin necesidad de realizar el desarrollo matemático.  
### Ejemplo
Vamos a calcular la probabilidad de que la suma de lanzar 3 dados sea 10

In [None]:
#simulamos el lanzamiento de 3 dados
s = np.random.choice(np.arange(6)+1, 3, replace=True)
s, sum(s)


In [None]:
#repetimos el lanzamiento n veces
n = 10_000
sumas = [sum(np.random.choice(np.arange(6)+1, 3, replace=True)) for i in range(n)]


In [None]:
sumas[:10]

In [None]:
#representamos resultados
counts = pd.Series(sumas).value_counts().sort_index() / n

plt.plot(counts.index, counts, 'ro', )
plt.vlines(counts.index, 0, counts, colors='r', lw=5, alpha=0.5)
plt.xlabel("Valor de la suma",fontsize=13)
plt.ylabel("Probabilidad",fontsize=13)
plt.grid()
plt.title("Distribución de la suma de 3 dados")
plt.show()

In [None]:
counts * 100 #en porcentaje

Analíticamente: estudiamos todas las posibilidades de sumar 10, considerando todas las posibles combinaciones de 3 dados

In [None]:
from itertools import product

combinaciones = [sum(x)==10 for x in product(np.arange(6)+1, repeat = 3)]
posibilidades = np.sum(combinaciones)
total = len(combinaciones)

posibilidades / total

In [None]:
# Valos simulado
counts.loc[10]

El valor estimado de la suma es:

In [None]:
E = sum(1/6*(np.arange(6)+1)) #valor estimado para 1 dado
E * 3 #valor estimado de la suma para 3 dados

In [None]:
#que coincide con el valor observado
np.mean(sumas)

### Estimación del valor de Pi
Suponemos que tenemos un círculo de radio $r=1$ dentro de un cuadrado del mismo tamaño. Sabiendo que el área de un círculo tiene el valor $A=\pi \times r^2$,  lanzamos aleatoriamente dardos en toda la superficie del cuadrado, la proporción $p$ de dardos que quedan dentro del cículo deben de ser:
$p=\frac{\pi \times r^2}{(2r)^2}=\frac{\pi}{4}$   
Luego:
$\pi=p \times 4$  

In [None]:
import random as r
import math as m

# Número de dardos que caen dentro del círculo.
inside = 0
# Número total de dardos lanzados.
total = 10_000_000

# Iteramos para el total de dardos.
for i in range(0, total):
  # Generamos posición del dardo (x, y) en el rango [0, 1] con una distr. uniforme
  
    x = r.random()
    y = r.random()
  # Incrementamos el contador si el dardo cae dentro.
    if m.sqrt(x**2 + y**2) <= 1.0:
        inside += 1

# dentro / total = pi / 4
pi = (float(inside) / total) * 4
pi


In [None]:
#Versión vectorizada con numPy

total=10_000_000
x = np.random.default_rng().uniform(size=total)
y = np.random.default_rng().uniform(size=total)
inside = np.sum(np.sqrt(x**2 + y**2) <= 1.0)
pi = (float(inside) / total) * 4
pi

### Ejercicio
Analiza cómo mejora la precisión de la estimación de $\pi$ al aumentar el nº de dardos en la simulación.  
Para eso hay que crear una función que calcule la estimación de $\pi$ en función del nº de dardos (N) y hacer un barrido de N

In [None]:
#Mejora de la precisión de la simulación con el número de dardos
def calcula_pi(n):
    #completar


    return pi

In [None]:
calcula_pi(100_000)

In [None]:
N = np.logspace(2, 6, 1000) #escala logarítmica de 100 a 1_000_000 de simulaciones (1000 pasos)

In [None]:
pi_estimado = [calcula_pi(int(i)) for i in N]

plt.semilogx(N, pi_estimado)
plt.xlabel('Nº de dardos')
plt.ylabel('$\pi$')
plt.title('Valor estimado de $\pi$')
plt.axhline(y=np.pi, color='r', linewidth=2)
plt.grid()
plt.show()

In [None]:
pi_estimado[-1] #valor estimado en la última iteración (N máxima)

In [None]:
#Representación del error absoluto
plt.semilogx(N, (np.abs(np.array(pi_estimado)-np.pi)))
plt.xlabel('Nº de dardos')
plt.ylabel('Error')
plt.title('Error en la estimación de $\pi$')
plt.grid()
plt.show()

In [None]:
#error en la última iteración
np.abs(np.array(pi_estimado[-1])-np.pi)

### Problema de Monty Hall
Vamos a calcular las probabilidades de ganar en el juego de Monty Hall según se cambie o no la puerta mediante simulación.

In [None]:
def juego(cambio):
    """Calcula la probabilidad de ganar en el juego de Monty Hall
    en función de si cambiamos (cambio=1) o no la puerta"""
    P = np.arange(3) #puertas posibles
    E = np.random.choice(3, 1) #puerta elegida
    C = np.random.choice(3, 1) #puerta con el coche, sucesos independientes
    Monty = np.random.choice(np.setdiff1d(P, np.union1d(E, C)), 1) #selección de Monty
    E = E if cambio==0 else np.setdiff1d(P, np.union1d(E, Monty)) #elección final
    
    return(E==C)

Simulamos el juego 1000 veces

In [None]:
#Cuando el concursante NO cambia la puerta

N = 10_000
ganados = [juego(0) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)*100/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% intentos ganados')
plt.title('% de intentos ganados cuando NO se cambia')
plt.grid()
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

In [None]:
#Cuando el concursante SÍ cambia la puerta

N = 10000
ganados = [juego(1) for i in range(N)]
p_ganar = np.sum(ganados) / N

plt.plot(np.cumsum(ganados)*100/(np.arange(N)+1))
plt.xlabel('Nº de intentos')
plt.ylabel('% inttentos ganados')
plt.title('porc. de intentos ganados cuando SI se cambia')
plt.grid()
plt.show()
print(f'Gana un {p_ganar*100:.2f}% de las veces')

Explicación del código de la función

In [None]:
P = np.arange(3) #puertas posibles
P

In [None]:
E = np.random.choice(3, 1) #puerta elegida
E

In [None]:
C = np.random.choice(3, 1) #puerta con el coche, sucesos independientes
C

In [None]:
np.union1d(E, C) #puertas que no puede elegir Monty

In [None]:
np.setdiff1d(P, np.union1d(E, C)) #puertas que puede elegir Monty

In [None]:
Monty=np.random.choice(np.setdiff1d(P, np.union1d(E, C))) #puerta seleccionada por Monty
Monty

In [None]:
np.union1d(E, Monty) #puertas descartadas si el concursante cambia la puerta

In [None]:
E == C #resultado final si el concursante NO cambia la puerta

In [None]:
E = np.setdiff1d(P,np.union1d(E, Monty)) #selección final si el concursante SÍ cambia la puerta
E

In [None]:
E == C #resultado final si el jugador SÍ cambia la puerta