<a href="https://colab.research.google.com/github/jeguns/EP7192/blob/main/Capitulo_4/Unidad_4_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lectura de datos



Se empleará el archivo **datos_u4.xlsx**, el cual recopila datos de pacientes en torno a las siguientes variables:

• Seguro: 1 si el paciente utilizó seguro privado, 0 en caso contrario

• Cita: Número de intentos fallidos del paciente antes de lograr conseguir una cita.

• Emergencia: Número de veces que el paciente acudió a emergencia en el último año.

• Mejoria: Número de sesiones de psicología sin mejoría antes de que el paciente registre
2 mejoras significativas

• Presion: Presión sistólica del paciente (en mmHg)

• Espera: Tiempo de espera del paciente (en horas).

In [32]:
import pandas as pd
datos = pd.read_excel('datos_u4.xlsx')
datos.head()

Unnamed: 0,Seguro,Cita,Emergencias,Mejoria,Presion,Espera
0,0,0,2,3,125,0.5
1,1,0,1,6,119,0.2
2,1,0,1,3,109,0.3
3,1,1,1,3,120,0.0
4,0,0,0,3,150,0.7


# Distribución Binomial

Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $Bin(n,\pi)$, entonces para $n$ conocido (fijado por el investigador), se sabe que $\hat{\pi} = \overline{x}$ es el estimador de máxima verosimilitud y momentos.

Para el caso, se define $X$ como el número de pacientes con seguro privado. Como cada fila corresponde a un paciente, entonces $X\sim Bin(n=1,\pi)$. Luego, se tiene que $\hat{\pi}=0.575$ es la probabilidad estimada



In [33]:
pX_est = datos["Seguro"].mean()
print(pX_est)

0.575


A partir de este valor estimado, se busca encontrar, ¿cuál es la probabilidad de que en un grupo de 10 pacientes, 4 de éstos tengan seguro privado?

$$P(X=4) = 0.1353$$


In [34]:
from scipy.stats import binom
print(binom.pmf(k=4, n=10, p=pX_est))

0.13527709043227104


A continuación, se presenta una muestra aleatoria de 10 pacientes, de los cuales se observa que 6 de ellos sí cuentan con seguro privado.


In [35]:
import numpy as np
np.random.seed(2239)
print(np.random.binomial(n=1, p=pX_est, size=10))

[1 1 1 0 0 0 1 1 0 1]


# Distribución Poisson

Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $Pois(\lambda)$, entonces se sabe que $\hat{\lambda} = \overline{x}$ es el estimador de máxima verosimilitud y momentos.  Para el caso, se define $Z$ como el número de veces que el paciente acudió a emergencia en el último año, cuya distribución se asumirá $Pois(\lambda)$. Luego, se tiene que $\hat{\lambda}=1.325$ es la media estimada



In [36]:
lambdaZ_est = datos["Emergencias"].mean()
print(lambdaZ_est)

1.325


A partir de este valor estimado, se busca encontrar, ¿cuál es la probabilidad de que un paciente acuda a emergencias 1 vez en un periodo de 6 meses?

$Z$: número de veces que el paciente acudió a emergencia en 6 meses

$$P(Z=1)=0.3416$$

In [37]:
from scipy.stats import poisson
print(poisson.pmf(k=1, mu=lambdaZ_est / 2))

0.3415590432306312


A continuación, se presenta la simulación de una muestra aleatoria que representa la cantidad de veces que 10 pacientes acudieron al servicio de emergencias en los últimos 8 meses. 4 de ellos no asistieron en ese periodo, y los demás entre 1 y 2 veces.


In [38]:
np.random.seed(2025)
print(np.random.poisson(lam=lambdaZ_est / 12 * 8, size=10))

[0 2 0 0 1 2 1 1 0 2]


# Distribución Geométrica

Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $Geom(\pi)$, entonces se sabe que $\hat{\pi} =\frac{1}{\overline{x}+1}$ es el estimador de máxima verosimilitud y momentos.

Para el caso, se define $Y$ como el número de intentos fallidos del paciente antes de lograr conseguir una cita, cuya distribución se asumirá $Geom(\pi)$. Luego, se tiene que $\hat{\pi}=0.7339$ es la media estimada

In [39]:
xbarra = datos["Cita"].mean()
pY_est = 1 / (xbarra + 1)
print(pY_est)

0.7339449541284403


A partir de este valor estimado, se busca encontrar, ¿cuál es la probabilidad de que un paciente encuentre cita en su tercer intento?

$$P(Y=2)=0.0520$$

In [40]:
from scipy.stats import geom
print(geom.pmf(k=3, p=pY_est)) # Python no modela la cantidad de fracasos, sino la cantidad de intentos por eso k=3

0.05195250453850843


Asimismo, se generó una muestra aleatoria sintética de 10 pacientes que solicitaron una cita, registrando la cantidad de veces que llamaron sin éxito antes de lograr agendarla. Solo 2 de ellos tuvieron que llamar dos veces sin éxito y recién en el tercer intento agendó una cita. La mayoría sí consiguió agendar una cita al primer intento (0 fallas).


In [41]:
from scipy.stats import geom

np.random.seed(555)
print(geom.rvs(p=pY_est, size=10) - 1 ) # numpy no incluye directamente la distribución geométrica en np.random

[0 0 2 0 0 0 2 0 0 0]


# Distribución Binomial Negativa

Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $BinNeg(r,\pi)$, entonces se sabe que $\hat{\pi} =\frac{r}{\overline{x}+r}$ es el estimador de momentos.

Para el caso, se define $W$ como el número de sesiones de psicología sin mejoría antes de que el paciente registre 2 mejoras significativas, cuya distribución se asumirá $BinNeg(2,\pi)$. Luego, se tiene que $\hat{\pi}=0.3893$ es la proporción de éxito estimada.

In [42]:
xbarra = datos["Mejoria"].mean()
pW_est = 2 / (xbarra + 2)
print(pW_est)

0.389294403892944



Con base en este valor estimado, se desea calcular la probabilidad de que un paciente experimente 3 sesiones sin mejoría antes de alcanzar 2 mejoras significativas.

$$P(W=3)=0.1381$$

In [43]:
from scipy.stats import nbinom
print(nbinom.pmf(k=3, n=2, p=pW_est)) # a diferencia de la geométrica, para la BN, R y Python entienden del mismo modo los argumentos / parámetros

0.13807403343649244


Asimismo, se generó una muestra aleatoria sintética de 10 pacientes, para los cuales se registra la cantidad de sesiones psicológicas sin mejora antes de alcanzar 2 sesiones satisfactorias. Los dos primeros pacientes alcanzaron la mejoría en las 2 primeras sesiones (ya que su cantidad de fracasos es 0).


In [44]:
from scipy.stats import nbinom
np.random.seed(222555)
print(nbinom.rvs(n=2, p=pW_est, size=10))

[0 0 3 1 0 0 2 2 1 3]


# Distribución Exponencial


Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $Exp(\lambda)$, entonces se sabe que $\hat{\lambda} = \frac{1}{\overline{x}}$ es el estimador de máxima verosimilitud y momentos.

Para el caso, se define $E$ como el tiempo de espera del paciente (en horas), cuya distribución se asumirá $Exp(\lambda)$. Luego, se tiene que $\hat{\lambda}=2.0833$.


In [45]:
lambdaE_est = 1 / datos["Espera"].mean()
print(lambdaE_est)

2.083333333333333



Con base en este valor estimado, se desea calcular la probabilidad de que un paciente espere entre 25 y 40 minutos para ser atendido.

$$P\left(\frac{25}{60}<E<\frac{40}{60}\right)=0.1704$$

In [46]:
from scipy.stats import expon
print(expon.cdf(x=40/60, scale=1/lambdaE_est) - expon.cdf(x=25/60, scale=1/lambdaE_est))
# el argumento es 1/lambda, a diferencia de R que se coloca directamente lambda

0.17041476099580788


Asimismo, se generó una muestra aleatoria sintética de 10 tiempos de espera, los cuales fluctuaron entre aproximadamente 1 minuto (0.0109 horas) y 42 minutos (0.70390774 horas).


In [47]:
from scipy.stats import expon
np.random.seed(111)
print(expon.rvs(scale=1/lambdaE_est, size=10))

[0.45465054 0.08890053 0.27494673 0.70390774 0.16800912 0.07753664
 0.01091271 0.26165487 0.13089807 0.19774584]


In [48]:
np.random.seed(111)
print(expon.rvs(scale=1/lambdaE_est, size=10)*60)

[27.27903262  5.33403152 16.4968035  42.23446442 10.08054741  4.65219814
  0.65476261 15.69929201  7.85388449 11.8647507 ]


# Distribución Normal


Si asumimos que los valores $X_1$,...,$X_n$ siguen una distribución $N(\mu,\sigma^2)$, entonces se sabe que $\hat{\mu} = \overline{x}$ y $\hat{\sigma^2}=s^2$ son los estimadores de máxima verosimilitud y momentos.

Para el caso, se define $S$ como la presión sistólica del paciente, cuya distribución se asumirá $N(\mu,\sigma^2)$. Luego, se tiene que $\hat{\mu}=121.08$ y $\hat{\sigma}^2=200.43$

In [50]:
muS_est = datos["Presion"].mean()
print(muS_est)

121.075


In [51]:
s2S_est = datos["Presion"].var(ddof=1)
print(s2S_est)

200.42468354430375


Con base en este valor estimado, se desea calcular la probabilidad de que la presión sistólica de un paciente sea menor a 130 si se sabe que es mayor de 120 mmHg.

$$P(S<130|S>120)=\frac{P(120<S<130)}{P(S>120)}=\frac{0.2660553}{0.530264}=0.5017$$

In [52]:
from scipy.stats import norm

num = norm.cdf(x=130, loc=muS_est, scale=np.sqrt(s2S_est)) - \
      norm.cdf(x=120, loc=muS_est, scale=np.sqrt(s2S_est))

den = 1 - norm.cdf(x=120, loc=muS_est, scale=np.sqrt(s2S_est))

print(num / den)

0.5017412418376257


Asimismo, se generó una muestra aleatoria sintética de 10 presiones sistólicas, los cuales fluctuaron entre 100.35 mmHg y 136.39 mmHg.


In [53]:
np.random.seed(22)
print(np.random.normal(loc=muS_est, scale=np.sqrt(s2S_est), size=10))

[119.77325188 100.35813629 136.39007895 117.68683949 114.12201484
 106.88569233 134.08288694 105.45072309 129.94435713 113.1255694 ]


## Distribución muestral de la media


### Ejemplo 1


Si se extrae una muestra aleatoria de 23 pacientes, ¿cuál es la probabilidad de que la presión sistólica media se encuentre entre 122 y 125 mmHg?

$$\overline{S}\sim N\left(\mu_{\overline{S}}=121.08,\sigma^2_{\overline{S}}=\frac{200.43}{23}\right)$$

$$\overline{S}\sim N\left(\mu_{\overline{S}}=121.08,\sigma^2_{\overline{S}}=8.7143\right)$$

$$P(122<\overline{S}<125) = 0.2855$$


In [54]:
from scipy.stats import norm

p1 = norm.cdf(x=125, loc=121.08, scale=np.sqrt(s2S_est / 23))
p2 = norm.cdf(x=122, loc=121.08, scale=np.sqrt(s2S_est / 23))
print(p1 - p2)

0.28554978714138624


### Ejemplo 2


¿Cuál es la probabilidad de que, en una muestra de 39 pacientes, la media muestral del número de visitas a emergencias en el último año supere el valor de 1?

$$\overline{Z}\sim N\left(\mu_{\overline{Z}}=1.325,\sigma^2_{\overline{Z}}=\frac{1.325}{39}\right)$$
$$\overline{Z}\sim N\left(\mu_{\overline{Z}}=1.325,\sigma^2_{\overline{Z}}=0.03397\right)$$
$$P(\overline{Z}>1)=0.9611$$

In [55]:
print(1 - norm.cdf(x=1, loc=lambdaZ_est, scale=np.sqrt(lambdaZ_est / 39)))

0.9610687222896254


Es altamente probable que, en promedio, los pacientes acudan más de una vez al año al servicio de emergencias.
