| ![Julio Zainea](https://raw.githubusercontent.com/Izainea/Izainea.github.io/master/logo.png) | Curso de Introducción a la Analítica de Datos | Julio Zainea |
|:---:|:---:|:---:|

# Aplicaciones y ejercicios de distribucion binomial, poisson y normal

Antes de iniciar vamos a recordar algunos conseptos necesarios para el desarrollode este cuadernillo.





## Distribución Binomial

Si $X$ es variable aleatoria que mide el "número de éxitos" y se realizan $n$ ensayos de Bernoulli independientes entre sí, diremos que $X$ se distribuye como una Binomial con parámetros $n$ y $p$

$$X\sim \text{B}(n,p)$$

donde $p$ es la probabilidad de éxito y $q = 1-p$ es la probabilidad de fracaso

- El **dominio** de $X$ será $D_X = \{0,1,2,\dots,n\}$
- La **función de probabilidad** vendrá dada por $$f(k) = {n\choose k}p^k(1-p)^{n-k} $$

- **Esperanza** $E(X) = np$
- **Varianza** $Var(X) = np(1-p)$

- En `Python` tenemos las funciones del paquete `scipy.stats.binom`: `pmf(k,n,p), cdf(k,n,p), sdf(k,n,p)` donde `p` es la probabilidad de éxito y `n` el número de ensayos del experimento.

asumamos que tenenos un experimento binomial de 10 intentos con probabilidad de éxito 0.5.

- $P(X=5)$ se debe calcular con

```python
from scipy.stats import binom
binom.pmf(k=5,n=10,p=0.5)
```


In [6]:
from scipy.stats import binom
binom.pmf(k=5,n=10,p=0.5)

0.24609375000000003

- $P(X\leq 6)$ se debe calcular con

```python
from scipy.stats import binom
binom.cdf(k=6,n=10,p=0.5)
```


In [4]:
from scipy.stats import binom
binom.cdf(k=6,n=10,p=0.5)

0.623046875

- $P(X\geq 6)=1-P(X\leq 5)$ se debe calcular con

```python
from scipy.stats import binom
print(1-binom.cdf(k=5,n=10,p=0.5))
print(binom.sf(k=6,n=10,p=0.5))
```


In [9]:
#P(X>=6)
print(1-binom.cdf(k=5,n=10,p=0.5))
#1-P(X<=5)
print(binom.sf(k=5,n=10,p=0.5))

0.376953125
0.376953125


- $P(3\leq X\leq 6)=P(X\leq 6)-P(X \leq 2)$

In [10]:
binom.cdf(k=6,n=10,p=0.5)-binom.cdf(k=2,n=10,p=0.5)

0.7734375


## Distribución de Poisson

Si $X$ es variable aleatoria que mide el "número de eventos en un cierto intervalo de tiempo", diremos que $X$ se distribuye como una Poisson con parámetro $\lambda$

$$X\sim \text{Po}(\lambda)$$
donde $\lambda$ representa el número de veces que se espera que ocurra el evento durante un intervalo dado

- El **dominio** de $X$ será $D_X = \{0,1,2,\dots\}$

- La **función de probabilidad** vendrá dada por $$f(k) = \frac{e^{-\lambda}\lambda^k}{k!}$$

- **Esperanza** $E(X) = \lambda$
- **Varianza** $Var(X) = \lambda$

- En `Python` tenemos las funciones del paquete `scipy.stats.poisson`: `pmf(k,mu), cdf(k,mu), sf(q,mu)` donde `mu` es el número esperado de eventos por unidad de tiempo de la distribución.

el análisis de los cálculos de probabilidad es eqivalente a el de la distribución binomial.


## Distribución Normal

La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace.


**Johann Carl Friedrich** (Brunswick, 30 de abril de 1777-Gotinga, 23 de febrero de 1855) fue un matemático, astrónomo, geodesta, y físico alemán, afirmaba haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores.

El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos y algunos autores le atribuyen un descubrimiento independiente del de De
El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez en 1872 para una distribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.

* La gráfica de la función de densidad tiene una forma acampanada, tiene una única moda, que coincide con su media y su mediana (aproximadamente). Lo anterior implica que es una función simétrica respecto a la media como medida de tendencia central.
* La curva normal es asintótica al eje de las abscisas. Por ello, cualquier valor entre menos infinito e infinito es teóricamente posible.
* La distribución Normal tiene dos parámetros, un parámetro de localización o escala $\mu$  y otro parámetro de forma $\sigma^2$.
* La desviación estándar determina qué tan plana y ancha es la curva normal. Desviaciones estándar grandes corresponden a curvas más planas y más anchas, lo cual indica mayor variabilidad en los datos. A continuación se muestran dos curvas normales que tienen la misma media pero distintas desviaciones estándar

Las distribuciones de probabilidad continua pueden tomar varias formas, pero un gran número de variables aleatorias observadas en la naturaleza poseen una distribución de frecuencia que tiene más o menos la forma de montículo, o bien, como diría un estadístico, es aproximadamente una distribución normal de probabilidad. La fórmula que genera esta distribución se muestra a continuación.
$$ f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \text{, donde} -\infty<x<\infty $$

$\mu=$ media, $\sigma=$ desviación estándar

La notación adecuada para describir está variable aleatoria es:

$$X\sim N(\mu,\sigma)$$

En el caso que la distribución normal tenga media 0 y desviación estándar 1 se denomina distribución normal estándar y su notación es:

$$Z\sim N(0,1)$$

### Ejemplo distribución Normal com media $\mu$ y desviación $\sigma$

Estudios realizados por los estudiantes de la universidad , muestran que en el 2019, el alimento  para cerdos está normalmente distribuido, con una media de 25.5 Kg y una y una desviación estándar de 4.5 kg.

1.  Calcular la probabilidad cuando un cerdo consume 30 kilogramos o menos de alimento para cerdo? $ P(X \leq 30)$

$$P(X\leq 30)=0.8413$$



```python
from scipy.stats import norm
norm.cdf(x=30,  loc=25.5,scale=4.5)
```



In [12]:
from scipy.stats import norm
norm.cdf(x=30,  loc=25.5,scale=4.5)

0.8413447460685429

2. Calcular la probabilidad cuando un cerdo consume 23 kilogramos o más de alimento para cerdo? $P(X\geq 23)$


$$P(X\geq 23)=1-P(Z\leq 23)=1-0.2893=0.7107$$

In [14]:
print(1-norm.cdf(x=23,  loc=25.5,scale=4.5))
print(norm.sf(x=23,loc=25.5,scale=4.5))

0.7107426392460281
0.7107426392460281


3.  Calcular la probabilidad cuando un cerdo consume entre 10 y 30 (incluidos)  kilogramos de alimento para cerdo? $ P(10≤X≤30)$

\begin{equation*}
\begin{split}
P(10 \leq X\leq 30)&= P(X\leq 30-P(X\leq 10)\\
&=0.8413-0.0003=0.841
\end{split}
\end{equation*}

In [16]:
norm.cdf(x=30,  loc=25.5,scale=4.5)-norm.cdf(x=10,  loc=25.5,scale=4.5)

0.8410586289586734

## Ejercicios

1. Los archivos demuestran que el 10 % de los pacientes de una clínica no cumple con el pago de sus cuentas. Suponga que se toma una muestra aleatoria de esta población de tamaño 15. Halle la probabilidad de que:

a) Todas las cuentas de los pacientes tengan que ser condonadas.

b) Al menos tres cuentas tengan que ser condonadas.

c) A lo sumo cuatro tengan que ser condonadas.

d) ¿Cuántas cuentas se espera que sean condonadas?

2. Un estudiante responde al azar un examen que consta de 10 preguntas de selección múltiple, cada una con cinco opciones. Si cada punto tiene el mismo valor y se aprueba con 6 o más respuestas correctas, ¿cuál es la probabilidad de que el estudiante apruebe el examen?


3. Una organización de interés público contrata estudiantes para pedir donaciones por teléfono. Tras un breve periodo de formación, los estudiantes llaman a posibles donantes y cobran a comisión. La experiencia indica que al principio los estudiantes tienden a tener poco éxito y que el 70 % deja el trabajo a las dos semanas. La organización contrata seis estudiantes, al azar.

a) ¿Cuál es la probabilidad de que al menos dos estudiantes dejen el trabajo en las dos primeras semanas?

b) ¿Cuál es la probabilidad de que al menos dos estudiantes no dejen el trabajo en las dos primeras semanas?

4. Propenso a accidentes Los padres preocupados porque sus hijos son “propensos a accidentes” pueden estar tranquilos, de acuerdo a un estudio realizado por el Departamento de Pediatría de la Universidad de California, San Francisco. Los niños que se lesionan dos o más veces tienden a sufrir estas lesiones durante un tiempo relativamente limitado, por lo general un año o menos. Si el número promedio de lesiones por año para niños en edad escolar es de dos, ¿cuáles son las probabilidades de estos eventos?

a) Un niño sufrirá dos lesiones durante el año.

b) Un niño sufrirá dos o más lesiones durante el año.

c) Un niño sufrirá a lo sumo una lesión durante el año.

 5. Cuidados intensivos El número x de personas ingresadas a una unidad de cuidados intensivos en un hospital particular, en un día, tiene una distribución de probabilidad de Poisson con media igual a cinco personas por día.

a) ¿Cuál es la probabilidad de que el número de personas ingresadas a una unidad de cuidados intensivos en un hospital particular, en un día particular, sea dos?

b) ¿Menor o igual a dos?

c) ¿Es probable que x exceda de 10? Explique

6. Un modelo para competencia. de plantas supone que hay una zona de agotamiento de recursos alrededor de la semilla de cada planta. Dependiendo del tamaño de las zonas y la densidad de las plantas, las zonas de agotamiento de recursos pueden traslaparse con las de otras semillas de la cercanía. Cuando las semillas se dispersan al azar en una superficie amplia, el número de vecinas que una semilla pueda tener por lo general sigue una distribución Poisson con una media (λ=12,3) por unidad de área. Suponga que la densidad de semillas es cuatro por metro cuadrado (m2).

a) ¿Cuál es la probabilidad de que una semilla determinada no tenga vecinos dentro de 1 metro cuadrado? P(x = 0).

b) ¿Cuál es la probabilidad de que una semilla tenga a lo sumo tres vecinas por metro cuadrado? P(x<3)

c) ¿Cuál es la probabilidad de que una semilla tenga cinco o más vecinas por metro cuadrado? P(x≤5)

7. Supongamos que el número de imperfecciones en un alambre delgado de cobre sigue una distribución Poisson con una media de 2.4 imperfecciones por milímetro.

a) Determine la probabilidad de 2 imperfecciones en un milímetro de alambre.

b) Determine la probabilidad de 10 imperfecciones en 5 milímetros de alambre.

c) Determine la probabilidad de al menos una imperfección en 2 mm de alambre

8. Un estudio reciente con respecto a salarios por hora de integrantes de equipos de mantenimiento de las aerolíneas más importantes demostró que el salario medio por hora era de $\$20.50$, con
una desviación estándar de $\$3.50$. Suponga que la distribución de los salarios por hora es una distribución de probabilidad normal. Si elige un integrante de un equipo al azar, ¿cuál es la probabilidad de que gane:

a)  entre $\$20.50$ y $\$24.00$ la hora?

b)  más de $\$24.00$ la hora?

c)  menos de $\$19.00$ la hora?

9. Una mujer escribió a Dear Abby y afirmó haber dado
a luz 308 días después de una visita de su esposo, quien estaba en la Marina.

La duración de los embarazos tiene una media de 268 días y una desviación estándar de 15 días. ¿Esta duración esinfrecuente? ¿Qué concluye usted?

## Cuantiles

Un cuantil de una distribución de probabilidad es el valor de la variable aleatoria que limita cierta probabilidad en esa distribución. Por ejemplo, decimos que $z_{0.975} = 1,96$ es el cuantil 0,975 de la distribución Normal estandarizada, porque

$$ P(Z\leq 1.96)=0.975$$
En general, denotamos mediante un subíndice $z_\alpha$ al cuantil $\alpha$, es decir, al valor de una variable Normal estandarizada que limita una probabilidad a, de modo que:
$P(Z\leq Z_{\alpha})=\alpha$
### Ejemplo

$Z_{0.99}=2.33$
```python
from scipy.stats import norm

norm.ppf(0.99)
```


$Z_{0.9}=1.28$
```python
from scipy.stats import norm

norm.ppf(0.9)
```
$Z_{0.05}=-1.645$
```python
from scipy.stats import norm

norm.ppf(0.5)
```
### Ejemplo 2 Pesos al nacer.

En Estados Unidos, los pesos al nacer se distribuyen normalmente,
con una media de 3420 g y una desviación estándar de 495 g. Si un hospital planea establecer condiciones especiales de observación para el 2% de los bebés menos pesados, ¿qué peso se utilizaría para establecer un punto de corte que separe al 2% de los
bebés menos pesados de los demás?

$P(X\leq x_{0.02})=0.02$






```python
from scipy.stats import norm

norm.ppf(0.02,3420,495)
```



## Ejercicios parte 2
### Ejercicios Temperaturas corporales.
Suponga que las temperaturas corporales humanas se distribuyen normalmente, con una media de 98.20°F y una desviación estándar de 0.62°F.

a. El hospital Bellevue en la ciudad de Nueva York establece que la temperatura más

baja considerada como fiebre es de 100.6°F. ¿Qué porcentaje de personas normales y saludables se consideraría que tienen fiebre? ¿Sugiere este porcentaje que un punto de corte de 100.6°F es apropiado?

b. Los médicos desean seleccionar una temperatura mínima como requisito para solicitar más exámenes médicos. ¿Cuál debe ser esa temperatura, si deseamos que sólo el 5.0% de las personas saludables la excedan? (Un resultado como éste es un falso positivo, lo que significa que el resultado de la prueba es positivo, pero el sujeto no está
realmente enfermo).

###  Ejercicio parte 2

La duración de los embarazos se distribuye normalmente,
con una media de 268 días y una desviación estándar de 15 días.

1. Si estipulamos que un bebé es prematuro cuando la duración del embarazo se encuentra en el 4% inferior, calcule la duración que separa a los bebés prematuros de aquellos que no lo son. Los bebés prematuros suelen requerir cuidados especiales y este resultado podría ser útil para que los administradores de hospitales planeen esos cuidados