## Distribución binomial

La distribución binomial es una distribución de propabilidad discreta que describe el número de resultados positivos en un numero fijo de ensayos.
Ejemplo. (Se aplica un examen, Aprobado, Reprobado). En otras palabras mide el EXITO o FRACASO de una prueba

#### Experimento Binomial

Si realizamos un experimento con dos resultados posibles un número de veces estaremos ejecutando un **experimento binomial**, es muy comun usar las combinaciones aprendidas en el capitulo anterior dentro de este tipo de experimentos binomiales

Para poder ejecutar una formula de distribución binomial tenmos que cumplir las siguientes condiciones:
- Se lleva a cabo un número fijo y finito de pruebas (n).
- Cada prueba es un experimento binomial simple que tiene exactamente dos resultados.
- Las pruebas son independientes entre sí.
- La probabilidad de éxito (p) es la misma para todos los n intentos.


La formula de la distribución binomial es la siguiente.

$$P= C \binom{n}{k} \cdot p^{(k)}  \cdot q^{(n-k)}$$

En donde 
- P = probabilidad
- c= Combinaciones
- n= Pruebas
- k= Exitos
- p= probabilitdad de exito
- q= probabilidad de fracaso

Ahora plasmemos un ejemplo en python. 

Los portátiles de Pineapple son caros, pero siguen siendo populares entre los geeks de la informática: el **60%** de los clientes están dispuestos a comprarse una computadora portátil de esta marca si acuden a la tienda. Los portátiles de Banana son más baratos, pero no tan populares: solo el **20%** de los visitantes de la tienda están dispuestos a comprarlos.

Supongamos que la tienda solo tiene a la venta equipos de Pineapple. ¿Cuál es la probabilidad de que **50 de cada 80 clientes** realicen una compra en un día?

Metodo 1

In [10]:
import math 

n = 80
k = 50 
p = .60
q = 1-p
combinaciones = math.comb(n,k) 
probability = combinaciones * p**k * q**(n-k)
print(f'La probabilidad de es de {round(probability*100,2)}%')


La probabilidad de es de 8.27%


Metodo 2

In [21]:
from scipy.stats import binom

n = 80 # Numero de clientes (ensayos)
k = 50 # Numero objetivo (exitos)
p = 0.60 # Probabilidad 
q = 1-p #Automatically calculated, no necessary
probability = binom.pmf(k,n,p)
print(f'La probabilidad de es de {round(probability*100,2)}%')

La probabilidad de es de 8.27%


Como podras observar, pueden usarse dos librerías para obtener el mismo resultado. Sin embarjo la librería scipy ya tiene integrado todo el proceso

Ejercicio 2

Sea un examen de verdadero o falso de 10 preguntas ¿Cuál es la probablidad de que acierte tres preguntas o menos?


In [None]:
from scipy.stats import binom
n=10
k=3
p=0.5
q= n-k

binom.cdf(k,n,p)

## Distribución normal

Distribución Normal o también conocida como campana de Gauss, es una distribución que se manifiesta en diversas situaciones. La Moda, Mediana y Media son la misma al tener una distribución normal cuando esta estandarizada

Su formula es la siguiente: $$X \sim (μ, σ^2)$$

- X = variable aleatoria
- ~ = 'Sigue una distribución'
- μ = La media
- σ<sup>2</sup> = La desviación estandar

Python cuanta con una librería llamada SciPy que permite procesar rapidamente esta formula a través de la funcion stats.norm() que genera una distribución con los parametros media y desviacion standard

Tiempo de plasmarlo en python. 

Supongamos que el número de horas que los clientes pasan en el gimnasio cada semana sigue una distribución normal con una media de 4 y una desviación típica de 1. ¿Qué porcentaje de clientes pasa más de 6 horas a la semana en el gimnasio?


In [11]:
from scipy import stats
mu = 4 #horas
sigma = 1 # Sigma / Desviacion estandard

normal = stats.norm(mu,sigma)
print(normal)

<scipy.stats._distn_infrastructure.rv_continuous_frozen object at 0x000002321F934830>


El resultado es correcto, pero pertenece a un objeto scipy que tendremos que trabajar con otro metodo, en estos casos tenemos dos opciones:

- norm.cdf() - Cumulative distribution function #Devuelve la probabilidad de que una variable sea menor o igual que un valor determinado  - En pocas palabras, **porcentajes**. <br>
Ejemplo (¿Cuál es la probabilidad de que un estudiante pueda aprender una nueva profesión por menos de 4 000 dólares?)

- norm.ppf() - Percentage point function #Devuelve el valor de la variable aleatoria que corresponde a una determinada probabilidad - En pocas palabras, **enteros** <br>
 (¿Cuál es el coste máximo de la formación para el 10% de los estudiantes que gastaron menos dinero en sus estudios?) 


Por lo anterior procederemos con norm.cdf

In [37]:
'''
Supongamos que el número de horas que los clientes pasan en el gimnasio cada semana sigue una distribución normal 
con una media de 4 y una desviación típica de 1. ¿Qué porcentaje de clientes pasa más de 6 horas a la semana en el gimnasio?
'''
from scipy import stats as st
mu = 4 #horas
sigma = 1 # Sigma / Desviacion estandard
p = 6

normal = 1- stats.norm(mu,sigma).cdf(p)

print(normal*100)

2.275013194817921


In [1]:
from scipy import stats

mu = 4  # Media (horas)
sigma = 1  # Desviación estándar

# Definir el límite de horas para cada caso
horas_limite = 6

# Calcular la probabilidad acumulada hasta el valor del límite de horas
prob_limite_horas = stats.norm.cdf(horas_limite, mu, sigma)

# La probabilidad de que los clientes pasen más de 6 horas es el complemento de la probabilidad de que pasen hasta 6 horas
prob_mas_de_6_horas = 1 - prob_limite_horas

# La probabilidad de que los clientes pasen menos de 6 horas es simplemente la probabilidad acumulada hasta 6 horas
prob_menos_de_6_horas = prob_limite_horas

# La probabilidad de que los clientes pasen exactamente 6 horas es la diferencia entre las probabilidades acumuladas hasta 6 horas y hasta un poco menos de 6 horas
prob_exactamente_6_horas = prob_limite_horas - stats.norm.cdf(horas_limite - 0.001, mu, sigma)

# Convertir las probabilidades en porcentajes
porcentaje_mas_de_6_horas = prob_mas_de_6_horas * 100
porcentaje_menos_de_6_horas = prob_menos_de_6_horas * 100
porcentaje_exactamente_6_horas = prob_exactamente_6_horas * 100

# Imprimir los resultados
print(f'Porcentaje de clientes que pasa más de 6 horas: {porcentaje_mas_de_6_horas:.2f}%')
print(f'Porcentaje de clientes que pasa menos de 6 horas: {porcentaje_menos_de_6_horas:.2f}%')
print(f'Porcentaje de clientes que pasa exactamente 6 horas: {porcentaje_exactamente_6_horas:.2f}%')


Porcentaje de clientes que pasa más de 6 horas: 2.28%
Porcentaje de clientes que pasa menos de 6 horas: 97.72%
Porcentaje de clientes que pasa exactamente 6 horas: 0.01%


Recordemos que la formula norm.cdf() calcula la probabilidad de que la variable **sea menor a un valor asignado**, sin embargo la pregunta pedía un numero mayor al valor asignado es decr, solicitaba saber el porcentaje de clientes que pasaría mas de 6 horas en el gimnasio (cuando nuestra media era 4). Por lo tanto para poder resolver el tema en cuestion, era necesario restarle 1 o 100% al valor total, resultando en la siguiente formula:
$$normal = 1 - (stats.norm(mu,sigma).cdf(p))$$

Ahora resolvamos un ejercicio que sí pida un número menor a la variable al valor asignado. En la India, los estudiantes mayores de edad gastan una media de 5 000 dólares para aprender una nueva profesión, con una desviación típica de 1 500 dólares.

¿Cuál es la probabilidad de que un estudiante pueda aprender una nueva profesión por menos de 4 000 dólares?

In [12]:
from scipy import stats as st
mu = 5000 #horas
sigma = 1500 # Sigma / Desviacion estandard
p = 4000

normal = stats.norm(mu,sigma).cdf(p)
print(f'La probabilidad es de {round(normal*100,2)}%')

La probabilidad es de 25.25%


Ahora resolvamos un ejercicio con norm().cdf (porcentajes)<br>

¿Cuál es el coste máximo de la formación para el 10% de los estudiantes que gastaron menos dinero en sus estudios?

In [13]:
from scipy import stats as st
mu = 5000 #horas
sigma = 1500 # Sigma / Desviacion estandard
p = 0.1 # Que es igual a 10%

normal = stats.norm(mu,sigma).ppf(p)
print(f'El coste maximo es de ${round(normal*100,2)}')

El coste maximo es de $307767.27


El número de visitantes mensuales de una tienda virtual tiene una distribución normal con una media de 100 500 y una desviación estándar de 3 500.
Encuentra la probabilidad de que en el próximo mes el sitio web del outlet tenga:
- menos de 92 000 visitantes;
- más de 111 000 visitantes.

In [14]:
import scipy

mu= 100500
sigma= 3500
p= 92000
p2 = 111000

normal = stats.norm(mu,sigma).cdf(p)
normal2 = 1-stats.norm(mu,sigma).cdf(p2)
print(f'La probabilidad de que tenga menos de {p} es de {round(normal*100,2)}%')
print(f'La probabilidad de que tenga más de {p2} es de {round(normal2*100,2)}%')

La probabilidad de que tenga menos de 92000 es de 0.76%
La probabilidad de que tenga más de 111000 es de 0.13%


## Valor Esperado

El valor esperado, también conocido como esperanza matemática o media, es una medida de tendencia central en estadística que representa el promedio ponderado de los posibles resultados de una variable aleatoria.  `En términos simples, es el valor que uno esperaría obtener en promedio si repitiéramos un experimento un número infinito de veces.`


 $$σ= \sqrt {n \cdot p \cdot  (1−p)}$$
​


## Distribuciones binomiales a normales

Si el número de pruebas es lo suficientemente alto **50 intentos o más**, la distribución binomial se puede modelar mediante la distribución normal.

Si estás utilizando la distribución binomial con parámetros n (número de ensayos) y p (probabilidad de éxito en un ensayo), la desviación estándar de la distribución binomial se calcula de la siguiente manera:

Pongamos un ejemplo. <br>

Una empresa ha decidido anunciarse online. El servicio de publicidad dice que, de promedio, el **15%** de los usuarios hacen clic en sus anuncios. Eso es **750** visitas por cada **5000** vistas.

La empresa coloca anuncios, compra **5000** impresiones (vistas) y solo obtiene **715** visitas. ¡El equipo de marketing está disgustado! ¿No les habían prometido **750** visitas? Usaremos argumentos estadísticos para calmarlos.

En resumen: cuando un usuario ve el anuncio, hay un **15**% de posibilidades de que haga clic en él. Esto nos da una distribución binomial con** n = 5000 y p = 0.15.**

In [10]:
import scipy.stats as st
import math as mt

binom_n=5000
binom_p=0.15
k=715
mean = st.binom.mean(binom_n, binom_p) # Or binom_n * binom_p

desviacion_std = st.binom.std(binom_n, binom_p) # Or desviacion_std = mt.sqrt(binom_n * binom_p * (1 - binom_p))
p_clicks = st.norm.cdf(k, mean,desviacion_std)

print(f'La media es {mean}')
print(f'La desviación es de {desviacion_std}')
print(f'La probabilidad de es de {round(p_clicks*100,2)}%')
print(f'3 veces desviacion_std es {3*desviacion_std}')

La media es 750.0
La desviación es de 25.248762345905195
La probabilidad de es de 8.28%
3 veces desviacion_std es 75.74628703771559


Como podrás observar, con n, p y k de la distribución binomial pudimos obtener la media y desviación standard, ejecutando una formula de distribución normal.

Una empresa envía a sus clientes un boletín electrónico mensual con novedades y ofertas de los socios. Sabemos que el 40% de los clientes abre el boletín.
Uno de los socios está planeando una campaña publicitaria y espera llegar a unos 9000 clientes. **Calcula la probabilidad de que se cumplan las expectativas del socio si el boletín se envía a 23 000 personas.**

In [41]:
import scipy.stats as st
import math as mt

k = 9000
binom_n = 23000
binom_p = 0.40

mu = st.binom.mean(binom_n,binom_p)

sigma = st.binom.std(binom_n,binom_p)

p_threshold = 1 - st.norm.cdf(k,mu,sigma)
print(p_threshold)


0.9964477890716447


## Distribución uniforme

La distribución uniforme es un tipo de distribución de probabilidad en la que todos los valores posibles de una variable aleatoria dentro de un intervalo tienen la misma probabilidad de ocurrir. Es decir, todos los valores dentro del intervalo tienen una densidad de probabilidad constante.

 Ejemplo. (al tirar un dado se tiene 1/6 de probabilidad de obtener un resultado)

La distribución de probabilidad discreta o continua en la que los datos tienden a agruparse en torno a un valor medio o promedio. (analizar las tallas mas demandadas de ropa, en general las tallas medianas predominaran)

- Teorema de límite central : cuando hay un número suficiente de observaciones en una muestra, la distribución muestral de las medias muestrales de cualquier población estadística tiende a seguir una distribución normal alrededor de la media de dicha población.Puedes estimar la media de una población estadística utilizando la media de una muestra. Cuanto mayor sea la muestra, más precisa será la media de la población y esto funciona para poblaciones estadísticas con cualquier distribución.
- Distribución muestral: es el conjunto de valores medios de todas las muestras posibles de un cierto tamaño tomadas de una población estadística particular.
- Estimated Estandard Error (E.S.E) = S #muestra / raiz(n) 
- Hipotesis de dos colas: Una prueba de hipótesis de dos colas está diseñada para mostrar si la media de la muestra es considerablemente mayor y considerablemente menor que la media de una población
- significación estadística bilateral = probabilidad de que la media de toda la población estadística se desvíe del valor propuesto al menos tanto como vemos en la muestra (aumentando o disminuyendo en cualquier dirección).
- La estadística de diferencia: Es el número de desviaciones estándar entre los valores comparados si ambas distribuciones se convierten en una distribución normal estándar con media 0 y desviación estándar 1. Este número no ayuda mucho a orientarse.
- El valor p es la probabilidad de obtener un resultado al menos tan extremo como el que estás considerando, suponiendo que la hipótesis nula sea correcta
- Significación estadística bilateral: que es la probabilidad de que la media de toda la población estadística se desvíe del valor propuesto al menos tanto como vemos en la muestra (aumentando o disminuyendo en cualquier dirección).