<a href="https://colab.research.google.com/github/matiasvallejosdev/probabilidad-estadistica/blob/main/distribuciones_probabilidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Distribuciones de probabilidad
Son características propias que permiten establecer las probabilidades
correspondientes a los diferentes valores que pueden adoptar la variable
aleatoria por intermedio de una fórmula o modelo matemático que permite su
cálculo.

In [2]:
import numpy as np
from scipy import stats as st

## Guia
¿Como aplicar las distribuciones segun cada caso? ¿Que parametros tomar en cuenta? ¿Es una distribucion discreta o continua?

__Distribuciones de Probabilidad__

__¿Cómo me doy cuenta el modelo que tengo que aplicar?__

* Binomial

  * n: nº de elementos de la muestra
  * p: probabilidad de éxito en la población.
  * Distribución de variable discreta.
  * Puede preguntarse por la probabilidad de una variable aleatoria puntual P(x=2) por ejemplo, o por un intervalo P(x>2).
  * Población grande frente a la muestra
  * La muestra debe ser menor al 5% de la población
  * Eventos independientes

* Hipergeométrica
  * N: nº de elementos de la población
  * M: nº de éxitos de la población
  * n: nº de elementos de la muestra

* Distribución de variable discreta.
  * Puede preguntarse por la probabilidad de una variable aleatoria puntual P(x=2) por ejemplo, o por un intervalo P(x>2).
  * La población y la muestra están más cercanas.
  * La muestra es mayor o igual al 5 % de la población.
  * Eventos dependientes

* Poisson
 * λ : promedio o proporción de ocurrencia de un evento
 * Distribución de variable discreta.
 * Puede preguntarse por la probabilidad de una variable aleatoria puntual P(x=2) por ejemplo, o por un intervalo P(x>2).
 * Es una binomial pero para casos raros.
 * Es una binomial para n que tiende a infinito y p que tiende a cero

* Normal
  * μ: Media poblacional (promedio)
  * δ: desviación estándar poblacional
  * • Es una distribución de variable continua.
  * • Forma acampanada
  * • La probabilidad de una variable aleatoria puntual es cero P(x) = 0. Por ejemplo P(x=2) = 0
  * Por eso siempre se pregunta por un intervalo y no por una probabilidad puntual.
  * Acá es lo mismo decir P(x<2) o P(x<2) 

  Por ejemplo:
* (*) Son los datos que las caracterizan y se necesitan para resolverlas con la tabla o por fórmula
Para todos los casos:
* Éxito: característica de la población que se quiere estudiar.
* X: Variable aleatoria: nº de éxitos en la muestra
* P(x) es la probabilidad del éxito en la muestra que se pide calcular.

__APROXIMACIONES de la binomial__

* Aproximación condiciones
* Cálculo de los parámetros
* De la binomial a la de Poisson
  * n.p < 7
  * n.p = λ
* De la binomial a la Normal
  * n.p >= 5
  * n.q >=5

_Recordar que q es la probabilidad de fracaso de la población y se calcula:_
* q = 1-p
* n.p= μ
* δ=q.p.n

__¿Hay obligación de usar las aproximaciones?__

NO. Los experimentos siguen siendo binomiales, pero si se dan las condiciones mencionadas, pueden resolverse por otro modelo porque el error que se comete es muy pequeño.

__¿Cuándo conviene usarlas? ¿Cómo darse cuenta?__

La mayoría de las veces es por la imposibilidad de calcularlo por la tabla por ser la muestra muy grande y no encontrarla o ser p muy pequeño y no encontrarlo en la tabla. Generalmente cuando eso pasa hay que investigar si puede aproximar a la de Poisson o a la normal.
Para aproximar la binomial a la de Poisson, p es muy pequeño, en cambio para la normal no es necesario que p sea pequeño, pero si tiene que cumplir con las condiciones que figuran en el cuadro.

__APROXIMACION DE HIPERGEOMÉTRICA A LA BINOMIAL:__

Estas dos distribuciones son muy distintas dadas las características que se mencionaron en el cuadro. Por lo tanto antes de hacer la aproximación se debe tener en cuenta que la muestra sea aproximadamente el 5% de la población, porque si no el error en el que se incurriría sería grande, ya que en una los eventos son independientes y en la otra dependientes.

__¿Cuándo la uso?__

Si los datos del problema son los de una distribución hipergeométrica pero me resulta difícil resolverlo por este modelo debido a:

* Que no tenemos la tabla de la hipergeométrica y tengo que calcular muchas probabilidades puntuales para responder a una pregunta, lo cual se torna tedioso.
* Cuando los números combinatorios que componen la fórmula de la hipergeométrica no pueden calcularse por calculadora científica al dar tan grandes.
* O cuando me doy cuenta que aunque los datos son de una distribución hipergeométrica, verifico que la muestra es menor al 5% de la población.

Concluyo entonces que el experimento en realidad es binomial aunque los datos que me dan son iguales a los de una distribución hipergeométrica.

__¿Cómo hago la aproximación a la binomial?__

n: ya lo tengo.

Me faltaría p que lo calculo mediante la regla de Laplace: casos favorables/casos probables. 

Es decir p=M/N


__CONSEJOS:__

Frente a un problema, primero anotá los datos que te dan.

* Si te dan N,n,p: fijate si la muestra es menor al 5% de la población, si es así hacerla por binomial y no tengas en cuenta la población.
* Si te dan los datos de una hipergeométrica y la muestra es menor al 5% de la población hacela por binomial (la aproximación que vimos)
* Si te dan los datos para hacerla por binomial y no podés porque algunos de los parámetros no está en la tabla: investigá las condiciones y podés aproximarla por Poisson o por la normal.

## Variable aleatoria discreta
Una variable aleatoriase define como una variable cuantitativa discreta como el fenómeno de interés, o en estudio, cuyas respuestas o resultados se pueden expresar numéricamente. La clasificación de discreta obedece a que proviene de un proceso de contar. Es decir, que se refiere a un fenómeno en estudio, cuyo resultado es numérico, y específicamente su resultado es un número natural.



### Distribucion binomial

__B(n, x)__ _binomial:_

1. El experimento se repite n veces en idénticas condiciones.
2. Cada prueba puede tener únicamente uno de dos resultados que
llamaremos éxito o fracaso.
3. La probabilidad de éxito en una prueba es "p" y se mantiene constante. La probabilidad de fracaso será q = 1 – p.
4. Las pruebas son independientes.

```
X = variable aleatoria 
p = probabilidad de exito (ej: 0.7)
n = numero de ensayos (ej: 4)
r_value = numero de resultados posibles (ej: 0;1;2;3;4)
x = resultado
```

In [17]:
n = 4
p = 0.5
r_value = 0

# Get the mean and variance 
mean, var = st.binom.stats(n, p)

# List of pmf values
x = np.round(st.binom.pmf(r_value, n, p), 6) 

# Printing the table
print('La probabilidad de que en la muestra de B(n={} | p={}) y dado que x={}: '.format(n, p, r_value))
print("r\tP(r)")
print(str(r_value) + "\t" + str(x))
print('')

# Printing mean and variance
print("Mean = "+str(mean))
print("Variance = "+str(var))

La probabilidad de que en la muestra de B(n=4 | p=0.5) y dado que x=0: 
r	P(r)
0	0.0625

Mean = 2.0
Variance = 1.0


### Distribucion hipergeometrica
Son experimentos similares a los binomiales, con la diferencia que en el hipergeométrico, la probabilidad de éxito NO SE MANTIENE CONSTANTE.

```
N = tamaño de la poblacion 
n = tamaño de la muestra
k = exitos de la poblacion
x = exitos de la muestra
```

In [None]:
N = 10
k = 3
n = 5
x = 1

# Get mean and variance
mean, var = st.hypergeom.stats(M, n, N)

# List of pmf values
x = np.round(st.hypergeom.pmf(x, N, k, n), 6) 

# Printing the table
print('La probabilidad de que en la muestra de H(N={} | n={} | k={}) y dado que x={}: '.format(N, n, k, x))
print("r\tP(r)")
print(str(r_value) + "\t" + str(x))
print('')

# Printing mean and variance
print("Mean = "+str(mean))
print("Variance = "+str(var))

La probabilidad de que en la muestra de H(N=10 | n=5 | k=3) y dado que x=0.416667: 
r	P(r)
0	0.416667

Mean = 2.5
Variance = 0.9868421052631579


### Distribucion poisson
El modelo se puede utilizar en dos situaciones:
1. Como aproximación al modelo binomial
2. Como proceso aleatorio

**_La variable aleatoria es el numero de veces que ocurre un evento durante un INTERVALO DEFINIDO (Area, Distancia, Tiempo, Volumen, etc)_**

Se busca primero el valor de el que corresponde a la situación, en el caso de l=25, en la primera columna de la tabla; para obtener el valor de x lo hallaremos en la primera fila del sector correspondiente.

```
mu or λ = media o valor esperado de X (ej: 4 pacientes promedio)
x = valores de X (ej: {0; 1; 2; 3; 4} )
```

#### Como aproximacion al modelo binomial
_En entornos donde el tamaño de la muestra es muy grande (matemáticamente n tiende a infinito) y la probabilidad de éxito es muy pequeña, la distribución de
Poisson tiene en cuenta los casos "poco frecuentes", y se logra a partir del límite para n que tiende a infinito, a la expresión del modelo binomial. En este
desarrollo surge un nuevo parámetro, que es lamda y que es igual a n.p._

In [15]:
n = 1
mu = 2 
lamda = mu * n
X = 1

# Get mean and variance
mean, var, skew, kurt = st.poisson.stats(mu, moments='mvsk')

# List of pmf values
x = np.round(st.poisson.pmf(X, mu), 6)

# Printing the table
print('La probabilidad de que en la muestra de Poisson(λ={}) y dado que x={}: '.format(lamda, X))
print("r\tP(r)")
print(str(X) + "\t" + str(x))
print('')

# Printing mean and variance
print("Mean = "+str(mean))
print("Variance = "+str(var))

La probabilidad de que en la muestra de Poisson(λ=2) y dado que x=1: 
r	P(r)
1	0.270671

Mean = 2.0
Variance = 2.0


#### Como proceso aleatorio
El modelo de Poisson también permite una muy buena aproximación para el
número de eventos, que ocurren en algunas ocasiones en el espacio, en el
tiempo, en un volumen o cualquier otra magnitud.

In [None]:
mu = 15
x = 20

# Atencion! La tabla es acumulada por lo que para:

# P(x = 1) = P(x=1) - P(x=0)
# P(x=20) = P(20) - P(19) = 0.9170 - 0.8752 = 0.0418

# P(x < 12) = P(x=11)
# P(x >= 13) = 1 - P(x=12)
# P(x <= 12) = P(x=12) 

x = "https://www.uv.es/montes/NHD/PoissonAcumulada.pdf"
print(x)

https://www.uv.es/montes/NHD/PoissonAcumulada.pdf


## Variable aleatoria continua
Una variable aleatoria continua es aquella variable en estudio que
toma valores dentro de un intervalo continuo de números.
 
El tipo de variable aleatoria que representa cualquier valor en un intervalo,
se llama variable aleatoria continua, y son las distribuciones de probabilidad de este tipo de variables las que analizaremos a continuación.

### Distribucion normal
Una distribución es normal, cuando la misma es simétrica, acampanada y tiene que cumplir con la regla empírica.

Dicha curva recibe el nombre de curva de distribución normal o curva de Gauss.
Debido a su simetría, coinciden media, mediana y moda.
```
Z = variable normal estandar (x - mu / o)
mu = media o valor esperado (ej: 0)
o = desviacion estandar (ej: 1)
x = valor de X (ej: 15)
```

#### Como aproximacion a la binomial
La distribución binomial es una de las mencionadas
anteriormente. Cuando el número n de pruebas en un experimento binomial es
grande y p no es demasiado chico ni tampoco muy próximo a 1, es tomado como
criterio de aproximación que n.p y n.q ambos sean mayores que 5.


In [None]:
mu = 18
o = 6
X = 20
Z = np.round((X - mu) / o, 6)

# Get Z (valor estandar)
print('Variable estandar Z: {}'.format(Z))

# Get mean and variance
mean, var = st.norm.stats(mu, o)

# List of pmf values
x = np.round(st.norm.cdf(X, mu, o), 6)

# Printing the table
print('La probabilidad de que en la muestra de Normal(λ={} | o={}) y dado que x={}: '.format(mu, o, X))

print("r\tP(r)")
print(str(r_value) + "\t" + str(x))
print('')

# Printing mean and variance
print("Mean = "+str(mean))
print("Variance = "+str(var))

Variable estandar Z: 0.333333
La probabilidad de que en la muestra de Normal(λ=18 | o=6) y dado que x=20: 
r	P(r)
0	0.630559

Mean = 18.0
Variance = 36.0
