# Distribuciones de Probabilidad
## Ejemplos, Ejercicios y Conceptos
### Los conceptos que conviene ser conocidos por el lector para este trabajo son:
+ Variable aleatoria: tiene un valor numérico asociado a cada resultado de algún procedimiento aleatorio, 
+ Distribución de probabilidad: tiene una probabilidad asociada a cada valor de una variable aleatoria. 
+ Métodos para calcular la media, la varianza y la desviación estándar de una distribución de probabilidad. 
+ Valor esperado de una variable aleatoria: es igual a la media. 
+ Resultado infrecuente, un concepto sumamente importante  para determinar cuándo los resultados son poco comunes.
+ Ver estos conceptos en: https://www.chreinvent.com/recursos/distribuci%C3%B3n-de-probabilidad

In [106]:
import math
import pandas as pd

### Lotería Kentucky Pick 4. Esperanza Matemática.
+ Si usted apuesta $1 en el juego de lotería Kentucky Pick 4, pierde $1 o gana $4999. 
    + (El premio ganador es de $5,000, pero no le devuelven su apuesta de $1, por lo que la ganancia neta es de $4999). 
+ El juego consiste en seleccionar un número de cuatro dígitos entre 0000 y 9999. 
+ Si usted apuesta $1 al 1234, ¿cuál es el valor esperado de ganar o perder?

In [107]:
# Analisis del problema:
# I. Probabilidades: 
#   a. Suceso favorable: 
#       Probabilidad de ganar apostando a 1234.
#       Un solo suceso favorable. 
#   b. Sucesos posibles: 
#       Variaciones con repetición. (ej 1111, 1123)
#           Si importa el orden porque son numeros distintos. (ej 1234 <> 1243).
#           Con reemplazo porque cada bolilla que saco con un numero la tengo que volver a poner.
#           Al ser con reemplazo se trata de sucesos independientes.
#           Vcr(10, 4) = 10^4 = 10000
#   1. Probabilidad de ganar apostando a 1234:
#      Suceso Faborable/Sucesos posibles (a/b)
#       P(x) = P(1234) = 1/10000 = 0,0001
#   2. Probabilidad de perder apostando a 1234: 9999
#       P(x) = P(<>1234) = 9999/10000 = 0,9999 = 1 - P(1234)
# II. Esperanzas
#   a. Esperanza de ganar : x . P(x) = $4999 . 0,0001 = +$0,4999
#   b. Esperanza de perder: x . P(x) = $  -1 . 0.9999 = -$0.9999
#   c. Esperanza Matemática del problema (a+b):  neto =  -$0.5
# III. Conclusión
#   Es de esperar que luego de jugar muchisimo este juego, resulte que se pierda medio dólar!!
dfEspMat = pd.DataFrame(
    {
        "Suceso": ['Ganar', 'Perder', 'Total'],
        "x"     : [4999, -1, 5000],
        "P(x)"  : [0.0001, 0.9999, 1],
        "x.P(x)": [0.4999, -0.9999, -0.5],    
    }
)
dfEspMat

Unnamed: 0,Suceso,x,P(x),x.P(x)
0,Ganar,4999,0.0001,0.4999
1,Perder,-1,0.9999,-0.9999
2,Total,5000,1.0,-0.5


##### Conslusiones
+ En cualquier juego individual de esta lotería, se pierde $1 u obtiene una ganancia neta de $4999, 
    + pero el valor esperado indica que, a largo plazo, se espera perder un promedio de 50 centavos por cada apuesta de $1. 
+ Tal vez esta lotería tenga cierto valor de entretenimiento limitado, 
    + pero, sin duda, se trata de una inversión económica extremadamente inadecuada.

### Distribución de probabilidad. 
#### Distribución Uniforme.
Considere el ensayo de lanzar un dado, con los resultados 1, 2, 3, 4, 5 y 6. Construya la tabla que represente la distribución de probabilidad.

In [108]:
pd_dado = pd.DataFrame (
    {
        "Dado"         : [1, 2, 3, 4, 5, 6],
        "Probabilidad" : [1/6, 1/6, 1/6, 1/6, 1/6, 1/6]  
    },
)
pd_dado

Unnamed: 0,Dado,Probabilidad
0,1,0.166667
1,2,0.166667
2,3,0.166667
3,4,0.166667
4,5,0.166667
5,6,0.166667


Se trata de una distribución de probabilidad uniforme dado que las 6 caras del dado tienen la misma probabilidad de salir, si el dado está perfectamente balanceado.

#### Suma de probabilidades.
a) Uno de los requisitos de una distribución de probabilidad es que la suma de las probabilidades debe ser 1 (se permite una pequeña cantidad de variación por errores de redondeo). ¿Cuál es la justificación de este requisito?

In [109]:
# Uno de los requisitos de la distribución de probabilidades es que la suma de las probabilidades para todos los valores de la variable aleatoria es uno. 
# Esto tiene sentido ya que para que las probabilidades estén distribuidas coherentemente la suma debe ser uno que es el suceso seguro.

b) Un jugador profesional afirma que cargó un dado para que los resultados de 1, 2, 3, 4, 5, 6 tengan probabilidades correspondientes de 0.1, 0.2, 0.3, 0.4, 0.5 y 0.6. ¿Realmente será cierto lo que dice? ¿Una distribución de probabilidad se describe haciendo una lista de los resultados junto con sus probabilidades correspondientes?

In [110]:
# No. Lo cierto es que si un jugador carga un dado para que salga con mayor probabilidad una cara que otras, lo puede hacer en detrimento de las probabilidades de las otras caras y siempre la suma de las probabilidades dará uno ya que es imposible que la suma de la distribución de probabilidad sea mayor que uno. Por ejemplo si carga el dado para que salga siempre 6, entonces la probabilidad de que salgan valores como 1,2,3,4,5 es cero.
# Una distribución de probabilidad discreta se describe por una lista de resultados posibles junto con sus probabilidades correspondientes. Para que sea válida, debe cumplir con dos condiciones:
# 1.	Cada probabilidad debe ser un número entre 0 y 1 (inclusivo).
# 2.	La suma de todas las probabilidades debe ser igual a 1.
# La suma de las probabilidades es 2.1, que es mayor que 1. 
# Por lo tanto, las probabilidades proporcionadas no forman una distribución de probabilidad válida. 
# La suma de las probabilidades debe ser exactamente 1, pero en este caso, es 2.1.
# Por lo tanto, la afirmación del jugador profesional no puede ser cierta si las probabilidades asignadas a los resultados
# son realmente las que él menciona.

### Nacimientos. Valor esperado.  
+ Un investigador calcula el valor esperado del número de niñas en cinco nacimientos y obtiene un resultado de 2.5. 
+ Luego, redondea los resultados a 3, al afirmar que no es posible que nazcan 2.5 niñas en cinco nacimientos. 
+ ¿Es correcto este razonamiento?

In [111]:
# No parece ser correcto. 
# Esto se debe a que si el valor esperado o esperanza matemática da como resultado 2.5, 
#   significaría mas bien que es esperable que nazcan entre 2 y 3 niñas con igual probabilidad en este caso de nacimientos considerado. 
# El valor esperado de 2.5 es una medida teórica de la media del número de niñas en un gran número de experimentos de cinco nacimientos cada uno. No significa que en un único experimento o en un único conjunto de cinco nacimientos esperemos ver exactamente 2.5 niñas. 
# En cada conjunto de cinco nacimientos, el número real de niñas será un número entero (0, 1, 2, 3, 4, o 5).
# Redondear el valor esperado a 3 para decir que no es posible que nazcan 2.5 niñas es incorrecto 
#   porque el valor esperado es una media teórica, no un valor real que necesariamente ocurre en un solo experimento. 
# El redondeo podría ser útil en algunos contextos prácticos, 
#   pero no cambia el significado teórico del valor esperado en la distribución de probabilidad.


### Estadisticos Basicos y Factibilidad de Distribución de probabilidad.
+ Comprobar varios planteos para definir si son distribuciones de probabilidad
+ Para esto hacer una función 
+   que controle si la P(x) = 1
+   defina si la función es correcta o no
+   haga los cálculos de media, varianza y desvío estandard

In [138]:
# Función Distribución de Probabilidad#
def DistProb(x = [], Px = []):
    """Función que controla si la distribución de probabilidad es correcta"""
    # Crea dos vectores con x y P(x)
    # x = [0, 1, 2, 3]
    # Px = [0.4219, 0.4219, 0.1406, 0.0156]
    # Multiplica cada elemento de un vector por elemento correspondiente del otro
    xPx = [x[i] * Px[i] for i in range(len(x))]
    xxPx = [x[i]**2 * Px[i] for i in range(len(x))]

    # Crea el dataframe
    df_genX = pd.DataFrame(
        {
            "x": x,
            "P(x)": Px,
            "x.P(x)" : xPx,
            "xx.P(x)": xxPx
        }
    )
    print(df_genX.to_string(index=False))

    oki = 1 if sum(Px) == 1 else 0
    # print(f"\noki = {oki}\n")
    print(f"\na. La suma de las probabilidades {['si' if oki else 'no']} es igual a 1. :  {df_genX['P(x)'].sum()} ")
    if oki:
        mu =  df_genX['x.P(x)'].sum()
        xxPxsum = df_genX['xx.P(x)'].sum()
        print(f"b. 𝜇   = ∑[𝑥 . 𝑃(𝑥)]         = {mu:.2f}")
        print(f"c. 𝜎^2 = ∑[𝑥^2. 𝑃(𝑥)]−𝜇^2    = {xxPxsum:.2f} - {mu**2:.2f} = {xxPxsum - mu**2:.2f}")
        print(f"d. 𝜎   = √(∑[𝑥^2. 𝑃(𝑥)]−𝜇^2) = {math.sqrt(xxPxsum - mu**2):.2f}")

#### a. Trastorno genético. 
Cada uno de tres hombres que tienen un trastorno genético relacionado con el cromosoma X tiene un hijo. 
+ La variable aleatoria x es el número de hijos de los tres hombres que heredan el trastorno genético relacionado con el cromosoma X.
- x	P(x)
- 0	0.4219
- 1	0.4219
- 2	0.1406
- 3	0.0156

In [139]:
DistProb([0, 1, 2, 3], [0.4219, 0.4219, 0.1406, 0.0156])

 x   P(x)  x.P(x)  xx.P(x)
 0 0.4219  0.0000   0.0000
 1 0.4219  0.4219   0.4219
 2 0.1406  0.2812   0.5624
 3 0.0156  0.0468   0.1404

a. La suma de las probabilidades ['si'] es igual a 1. :  0.9999999999999999 
b. 𝜇   = ∑[𝑥 . 𝑃(𝑥)]         = 0.75
c. 𝜎^2 = ∑[𝑥^2. 𝑃(𝑥)]−𝜇^2    = 1.12 - 0.56 = 0.56
d. 𝜎   = √(∑[𝑥^2. 𝑃(𝑥)]−𝜇^2) = 0.75


#### b. Números de niñas. 
Un investigador reporta que, cuando se seleccionan al azar grupos de cuatro niños de una población de parejas que cumplen ciertos criterios, la distribución de probabilidad del número de niñas es como la que se presenta en la siguiente tabla:
+  x	P(x)
+  0	0.502
+  1	0.365
+  2	0.098
+  3	0.011
+  4	0.001

In [140]:
DistProb([0,1,2,3,4], [0.502, 0.365, 0.098, 0.011, 0.001])

 x  P(x)  x.P(x)  xx.P(x)
 0 0.502   0.000    0.000
 1 0.365   0.365    0.365
 2 0.098   0.196    0.392
 3 0.011   0.033    0.099
 4 0.001   0.004    0.016

a. La suma de las probabilidades ['no'] es igual a 1. :  0.977 


#### c.	Experimento de genética.  
Un experimento de genética incluye vástagos de guisantes en grupos de cuatro. 
+ Un investigador reporta que, para un grupo, el número de plantas de guisantes con flores blancas tiene una distribución de probabilidad como la que se presenta en la siguiente tabla:
+ x	P(x)
+ 0	0.04
+ 1	0.16
+ 2	0.80
+ 3	0.16
+ 4	0.04



In [141]:
DistProb([0,1,2,3,4], [0.04,0.16,0.80,0.16,0.04])

 x  P(x)  x.P(x)  xx.P(x)
 0  0.04    0.00     0.00
 1  0.16    0.16     0.16
 2  0.80    1.60     3.20
 3  0.16    0.48     1.44
 4  0.04    0.16     0.64

a. La suma de las probabilidades ['no'] es igual a 1. :  1.2 


#### d.	Estudio de mortalidad.  
Para un grupo de cuatro hombres, la distribución de probabilidad del número x que sobreviven al año siguiente es como la que se presenta la siguiente tabla:
+ x	P(x)
+ 0	0.0000
+ 1	0.0001
+ 2	0.0006
+ 3	0.0387
+ 4	0.9606

In [142]:
DistProb([0,1,2,3,4], [0.0000,0.0001,0.0006,0.0387,0.9606])

 x   P(x)  x.P(x)  xx.P(x)
 0 0.0000  0.0000   0.0000
 1 0.0001  0.0001   0.0001
 2 0.0006  0.0012   0.0024
 3 0.0387  0.1161   0.3483
 4 0.9606  3.8424  15.3696

a. La suma de las probabilidades ['si'] es igual a 1. :  1.0 
b. 𝜇   = ∑[𝑥 . 𝑃(𝑥)]         = 3.96
c. 𝜎^2 = ∑[𝑥^2. 𝑃(𝑥)]−𝜇^2    = 15.72 - 15.68 = 0.04
d. 𝜎   = √(∑[𝑥^2. 𝑃(𝑥)]−𝜇^2) = 0.20


#### e.	Número de juegos en una Serie Mundial de béisbol.  
Con base en resultados pasados encontrados en el Information Please Almanac, existe:
+ una probabilidad del 0.1818 de que la Serie Mundial de béisbol dure cuatro juegos, 
+ una probabilidad del  0.2121 de que dure cinco juegos, 
+ una probabilidad de 0.2323 de que dure seis juegos y 
+ una probabilidad del 0.3737 de que dure siete juegos. 
* ¿Será infrecuente que un equipo “arrase” al ganar cuatro juegos? 

In [150]:
DistProb([4,5,6,7], [0.18181818181818181818,0.21212121212121212121,0.23232323232323232323,0.37373737373737373737])

 x     P(x)   x.P(x)   xx.P(x)
 4 0.181818 0.727273  2.909091
 5 0.212121 1.060606  5.303030
 6 0.232323 1.393939  8.363636
 7 0.373737 2.616162 18.313131

a. La suma de las probabilidades ['si'] es igual a 1. :  1.0 
b. 𝜇   = ∑[𝑥 . 𝑃(𝑥)]         = 5.80
c. 𝜎^2 = ∑[𝑥^2. 𝑃(𝑥)]−𝜇^2    = 34.89 - 33.62 = 1.27
d. 𝜎   = √(∑[𝑥^2. 𝑃(𝑥)]−𝜇^2) = 1.13


Es más probable que el números de juegos sea 7 a que sea 4.
+ Sin embargo, la probabilidad de juegos igual a 4 no es baja, sino que es mayor que el 5%.
+ Por lo tanto la probabilidad que puedan haber sólo 4 juegos igual a 18% es alta y **no** es un suceso improbable o infrecuente.

#### f.	Reconocimiento de marca. 
En un estudio de reconocimiento de la marca Sony se entrevistaron grupos de cuatro consumidores. 
+ Si x es el número de personas en el grupo que reconocen la marca Sony, entonces x puede ser 0, 1, 2, 3 o 4, y las probabilidades correspondientes son 0.0016, 0.0250, 0.1432, 0.3892 y 0.4096. 
+ ¿Será infrecuente seleccionar al azar a cuatro consumidores y descubrir que ninguno de ellos reconoce la marca Sony?

In [153]:
DistProb([0,1,2,3,4], [0.0016, 0.0250, 0.1432, 0.3892, 0.4096])

 x   P(x)  x.P(x)  xx.P(x)
 0 0.0016  0.0000   0.0000
 1 0.0250  0.0250   0.0250
 2 0.1432  0.2864   0.5728
 3 0.3892  1.1676   3.5028
 4 0.4096  1.6384   6.5536

a. La suma de las probabilidades ['no'] es igual a 1. :  0.9685999999999999 
