# **Teoría de la probabilidad**

Nadie puede predecir el futuro con un 100% de seguridad, pero los estadísticos son capaces de calcular la probabilidad de varios resultados en situaciones muy diversas. Aunque no resuelve todos los problemas, hace nuestra vida más fácil y predecible.
En este capítulo, descubrirás cómo calcular las probabilidades de distintos eventos utilizando datos diferentes.

Aprenderé:

- Fórmulas básicas para calcular la probabilidad de eventos únicos y múltiples.
- Fundamentos de combinatoria.
- Tipos de distribución de características, incluidas la binomial y la normal.
- Utilizar Python para resolver problemas relacionados con el cálculo de probabilidades.

En estadística, utilizamos la letra P para denotar probabilidad y la letra A para denotar un evento de nuestro interés. Por lo tanto, la notación P(A) describe la probabilidad del evento A.
El P(A) puede calcularse del siguiente modo:

`# de resultados que satisfacen el evento

`-----------------------------------------

` de resultados que satisfacen el evento
​
 
Si el evento A se define como "tirar un número de 5 o mayor", entonces P(A) es (1 + 1) / 6 = 1/3.

## Eventos y espacios muestrales

El conjunto de todos los resultados posibles de un experimento se denomina espacio muestral, normalmente denotado con S.

Para ilustrarlo, consideremos el ejemplo de lanzar un solo dado. El espacio de muestra asociado a este evento es:

S={1,2,3,4,5,6}

**Por ejemplo, supongamos que el evento A es "sacar un número menor que 3". Después de examinar el espacio muestral, observamos que hay dos números que son menores que 3. Por consiguiente, la probabilidad del evento A, representada por P(A), donde P representa la probabilidad, es 2 (el número de resultados que satisfacen A) dividido entre 6 (la longitud de S).**

**Ejemplo 1:**

Volvamos al ejemplo de los billetes de lotería. Tenemos el mismo conjunto que antes, pero los resultados han cambiado. El billete #1 gana $100, los billetes #2 y #3 ganan $10 cada uno, el billete #4 gana otro billete de lotería y los billetes restantes no son ganadores. ¿Qué es S en esta situación?

**{#1 ($100), #2 ($10), #3 ($10), #4 (new ticket), #5 (-), #6 (-), #7 (-), #8 (-), #9 (-), #10 (-)}**
*Todos y cada uno de los billetes deben incluirse en el espacio muestral.*

**Ejemplo 2:**

El documento analiza el espacio muestral de tirar dos dados, donde cada par es el resultado del primer y segundo dado. Con sólo añadir una tirada más, el espacio muestral pasa de 6 a 36 resultados. Como cada dado es independiente, los 36 resultados tienen la misma probabilidad de ocurrir. Las probabilidades pueden calcularse de la misma manera.

Se lanzan dos dados. Que sea el evento A "la suma de los dos dados es 5". ¿Qué es P(A)?

**4/36**

*Hay cuatro combinaciones posibles: {1, 4}, {4, 1}, {2, 3}, {3, 2}. Por lo tanto, tenemos que poner 4 en el numerador y 36 (el número total de resultados posibles) en el denominador.*

## Ley de los grandes números

La ley de los grandes números establece que, a medida que el número de lanzamientos se acerca al infinito, la frecuencia relativa de este evento se aproximará a la verdadera probabilidad del evento.

## Probabilidades del espacio muestral en Python

En Python, los cálculos de probabilidad simples basados en espacios muestrales como estos se pueden realizar fácilmente usando el operador lógico == y la función len().

- Utilizar == identificará las filas que satisfacen tu evento.
- len() proporcionará el recuento de filas que satisfacen tu evento.

Aquí te mostramos un ejemplo.

Has creado una lista de reproducción en la aplicación Spotify con dos columnas: 'Artist' y 'Song'.

In [1]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        'Artist': [
            'Queen',
            'Queen',
            'Queen',
            'Pink Floyd',
            'Nirvana',
            'AC/DC',
            'AC/DC',
            'Scorpions',
            'Scorpions',
            'Scorpions',
        ],
        'Song': [
            'The Show Must Go On',
            'Another One Bites The Dust',
            'We Will Rock You',
            'Wish You Were Here',
            'Smells Like Teen Spirit',
            'Highway To Hell',
            'Back in Black',
            'Wind Of Change',
            'Still Loving You',
            'Send Me An Angel',
        ],
    }
)
print(cool_rock)

       Artist                        Song
0       Queen         The Show Must Go On
1       Queen  Another One Bites The Dust
2       Queen            We Will Rock You
3  Pink Floyd          Wish You Were Here
4     Nirvana     Smells Like Teen Spirit
5       AC/DC             Highway To Hell
6       AC/DC               Back in Black
7   Scorpions              Wind Of Change
8   Scorpions            Still Loving You
9   Scorpions            Send Me An Angel


Suponiendo que pulses aleatorio, cada canción de la lista de artistas + canciones tiene la misma probabilidad de tocar primero. Esta lista es nuestro espacio de muestra.

¿Cuál es la probabilidad de que la primera canción que suene sea "Smells Like Teen Spirit"?

Usa == para identificar los resultados que satisfacen este evento y usa len() dos veces: una para contar el número de resultados que satisfacen el evento y otra vez para contar el tamaño del espacio muestral.

In [2]:
print(len(cool_rock[cool_rock["Song"] == "Smells Like Teen Spirit"]) / len(cool_rock))

0.1


Utiliza la variable desired_outcomes para almacenar el número de resultados deseados, total_outcomes para almacenar el número total de resultados, y probability para el resultado final.


In [4]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        "Artist": [
            "Queen",
            "Queen",
            "Queen",
            "Pink Floyd",
            "Nirvana",
            "AC/DC",
            "AC/DC",
            "Scorpions",
            "Scorpions",
            "Scorpions",
        ],
        "Song": [
            "The Show Must Go On",
            "Another One Bites The Dust",
            "We Will Rock You",
            "Wish You Were Here",
            "Smells Like Teen Spirit",
            "Highway To Hell",
            "Back in Black",
            "Wind Of Change",
            "Still Loving You",
            "Send Me An Angel",
        ],
    }
)

desired_artist = "Queen"

desired_outcomes = len(
    cool_rock[cool_rock["Artist"] == "Queen"]
)  #  código para encontrar el número de resultados deseados
total_outcomes = len(
    cool_rock
)  #  código para encontrar el número de resultados totales
probability = (
    desired_outcomes / total_outcomes
)  #  código para calcular la probabilidad

print(probability)

#0.3 indica qe hay un 30% de probabilidad de salir

0.3


# ============================

# Eventos independientes, multiplicacion de probabilidades
# ======================

# Eventos independientes, multiplicacion de probabilidades

Supongamos que lanzas dos dados, cada uno con la misma probabilidad de sacar un número del 1 al 6. Digamos que nos interesa la suma total que se obtiene cuando se tiran los dos dados

Podemos reformular esta pregunta de la siguiente manera: ¿Cuál es la probabilidad de tirar dos dados y obtener una suma superior a 8?
Si definimos el evento A como "obtener una suma superior a 8", entonces la probabilidad de A es P(A) = 10/36 = 27.7%.

# Fundamentos de combinatoria y otros problemas de probabilidad

Imagina que estás trabajando en un proyecto para desarrollar una nueva aplicación móvil. El proyecto acaba de empezar y te han invitado a colaborar en la resolución de posibles problemas relacionados con la selección de personal.

Los reclutadores han seleccionado a 5 candidatos para el puesto de programadores, pero solo se necesitan tres para tu proyecto. Los dos candidatos restantes serán asignados a otros equipos. Uno de los candidatos es un conocido tuyo, con el que te gustaría trabajar juntos.

La responsable de RRHH tiene previsto entrevistar a cada uno de los 5 candidatos. Si el orden de las entrevistas es aleatorio, ¿cuál es la probabilidad de que tu conocido sea entrevistado en primer lugar?

> **1/5** 

*Solo hay 5 candidatos, y cada uno de ellos tiene la misma probabilidad de ser el primero en ser entrevistado. Por lo tanto, la probabilidad para cada candidato de ser el primero en ser entrevistado es de 1/5.*

La responsable de RRHH ha solicitado tu ayuda para seleccionar opciones para la secuencia de invitación a entrevistas de los candidatos. Sin embargo, ¿cómo podemos elaborar esta lista?


### Permutaciones. Calcular el factorial

El problema con el que te enfrentas es contar el número de posibles permutaciones. Aquí hay otro ejemplo de tal problema.
Una escuela online ofreció a un estudiante tres cursos gratuitos:

- ¿Cómo escribir un currículum eficaz?
- Ayuda profesional en orientación profesional.
- ¡Mejora tus habilidades para las entrevistas!

Estos cursos pueden tomarse en cualquier orden. ¿Cuántos itinerarios educativos diferentes pueden crearse a partir de estos cursos?

Para calcular el número de permutaciones de n elementos, los matemáticos utilizan la fórmula:

>Pn=n!

Este signo se llama factorial y significa el producto de números naturales de 1 a n. En otras palabras,

>n!=1⋅2⋅3⋅...⋅(n−1)⋅n

Así, para tres cursos diferentes, hay 3! = 1 x 2 x 3 = 6 itinerarios educativos diferentes.

# Calcular factoriales en python

Cuando el valor de n es pequeño, n! puede calcularse mentalmente. Para valores mayores de n, resulta más cómodo automatizar el proceso. Para ello, puedes utilizar la función factorial() del módulo math de la librería estándar de Python.


In [1]:
# importa la función factorial del módulo matemático
from math import factorial

# define el número necesario de cursos
courses_amount = 3

# calcula el factorial de 3 (el valor de la variable courses_amount)
result = factorial(courses_amount)

# muestra el resultado
print(result)


6


Se seleccionaron cinco candidatos para el proyecto. La responsable de RRHH quiere entrevistar a cada uno de ellos, pero no puede decidir en qué orden va a llamar a los candidatos. Completa el siguiente código que calculará cuántas opciones de listas se pueden hacer, en las que cinco candidatos están ordenados en un orden diferente.

Guarda el resultado de los cálculos en la variable lists_amount. Muestra la variable.

In [3]:
from math import factorial

candidates_amount = 5

lists_amount = factorial(candidates_amount) # agrega aquí tu código
print(lists_amount)

#En pocas palabras, tienen 120 opciones de orden para poder llamarlos.

120


A la responsable de RRHH se le ha ocurrido una nueva idea: ¿qué pasaría si, en lugar de seleccionar candidatos individuales, buscara directamente al equipo perfecto? Para ello, la responsable debe comprender cuántas maneras hay de formar equipos de tres personas, seleccionándolas entre cinco candidatos. Esto le permitirá programar los horarios de entrevistas para los equipos. ¿Puedes ayudar a resolver este problema?

## Combinaciones

Esta es una nueva tarea para ti, y antes de resolverla, tenemos que aprender una nueva fórmula: la fórmula para calcular el número de combinaciones de k elementos de n opciones posibles. 

Por ejemplo, si una cafetería vende 10 tipos de helado y quieres comprar tres diferentes, tienes: **120 opciones de combinaciones distintas**

Ahora veamos lo mismo desde Python:

In [4]:
from math import factorial

# define los valores para las variables n y k
n = 10
k = 3

# realiza los cálculos
combinations = factorial(n) / (factorial(k) * factorial(n-k))
print(combinations)

120.0


Ahora estás listo para ayudar a la responsable de RRHH y determinar el número de franjas horarias necesarias para entrevistar a todas las posibles formaciones del equipo.
Completa el siguiente código para determinar el número de maneras para formar equipos de tres personas seleccionándolas entre cinco candidatos.

Guarda el resultado de los cálculos en la variable combinations e imprímela.

In [5]:
from math import factorial

n = 5
k = 3

combinations = factorial(n)/(factorial(k)*factorial(n-k))
print(combinations)

#¡Tenemos buenas noticias! ¡Se han reservado las franjas horarias para 10 entrevistas!

10.0


# Uso de fórmulas combinatorias para calcular probabilidades

Tu capacidad para contar los posibles resultados de eventos complejos te permite determinar las probabilidades de distintos resultados o combinaciones de resultados.

Para completar todos los ejercicios siguientes, tendrás que utilizar fórmulas para calcular permutaciones o combinaciones y determinar el número total de resultados posibles. A continuación, puedes dividir el número de resultados deseados entre este resultado para determinar la probabilidad.

# Ejercicios

**Ejercicio 1**

Estás desarrollando con tus amigos un juego de búsqueda que consta de 10 tareas diferentes. Las tareas pueden realizarse en cualquier orden, pero solo una secuencia de todas las existentes permite a los jugadores ganar el superpremio. ¿Cuál es la probabilidad de ganar el superpremio, suponiendo que la probabilidad de elegir cada tarea en cualquier fase de la búsqueda es la misma?

Completa el código siguiente para calcular la probabilidad. Utiliza las siguientes variables:

- tasks: para almacenar el número de tareas.
- permutations: para almacenar el número de permutaciones.
- probability: para almacenar la probabilidad de elegir la única secuencia de tareas que permite a los jugadores ganar el superpremio.



In [6]:
from math import factorial

tasks = 10# introduce aquí el número de tareas
permutations = factorial (tasks) # calcula aquí el número total de secuencias de tareas posibles
probability =  1/ permutations# calcula aquí la probabilidad de seleccionar la única combinación ganadora

print(probability)


#¡Increíble! ¡La probabilidad de ganar el superpremio es inferior al 0.00003%! ¡Recuérdalo la próxima vez que quieras jugar a la lotería 😜!

2.755731922398589e-07


**Ejercicio 2**

Como los clientes no estaban satisfechos con la dificultad de ganar el superpremio, cambiaste las reglas. Ahora, los jugadores pueden elegir las tres tareas con las que quieren empezar el juego. El orden de las tareas no importa, lo importante es la combinación. Si los jugadores consiguen adivinar la "combinación secreta", recibirán un código promocional de descuento.

Para garantizar la equidad, debes calcular la probabilidad de obtener el código promocional utilizando las siguientes variables:

- tasks: número total de tareas disponibles.
- chosen: número de tareas elegidas al principio del juego.
- combinations: número total de combinaciones posibles de 3 tareas de las 10 disponibles.
- probability: probabilidad final de obtener el código promocional.

Implementa un programa que calcule la probabilidad de obtener el código promocional utilizando las variables anteriores.

In [1]:
from math import factorial

tasks = 10  # introduce aquí el número total de tareas
chosen = 3  # introduce aquí el número de tareas a elegir

combinations = factorial(tasks) / (
    factorial(chosen) * factorial(tasks - chosen)
)  # calcula el número de combinaciones disponibles
probability = 1 / combinations  # calcula aquí el resultado final

print(probability)

# ¡La posibilidad de obtener un código promocional es casi del 1%! ¡Seguro que muchos clientes se animarán a probar suerte!

0.008333333333333333


# ==================

# Idea de distribución

### Variables aleatorias

Las variables aleatorias son aquellas que toman valores aleatorios. El término "aleatorio" en este caso significa que no podemos predecir con un 100% de exactitud qué valor tomará la variable.

Para tratar estos resultados, es necesario definir numéricamente una variable aleatoria. Esto nos permitirá proyectar los resultados del experimento sobre un eje numérico. Por ejemplo, para los visitantes de una tienda online, podemos representar el resultado como 1, si la compra se realiza, o como 0, en caso contrario.

### Las variables aleatorias pueden ser discretas o continuas

Al igual que todas las variables cuantitativas, las variables aleatorias pueden ser discretas o continuas. Así, el tiempo pasado en un sitio web es un ejemplo de variable continua, mientras que el número de compras es un ejemplo de variable discreta.

- Digamos que X es el tiempo pasado en un sitio web.
- Y es el número de compras en una tienda online.
- Tanto X como Y son variables aleatorias.

Entonces recordar:

>Es imposible predecir con un 100% de exactitud qué valor tomará una variable aleatoria.

## Distribuciones de probabilidad

¡Genial! Sabemos calcular la probabilidad de valores discretos, por ejemplo, la probabilidad de obtener un determinado valor al lanzar un dado. Pero, ¿qué ocurre en casos más complejos? Cómo calculamos la probabilidad de que:

- un cliente gaste más de $50 en la tienda;
- menos del 5% de las piezas producidas en la fábrica sean defectuosas;
- al menos 25 personas compren entradas para ir al cine.

Incluso para los valores discretos, los cálculos pueden ser más complicados que en el ejemplo de los dados.

En estadística, la distribución de probabilidad es una función matemática que muestra la probabilidad de diferentes resultados para un experimento. En esta lección, te presentaremos distintos tipos de distribuciones de probabilidad utilizando descripciones verbales en lugar de fórmulas matemáticas.

> **Distribución binomial**: La distribución de probabilidad discreta que describe el número de resultados positivos en un número fijo de ensayos.

Ejemplo: Los resultados de la conversión en compra de llamadas publicitarias: Éxito: se realiza la compra. Fracaso: el cliente se niega a realizar la compra.

> **Distribución uniforme** : La distribución de probabilidad continua en la que cada valor dentro de un rango determinado tiene la misma probabilidad de ser seleccionado. 

Ejemplo: Los resultados que se obtienen al tirar un dado: cada resultado tiene la misma probabilidad de ocurrir.

> **Distribución normal**: La distribución de probabilidad discreta o continua en la que los datos tienden a agruparse en torno a un valor medio o promedio.

Ejemplo: Resultados del examen SAT: la mayoría de los estudiantes de secundaria obtienen una puntuación media. Cuanto más cerca estén los resultados del mínimo o del máximo, con menos frecuencia se producirán.

## Usar Python para trabajar con distribuciones

Para crear datasets con varios tipos de distribución, vamos a utilizar la librería NumPy. Esta librería trabaja con matrices de datos de muchas dimensiones y dispone de formas rápidas de realizar cálculos complicados con muchos números a la vez.

Para crear ndarray utilizamos la función np.array(). Como argumento, debes especificar una lista de datos que deben colocarse en un array:


In [2]:
import numpy as np

data = np.array([1, 3, 5, 7, 11, 13, 17, 19, 23, 317])

In [3]:
print("El primer elemento:", data[0])
print("El último elemento:", data[-1])
print("Todos los elementos excepto el primero y el último:", data[1:-1])

El primer elemento: 1
El último elemento: 317
Todos los elementos excepto el primero y el último: [ 3  5  7 11 13 17 19 23]


NumPy puede utilizarse para generar números aleatorios con una distribución especificada, mediante la función normal() del módulo random. Para generar un array de 20 números que sigan una distribución normal, utiliza el siguiente código:

In [6]:
import numpy as np

data = np.random.normal(size = 20)
print(data)

[ 0.44491618 -0.01738544 -0.91545755 -0.82687371  0.06164529 -0.2684718
  0.41199303  0.3656476  -0.54558611  0.56412965 -0.74815662 -1.18747342
  0.10351573 -0.29769532 -0.75988389  0.91438384  0.33256927 -1.96673781
 -0.6095973   0.25523956]


Para generar un array con una media y una desviación estándar dadas, tenemos que especificar los valores de estos parámetros:

In [7]:
import numpy as np

mean = 15  # media entre 1 y 30
std_dev = 5  # desviación estándar aleatoria

data = np.random.normal(mean, std_dev, size=20)
print(data)

[ 6.36556602 17.64684587 14.69218535 12.38189022 18.24395005 17.65372676
 19.97966447 15.34908238 21.11522337 10.24199808 17.17910831  9.5980393
 19.8884673  14.10867443 13.8826155   9.73109541 12.13344757 16.50198614
 14.42147074 16.40117517]


Ahora, está todo listo para trabajar con los datos. Supongamos que el array contiene los datos del peso de los paquetes comprados por los 30 primeros visitantes de la tienda. ¿Cuántos visitantes se fueron con un paquete que pesaba más que la media?

In [8]:
# declara una variable para almacenar el número de visitantes.
# como aún no hemos empezado a contar,
# el número de visitantes con una bolsa pesada es cero.
visitors_number = 0

# crea un bucle para iterar consecutivamente sobre el peso de cada bolsa.
for weight in data:
    # si el peso de la bolsa actual es mayor que la media, aumenta el contador.
    if weight > mean:
        visitors_number += 1

# muestra el número de visitantes con bolsas pesadas.
print("Número de visitantes con bolsas pesadas:", visitors_number)

Número de visitantes con bolsas pesadas: 10


# Ejercicios

**Ejercicio 1**

Tenemos a 30 estudiantes que realizaron un examen. Sus puntuaciones se almacenan en la variable exam_results. Si un estudiante obtuvo menos de 20 puntos, reprobó el examen. Escribe un programa que cuente cuántos estudiantes reprobaron el examen y almacena el resultado en la variable failed_students. Muestra el resultado.



In [9]:
import numpy as np

exam_results = np.array(
    [
        42,
        56,
        59,
        76,
        43,
        34,
        62,
        51,
        50,
        65,
        66,
        50,
        46,
        5,
        79,
        99,
        51,
        26,
        35,
        8,
        34,
        47,
        64,
        58,
        61,
        12,
        30,
        63,
        20,
        68,
    ]
)


failed_students = 0  # valor inicial

for result in exam_results:
    if result < 20:
        failed_students += 1
    # código para los cálculos

print("Número de estudiantes reprobados:", failed_students)

Número de estudiantes reprobados: 3


**Ejercicio 2**

Vamos a seguir con los resultados del examen. Ahora tenemos que contar no solo a los estudiantes que reprobaron, sino también a los que obtuvieron otros resultados: excelente (90 puntos o más), notable (70-89 puntos), satisfactorio (50-69) y aprobado (20-49).

Crea un diccionario summarized_data y escribe código para rellenarlo con los datos necesarios.

In [10]:
import numpy as np

exam_results = np.array(
    [
        42,
        56,
        59,
        76,
        43,
        34,
        62,
        51,
        50,
        65,
        66,
        50,
        46,
        5,
        79,
        99,
        51,
        26,
        35,
        8,
        34,
        47,
        64,
        58,
        61,
        12,
        30,
        63,
        20,
        68,
    ]
)

summarized_data = {
    "excellent": 0,  # añade el valor inicial aquí,
    "good": 0,  # añade el valor inicial aquí,
    "average": 0,  # añade el valor inicial aquí,
    "passable": 0,  # añade el valor inicial aquí,
    "failed": 0,  # añade el valor inicial aquí
}
for result in exam_results:
    if result >= 90:
        summarized_data["excellent"] += 1
    elif result >= 70:
        summarized_data["good"] += 1
    elif result >= 50:
        summarized_data["average"] += 1
    elif result >= 20:
        summarized_data["passable"] += 1
    else:
        summarized_data["failed"] += 1

# código para mostrar los resultados en pantalla. No lo cambies.
for result in summarized_data:
    print(result, "-", summarized_data[result])

excellent - 1
good - 2
average - 14
passable - 10
failed - 3


# ==========================

# Trabajar con una distribución binomial

En el mundo real, hay muchos experimentos que tienen dos resultados posibles. Por ejemplo, ganar o no ganar la lotería; o si una tostada con mantequilla cae al suelo por la parte untada o no; o si un cliente cambia su cuenta a una cuenta premium o rechaza la oferta. Cuando realizamos un experimento una vez y hay dos resultados posibles, estamos ante un experimento binomial simple o ensayo de Bernoulli.

Supongamos que en el 88% de las casos los usuarios y las usuarias hacen su primer clic en un banner publicitario, y en el 12% de los casos hacen clic en otro sitio y acaban en una página diferente.
¿Cuál es la probabilidad de que, de dos usuarios diferentes, uno haga clic en el banner y el otro no?

> Hay dos formas de obtener el resultado deseado: (1) el primer usuario hace clic en el banner y el segundo no o (2) el primer usuario no hace clic en el banner y el segundo sí. La probabilidad de cada escenario es 0.88 * 0,12 = 0.1056 y 0.12 * 0.88 = 0.1056, respectivamente. Al sumarlas, obtenemos aproximadamente el 21%.


## Calcular el numero de k exitos de n pruebas

Como recordarás, tenemos que encontrar la manera de calcular de cuántas formas podemos obtener k éxitos de n pruebas sin necesidad de compilar una tabla con todos los resultados posibles.

Si aplicamos esta fórmula al ejemplo de los clics en el banner, podemos considerar n como el número total de usuarios y k como el número de clics en el banner. La fórmula nos ayudará a calcular de cuántas formas podemos seleccionar un grupo de k usuarios del total de n usuarios que hagan clic en el banner y no en otro enlace.

Para encontrar el mismo resultado en Python podemos utilizar el código:

In [11]:
from math import factorial

c = factorial(10) / (factorial(7) * factorial(3))
print(c)

120.0


Escribe el código para encontrar el número de formas en las que 90 de cada 100 usuarios hacen clic en el banner. Guarda el resultado en la variable c.

In [12]:
from math import factorial

c = factorial(100) / (factorial(90) * factorial(100 - 90))  # escribe tu código aquí

print(c)

17310309456440.0


## Encontrar la probabilidad de n exitos

Bien, podemos calcular cuántas formas hay de obtener k éxitos a partir de n pruebas. Pero, ¿cómo podemos calcular la probabilidad de obtener ese número de éxitos?

Recuerda que, aunque habrá muchas combinaciones que den k éxitos, cada una de ellas tendrá la misma probabilidad. Por lo tanto, necesitamos:

- Encontrar la probabilidad de una sola forma de obtener k éxitos de n experimentos.
- Encontrar el número total de combinaciones que dan k éxitos.
- Multiplicar ambos resultados.

Veamos más detenidamente el primer punto. Supongamos que los 7 primeros clics se producen en el banner y los 3 restantes no.

La formula es:

> P = p(elevado K) * q(elevado n-k)     donde:
- p es la probabilidad de éxito.
- q es la probabilidad de fracaso.
- k es el número de pruebas realizadas con éxito.
- n es el número total de pruebas.

## Distribución binomial

Hagamos una lista de las condiciones que deben cumplirse para que una variable aleatoria tenga una distribución binomial:

- Se lleva a cabo un número fijo y finito de pruebas (n).
- Cada prueba es un experimento binomial simple que tiene exactamente dos resultados.
- Las pruebas son independientes entre sí.
- La probabilidad de éxito (p) es la misma para todos los n intentos.

# Ejercicios

**Ejercicio 1**

Los portátiles de Pineapple son caros, pero siguen siendo populares entre los geeks de la informática: el 60% de los clientes están dispuestos a comprarse una computadora portátil de esta marca si acuden a la tienda. Los portátiles de Banana son más baratos, pero no tan populares: solo el 20% de los visitantes de la tienda están dispuestos a comprarlos.

Supongamos que la tienda solo tiene a la venta equipos de Pineapple. ¿Cuál es la probabilidad de que 50 de cada 80 clientes realicen una compra en un día?

Guarda el resultado en la variable probability y muéstralo.

No olvides que en Python se utiliza el signo ** para la exponenciación.



In [13]:
from math import factorial

p = 0.6  # la probabilidad de que un cliente realice una compra
q = 1 - p  # la probabilidad de que un cliente NO realice una compra
n = 80  # el número total de visitantes
k = 50  # el número de visitantes que esperamos que realicen una compra

probability = (
    factorial(n) / (factorial(k) * factorial(n - k)) * p**k * q ** (n - k)
)  # escribe aquí el código para realizar los cálculos
# n! / (k! * (n-k)!) * p**k * q**(n-k).
print(probability)

# El resultado quiere decir que existe una probabilidad el 8% que 50 de 80 visitantes hagan una compra. 

0.0826713508623046


**Ejercicio 2**

Supongamos que, al lado de una tienda de hardware Pineapple, hay un gran centro comercial con otra tienda que vende computadoras Banana. 160 clientes visitan esa tienda durante el día. ¿Cuál es la probabilidad de que 50 de esos visitantes se compren una computadora portátil?

Recuerda que solo el 20% de los usuarios están dispuestos a comprar un portátil de la marca Banana.

Guarda el resultado en la variable probability y muéstralo.

In [14]:
from math import factorial

p = 0.2  # la probabilidad de que un cliente realice una compra
q = 1 - p  # la probabilidad de que un cliente NO realice una compra
n = 160  # el número total de visitantes
k = 50  # el número de visitantes que esperamos que realicen una compra

probability = (
    factorial(n) / (factorial(k) * factorial(n - k)) * p**k * q ** (n - k)
)  # escribe aquí el código para realizar los cálculos

print(probability)

0.00024035993375900262


# =====================

# Trabajar con distribución normal

Esta distribución se manifiesta en diversas situaciones, desde representar la altura de la población hasta determinar las tasas de falla en equipos.

Aunque existen otras distribuciones en el mundo real, la normal se destaca por su prevalencia y relevancia teórica.

> Supongamos que el número de horas que los clientes pasan en el gimnasio cada semana sigue una distribución normal con una media de 4 y una desviación típica de 1. ¿Qué porcentaje de clientes pasa más de 6 horas a la semana en el gimnasio?

> **menos del 3%**
> El valor "más de 6 horas" es de 2 sigma por encima de la media. Sabemos que el 95% de los valores están dentro del intervalo media +/- 2σ. El 5% restante se distribuye uniformemente entre dos intervalos que están fuera del intervalo media +/- 2σ. A nosotros solo nos interesa el primer intervalo, que contiene la mitad del 5% restante. -->




## Calcular probabilidades en datos normalmente distribuidos con Python

Python puede hacer los cálculos por nosotros. Para ello nos hacen falta métodos de la librería SciPy y su módulo intermedio **stat**s.

SciPy es una librería Python gratuita y de código abierto que se utiliza para la computación científica y técnica. Contiene módulos para optimización, álgebra lineal, integración, procesamiento de señales e imágenes y muchos otros propósitos.

En esta lección examinaremos la función **stats.norm()**, que genera una distribución normal con unos parámetros dados (media y desviación estándar). También estudiaremos los métodos **norm.cdf** y **norm.ppf**, que permiten buscar respuestas a preguntas concretas.

Veamos estos métodos con más detalle. Para ilustrarlo, consideremos el siguiente ejemplo: en la India, los estudiantes mayores de edad gastan una media de 5 000 dólares para aprender una nueva profesión, con una desviación típica de 1 500 dólares.

> La función de distribución acumulativa **norm.cdf()**

Da la probabilidad de que una variable aleatoria sea menor o igual que un valor determinado.
Por Ejemplo: 
*¿Cuál es la probabilidad de que un estudiante pueda aprender una nueva profesión por menos de 4 000 dólares?*

> La función de punto porcentual **norm.ppf()**

Da el valor de la variable aleatoria que corresponde a una determinada probabilidad. Por ejemplo: 
*¿Cuál es el coste máximo de la formación para el 10% de los estudiantes que gastaron menos dinero en sus estudios?*



### **Veamos cómo obtener respuestas a estas preguntas utilizando Python.**

*¿Cuál es la probabilidad de que un estudiante pueda aprender una nueva profesión por menos de 4 000 dólares?*

In [3]:
# importamos el módulo stats.
from scipy import stats as st

# creamos un objeto con datos distribuidos normalmente con una media de 5 000
# y una desviación estándar de 1500.
data = st.norm(5000, 1500)

# creamos una variable para almacenar el coste deseado.
desired_cost = 4000

# calculamos la probabilidad de obtener el valor desired_cost.
probability = data.cdf(desired_cost)

print(probability)

# nos sale que el resultado es superior al 25%

0.2524925375469229


Y ahora, a por la segunda pregunta: *¿Cuál es el coste máximo de la formación para el 10% de los estudiantes que gastaron menos dinero en sus estudios?*

In [4]:
# otra vez empezamos con la importación y creación de la distribución.
from scipy import stats as st

data = st.norm(5000, 1500)

# establecemos el valor de la probabilidad. Buscaremos el umbral del coste de los estudios
# para el 10% de los estudiantes que gastaron menos dinero.
target_level = 0.1

# encontramos el importe que no supere los gastos del 10% de estudiantes que gastaron menos dinero.
cost = data.ppf(target_level)

print(cost)

3077.6726516830995


In [6]:
from scipy import stats as st

data = st.norm(1000,100).cdf(1100) - st.norm(1000,100).cdf(900)

print(data)

#El resultado quiere decir que nos encontramos dentro del 1er sigma

0.6826894921370859
