# Lab | Intro to Probability

**Objective**

Welcome to this Intro to Probability lab, where we explore decision-making scenarios through the lens of probability and strategic analysis. In the business world, making informed decisions is crucial, especially when faced with uncertainties. This lab focuses on scenarios where probabilistic outcomes play a significant role in shaping strategies and outcomes. Students will engage in exercises that require assessing and choosing optimal paths based on data-driven insights. The goal is to enhance your skills by applying probability concepts to solve real-world problems.

**Challenge 1**

#### Ironhack Airlines 

Often Airlines sell more tickets than they have seats available, this is called overbooking. Consider the following:
- A plane has 450 seats. 
- Based on historical data we conclude that each individual passenger has a 3% chance of missing it's flight. 

If the Ironhack Airlines routinely sells 460 tickets, what is the chance that they have a seats for all passenger?

In [14]:
#code here

from scipy.stats import binom
from scipy.stats import poisson
from scipy.stats import expon
from scipy.stats import norm

In [None]:
### Ensayos Independientes: En el modelo, cada pasajero representa un ensayo independiente. 
# La decisión de un pasajero de presentarse al vuelo no afecta la decisión de otro.

### Dos Resultados Posibles: Cada pasajero tiene dos posibles resultados: presentarse o no 
# presentarse al vuelo. Esto se alinea perfectamente con los ensayos Bernoulli, que son la 
# base de las distribuciones binomiales.

### Probabilidad Constante: En la situación dada, la probabilidad de un pasajero específico 
# de presentarse al vuelo es constante al 97% (0.97) para todos los pasajeros. 
# Esto es crucial para usar la distribución binomial, que requiere que cada ensayo tenga la 
# misma probabilidad de éxito.

### Número Fijo de Ensayos: El número total de pasajeros (ensayos) es conocido y fijo, en 
# este caso, 460 tickets vendidos.

# Por ello, la mejor distribución a usar es la binomial de Bernoulli.

In [3]:
# Parámetros para la distribución binomial
n = 460  # Número de muestras (tickets vendidos)
p = 0.97 # Probabilidad de que cada pasajero se presente

# Probabilidad de que se presenten 450 pasajeros.
probability = binom.cdf(450, n, p)

print(f"Probability of having a seat for all passengers: {probability:.4f}")

Probability of having a seat for all passengers: 0.8845


**Challenge 2**

#### Ironhack Call Center 

Suppose a customer service representative at a call center is handling customer complaints. Consider the following:
- The probability of successfully resolving a customer complaint on the first attempt is 0.3. 


What is the probability that the representative needs to make at least three attempts before successfully resolving a customer complaint?

In [None]:
#code here

### Éxito/Fracaso en Ensayos: En este escenario, cada intento de resolver la queja del cliente
# es un ensayo independiente con dos posibles resultados: éxito (resolución de la queja) o fracaso
# (la queja no se resuelve en ese intento).

### Independencia de Ensayos: Cada intento de resolver la queja no depende del resultado de los 
# intentos previos. Esto es esencial para aplicar la distribución geométrica, que asume que los 
# ensayos son independientes entre sí.

### Probabilidad Constante de Éxito: La probabilidad de resolver una queja en cualquier intento 
# individual es constante en 0.3. Las distribuciones geométricas requieren que esta probabilidad 
# de éxito ( p ) sea la misma en cada ensayo.

### Contar Ensayos hasta el Primer Éxito: La pregunta se refiere explícitamente al número de intentos
#  requeridos hasta que ocurra el primer éxito. Este es el escenario prototípico que maneja la 
# distribución geométrica, donde estamos interesados en contar cuántos intentos son necesarios 
# hasta lograr el primer éxito.

# Por ello, la mejor distribución a usar es la geométrica.

In [4]:
# Probabilidad de éxito en el primer intento:
p_success = 0.3

# Calcular probabilidades para el primer y segundo intento:
p_first_attempt = p_success
p_second_attempt = (1 - p_success) * p_success

# Probabilidad de necesitar al menos tres intentos:
p_at_least_three = 1 - (p_first_attempt + p_second_attempt)

print(f"The probability that the representative needs at least three attempts is: {p_at_least_three:.4f}")

The probability that the representative needs at least three attempts is: 0.4900


**Challenge 3**

#### Ironhack Website

Consider a scenario related to Ironhack website traffic. Where:
- our website takes on average 500 visits per hour.
- the website's server is designed to handle up to 550 vists per hour.


What is the probability of the website server being overwhelmed?

In [None]:
### Eventos Independientes: Los eventos (visitas al sitio web) ocurren de manera independiente. 
# La visita de un usuario no depende de la visita de otro, lo que es una suposición clave para 
# el modelo de Poisson.

### Frecuencia de Eventos en un Intervalo Fijo: La distribución de Poisson se utiliza para modelar 
# el número de eventos en un intervalo de tiempo o espacio fijo. En este caso, nos interesa el 
# número de visitas a una página web en una hora determinada.

### Tasa de Evento Constante: La tasa promedio de visitas es constante en el tiempo; es decir, 
# esperamos aproximadamente 500 visitas por hora. Esta tasa constante es una característica 
# definitoria de los procesos de Poisson.

### Número Teórico Ilimitado de Eventos: La distribución de Poisson se adecua bien para casos 
# donde, aunque no necesariamente ocurran, es teóricamente posible un número grande de eventos. 
# Aquí el número de visitas puede, en teoría, ser cualquier número entero no negativo.

# Por ello, la mejor distribución a usar es la de Poisson.

In [7]:
#code here

# Average number of visits per hour
lambda_visits = 500

# Server's capacity
capacity = 550

# Calculate the probability that the number of visits is greater than the server's capacity
probability_overwhelmed = 1 - poisson.cdf(capacity, lambda_visits)

print(f"The probability of the server being overwhelmed is: {probability_overwhelmed:.4f}")

The probability of the server being overwhelmed is: 0.0129


What is the probability of being overwhelmed at some point during a day? (consider 24hours)

In [8]:
#code here

# Calculate for 24 hours
p_overwhelmed_24_hours = 1 - ((1 - probability_overwhelmed) ** 24)

print(f"The probability of being overwhelmed at least once during the day is: {p_overwhelmed_24_hours:.4f}")

The probability of being overwhelmed at least once during the day is: 0.2677


**Challenge 4**

#### Ironhack Helpdesk

Consider a scenario related to the time between arrivals of customers at a service desk.

On average, a customers arrives every 10minutes.

What is the probability that the next customer will arrive within the next 5 minutes?

In [None]:
### Modelo de Tiempo entre Eventos en Procesos de Poisson: La distribución exponencial es 
# utilizada para modelar el tiempo entre eventos en un proceso de Poisson. Si los eventos 
# (en este caso, llegadas de clientes) ocurren de manera independiente y a una tasa promedio 
# constante, entonces el tiempo entre estos eventos está bien modelado por una distribución exponencial.

### Eventos Independientes: En nuestro escenario, las llegadas de los clientes son independientes
#  entre sí, lo que significa que la llegada de un cliente no afecta la llegada del siguiente. 
# Esta independencia es una característica clave para aplicar la distribución exponencial.

### Tasa Constante: Tenemos una tasa de llegadas constante, es decir, un cliente llega cada 
# 10 minutos, en promedio. La constancia de esta tasa es otra característica clave que hace 
# a esta situación adecuada para un modelo exponencial.

### Interés en Tiempo Continuo: La distribución exponencial se utiliza cuando estamos interesados
#  en el tiempo continuo entre la ocurrencia de eventos, en lugar de un conteo discreto de eventos
#  en un intervalo de tiempo (que sería modelado con una distribución de Poisson).

# Por ello, la mejor distribución a usar es la exponencial.

In [10]:
# Rate of customer arrival per minute
lambda_rate = 1 / 10

# Calculate the probability of a customer arriving within 5 minutes
probability_within_5 = expon.cdf(5, scale=1/lambda_rate)

print(f"The probability that the next customer will arrive within the next 5 minutes is: {probability_within_5:.4f}")

The probability that the next customer will arrive within the next 5 minutes is: 0.3935


If there is no customer for 15minutes, employees can that a 5minutes break.

What is the probability an employee taking a break?

In [13]:
# Calculate the probability of a customer arriving within 15 minutes
probability_within_15 = expon.cdf(15, scale=1/lambda_rate)
probability_break = 1 - probability_within_15
print(f"The probability that the employees can take a break is: {probability_break:.4f}")

The probability that the employees can take a break is: 0.2231


**Challenge 5**

The weights of a certain species of birds follow a normal distribution with a mean weight of 150 grams and a standard deviation of 10 grams. 

- If we randomly select a bird, what is the probability that its weight is between 140 and 160 grams?

In [15]:
#code here

# Parametros de la distribución normal
mu = 150  
sigma = 10  

# Probabilidad para 160 gr y 140 gr
probability_less_than_160 = norm.cdf(160, loc=mu, scale=sigma)
probability_less_than_140 = norm.cdf(140, loc=mu, scale=sigma)

# Probabilidad de peso entre esos dos
probability_between_140_and_160 = probability_less_than_160 - probability_less_than_140

print(f"The probability that a randomly selected bird weighs between 140 and 160 grams is: {probability_between_140_and_160:.4f}")




The probability that a randomly selected bird weighs between 140 and 160 grams is: 0.6827


**Challenge 6**

If the lifetime (in hours) of a certain electronic component follows an exponential distribution with a mean lifetime of 50 hours, what is the probability that the component fails within the first 30 hours?

In [17]:
#code here

# Rate of customer arrival per minute
lambda_rate = 1 / 50

# Calculate the probability of a customer arriving within 5 minutes
probability_within_30 = expon.cdf(30, scale=1/lambda_rate)

print(f"The probability that the component fails within the first 30 hours is: {probability_within_30:.4f}")

The probability that the component fails within the first 30 hours is: 0.4512
