# Todo sobre la Distribucion de Erlang

Es una Distribucion continua de probabilidad utilizada para modelar el tiempo necesario para que ocurran $k$ eventos en un procesos de Poisson. Fue desarrollada por Agner Erlang en el contexto de la teoria de colas y telecomunicaciones y es esencial en situaciones donde se estudian tiempos entre eventos. Algunas aplicaciones comunes en Ciencia de Datos son:

- Modelado de tiempos de espera entre eventos en sistemas de colas como en centros de atencion al cliente.

- Modelado del tiempo entre la ocurrencia de multiples eventos sucesivos.

- Modelado del tiempo entre la ocurrencia de errores o bugs en software ayudando a predecir la frecuencia y tiempo de las fallas.

- Simulacion de procesos industriales constituidos por varias etapas, como tiempos de produccion.

- Modelado de flujo de clientes en sistemas que requieren multiples interacciones o fases como en centro comerciales, hospitales, o servicios en linea.

## Deduccion de la Distribucion Erlang

La D. Erlang se obtiene de la generalizacion de la D. Exponencial la cual modela el tiempo transcurrido entre dos eventos, o bien, el tiempo que transcurre hasta que ocurre el primer evento.

La variable $X$ de la D. exponencial representa el tiempo que transcurre para la primera ocurrencia. Una generalizacion consiste en hallar el tiempo que transcurre para r-esima ocurrencia, es decir

$$Y = X_1 + X_2 + X_3 + ... + X_r$$

Definimos $Y$ como la variable que representa dicha generalizacion la cual se interpreta como una suma de variables aleatorias exponenciales independientes entre si e identicamente distribuidas


$$X_i \sim Exp(\lambda) = \lambda e^{- \lambda x}$$

Supongamos que estamos interesados en obtener el tiempo que transcurre para la segunda ocurrencia, entonces $r = 2$, es decir

$$Y = X_1 + X_2$$

Debemos encontrar la funcion de distribucion de la variable $Y$ para poder calcular el tiempo. La funcion de probabilidad acumulada viene dada por:

$$F(y) = P(Y \leq y)$$

Sustituimos la variable $Y$ en la probabilidad,

$$F(y) = P(X_1 + X_2 \leq y)$$

Esta expresion corresponde a una funcion de densidad conjunta la cual presenta la siguiente propiedad:

$$ f_{X_1X_2}(X_1, X_2) = f_{X_1}(X_1)f_{X_2}(X_2)$$

Aplicando la propiedad anterior y sustituyendo las $X_i$ por su correspondiente distribucion exponencial, obtenemos

$$F(y) = \lambda^2 e^{-\lambda(x_1 + x_2)}$$

Para obtener la probabilidad buscada $F(y) = P(X_1 + X_2 \leq y)$ vamos a integrar sobre el area de interes

$$F(y) = P(X_1 + X_2 < y) =\int_{x_2 = 0}^{x_2 =y}\int_{x_1 = 0}^{x_2 = y - x_2} \lambda^2 e^{-\lambda(x_1 + x_2)} dx_1 dx_2$$

El resultado de la integral es el siguiente:

$$F(y) = P(X_1 + X_2 < y) = 1 - e^{-\lambda y} -\lambda y e^{-\lambda y}$$

si derivamos la expresion anterior obtenemos la funcion de densidad

$$f(y) = \frac{d(F(y))}{dy} = \lambda^2 y e^{-\lambda y}$$

donde $y \geq 0$

Ahora, supongamos que estamos interesados en el tiempo que transcurre para la tercera ocurrencia, es decir $r = 3$

$$Y = X_1 + X_2 + X_3$$

Procediendo como para $k=2$ obtenemos la siguiente funcion de densidad

$$f(y) = \frac{1}{2} \lambda^2 y^2 e^{- \lambda y}$$

Generalizando la funcion de densidad para diferentes valores de $k$, obtenemos

$$Er(y) = f(y) =  \frac{\lambda^k y^{r-1}e^{- \lambda y}}{(r-1)!} $$

que corresponde a la funcion de densidad de la D. de Erlang.

## Funcion de Densidad de Probabilidad

La funcion de densidad de probabilidad para la D. Erlang viene dada por:

$$ Er(r, \lambda) = \frac{\lambda^r x^{r-1}e^{-\lambda x}}{(r-1)!}$$

donde:

- $x \geq 0$
- $\lambda$ es la intensidad de proceso conocido tambien como parametro de escala.
- $r$ es un entero positivo que representa el numero de exitos que se desea obtener, tambien llamado parametro de forma.

La grafica de la D. Erlang con valores de $\lambda = 2$ y $k = 3$ viene dada por:

![image.png](attachment:image.png)

## Propiedades de la D. Erlang

- **La media $\mu_E$** viene dada por el valor esperado $E[Y]$ de la suma de las $r$ variables exponenciales

$$E[Y] = E[X_1 + X_2 + ... + X_k]$$
$$E[Y] = E[X_1] + E[X_2] + ... + E[X_k]$$

Sabemos que el valor esperado de una variable exponencial viene dado por:

$$E[X_i] = \frac{1}{\lambda}$$

Por tanto, sustituyendo en la ecuacion obtenemos que el valor de la media de la D. Erlang viene dada por:

$$\mu_E = E[Y] = \frac{1}{\lambda} + \frac{1}{\lambda} + \frac{1}{\lambda} ... = \frac{r}{\lambda}$$

- **La varianza $\sigma^2$** viene dada por la varianza de la suma de las $k$ variables exponenciales,

$$Var[Y] = Var[X_1 + X_2 + X_3 +...+ X_r]$$

Puesto que las $X_k$ son variables independientes, la varianza puede reescribirse como la suma de la varianza de cada variable

$$Var[Y] = Var[X_1] + Var[X_2] + Var[X_3] + ... + Var[X_r]$$

Sabemos que la varianza de una variable exponencial viene dado por:

$$Var[X_i] = \frac{1}{\lambda^2}$$

Entonces, sustituyendo la varianza para cada variable $X_i$ obtenemos,

$$Var[Y] = \frac{r}{\lambda^2}$$

## Ejemplo 1: *Consideremos una variable aleatoria Erlang X con parametros $\lambda = 2$ y $r=3$. Calcular la probabilidad de que la variable sea menor o igual a 2*

Sabemos que la variable $X$ sigue una D. Erlang con los siguientes parametros:

$$X \sim Er(\lambda = 2, r = 3)$$

Se busca la probabilidad de que $X \leq 2$ que graficamente se representa como el area sombreada,

![image.png](attachment:image.png)

Para ello, utilizamos la funcion de densidad de probabilidad,

$$ Er(\lambda, r)= \lambda e^{-\lambda x} \frac{(\lambda x)^{r-1}}{(r - 1)!}$$

Sustituimos las valores dados en la funcion e integramos el area de 0 hasta 2, que corresponde a la probabilidad solicitada:

$$P(X \leq 2) = \int_{0}^{2}2 e^{-2x} \frac{(2x)^{3-1}}{(3 - 1)!}dx$$

$$P(X \leq 2) = \int_{0}^{2} e^{-2x} (2x)^{2}dx = \left [ (-1 -2x -2x^2)e^{-2x} \right]_0 ^2$$

$$P(X \leq 2) = 1 - 13e^{-4} = 0.7618$$

> La probabilidad que la variable $X$ sea menor o igual a 2 es de 76.18%.

Otra forma de resolver el problema es a traves del metodo de la Funcion de Distribucion Acumulada (CDF) de la D. Erlang que trae la libreria Scipy de Python. Esta nos permite calcular la parobabilidad acumulada hasta el valor limite dado.

In [5]:
# parametros de la distribucion

# de forma
r = 3
# de escala
lamb = 2
# valor limite
x = 2


In [6]:
# libreria para utilizar Erlang
from scipy.stats import erlang 

# calulo de la probabilidad acumulada hasta 2
prob = erlang.cdf(x, r, scale=1/lamb)
prob

0.7618966944464556

> Obtenemos el mismo resultado que el anterior (76.18% de probabilidad) pero esta vez, evitamos el calculo de la integral.

## Ejemplo 2: *Las fallas de unidades de procesamiento central (CPU) de los sistemas de computadores grandes se modelan con frecuencia como un proceso de Poisson. Por lo general, las fallas no son causadas por degaste sino por otros factores. Suponga que las unidades que fallan se reparan de inmediato y que el numero promedio de fallas por hora es de 0.0001.* 

### Sea $X$ el tiempo hasta que ocurren 4 fallas en un sistema. Determine la probabilidad de que $X$ exceda 40000 horas.

Como $X$ representa el tiempo que en el que ocurren 4 fallas, debemos utilizar la D. Erlang. En caso que represente solo una falla, bien podemos usar la D. Exponencial. Sabemos que $X$ sigue una D. Erlang con los siguientes parametros

$$X \sim Er(r=4, \lambda = 0.0001)$$

Nos piden calcular la probabilidad de de $X$ sea mayor a 4000,

$$P(X > 40000)$$

Que graficamente es calcular el area sombreada de la siguiente distribucion

![image.png](attachment:image.png)

Una forma de resolverlo con el metodo CDF de Scipy es aplicando la propiedad del complemento a la probabilidad anterior

$$P(X > 40000) = 1 - P(X \leq 40000)$$

Donde $P(X \leq 40000)$ se puede resolver mediante CDF y se representa como la siguiente area.

![image-2.png](attachment:image-2.png)


In [7]:
# parametros de la D.

# de escala
lamb = 0.0001
# de forma
r = 4
# valor limite
x = 40000

Ahora, calculamos la probabilidad acumulada hasta el valor limite

In [10]:
prob = erlang.cdf(x, r, scale=1/lamb)
prob = round(prob, 4)
prob

0.5665

Agregamos el resultado a $P(X > 40000)$ y obtenemos su valor

In [11]:
result = 1 - prob
result

0.4335

> La probabilidad de que el tiempo hasta que ocurran 4 fallas excedan las 40000 horas es de 43.35%.