# Distribucion Weibull

Es una distribucion continua de probabilidad que modela el tiempo hasta el fallo de un producto o sistema, siendo especialmente util en analisis de confiabilidad, vida util de materiales y analisis de riesgos

La D. Exponencial supone una tasa de eventos constante en el tiempo, lo que indica la ausencia de memoria del sistema (el tiempo que pasa desde el ultimo evento no afecta la probabilidad de que ocurra el proximo). Sin embargo, en casos como los componentes mecanicos que tienen una mayor probabilidad de fallar a medida que envejece debido al desgaste, esta distribucion ya no se aplica. En tales caso, la D. de Weibull es adecuada porque permite modelar tasas de fallo que aumentan o disminuyen en el tiempo.

La D. de Poisson modela conteos discretos de eventos en un intervalo de tiempo o espacio bajo la suposicion de independencia de los eventos y una tasa de ocurrencia constante. En casos donde, por ejemplo, el numero de llamadas a un centro de soporte tecnico varia segun la hora del dia, la D. de Poisson deja de ser valida. Es alli donde la D. de Weibull es relevante ya que puede modelar esta variabilidad introduciendo una tasa de eventos dependiente del tiempo.

En resumen, la D. de Weibull es mas relevante que la Exponencial o Poisson cuando hay una tasa de ocurrencia variable, se requiere flexibilidad en la forma de la distribucion o se analiza la duracion de eventos.

# Deduccion de la Distribucion Weibull

La D. Weibull se deriva como una generalizacion de la D. Exponencial para permitir que la tasa de fallo (o la probabilidad de ocurrencia de un evento) sea variable en lugar de constante.

Se inicia con la funcion de supervivencia $S(x)$ que representa la probabilidad de que un evento no haya ocurrido hasta un tiempo $x$:

$$S(x) = P(X > x)$$

En terminos de la funcion de distribucion acumulada $F(x)$ se tiene:

$$S(x) = 1 - F(x)$$

Para Weibull se postula que la funcion de supervivencia tiene la forma exponencial generalizada:

$$S(x) = e^{-(\frac{x}{\lambda })^{k}}$$

Donde:

- $x \geq 0$
- $\lambda > 0$ es el parametro de escala que ajusta el rango de valores de $x$.
- $k > 0$ es el parametro de forma que controla la forma de la distribucion.

La eleccion de esta forma de $S(x)$ se basa en su capacidad para modelar tasas de fallo crecientes o decrecientes segun el valor de $k$. Obtenemos la funcion de distribucion acumulada $F(x)$ de la ecuacion anterior:

$$F(x) = 1 - S(x)$$

$$F(x) = 1 - e^{-(\frac{x}{\lambda })^{k}}$$

Esta funcion representa la probabilidad acumulada CDF de que el evento ocurra antes de un tiempo $x$.

La funcion de distribucion de probabilidad PDF se obtiene derivando la CDF con respecto a x:

$$f(x) = \frac{dF(x)}{dx}$$

Sustityendo $F(x) = 1 - e^{-(\frac{x}{\lambda })^{k}}$ en la ecuacion anterior obtenemos:

$$f(x) = \frac{\mathrm{d} }{\mathrm{d} x}\left [ 1 - e^{-(\frac{x}{\lambda})^k} \right ]$$

Derivando el termino exponencial:
$$f(x) = \frac{\mathrm{d} }{\mathrm{d} x}\left [ - e^{-(\frac{x}{\lambda})^k} \right ]$$

Usando la regla de la cadena:
$$f(x)=e^{-(\frac{x}{\lambda})^{k} } \cdot \frac{\mathrm{d} }{\mathrm{d} x}\left [ - (\frac{x}{\lambda})^{k} \right ]$$

La derivada del exponente es:
$$f(x)=e^{-(\frac{x}{\lambda})^{k} } \cdot \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} $$

Simplificando obtenemos:
$$f(x)= \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} e^{-(\frac{x}{\lambda})^k}$$

para $x \geq 0$. Esta funcion corresponde a la funcion de densidad de la D. Weibull.

# Funcion de Densidad de Probabilidad

La funcion de densidad de probabilidad para la D. Weibull viene dada por:

$$ f(x,k,\lambda) = \begin{cases}
 \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} e^{-(\frac{x}{\lambda})^k},&  x\geq 0 \\
0, &  x<0 
\end{cases}$$

donde,
- $x$ es la variable aleatoria (el tiempo o la magnitud del evento)
- $k>0$ es el parametro de forma que determina la forma de la curva.
- $\lambda>0$ es el parametro de escala que estira o comprie la distribucion.

Los parametros de la D. Weibull se interpretan coo sigue:

- $k < 1$: la tasa de fallo disminuye con el tiempo. (producto con desgate temprano)
- $k = 1$: la tasa de fallo es contante lo que lleva a la D. esponencial.
- $k > 1$: la taa de fallo aumenta con el tiempo. (productos que se degastan con el uso)
- $\lambda$: escala el tiempo o magnitud del evento. Valores altos indican que el evento tarda mas en ocurrir. 

La grafica de la D. Weibull con valores de $k=6$ y $\lambda=3$ viene dada por:

![image.png](attachment:image.png)

# Propiedades de la D. Weibull

- __La Funcion de supervivencia $S(x)$__ mide la probabilidad de que un evento no haya ocurrido hasta $x$ y para la D. Weibull se define como:

$$S(x) = P(X>x) = e^{-(\frac{x}{\lambda})^k}$$

- __Funcion de Distribucion Acumulada (CDF)__ F(x) mide la probabilidad acumulada hasta $x$. Para la D. Weibull se deine como:

$$F(x)=P(X\leq x)=1-e^{-(\frac{x}{\lambda})^k}$$

- __Funcion de tasa de Fallo (Hazard Function)__ describe la probabilidad instantanea de fallo, dado que el evento no ha ocurrido hasta $x$:

$$h(x)=\frac{F(x)}{S(x)}=\frac{k}{\lambda}\left ( \frac{x}{\lambda} \right )^{k-1}$$

    - Si $k=1$, la tasa de fallo es constante, lo que corresponde a la D. Exponencial.
    - Si $k>1$, la tasa de fallo aumenta con x lo que es util para modelar tiempos de vida que empeoran con el tiempo.
    - Si $k<1$, la tasa de fallo disminuye con x lo que es util para modelar iniciales en el tiempo de vida.
    
- __La Media o esperanza $\mu_{E}$__ de la D. Weibull es:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

Donde $\Gamma(z)$ es la funcion Gamma

- __La Varianza $\sigma^{2}$__ mide la dispersion de la distribucion y se calcula como:

$$\sigma^{2} = \lambda^{2} \left [ \Gamma (1 +\frac{2}{k}) - \Gamma^{2} (1+\frac{1}{k}) \right ]$$

- __La Moda $x_{moda}$__ es el valor de x donde la densidad $f(x)$ alcanza su maximo:

$$X_{moda} = \lambda \cdot\left ( \frac{k-1}{k} \right )^{\frac{1}{k}}$$

Para $k>1$. Si $k \leq 1$ la distribucion no tiene un maximo definido.

## Ejemplo 1: _Suponga que la duracion  (en anos) de una bateria es una variable aleatoria que tiene una distribucion Weibull con $k=1.5$ y $\lambda=2$. Una bateria se considera especial si esta entre el 10% de mayor duracion._

### a.- Cuanto tiempo se espera que dure una bateria elegida al azar?

Para este caso la variable $X$ representa la duracion de la bateria en años. Como nos indica la variable sigue un proceso de Weibull y como nos piden calcular la esperanza $\mu_{E}$, podemos asumir que dicha variable sigue una D. Weibull

$$X \sim We(\lambda=2, k=1.5)$$

La formula de $E(x)$ viene dada por:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

Como conocemos los valores de los parametros, procedemos a resolverlo

In [2]:
# importamos el metodo gamma de la libreria scipy
from scipy.special import gamma

# asignamos los valores de k y lambda a variables
k = 1.5
lamb = 2

# resolvemos lo que esta entre parentesis
param = 1 + (1/k)

# mostramos el resultado
print(param)

1.6666666666666665


In [3]:
# hallamos el valor de Gamma(1.66)
Gamma = gamma(param)

# multiplicamos Gamma por lambda
result = lamb*Gamma

# mostramos el resultado
print(result)

1.805490585901867


> El tiempo esperado que dure una bateria elegida al azar es de 1.81 años.

### b.- Cual es la probabilidad de que dicha bateria siga funcionando despues de dos años?

No piden hallar la probabilidad de que la bateria funcione despues de 2 anos, es decir

$$P(x>2) = 1 - P(x \leq 2)$$

Entonces, debemos hallar $P(x \leq 2)$ con la Funcion de distribucion acumulativa CDF.  Graficamente lo que nos piden hallar es la probabilidad que esta repesentada por el area sombreada en el siguiente grafico

![image.png](attachment:image.png)



In [4]:
# importamos la D. Weibull
from scipy.stats import weibull_min

# representamos los parametros de la D.
k = 1.5
lamb = 2

# calculamos la probabilidad hasta x=2
cdf = weibull_min.cdf(2, k, scale=lamb)

# mostramos el resultado
print(cdf)

0.6321205588285577


Ahora lo que hacemos es sustituir el valor obtenido en la ecuacion anterior de $P(x > 2)$

In [5]:
P_2 = 1 - cdf
print(P_2)

0.36787944117144233


> La probabilidad que la bateria funcione despues de dos años es de 36.78% 

### c.- Cual es el tiempo minimo de duracion de una bateria para estar considerada como especial?

Para determinar el tiempo minimo de duracion de una bateria para ser considerada especial, sabemos que es considerada especial si esta entre el 10% de mayor duracion lo que indica que debemos encontrar el percentil 90 de la D. Weibull. Esto se calcula con la funcion _weibull_min.ppf()_

In [6]:
# umbral para el 10% de mayor duracion (percentil 90)
percentil_90 = weibull_min.ppf(0.9, c=k, scale=lamb)
print(percentil_90)

3.4874430271928234


> Una bateria debe durar como minimo 3.48 años para estar dentro del 10% de mayor duracion y ser considerada 'especial'.

## Ejemplo 2: Una empresa de almacenamiento en la nube desea modelar el tiempo de vida útil de sus discos duros para predecir fallos y optimizar su mantenimiento. Se ha observado que los tiempos de falla de los discos siguen una Distribución Weibull con los siguientes parámetros estimados: $k=1.5$ y $\lambda = 5000$ en horas

### a.-  ¿Cuál es la probabilidad de que un disco duro falle antes de alcanzar las 4000 horas de operación?

La variable $X$ representa el tiempo de falla de los discos duros. Como indican en el enunciado, la variable sigue una D. Weibull con $k=1.5$ y $\lambda=5000$ en horas. 

Nos piden hallar la probabilidad de que el disco duro falle antes de alcanzar las 4000 horas. La siguiente grafica muestra la probabilidad que nos piden calcular como el area sombreada.

![image-2.png](attachment:image-2.png)

Para calularlo, utilizamos la funcion cdf de la D. de weibull contenida em la libreria _stats_ de _Scipy_ 

In [7]:
# importamos las librerias
import numpy as np
import scipy.stats as stats

# Definimos parametros de la D.
k = 1.5 # parametro de forma
lamb = 5000 #parametro de escala

In [8]:
# calculamos la probabilidad de que falle antes de 4000
prob = stats.weibull_min.cdf(4000, c=k, scale=lamb)
prob

0.5110728376249136

> La probabilidad que el disco duro falle antes de las 4000 horas es de 51.11%.

### b.- ¿Cuál es la vida útil esperada de los discos duros en horas?

Para calcular la vida util esperada, utilizamos la esperanza de Weibull que viene dada por la siguiente formula:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

In [9]:
vida_media = lamb*np.math.gamma(1 + 1/k)
vida_media

4513.726464754668

> La cantidad promedio de horas que un disco duro operara antes de fallar es de 4514 horas.

### c.- ¿Cuántas horas deben transcurrir para que el 25% de los discos duros fallen?

Como nos piden las horas que deben transcurrir para que el 25% de los disco duros fallen, vamos a  utilizar la funcion _ppf_ de la D. Weibull

In [10]:
quantil_25 = stats.weibull_min.ppf(0.25, c=k, scale=lamb)
quantil_25

2178.939658515119

> Deben pasar 2179 horas para que el 25% de los discos duros fallen

## Ejemplo 3: Una empresa de tecnología administra un conjunto de 100 servidores en la nube y quiere analizar el tiempo hasta la falla de cada uno para predecir el mantenimiento preventivo y reducir el tiempo de inactividad. A partir de datos históricos, se ha determinado que los tiempos hasta la falla (en meses) siguen una distribución Weibull con los siguientes parámetros estimados: $k = 1.5$ y $\lambda = 12$ en meses

### a.- ¿Cuál es la probabilidad de que un servidor falle antes de 6 meses?

La variable $X$ viene representada por el tiempo hasta la falla de los servidores. Como la variable presenta un comportamiento dado por la D. Weibull, la grafica con los parametros dados es la siguiente:

![image.png](attachment:image.png)

Donde el area sombreada representa la probabilidad que se requiere calcular. En este caso, utilizamos la funcion de distribucion de weibull (cdf) la cual nos da la probabilidad acumulada hasta ciero punto $X$ que en este caso es 6. Vamos a usar la funcion _cdf_ de la D. Weibull contenida el la liberia _stats_

In [11]:
# importamos las librerias
import numpy as np
import scipy.stats as stats

# Definimos parametros de la D.
k = 1.5 # parametro de forma
lamb = 12 #parametro de escala

In [12]:
# calculamos la probabilidad de que falle antes de 6
prob = stats.weibull_min.cdf(6, c=k, scale=lamb)
prob

0.29781149867344037

> Hay un 29.79% de probabilidad de que un servidor falle antes de 6 meses

### b.-  ¿Cuál es la probabilidad de que un servidor supere los 24 meses sin fallar?

En este caso, nos piden hallar la probabilidad de que un servidor supere los 24 meses, es decir

$$P(X \geq 24) = 1 - P(X < 24)$$

Debemos hallar $P(X < 24)$ que graficamente consiste en hallar el area sombreada de la siguiente grafica

![image.png](attachment:image.png)

Calculamos $P(X < 24)$ como en el caso anterior

In [13]:
# calculamos la probabilidad de que falle antes de 24
prob = stats.weibull_min.cdf(24, c=k, scale=lamb)
prob

0.9408942534380438

Ahora, introducimos el resultado en la ecuacion anterior

In [14]:
result = 1 - prob
result

0.05910574656195622

> Solo un 5.91% de los servidores superará los 24 meses sin fallar.